Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Диалектическое единство данных и методов в информационном процессе

Содержание:

Введение

Согласно доклада аналитической фирмы IDC «Эра данных 2025» количество данных на планете будет, как минимум, удваиваться каждые два года вплоть до 2020 года. К 2025 году объем всех данных во всем мире году составит 163 зеттабайт (ЗБ) [1]. Это в 10 раз больше, чем общий объем данных по состоянию на 2016 год.

Так как 1 зеттабайт равен 1021 байтов, то общий объем информации, которые человечество накопит уже меньше чем через 5 лет, составит 163*1021 байтов.

Данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Подсчитано, что 90% всех данных в мире было создано за последние несколько лет. Такая захватывающая перспектива ошеломляет и даже страшно представить, что будет дальше.

Тридцать пять лет назад, еще в 1983 году, самые большие жесткие диски хранили около 10 МБ данных. Сегодня этого едва хватит, чтобы хранить две или три mp3-песни

Технологии и методы обработки данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

В данной работе мы рассмотрим проявление диалектического единства данных и методов. Это разнонаправленные тенденции, поэтому между ними неизбежно возникают противоречия, но они взаимно предполагают друг друга:

  • тенденция изменчивости технологий и методов обработки данных при отсутствии тенденции упорядоченности приводит к новым требованиям к данным, уровню компетенции специалистов по работе с данными. Современные тенденции развития технологий и проблемы их внедрения будут рассмотрены в разделе «Изменение технологий вследствие изменения объема и характера данных»;
  • тенденция статичности технологий и методов обработки данных при отсутствии тенденции динамичности приводит к стагнации, устареванию технологий и замедлению экономического развития- эта проблема будет подробно рассмотрена в разделе «Проблема устаревания информационных систем».

Начнем же с основных общих понятий об информации и данных.

1. Основные понятия

1.1 Основные понятия информации

Термин «информация» происходит от латинского слова «informatio», означающего «сведения, разъяснения, изложение». Несмотря на широкое распространение этого термина, не существует однозначного точного определения, что такое информация. Разные учетные определяют данное понятие по-своему, одно остается неизменным – они считают, что понятие информации сопоставимо с понятием множества в математике.

На протяжении более двух тысячелетий понимание информации определялось как передача сведений. А с развитием технических средств массовой коммуникации (телеграф, телефон, радио, телевидение и т.д.), в особенности с ростом объема передаваемых сведений, появилась необходимость количественного измерения информации [2].

Уже в 20-х годах ХХ века делались попытки измерения информации и формализовались идеи, которые далее в дальнейшем были использованы в вероятностно-статистической теории информации. Но только в 1948 году, в статье К.Э Шеннона «Математическая теория связи» было дано вероятностно-статистическое определение понятия количества информации, предложена абстрактная схема связи, сформулированы теоремы о пропускной способности, помехоустойчивости, кодировании и т.д, что позволило сформировать вероятностно-статистическую теорию информации. Данная теория является одной из наиболее развитых среди прочих теорий информации [2].

Еще несколько определений информации [3]:

Информация – это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний (Н.В.Макарова);

Информация – это отрицание энтропии (Леон Бриллюэн);

Информация – это мера сложности структур (Моль);

Информация – это отраженное разнообразие (Урсул);

Информация - это содержание процесса отражения (Тузов);

Информация – это вероятность выбора (Яглом).

В настоящее время наука пытается найти общие свойства и закономерности, присущие многогранному понятию информация, но пока это понятие во многом остается интуитивным и получает различные смысл в различных отраслях человеческой деятельности:

1. в быту информацией называют любые данные, сведения, знания, которые кого-либо интересуют. Например, сообщение о каких-либо событиях, о чьей-либо деятельности и т.п.;

2. в технике под информацией понимают сообщения, передаваемые в форме знаков или сигналов (в этом случае есть источник сообщений, получатель (приемник) сообщений, канал связи);

4. в теории информации под информацией понимают сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

3. в кибернетике под информацией понимают ту часть знаний, которая используется для ориентирования, активного действия, управления, т.е. в целях сохранения, совершенствования, развития системы;

В 1948 американский математик Норберт Винер, "отец" современной кибернетики, в работе "Кибернетика, или Управление и связь в животном и машине", предложил такое определение:

информация - это обозначение содержания, полученного из внешнего мира в процессе нашего приспособления к нему и приспособления к нему наших чувств.

Люди обмениваются между собой информацией в виде речи, текстов, жестов, взглядов, изображений, цифровых данных – в виде информационных сообщений. Одно и то же сообщение может содержать субъективно разное количество информации для разных людей в зависимости от опыта участников диалога, от их интереса к обсуждаемой теме, и от уровня понимания содержания сообщения. Сообщение на иностранном языке понятно только для тех, кто владеет данным языком, для остальных данное сообщение окажется не несущим никакой новой информации. Также не несет никакой новой информации и сообщение, если его содержание непонятно или уже известно. Таким образом, информационная ценность какого-либо сообщения заключается в тех новых сведениях, которые в нем содержатся, в уменьшении незнания.

В компьютерной обработке данных под информацией понимают последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т.п.), которая несет смысловую нагрузку и представлена в виде, который компьютер может обрабатывать. Каждый новый символ такой последовательности увеличивает информационный объем сообщения [3].

1.2 Свойства информации и ее носители

Рассмотрим, какими свойствами обладает информация [3]

1. полнота — свойство информации исчерпывающе, для данного потребителя, характеризовать отображаемый объект или процесс. Информация является полной, если ее достаточно для приятия решения. Принятие решения затягивается или является ошибочным. Если информация неполная, или даже избыточная;

2. актуальность— способность информации соответствовать нуждам потребителя в нужный момент времени. Своевременно полученная информация может принести пользу. Не менее нежелательно и преждевременное получение информации, так как она может быть не воспринята в необходимом объеме;

3. достоверность — свойство информации не иметь скрытых ошибок. Достоверная информация может иметь тенденцию со временем становиться недостоверной, если она устареет и перестанет отражать истинное положение дел;

4. доступность — свойство информации, характеризующее возможность ее получения данным потребителем. Информация должна преподноситься в доступной форме, поэтому одни и те же вопросы по-разному преподносятся в литературе различных изданий;

5. релевантность — способность информации соответствовать нуждам и запросам получателя информации;

6. защищенность — свойство, характеризующее невозможность несанкционированного использования или изменения информации;

7. эргономичность — свойство, характеризующее удобство формы или объема информации с точки зрения данного потребителя.

Информация – это особый вид ресурса. При этом под «ресурсом» понимается запас некоторых знаний о материальных предметах, о характеристиках предмета. Но в отличие от ресурсов, связанных непосредственно с материальными предметами, информационные ресурсы являются неистощимыми и предполагают совершенно другие методы воспроизведения и актуализации, чем материальные ресурсы.

С этой точки зрения можно рассмотреть такие особые свойства информации, как

1. запоминаемость;

2. передаваемость;

3. воспроизводимость;

4. преобразуемость;

5. стираемость.

Запоминаемость — одно из самых важных свойств информации. Запоминаемую информацию будем называть макроскопической (имея в виду пространственные масштабы запоминающей ячейки и время запоминания). Именно с макроскопической информацией мы имеем дело в реальной практике.

Передаваемость информации с помощью каналов связи, в том числе с помехами, достаточно рассмотрена в рамках теории информации К.Шеннона. В этом случае имеется способность информации к копированию, то есть имеется в виду, что информация может быть “запомнена” другой макроскопической системой и при этом остается тождественной самой себе. При копировании количество информации остается прежним.

Воспроизводимость информации тесно связана с ее свойством передаваемости и не является независимым базовым свойством. Если передаваемость означает, что пространственные отношения между частями системы, между которыми передается информация, не следует считать существенными, то воспроизводимость характеризует неиссякаемость и неистощимость информации, т.е. что при копировании информация остается тождественной самой себе.

Преобразуемость – это фундаментальное свойство информации, означающее, что информация может менять способ и форму своего существования. Копируемость - это разновидность свойства преобразования информации, при котором количество информации остается прежним. В процессах преобразования в общем случае количество информации может уменьшаться или сохраняться прежним.

Стираемость – это свойство информации, которое также не является независимым базовым свойством. Стираемость информации связана с таким преобразованием информации (передачей), при котором ее количество уменьшается и становится равным нулю.

Для выражения вышеперечисленных свойств информации, информация всегда связана с материальным носителем. При этом носителем информации могут быть:

  1. любой материальный предмет (бумага, камень и т.д. – тексты, рисунки, чертежи, фотографии, магнитные записи);
    волны различной природы: акустическая (звук), электромагнитная (свет, радиоволна); хромосомы, посредством которых предаются по наследству признаки и свойства организмов;

2) вещество в различном состоянии: концентрация молекул в жидком растворе, температура и т.д.; запахи и вкусовые ощущения.

Подводя итоги данного раздела приведем примеры получения информации:

1) динамик компьютера издает специфический звук, хорошо знакомый пользователю. Пользователь расшифровывает данный сигнал, что пришло новое сообщение в электронной почте;

2) с вертолета пожарной охраны в глубине леса замечен густой дым — обнаружен новый лесной пожар;

3) сложный комплекс датчиков, расположенный в сейсмологически неустойчивом районе, фиксирует изменение обстановки, характерное для приближающегося землетрясения, аналогичные системы используются для своевременно реагирования на лавины в горных местностях.

В следующем разделе перейдем к рассмотрению второго базового понятия, использующегося в информатике - «данные». Так как данные – это то самое «сырье» для получения информации. Именно на основании первичных данных пользователь информационной системы извлекает для себя важную информацию.

1.3 Основные понятия данных

Прежде чем приступить к рассмотрению информационных технологий. Извлекающих информацию из массивов данных, рассмотрим само понятие данных.

Итак, данные (data) – сведения, полученные путем измерения, наблюдения, логических или арифметических операций и представленные в форме, пригодной для постоянного хранения, передачи и, в частности, автоматизированной, обработки.

В процессе сбора, обработки и использования данные разбиваются на отдельные элементарные составляющие – элементы данных, или элементарные данные. Элементарные данные могут быть выражены целыми и вещественными числами, словами, а также булевыми величинами, способными принимать два значения – "истина" (1) или "ложь" (0).

Данные подразделяются на два важных класса: условно постоянные и переменные данные. В экономическом смысле, первые – это всякого рода спецификации, нормативы выпуска, тарифные сетки, сведения о производительности рабочих центров и т.д. Обычно в автоматизированных системах управления они либо хранятся в массивах картотек, либо вводятся в информационную систему один раз и при необходимости включаются в расчет самой информационной системой. Условно постоянными они называются потому, что время от времени обновляются. Переменные данные – это, в экономическом смысле, например, сведения о выработке рабочих, о передаче материалов и оснастке в производство, выпуске продукции, о материальных запасах на складе и др. После выполнения расчета, как правило, выгружаются из оперативной памяти компьютера. Условно постоянные и переменные данные хранятся в таблицах баз данных.

Рассмотрим также основные операции с данными:

сбор данных – это накопление информации с целью обеспечения достаточной полноты данных для принятия решений;

формализация данных - приведение данных, поступающих из разных источников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, то есть повысить уровень их доступности;

фильтрация данных - отсеивание лишних данных, в которых нет необходимости для принятия решений; при этом должен уменьшаться уровень шума, а достоверность и адекватность должны возрастать;

сортировка данных - упорядочение данных по заданному признаку с целью удобства использования; сортировка повышает доступность информации;

архивация данных - организация хранения данных в удобной и легко доступной форме; служит для снижения экономических затрат по хранению данных и повышает общую надежность информационного процесса в целом;

  • защита данных - комплекс мер, направленных на предотвращение утраты, несанкционированного воспроизведения и модификации данных;
  • транспортировка данных - прием и передача (доставка и поставка) данных между удаленными участниками информационного процесса. При этом источник данных в информатике принято называть сервером, а потребителя - клиентом;
  • преобразование данных - перевод данных из одной формы в другую или из одной структуры в другую. Часто связано с изменением типа носителя.

К основным понятиям, связанным с данными далее относится понятие базы данных.

База данных (data base) – совокупность хранимых в памяти компьютера данных, относящихся к определенному объему или кругу деятельности, специально организованных, обновляемых и логически связанных между собой. Такие данные представляют собой своеобразную информационную модель реального физического объекта.

Если база данных размещена и работает на одном компьютере, то она называется локальной. Распределенная база данных расположена на нескольких связанных между собой компьютерах.

Для управления базами данных используются специализированные системы.

Система управления базами данных (СУБД) – комплекс программных и лингвистических средств общего или специального назначения, реализующий поддержку создания базы данных, централизованного управления и организации доступа к ним различных пользователей в условиях принятой в данной системе технологии обработки данных. СУБД характеризуется используемой моделью, средствами администрирования и разработки прикладных процессов и обеспечивает следующие функции: описание структуры и сжатие данных; преобразование и операции с данными; физическое хранение и сортировка записей; защита данных от сбоев, поддержка целостности данных и их восстановление в случае необходимости; работу с транзакциями и файлами; безопасность данных.

Система управления базами данных представляет собой оболочку, с помощью которой при организации структуры таблиц и заполнения их данными получается та или иная база данных.

Система управления реляционными базами данных (Relational Database Management System) - это СУБД, основанная на реляционной модели данных.

В реляционной модели данных любое представление данных сводится к совокупности реляционных таблиц -двумерных таблиц особого типа. Системы управления реляционными базами данных используются для построения хранилищ данных.

Система управления базами данных имеет программные, технические и организационные составляющие.

Программные средства систем управления базами данных включают в себя систему управления, обеспечивающую ввод-вывод, обработку и хранение данных; создание, модификацию и тестирование самой базы данных. Внутренними языками программирования СУБД являются языки четвертого поколения (C, C++, Pascal, Object Pascal). С помощью языков программирования баз данных создаются приложения, базы данных и интерфейс пользователя, включающий в себя экранные формы, меню, отчеты.

Специалисту-аналитику при необходимости работы с конкретной системой управления базами данных, в частности, при экспорте данных в среду инструмента Data Mining, следует изучить особенности конкретной СУБД. Так, например, в базе данных СУБД FoxPro следует учитывать, что все таблицы и представления базы данных физически хранятся в отдельных файлах, которые объединяются в одном проекте. Особенностью СУБД Access является то, что все таблицы базы данных, наоборот, хранятся в едином файле.

Для работы с конкретной базой данных, в том числе с целью ее анализа, специалисту-аналитику желательно знать описание всех таблиц базы данных и их структур (атрибутов, типов данных), количество записей в каждой таблице, а также связи между таблицами. Для решения этой задачи используется словарь данных.

К базам данных, а также к системам управления базами данных предъявляются следующие стандартные требования:

  1. высокое быстродействие;
  2. простота обновления данных;
  3. независимость данных;
  4. возможность многопользовательского использования данных;
  5. безопасность данных;
  6. стандартизация построения и эксплуатации БД (фактически СУБД);
  7. адекватность отображения данных соответствующей предметной области;
  8. дружелюбный интерфейс пользователя.

Высокое быстродействие предусматривает малое время отклика, то есть небольшой промежуток времени от момента запроса до момента реального получения данных из базы данных.

Независимость данных - это возможность изменения логической и физической структуры базы данных без изменения представлений пользователей.

Независимость данных обеспечивает минимальные изменения структуры базы данных при изменениях стратегии доступа к данным и структуры самих исходных данных. Эти изменения должны быть предусмотрены на этапах концептуального и логического проектирования базы данных с обеспечением минимальных изменений на этапе физического ее проектирования.

Безопасность данных - это защита данных от преднамеренного или непреднамеренного нарушения секретности, искажения или разрушения данных. Безопасность обеспечивает целостность данных и защиту данных от несанкционированного доступа.

Целостность данных - устойчивость хранимых данных к разрушению и уничтожению, связанным с неисправностями технических средств, системными ошибками и/или ошибочными действиями пользователей.

Целостность данных - точность и валидность данных. Целостность данных предполагает: отсутствие неточно введенных данных, защиту от ошибок при обновлении баз данных; невозможность удаления (или каскадное удаление) связанных данных разных таблиц; сохранность данных при сбоях техники; возможность восстановления данных и др.

Защита данных от несанкционированного доступа предполагает разграничение доступа к определенным данным базы и достигается введением мер безопасности: разграничение прав доступа к данным различных пользователей в зависимости от выполняемых ими функций и/или должностных обязанностей; введением защиты в виде паролей; использованием представлений, то есть, таблиц, которые являются производными от исходных и предназначены для работы конкретных пользователей для решения конкретных задач.

Стандартизация обеспечивает преемственность поколений конкретной СУБД, упрощает взаимодействие баз данных одного поколения систем управления базами данных с одинаковыми и различными моделями данных.

СУБД отвечает за обработку запросов и получение ответа от базы данных. Способы хранения данных могут быть различными: модель данных может быть как реляционной, так и многомерной, сетевой или иерархической.

Для получения из минимального количества данных максимума информации используются различные способы записи и исследования массивов данных, методы агрегирования и др. Для того, чтобы быть воспринятыми и стать информацией, данные проходят как бы тройной фильтр: физический (ограничения по пропускной способности канала), семантический и прагматический, где оценивается полезность данных.

2. Изменение технологий вследствие изменения объема и характера данных

С каждым годом в мире изобретаются и применяются все более совершенные технологии по обработке, хранению и анализу данных. Данные технологии позволяют с учетом реалий современного мира автоматизировать, значительно ускорять и совершенствовать процессы извлечения информации из большого количества данных, в частности, проводить сложный маркетинговый анализ рынка или частный финансовый анализ состояния компании.

В связи со значительным увеличением объемов данных, доступных для обработки, а также появлением таких современных на текущий момент понятий как «blockchain», «big data», интернет вещей и так далее, перед организациями стоит непростая задача следования тенденциям изменившегося информационного пространства и интеграции современных технологий в свою деятельность для сохранения своей конкурентноспособности.

Какие же современные технологии в обработке данных и аналитике находятся в данный момент в тренде? На саммите Gartner Data & Analytics 18-19 февраля 2019 года в Сиднее в центре внимания оказались расширенная аналитика (Augmented Analytics) и искусственный интеллект.

Расширенная аналитика, непрерывный интеллект (continuous intelligence) и искусственный интеллект (artificial intelligence) являются одними из самых громких тенденций в области технологий обработки данных и аналитики, которые будут иметь значительный потенциал в последующие 3-5 лет, по мнению Gartner, Inc.

Искуственный интеллект – одна из передовых технологий современного мира. Чат-бот, который отвечает на вопросы клиентов и направляет их к требуемой информации, или специалист-консультант – это общий пример искусственного интеллекта, с которым уже знаком, вероятно, каждый. Но это только один из способов применения технологий искусственного интеллекта.

Искусственный интеллект может предсказать, когда ключевой датчик в станке или машине должен быть заменен, чтобы предотвратить аварийный останов производственной линии или, наоборот, когда должен быть использован этот аварийный останов, чтобы предотвратить значительное повреждение роботизированных систем [5].

Модели искусственного интеллекта чаще всего используются для улучшения или полного замещения человека в вопросах принятия решений. Однако в некоторых сценариях требуется обоснование, каким именно способом данные модели приняли конкретное решение. Для повышения доверия конечных пользователей и заинтересованных сторон, архитекторы приложений на основе искусственного интеллекта должны сделать данные модели более понятными, прозрачными и формализованными.

К сожалению, большинство современных сложных моделей искусственного интеллекта являются сложными «черными ящиками», которые не в состоянии объяснить, как они вывели конкретную рекомендацию или решение.

Лидеры современного информационного рынка в области данных и аналитики должны изучать потенциальное влияние новых тенденций на бизнес и соответствующим образом корректировать бизнес-модели и проводимые операции, противном случае они рискуют потерять конкурентные преимущества перед теми, кто уделил этому вопросу достаточно внимания.

Интернет вещей (IoT) – это современная революционная технология. Не важно, в применении к автомобилям, роботам или сельскохозяйственным установкам, интернет вещей использует искусственный интеллект, чтобы эффективно выполнять те задачи, которые обычно выполнялись операторами-людьми [6].

Интернет вещей используется в роботах, двигателях, дронах, приборах и компоненты. Таким образом, они охватывают четыре сферы применения: воздух, вода, земля и цифровое пространство. Все они работают с различной степенью мощности, уровнем координации между собой и уровнем интеллектуальной сложности. Например, специалист может управлять дроном в воздухе, чтобы давать команды полностью автономно работающему роботу, например, в поле [6].

Расширенная аналитика (Augmented analytics) – следующая революционная технология в области обработки данных и аналитики. Она использует машинное обучение и технологии искусственного интеллекта для преобразования методов разработки, потребления и совместного использования аналитического контента.

В настоящее время в распоряжении аналитиков постоянно увеличивающееся количество данных для обработки и анализа с целью поддержки принятия оперативных и стратегических решений в компаниях. Учитывая огромные объемы данных, использовать все возможности извлечения информации из них не представляется возможным. Это означает, что ответственные лица компаний могут принять не совсем верные ключевые решения из-за отсутствующей информации.

Ожидается, что к 2020 году более 40% задач анализа данных будут автоматизированы, количество специалистов в области анализа данных в частных сферах применения будет расти в пять раз быстрее по сравнению с промышленными областями применения [6].

Расширенная аналитика станет основным мотиватором новых покупок в интернет-магазинах, в аналитике систем класса Business Intelligence (BI), а также платформ машинного обучения.

Лидеры в области обработки данных и аналитики обязаны планировать внедрение расширенной аналитики по мере развития возможностей платформы.

Цифровой двойник (Digital Twin) – цифровая копия физического объекта, процесса или системы, помогающая оптимизировать эффективность бизнеса. Цифровые двойники могут взаимодействовать между собой, для создания двойников более крупных систем, таких как электростанция, и даже город. Идея цифровых двойников не является новой. Она взяла свое начало в CAD-системах компьютерной поддержки проектирования, но современные двойники имеют четыре важные отличительные особенности [6]:

  • Надежность моделей – с акцентом на том, что они поддерживают конкретные области бизнеса;
  • Связь с реальным миром – потенциально в режиме реально времени с целью мониторинга и контроля;
  • Применение расширенной аналитики больших данных и искусственного интеллекта для создания новых возможностей для бизнеса;
  • Возможность взаимодействовать с двойниками и реализовывать прогнозные сценарии типа «а что, если».

Сегодня основное внимание уделяется цифровым двойникам в технологии интернета вещей (IoT), которые могут улучшить поддержку принятия решений на предприятии за счет предоставления информации о техническом обслуживании и надежности, понимания того, как продукт может работать более эффективно, данных о новых продуктах и повышения эффективности. Цифровые дневники предприятий создаются для мониторинга в реальном времени и повышения эффективности организационных процессов [6].

Иммерсивные технологии, которые также называют технологиями расширенной реальности. К ним также откосятся виртуальная и дополненная реальность, а также 360°-видео. Эти технологии обеспечивают эффект полного или частичного присутствия пользователя в альтернативном пространстве и тем самым могут влиять на субъективный опыт.

До 2028 года разговорные платформы, которые используются при взаимодействии пользователей с внешней средой, и такие технологии, как дополненная реальность (AR), смешанная реальность (MR) и виртуальная реальность (VR), которые влияют на то, как пользователи воспринимают мир, создадут новую иммерсивную реальность. Технологии расширенной реальности имеют огромный потенциал развития, уже следующее поколение виртуальной реальности (VR) будет способно воспринимать формы и отслеживать положение пользователя, а смешанная реальность (MR) будет позволять людям взаимодействовать с внешним миром.

К 2022 году 70% предприятий будут экспериментировать с иммерсивными технологиями для коммерческого использования, а 25% будут использовать данные технологии на производстве. Будущее разговорных платформ, которые варьируются от виртуальных личных помощников до чат-ботов, будет включать в себя расширенные виртульаной реальностью сенсорные каналы, которые позволят платформе распознавать эмоции на основе мимики, они станут более интерактивными.

В конце концов, технология и прогресс сделают доступным взаимодействие людей с сотнями периферийных устройств, начиная от компьютеров и заканчивая автомобилями.

К 2020 году 50 процентов аналитических запросов будут генерироваться с помощью поиска, обработки естественного языка или голоса, или же будут генерироваться автоматически. Необходимость анализировать сложные комбинации данных и делать аналитические данные доступными для всех заинтересованных лиц организации приводит к ее более широкому использованию. Инструменты аналитики будут становиться такими же простыми в использовании, как интерфейс поиска данных или разговор с виртуальным помощником.

Блокчейн – это распределенная база данных, у которой устройства хранения данных не подключены к общему серверу. Блокчейн является источником данных, а не базой данных, и не заменяет существующие технологии управления данными.

Технология позволяет компаниям осуществлять операции и работать с недоверенными источниками без необходимости использования регулирующего центра (например, банка). Блокчейн потенциально уменьшает издержки, сокращает время проведения транзакций и увеличивает денежный поток. Модели, построенные в данный момент исключительно на технологии блокчейна могут быть технологически незрелыми и сложными для масштабирования. Но тем не менее, следует обращать внимание на развитие данной технологии [6].

Непрерывный интеллект - к 2022 году более половины новых крупных бизнес-систем будут использовать непрерывный интеллект, который в свою очередь использует контекстные данные в режиме реального времени для улучшения решений.

Непрерывный интеллект – это паттерн проектирования, в котором аналитика в реальном времени интегрируется в бизнес-операции, обрабатывая текущие и исторические данные для предложения действий в ответ на событие. Он обеспечивает автоматизацию или поддержку принятия решений. Непрерывный интеллект использует несколько технологий, таких как расширенная аналитика, обработка потока событий, оптимизация, управление бизнес-правилами и машинное обучение.

Непрерывный интеллект – это серьезное нововведение в работе команд, занимающихся данными и аналитикой. Это грандиозная задача и прекрасная возможность для команд аналитиков и BI-специалистов помочь компаниям принимать более разумные решения в режиме реального времени уже в 2019 году. Эту технологию можно рассматривать, как окончательный вариант оперативного анализа данных (Business Intelligence).

Технология расширенного управления данными (Augmented Data Management) использует возможности машинного обучения и механизмы искусственного интеллекта, чтобы создать механизмы управления информацией компании, включая качество данных, управление метаданными, управление основными данными, их интеграцию, а также самонастройку систем управления базами данных (СУБД). Она автоматизирует многие задачи и позволяет менее квалифицированным пользователям самостоятельно использовать и интерпретировать данные. В этом случае высококвалифицированные технические специалисты могут сосредоточиться на более важных задачах [7].

К концу 2022 года количество задач, выполняемых вручную в области управления данными, уменьшится на 45% за счет внедрения машинного обучения и автоматизированного управления уровнем обслуживания [7].

Коммерческий искусственный интеллект и машинное обучение. Gartner прогнозирует, что к 2022 году, 75% новых решений для конечных пользователей, в которых используются методы искусственного интеллекта и машинного обучения, будут построены на коммерческих решениях, а не на платформах с открытым исходным кодом.

Коммерческие поставщики решений в области информационных технологий встраивают драйверы в системы с открытым исходным кодом, тем самым предоставляя дополнительные коммерческие функции, необходимые для масштабирования искусственного интеллекта и машинного обучения в такие области автоматизации, как управление проектами и цифровыми двойниками, повторное использование, прозрачность и исследование происхождения данных, а также взаимодействие и интеграция с прочими платформами, чего так не хватает платформам с открытым исходным кодом.

Серверы постоянной памяти - это новые технологии с использованием постоянной памяти (persistent-memory technologies) помогут снизить затраты и сложность внедрения архитектур с поддержкой вычислений в оперативной памяти (IMC). Постоянная память представляет собой новый уровень памяти между DRAM и NAND флэш-памятью, который может послужить экономичным запоминающим устройством для высокопроизводительных нагрузок. Он имеет определенный потенциал, который может быть использован для повышения производительности приложений, их доступности, времени загрузки, методов кластеризации и методов безопасности, сохраняя при этом затраты под контролем. Он также поможет организациям снизить сложность их прикладных программ и архитектур данных за счет снижения необходимости дублирования данных.

Объем данных быстро растет, и актуальность преобразования обычных данных в ценные в режиме реального времени растет вместе с ним. Новые серверные нагрузки требуют не просто более высокой производительности процессора, но и большего объема памяти и более быстрого сохранения данных.

Итак, современные программные продукты статистической обработки данных реализуют функции анализа данных, добычи информации, управления данными, визуализации данных с использованием различных современных методов. В системах используется широкий набор различных аналитических инструментов и методов: графика, разведочный анализ данных, описательные и внутригрупповые статистики, быстрые основные статистики, корреляции [4].

Но в то же время недостаточно просто использовать современные технологии анализа и обработки данных. Существует ряд причин неудач больших проектов. В первую очередь это дефицит специалистов, которые обладают знаниями и навыками в сфере анализа данных, управления данными и программирования. Недостаточный уровень знаний участников проекта, отсутствие постановок задач, анализа и критериев эффективности их решения, неосведомленность бизнес-аналитиков о потенциале новых технологий, методов и средств их анализа приводят к краху проекта [4].

Неправильное проектирование хранилища данных может привести к ошибкам в анализе данных. Ведь современный мир перешел не просто к большим данным, а к очень большим данным и из-за роста объема данных нарушается работоспособность хранилищ данных.

Главной проблемой при работе с данными является не только увеличение их объема, но также изменение их характера.

С появлением, в частности, «больших данных» предприятия осознали важность и необходимость работы с большим объемом структурированных и неструктурированных данных, но для того, чтобы внедрить эти процессы, необходимы четкий план действий и правильно выбранные инструменты оптимизации процессов. Получить ожидаемый положительный результат от больших данных многие компании не могут, так как они используют унаследованные системы управления базами данных, в которых не хватает масштабируемости и функциональности. Ведь основной объем данных - это неструктурированная информация. Ее хранение и обработка на основе реляционных баз данных в привычных системах малоэффективна и реляционные системы управления базами данных в привычных системах не являются выходом для ряда ситуации. Это привело к появлению целого семейства решений, так называемых NoSQL-системы.

Таким образом, предприятиям нужна стратегия, которая будет учитывать источники данных, также их жизненный цикл, совместимость разных реляционных СУБД и масштабируемость хранения, и конечно капиталовложения в ИТ-инфраструктуру предприятия, дополнительные ресурсы для сопровождения, необходимые для разработки новых приложений и сервисов [4].

3. Проблема устаревания информационных систем

Для информационных технологий является вполне естественным то, что они устаревают и заменяются новыми.

Для начала шестидесятых годов было характерно решение трудоемких задач в области бухгалтерского учета с использованием централизованных вычислительных средств. Централизованная обработка экономических данных имела свои достоинства, главной из которых являлась возможность обращения пользователей к единому большому массиву информации в виде базы данных [10]. Недостатками централизованной обработки информации являлись ограниченная ответственность пользователей за результаты выполнения экономических задач, а также их ограниченные возможности получения и использования информации.

Середина семидесятых годов ознаменовалась с появлением персональных вычислительных машин. Произошло смещение технологических процессов на ориентацию на индивидуального пользователя, внедрялась частичная и полная децентрализация обработки данных. Достоинствами децентрализованной обработки являлись повышенная ответственность пользователей за качество результатов решения экономических задач. Возникли возможности проявления инициативы и творческого развития пользователей. В то же время к недостаткам можно отнести сложность стандартизации из-за большого числа уникальных решений и достижений, психологическое неприятие пользователями рекомендуемых стандартов и готовых продуктов, неравномерность развития уровня информационных технологий на местах и зависимость этого уровня от квалификации пользователя.

С начала девяностых годов происходит переориентация на использование локальных сетей компьютеров с выходом на региональные и глобальные сети (Internet, SWIFT.) [11]. Ориентация технологических процессов стала смещаться обратно в сторону централизованной обработки информации.

Итак, технология пакетной обработки программ на большой ЭВМ в вычислительном центре уступила в ходе эволюции технологии работы на персональном компьютере на рабочем месте пользователя. Функции телеграфа были переданы заменившему его телефону. А сам телефон постепенно в ходе эволюции был вытеснен службой экспресс-доставки. Когда-то активно использовавшийся телекс уступил большинство своих функций факсу и электронной почте [8].

При проектировании информационных систем необходимо обязательно учитывать перспективы дальнейшего развития организации-заказчика, чтобы в случае необходимости обновления внедренной информационной системы не пришлось выполнять ее полное перепроектирование. Тем не менее, информационные системы имеют свойство устаревать, и этот процесс зачастую связан с устареванием применяемых при их создании и внедрении технологий. Например, устаревшие технологии могут перестать отвечать требованиям информационной безопасности, и разработчик будет вынужден принять решение о прекращении поддержки такой технологии и переходе на использование новой [13].

Различают следующие типы устаревания информационных систем:

1. устаревание технологий;

2. устаревание функциональности;

3. устаревание логистики.

Технологическое устаревание происходит, когда технологии и связанные с ними прикладные бизнес-решения динамично развиваются. Более старые технологии выводятся из использования при появлении более современных технологий. Изменение каких-либо компонентов прикладного решения может привести к изменению других компонентов, если новые компоненты будут поддерживать отличные от старых интерфейсы.

Функциональное устаревание происходит, когда полезность чего-либо снижается из-за того, что оно не может быть приведено в соответствие с новыми функциональными требованиями. Если замена компонент какой-либо системы становится невозможной или затраты на приобретение новых компоненты будут ниже стоимости актуализируемых или заменяемых компонент, то нуждающиеся в замене компоненты следует считать устаревшими.

Устаревание логистики может быть вызвано отказом от поддержки или изменениями в прикладных бизнес-решениях [13].

Для примера возьмем проблему устаревания информационных систем, которая произошла в Хакасском государственном университете им. Н.Ф. Катанова. Разберем эту ситуацию подробно, что именно произошло в университете.

Учебному управлению университета часто требуются сведения о студентах. Для быстрого доступа к основной информации о студентах (ФИО, дата рождения, институт, курс, группа, статус обучения и т. п.) была разработана и внедрена информационная система «Студенческий отдел кадров» (СОК). Данная система представляла собой электронный справочник с информацией о студентах университета очной формы обучения высшего образования. В справочнике имелась возможность поиска данных по различным параметрам, в результатах поиска дополнительно отображались общие цифры по выбранным критериям поиска. Например, если работник учебного управления искал студентов определенного института со статусом «отчислен», то в результате он получал список всех студентов искомого института с таким статусом. В результатах поиска имелась возможность просмотра всей имеющейся информации о каждом студенте, также отображалось общее число отчисленных студентов института.

Информационная система была реализована в сетевом варианте и разработана с помощью технологии Microsoft Windows Forms. Использовалась база данных Microsoft SQL Server 2005, которая физически была расположена на сервере университета. Исполняемый файл программы скачивался на персональный компьютер пользователя.

Корпорация Microsoft позиционировала Windows Forms как технологию интеллектуальных клиентов для .NET Framework. Технология представляет собой набор управляемых библиотек, упрощающих выполнение стандартных задач, таких как чтение из файловой системы и запись в нее [13].

Компания Microsoft рекомендует выполнять разработку приложений с помощью технологии Windows Forms, если необходимо, чтобы большая часть рутинной работы и вычислений выполнялась на клиентском приложении. В частности, к таким клиентским приложениям относятся 32-разрядные настольные приложения, традиционно разрабатываемые на С++ или С#. Также в качестве примера можно привести графические приложения, музыкальные проигрыватели, игры, электронные справочники и т. п. [13].

Программы такого рода полностью зависят от ресурсов используемого персонального компьютера. Некоторые Windows Forms-приложения могут быть частью большой системы и использовать персональный компьютер пользователя только для первичной обработки ввода данных. Например, в кассовых системах супермаркетов (point-of-sale systems) зачастую необходим сложный пользовательский интерфейс, который должен быть реализован на компьютере конечного пользователя, но находиться в тесном взаимодействии с другими компонентами информационной системы, осуществляющими конечную обработку данных.

Для работы приложения Windows Forms необходима его установка на персональный компьютер пользователя. Такое приложение будет иметь доступ к системным ресурсам клиентского компьютера, включая файлы на жестком диске, реестр Windows, принтеры и т. д.

На ежегодной конференции разработчиков Build в 2014 году корпорация Microsoft заявила, что хотя и будет продолжать поддержку технологии Windows Forms, в том числе с исправлением обнаруженных ошибок, но развиваться дальше данная технология не будет [12], что фактически означает официальное заявление о переводе данной технологии в разряд устаревших.

Для пользователей системы главным недостатком сетевых настольных приложений является необходимость самостоятельного скачивания обновлений программы при каждом внесении изменений в функционал разработчиками. В свою очередь для программистов необходимо было реализовать удобную процедуру обновления информационной системы пользователями, чтобы пользователю не требовалось разбираться в тонкостях размещения установочных файлов приложения. Также необходима была уверенность, что все пользователи используют актуальную версию программы. Таким образом, развертывание приложений, реализованных на технологии Windows Forms оказалось не всегда удобным. Особенно это касается сетевых приложений с большим количеством конечных пользователей [18].

Веб-приложения принято разворачивать на выделенных серверах. Мониторинг одного сервера опытными системными администраторами более эффективен, чем мониторинг работы приложения на каждом из многочисленных отдельных пользовательских компьютерах.

При использовании интернет-технологий, основанных на распространенных стандартах, достигается оптимально высокий уровень совместимости между приложениями. Благодаря архитектуре информационных систем, основанной на веб-технологиях, возможна оперативная интеграция информационных систем предприятия, что способствует улучшению рабочих и других бизнес-процессов [11].

Кроме неудобного развертывания информационной системы «Студенческий отдел кадров» и ее обновления, был еще один недостаток, связанный с новыми запросами пользователей. Пользователи запросили автоматическую регистрацию приказов студентов всех форм обучения, автоматизацию расчета статистики движения студентов, которые не могли быть реализовано в старой информационной системе., так как при ее проектировании не было заложено дальнейшее расширение функционала и технология Windows Forms не позволяла реализовать отображение контента с динамическим содержимым.

После того как были учтены все недостатки существующей информационной системы, в 2010 году было принято решение о разработке новой с использованием более современных технологий [14]. В итоге, информационная система «Студенческий отдел кадров» устарела из-за несоответствия актуальным требованиям пользователей. Из-за ошибки проектирования, связанной с отсутствием возможности расширения функционала информационной системы, а также вследствие ограничений технологий, с помощью которых система была разработана, доработка ее под новые требования пользователей была невозможной [16]. В данном случае причиной устаревания информационной системы явилось устаревание ее функционала и использованных в процессе ее реализации технологий.

В 2007 году компания Microsoft анонсировала первую версию новой программной платформы Silverlight, которая включала в себя отдельный модуль для браузера, позволяющий запускать приложения, содержащие анимацию, векторную графику и аудио- и видеоролики. Silverlight задумывалась как конкуренция хорошо зарекомендовавшему себя плагину Adobe Flash.

При использовании технологии Silverlight предоставлялись следующие преимущества [19]:

  • богатый пользовательский интерфейс, с наиболее часто используемыми компонентами, входящими в состав Windows Forms;
  • кросс-браузерный кросс-платформенный плагин;
  • богатый медиа-контент: поддержка таких медиа-объектов, как потоковое видео, анимация, динамическое содержимое, с чем не умеет работать в Windows Forms;
  • Silverlight-приложения совместимы с Firewall; в отличие от Windows Forms-приложений Silverlight не требует установки больших пакетов .NET библиотек, все, что нужно сделать пользователю, это перейти по ссылке в браузере и установить пакет размером 4 Мб, все обрабатывается в пределах браузера.

Технология Silverlight имела следующие преимущества по сравнению с Windows Forms [15]:

  • отсутствие необходимости установки больших пакетов обновлений для работы .NET библиотек;
  • обновление информационной системы без участия пользователя;
  • работа с динамическим содержимым;
  • автоматизированная выгрузка отчетов в формат *.xslx, *.docx и HTML с использованием технологии XSLT.

Новую информационную систему начали разрабатывать в начале 2010 года. В начале 2012 ввели в промышленную эксплуатацию автоматизированную информационную систему «Студент ХГУ».

Технологически эта информационная система была принципиально новой. При ее разработке была использована технология Silverlight, система работала через web-интерфейс. Помимо сведений о студентах в системе «Студент ХГУ» имелась возможность автоматизированного создания таких документов, как приказы по движению студентов, распоряжения на перевод студентов, приказы о формировании академических групп. Сведения о переводе, отчислении, восстановлении студентов, уходе в отпуск и выходе из него автоматически переносились в личные дела студентов. Такая реализация функционала позволила автоматически формировать такие статистические отчеты по студентам, как количество обучающихся по всем образовательным программам с разделением на формы обучения и источники финансирования, количество отчисленных за выбранный период студентов и т. д.

В конце 2010 года, когда половина функционала новой информационной системы была готова, корпорация Microsoft заявила о смене стратегии развития Silverlight. Теперь эта технология стала позиционироваться как платформа для разработки Windows Phone приложений, а не для персональных компьютеров, ноутбуков и web-приложений. Компания Microsoft предлагала единственным верным кросс-платформенным решением для универсальной автоматизации хорошо зарекомендовавший себя стандарт HTML5 [17].

Программисты Хакасского государственного университета им. Н.Ф. Катанова оказались в ситуации, когда фактически используемая ими технология переставала поддерживаться вендором еще в процессе реализации проекта. Прекращать разработку с использованием Silverlight и начинать проектирование новой информационной системы с использованием стандарта HTML5 было нельзя, в противном случае университет рисковал остаться еще на несколько лет с примитивным справочником на Windows Forms.

Итак, при внедрении новой информационной технологии в организации необходимо трезво оценивать риск технологического отставания технологий, и не только от конкурентов, в результате со временем неизбежного устаревания используемых технологий, так как информационные системы, как никакие другие виды материальных товаров, имеют чрезвычайно высокую скорость сменяемости новыми видами или версиями. Периоды смены технологий колеблются от нескольких месяцев до одного года. Если в процессе внедрения новой информационной системы не уделить этому фактору должного внимания, то есть риск, что к моменту завершения перехода компании на новую информационную технологию та уже устареет и придется ее модернизировать.

Такие неудачи с внедрением информационных технологий обычно связывают с несовершенством технических средств, тогда как основной причиной неудач является отсутствие или слабая проработанность методологии использования информационной технологии [9].

Также можно обобщить, что процессы, происходящие в связи с повышением информатизации и автоматизации общества не только способствуют научно-техническому прогрессу, но и созданию качественно новой информационной среды социума, способствующей раскрытию и развитию творческого потенциала отдельных индивидуумов.

Заключение

Быстрое развитие технологий является причиной роста уровня функционального устаревания систем. Оно происходит, когда полезность функционала снижается из-за того, что оно не может быть обновлено или изменено в соответствии с новыми функциональными требованиями. Устаревание может быть вызвано отказом от поддержки систем или изменениями в бизнес-решениях.

Устаревание информационных технологий влечет за собой множество затрат для организаций, устареванию функционала и невозможности его обновления. Для предотвращения попаданию информационных технологий в разряд устаревших необходимо учитывать дальнейшее расширение и развитие организации, чтобы при необходимости обновления и модернизации системы не пришлось выполнять ее перепроектирование.

В первой главе данной работы мы рассмотрели основные понятия об информации и данных, разобрались в их свойствах.

Вторая глава была посвящена современным тенденциям развития технологий, которому был посвящен весенний саммит уважаемой исследовательской и консалтинговой компании Gartner, специализирующейся на рынках информационных технологий. Мы рассмотрели современные тенденции развития технологий и проблемы их внедрения – готовности компании, их инфраструктуры и внедренцев, к новым вызовам.

В третьей главе мы рассмотрели яркий пример демонстрации последствий неправильного проектирования систем с последующим быстрым устареванием системы на примере внедрения информационной системы учета студентов в Хакасском государственном университете им. Н.Ф. Катанова.

Список источников

  1. D.Reinsel, J.Gantz, J.Rydning. The Digitization of the World. From Edge to Core / An IDC White Haper. Nov, 2018 – 28 с.
  2. Теория информации: учебник для вузов / В.Т. Еременко, В.А. Минаев, А.П. Фисун, И.С. Константинов, А.В. Коськин, В.А. Зернов, ЮА. Белевская, С.В. Дворянкин; под общей научной редакцией В.Т. Еременко, В.А. Минаева, А.П. Фисуна, В.А.Зернова, А.В. Коськина. – Орел: ОрелГТУ, ОГУ, 2010. – 443 с.
  3. Шауцукова Л.З. Информатика / Л.З. Шауцукова – 2004. – 420 с.
  4. Big Data: проблемы и технологии / [Электронный ресурс]. — Режим доступа: URL: https://cyberleninka.ru/article/n/big-data-problemy-i-tehnologii/viewer (дата обращения: 09.08.2020).

5 The cios-guide to artificial intelligence / [Электронный ресурс]. — Режим доступа: URL: https://www.gartner.com/smarterwithgartner/the-cios-guide-to-artificial-intelligence/ (дата обращения: 09.08.2020).

6 Top 10 strategic technology trends for 2019 / [Электронный ресурс]. — Режим доступа: URL: https://www.gartner.com/smarterwithgartner/gartner-top-10-strategic-technology-trends-for-2019/ (дата обращения: 09.08.2020).

7 Top 10 data analytics trends. Augmented-data-management / [Электронный ресурс]. — Режим доступа: URL: https://www.gartner.com/en/conferences/apac/data-analytics-india/gartner-insights/rn-top-10-data-analytics-trends/augmented-data-management (дата обращения: 09.08.2020).

8 Cляднева, Н.А. Информационно-аналитическая деятельность: проблемы и перспективы. [Текст]/ Н. А. Сляднеева// Факт - 2000. - № 6. – С. 75-81.

9 . Соловьев, Н. П. Внедрение информационной системы как логически организованный процесс [Текст]/ Н. П. Соловьев//АКМЭ. - 2010. № 3.

10 Конотопов, П. Ю., Куликова, Н. В. Незримые угрозы информационно-аналитической работы [Текст]/ Конотопов П. Ю.// ТИАРА. - 2008. - № 4. – С. 32-37.

11 Коберник, Д. Использование системы анализа СМИ «Семантический архив» в научно-исследовательских проектах МГИМО [Электронный ресурс]/Д. Коберник. – http://www.mgimo.ru

12. Allen J. A WPF Q&A / [Электронный ресурс]. — Режим доступа: URL: http://www.infoq.com/news/2014/04/WPF-QA (дата обращения: 09.08.2020).

13. Общие сведения о Windows Forms / [Электронный ресурс]. — Режим доступа: URL: https://msdn.microsoft.com/ru-ru/library/8bxxy49h.aspx (дата обращения: 09.08.2020).

14 . Зиберт А.О., Мирошниченко В.В. Выбор программной архитектуры при разработке системы электронного документооборота учебного процесса в высшем учебном заведении [Текст] // Universum: технические науки. — 2014. — № 11 (12). — С. 1—7.

15. Мирошниченко В.В., Зиберт А.О. Организация системы электронного документооборота в связи с формированием статистических данных по различным категориям обучаемых в высшем учебном заведении [Текст] // Вестник Хакасского государственного университета им. Н.Ф. Катанова. — 2014. — № 9. — С. 5—8.

16. Мирошниченко В.В., Зиберт А.О. Организация системы электронного документооборота в связи с формированием статистических данных по различным категориям обучаемых в высшем учебном заведении [Текст] // Вестник Хакасского государственного университета им. Н.Ф. Катанова. — 2014. — № 9. — С. 5—8.

17. Foley M. Jo. Microsoft: Our strategy with Silverlight has shifted / [Электронный ресурс]. — Режим доступа: URL: http://www.zdnet.com/article/microsoft-our-strategy-with-silverlight-has-shifted/ (дата обращения: 20.08.2015).

18. Jebaraj D. HTML 5 or Silverlight? / [Электронный ресурс]. — Режим доступа: URL: http://www.infoq.com/articles/Html5-or-Silverlight (дата обращения: 09.08.2020).

19 . Anderson T. Microsoft Silverlight: 10 reasons to love it, 10 reasons to hate it / [Электронный ресурс]. — Режим доступа: URL: http://www.theregister.co.uk/2008/08/18/silverlight_pros_and_cons/?page=1 (дата обращения: 20.08.2015).