"Технологии интеллектуального анализа данных"
Результатом развития информационных технологий и сети Internet
является количество информации, накопленная человечеством в электронном
виде: тексты, изображения, аудио, видео, гипертекстовые документы, базы
данных и т. д. Современные системы извлечения информации используют
основанные на методах искусственного интеллекта средства представления и
интерпретации для поиска в терабайтных хранилищах весьма ценную
информацию.
Большинство современных программ контент-анализа ограничены
обработкой текста, однако их возможности гораздо шире. Примером технологии
этого поколения является технология "добычи" данных или Text Mining. Вообще
результатом естественной эволюции информационных технологий стали
облачные технологии и методы (классификация, кластеризация,
прогнозирование) и технологии (Data Mining, Text Mining, Web Mining, OLAP)
интеллектуального анализа данных Причинами их популярности стали
следующие: стремительное накопление данных; всеобщая компьютеризация;
проникновения Интернет во все сферы деятельности; прогресс в области
информационных технологий (совершенствование СУБД и хранилищ данных);
прогресс в области производственных технологий (рост производительности
компьютеров, объемов накопителей, внедрение Grid-систем).
Несмотря на количество методов Data Mining, приоритет все больше
смещается в сторону логических алгоритмов поиска данных if-then алгоритмов,
с помощью которых решаются задачи прогнозирования, классификации,
распознавания образов, сегментации БД, извлечения из данных скрытых знаний,
интерпретации данных, установления ассоциаций в БД и прочее. Результаты
таких алгоритмов эффективны и легко интерпретируются. Но главной
проблемой логических методов выявления закономерностей проблема перебора
вариантов за ограниченное время. Эти методы искусственно ограничивают такой
перебор и строят дерева решений с принципиальными ограничениями
эффективности поиска if-then правил.
Основная особенность Data Mining - это сочетание широкого
математического инструментария (от классического статистического анализа к
новым кибернетических методов) и последних достижений в сфере
информационных технологий. В технологии Data Mining гармонично
объединились строго формализованные методы и методы неформального
анализа, т.е. количественный и качественный анализы данных. Большинство
аналитических методов, используемых в технологии Data Mining - это известные
математические алгоритмы и методы. Новым является то, что их можно
применять при решении тех или иных конкретных проблем. Это обусловлено
новыми свойствами технических и программных средств.
Knowledge Discovery in Databases (дословно: «выявление знаний в базах
данных» - KDD) - аналитический процесс исследования больших объемов
информации с привлечением средств автоматизации, имеет целью выявить
скрытые в множестве данных структуры, зависимости и взаимосвязи. При этом
предполагается полная или частичная отсутствие априорных представлений о
характере скрытых структур и зависимостей. KDD предполагает, что человек
предварительно осмысливает задачу и подает неполное (в терминах целевых
переменных) ее формулировки, преобразует данные в формат пригодного для их
автоматизированного анализа и предварительной обработки, проявляет
средствами автоматического исследования данных скрытые структуры и
зависимости, апробирует обнаружены модели на новых данных,
неиспользуемых для построения моделей, и интерпретирует обнаружены модели
и результаты.
Итак, KDD – это синтетическая технология, сочетающая в себе последние
достижения искусственного интеллекта, многочисленных математических
методов, статистики и эвристических подходов. Методы KDD особенно
стремительно развиваются в течение последних 20 лет, а ранее задачи
компьютерного анализа баз данных выполнялись преимущественно с помощью
разного рода стандартных статистических методов.
Технология KDD позволяет не только подтверждать (отбрасывать)
эмпирические выводы, но и строить новые, неизвестные ранее модели. Найдена
модель не сможет основном претендовать на абсолютное знание, но она
предоставляет аналитику некоторые преимущества уже благодаря самому факту
обнаружения альтернативной статистически значимой модели, а также,
возможно, становится поводом для поиска ответа на вопрос: действительно ли
существует выявлена взаимосвязь и является ли он причинным? А это, в свою
очередь, стимулирует углубленные исследования, способствуя более глубокому
пониманию изучаемого явления.
Итак, важнейшая цель применения технологии KDD к исследованию
реальных систем – это улучшение понимания сути их функционирования.
Отметим, что процесс выявления знаний не вполне автоматизированным -
он требует участия пользователя (эксперта, принимающего решение).
Пользователь должен четко осознавать, что он ищет, основываясь на
собственных догадках. В конце концов вместо того, чтобы подтверждать
имеющуюся гипотезу, процесс поиска часто способствует появлению ряда
новых гипотез. Все это обозначается термином «discovery-driven data mining»
(DDDM), и сроки Data Mining, Knowledge Discovery в общем случае относятся к
технологии DDDM.
- Современное значение конституции для человека, общества и конституции
- Difference between Tort Law
- Time
- Формирования первого впечатления
- Сущность, содержание и отличительные признаки политической (государственной) власти
- Что такое право?
- Авторитаризм: за и против
- "Команда как организационная форма коллективного управления"
- "Мероприятия, направленные на повышение эффективности работы команды"
- Командообразование. Формирование команды проекта
- Влияние школ гуманитарного направления на современный менеджмент
- Зачем нам нужен СМАРТ. Техника формулирования целей