Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Технологии интеллектуального анализа данных. Введение в анализ данных

Содержание:

Введение

Анализ данных — широкое понятие. Сегодня существуют десятки его определений.

В самом общем смысле анализ данных — это исследования, связанные с обсчетом

многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования определенных представлений о характере явления, описываемого этими данными. Как правило, для анализа данных используются различные математические методы.

Введение в анализ данных

Анализ данных нельзя рассматривать только как обработку информации после

ее сбора. Анализ данных — это прежде всего средство проверки гипотез и решения задач исследователя.

Известное противоречие между ограниченными познавательными способностями

человека и бесконечностью Вселенной заставляет нас использовать модели и моделирование, тем самым упрощая изучение интересующих объектов, явлений и систем.

Слово «модель» (лат. modelium) означает «мера», «способ», «сходство с какой-

то вещью».

Построение моделей — универсальный способ изучения окружающего мира, позволяющий обнаруживать зависимости, прогнозировать, разбивать на группы и решать множество других задач. Основная цель моделирования в том, что модель должна достаточно хорошо отображать функционирование моделируемой системы.

ОПРЕДЕЛЕНИЕ

Модель — объект или описание объекта, системы для замещения (при определенных условиях, предположениях, гипотезах) одной системы (то есть оригинала) другой системой для лучшего изучения оригинала или воспроизведения каких-либо его свойств.

Моделирование — универсальный метод получения, описания и использования знаний.

Применяется в любой профессиональной деятельности.По виду моделирования модели делят на:

эмпирические — полученные на основе эмпирических фактов, зависимостей;

теоретические — полученные на основе математических описаний, законов;

смешанные,

полуэмпирические — полученные на основе эмпирических зависимостей и математических описаний.

ПРИМЕР

Совокупность предприятий функционирует на рынке, обмениваясь товарами, сырьем, услугами, информацией. Если описать экономические законы, правила взаимодействия на рынке с помощью математических соотношений, например системы алгебраических уравнений, где неизвестными будут величины прибыли, получаемые от взаимодействия предприятий, а коэффициентами уравнения — значения интенсивности таких взаимодействий, то получится математическая модель экономической системы, то есть экономико-математическая модель системы предприятий на рынке.

Таким образом, анализ данных тесно связан с моделированием.

Отметим важные свойства любой модели.

Упрощенность. – Модель отображает только существенные стороны объекта и, кроме того, должна быть проста для исследования или воспроизведения.

Конечность. Модель отображает оригинал лишь в конечном числе его отношений, и, кроме того, ресурсы моделирования конечны.

Приближенность. – Действительность отображается моделью грубо или приближенно.

Адекватность. – Модель должна успешно описывать моделируемую систему.

Целостность. – Модель реализует некоторую систему (то есть целое).

Замкнутость. – Модель учитывает и отображает замкнутую систему необходимых основных гипотез, связей и отношений.

Управляемость. – Модель должна иметь хотя бы один параметр, изменениями которого можно имитировать поведение моделируемой системы в различных условиях.

Процесс анализа

В информационном подходе к анализу данных, помимо модели, присутствуют еще

три важные составляющие: эксперт, гипотеза и аналитик.

ОПРЕДЕЛЕНИЕ

Эксперт — специалист в предметной области, профессионал, который за годы обучения и практической деятельности научился эффективно решать задачи, относящиеся к кон кретной предметной области.

Эксперт — ключевая фигура в процессе анализа. По-настоящему эффективные аналитические решения можно получить не на основе одних лишь компьютерных программ, а в результате сочетания лучшего из того, что могут человек и компьютер. Эксперт выдвигает гипотезы (предположения) и для проверки их достоверности либо просматривает некие выборки различными способами, либо строит те

или иные модели.

ПРИМЕР

Гипотезой в анализе данных часто выступает предположение о влиянии какого-либо фак-

тора или группы факторов на результат. К примеру, при построении прогноза продаж до-

пускается предположение, что на величину будущих продаж существенно влияют продажи

за предыдущие периоды и остатки на складе. При моделировании кредитоспособности

потенциального заемщика выдвигается гипотеза, что на кредитоспособность влияют социально-экономические характеристики клиента: возраст, образование, семейное положение и т. п.

В крупных проектах по созданию прикладных аналитических решений участвуют, как правило, несколько экспертов, а также аналитик.

Определение

Аналитик — специалист в области анализа и моделирования. Аналитик на достаточном уровне владеет какими-либо инструментальными и программными средствами анализа данных, например методами Data Mining. Кроме того, в обязанности аналитика входят функции систематизации данных, опроса мнений экспертов, координации действий всех участников проекта по анализу данных. Аналитик играет роль «мостика» между экспертами, то есть является связующим звеном между специалистами разных уровней и областей. Он собирает у экспертов различные гипотезы, выдвигает требования к данным, проверяет гипотезы и вместе с экспертами анализирует полученные результаты. Аналитик должен обладать системными знаниями, так как помимо задач анализа на его плечи часто ложатся технические вопросы, связанные с базами данных, интеграцией и производительностью.

Поэтому в дальнейшем главным лицом в анализе данных мы будем считать аналитика, предполагая, что он тесно сотрудничает с экспертами предметных областей.

Добыча данных — Data Mining

Знания есть не только у человека, но и в накопленных данных, которые подвергаются анализу. Такие знания часто называют "скрытыми", т. к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно. В связи с этим существует высо­кая вероятность пропустить гипотезы, которые могут принести значительную выгоду.

Очевидно, что для обнаружения скрытых знаний необходимо применять спе­циальные методы автоматического анализа, при помощи которых приходится практически добывать знания из "завалов" информации. За этим направлени­ем прочно закрепился термин добыча данных или Data Mining. Классическое определение этого термина дал в 1996 г. один из основателей этого направле­ния — Григорий Пятецкий-Шапиро.

Data Mining — исследование и обнаружение "машиной" (алгоритмами, средствами искусственною интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны практически полезны, доступны для интерпретации человеком.

Рассмотрим свойства обнаруживаемых знаний, данные в определении, более подробно.

  • Знании должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.
  • Знания должны быть нетривиальны. Результаты анализа должны отра­жать неочевидные, неожиданные закономерности в данных, составляю­щие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмот­ром), не оправдывают привлечение мощных методов Data Mining.
  • Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.
  • Знании должны быть доступны для понимании человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обна­руженные знания должны быть представлены в понятном для человека виде.

В Data Mining для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенными яв­ляются: правила, деревья решений, кластеры и математические функции.

Задачи Data Mining

Методы Data Mining помогают решить многие задачи, с которыми сталкива­ется аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Далее приведено краткое описание основных задач анализа данных.

  • Задача классификации сводится к определению класса объекта по его ха­рактеристикам. Необходимо заметить, что в этой задаче множество клас­сов, к которым может быть отнесен объект, известно заранее.
  • Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи кпассификации значением параметра является не ко­нечное множество классов, а множество действительных чисел.
  • При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Най­денные зависимости представляются в виде правил и могут быть исполь­зованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.
  • Задача кластеризации заключается в поиске независимых групп (класте­ров) и их характеристик во всем множестве анализируемых данных. Реше­ние этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

Перечисленные задачи по назначению делятся на описательные и предсказа­тельные.

Описательные (descriptive) задачи уделяют внимание улучшению понима­ния анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаружен­ные закономерности будут специфической чертой именно конкретных иссле­дуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кла­стеризация и поиск ассоциативных правил.

Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами стро­ится модель. Па втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, что­бы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть ис­пользованы для предсказания появления некоторых событий.

По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя). Такое название произошло от термина Machine Learning (машинное обучение), часто исполь­зуемого в англоязычной литературе и обозначающего все технологии Data Mining.

В случае supervised learning задача анализа данных решается в несколько эта­пов. Сначала с помощью какого-либо алгоритма Data Mining строится модель анализируемых данных — классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификато­ра. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно вы­явить. К этому типу задач относят задачи классификации и регрессии.

Unsupervised learning объединяет задачи, выявляющие описательные модели, например закономерности в покупках, совершаемых клиентами большого магазина. Очевидно, что если эти закономерности есть, то модель должна их представить и неуместно говорить об ее обучении. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных. К этим задачам относятся кластеризация и поиск ассоциативных правил.

Применение Data Mining

Интернет-технологии

В системах электронного бизнеса, где особую важность имеют вопросы при­влечения и удержания клиентов, технологии Data Mining часто применяются для построения рекомендательных систем интернет-магазинов и для решения проблемы персонализации посетителей web-сайтов.

Торговля

Для успешного продвижения товаров всегда важно знать, что и как продает­ся, а также кто является потребителем. Исчерпывающий ответ на первый во­прос дают такие средства Data Mining, как анализ рыночных корзин и сик-венциальный анализ.

Телекоммуникации

способов использования методов Data Mining— это анализ записей о подробных характеристиках вызовов. Назна­чение такого анализа— выявление категорий клиентов с похожими стерео­типами пользования услугами и разработка привлекательных наборов цен и услуг.

Промышленное производствоПромышленное производство создает идеальные условия для применения технологий Data Mining. Причина — в самой природе технологического про­цесса, который должен быть воспроизводимым и контролируемым.

Медицина

В медицинских и биологических исследованиях, равно как и в практической медицине, спектр решаемых задач настолько широк, что возможно использо­вание любых методологий Data Mining. Примером может служить построе­ние диагностической системы или исследование эффективности хирургиче­ского вмешательства.

Банковское дело

Классическим примером применения Data Mining на практике является решение проблемы о возможной некредитоспособности клиентов банка. Data Mining обрабатывают персональные данные, и полученные результаты используются далее для принятия решений.

Страховой бизнес

В страховании, также как в банковском деле и маркетинге, возникает задача обработки больших объемов информации для определения типичных групп (профилей) клиентов. Эта информация используется для того, чтобы предла­гать определенные услуги страхования с наименьшим для компании риском и, возможно, с пользой для клиента.

Другие области применения

Data Mining может применяться практически везде, где возникает задача ав­томатического анализа данных. В качестве примера приведем такие популяр­ные направления, как анализ и последуюшая фильтрация спама. а также раз­работка так называемых виртуальных собеседников.

Базовые методы

К базовым методам Data Mining принято относить, прежде всего, алгоритмы, основанные на переборе. Простой перебор всех исследуемых объектов требу­ет 0(2'v) операций, где N— количество объектов. Следовательно, с увеличе­нием количества данных объем вычислений растет экспоненциально, что при большом объеме делает решение любой задачи таким методом практически невозможным.

Для сокращения вычислительной сложности в таких алгоритмах, как прави­ло, используют разного вида эвристики, приводящие к сокращению перебора. Оптимизация подобных алгоритмов сводится к приведению зависимости ко­личества операций от количества исследуемых данных к функции линейного вида. В то же время, зависимость от количества атрибутов, как правило, оста­ется экспоненциальной. При условии, что их немного (в подавляющем боль­шинстве случаев их значительно меньше, чем данных), такая зависимость является приемлемой.

Основным достоинством данных алгоритмов является их простота, как с точ­ки зрения понимания, так и реализации. К недостаткам можно отнести отсут­ствие формальной теории, на основании которой строятся такие алгоритмы, а следовательно, и сложности, связанные с их исследованием и развитием.

К базовым методам Data Mining можно отнести также и подходы, исполь­зующие элементы теории статистики. В связи с тем, что Data Mining является развитием статистики, таких методов достаточно много. Их основная идея сводится к корреляционному, регрессионному и другим видам статистиче­ского анализа. Главным недостатком является усреднение значений, что при­водит к потере информативности данных. Это в свою очередь приводит к уменьшению количества добываемых знаний.

Основные этапы анализа

Для обнаружения знаний в данных недостаточно просто применить методы Data Mining, хотя, безусловно, этот этап является основным в процессе ин­теллектуального анализа. Весь процесс состоит из нескольких этапов. Рас­смотрим основные из них, чтобы продемонстрировать, что без специальной подготовки аналитика методы Data Mining сами по себе не решают сущест­вующих проблем. Итак, весь процесс можно разбить на следующие эта­пы:

  • Понимание и формулировка задачи анализа;
  • Подготовка данных для автоматизированного анализа (препроцессинг); О применение методов Data Mining и построение моделей;
  • О проверка построенных моделей;
  • Интерпретация моделей человеком.

На первом этапе выполняется осмысление поставленной задачи и уточнение целей, которые должны быть достигнуты методами Data Mining. Важно пра­вильно сформулировать цели и выбрать необходимые для их достижения ме­тоды, т. к. от этого зависит дальнейшая эффективность всего процесса.

Второй этап состоит в приведении данных к форме, пригодной для примене­ния конкретных методов Data Mining. Данный процесс далее будет описан более подробно, здесь заметим только, что вид преобразований, совершае­мых над данными, во многом зависит от используемых методов, выбранных на предыдущем этапе.

Третий этап — это собственно применение методов Data Mining. Сценарии этого применения могут быть самыми различными и могут включать слож­ную комбинацию разных методов, особенно если используемые методы по­зволяют проанализировать данные с разных точек зрения.

Следующий этап — проверка построенных моделей. Очень простой и часто используемый способ заключается в том, что все имеющиеся данные, кото­рые необходимо анализировать, разбиваются на две группы. Как правило, одна из них большего размера, другая — меньшего. На большей группе, при­меняя те или иные методы Data Mining, получают модели, а на меньшей — проверяют их. По разнице в точности между тестовой и обучающей группами можно судить об адекватности построенной модели.

Последний этап — интерпретация полученных моделей человеком в целях их использования для принятия решений, добавление получившихся правил и зависимостей в базы знаний и т. д. Этот этап часто подразумевает использо­вание методов, находящихся на стыке технологии Data Mining и технологии экспертных систем. От того, насколько эффективным он будет, в значитель­ной степени зависит успех решения поставленной задачи.

Этим этапом завершается цикл Data Mining. Окончательная оценка ценности добытого нового знания выходит за рамки анализа, автоматизированного или традиционного, и может быть проведена только после претворения в жизнь решения, принятого на основе добытого знания, после проверки нового зна­ния практикой. Исследование достигнутых практических результатов завер­шает оценку ценности добытого средствами Data Mining нового знания.

Средства Data Mining

В настоящее время технология Data Mining представлена целым рядом ком­мерческих и свободно распространяемых программных продуктов. Доста­точно полный и регулярно обновляемый список этих продуктов можно найти на сайте www.kdnuggets.com, посвященном Data Mining. Классифицировать программные продукты Data Mining можно по тем же принципам, что поло­жены в основу классификации самой технологии. Однако подобная класси­фикация не будет иметь практической ценности. Вследствие высокой конку­ренции на рынке и стремления к полноте технических решений многие из продуктов Data Mining охватывают буквально все аспекты применения ана­литических технологий. Поэтому целесообразнее классифицировать продук­ты Data Mining по тому, каким образом они реализованы и, соответственно, какой потенциал для интеграции они предоставляют. Очевидно, что и это ус­ловность, поскольку такой критерий не позволяет очертить четкие границы между продуктами. Однако у подобной классификации есть одно несомнен­ное преимущество. Она позволяет быстро принять решение о выборе того или иного готового решения при инициализации проектов в области анализа данных, разработки систем поддержки принятия решений, создания храни­лищ данных и т. д.

Итак, продукты Data Mining условно можно разделить на три больших кате­гории:

  • входящие, как неотъемлемая часть, в системы управления базами данных;
  • библиотеки алгоритмов Data Mining с сопутствующей инфраструктурой;
  • коробочные или настольные решения ("черные ящики").

Продукты первых двух категорий предоставляют наибольшие возможности для интеграции и позволяют реализовать аналитический потенциал практиче­ски в любом приложении в любой области. Коробочные приложения, в свою очередь, могут предоставлять некоторые уникальные достижения в области Data Mining или быть специализированными для какой-либо конкретной сфе­ры применения. Однако в большинстве случаев их проблематично интегри­ровать в более широкие решения.

Включение аналитических возможностей в состав коммерческих систем управления базами данных является закономерной и имеющей огромный по­тенциал тенденцией. Действительно, где, как ни в местах концентрации дан­ных, имеет наибольший смысл размещать средства их обработки. Исходя из этого принципа, функциональность Data Mining в настоящий момент реали­зована в следующих коммерческих базах данных:

  • Oracle;
  • Microsoft SQL Server;
  • IBM DB2.

Основные тезисы

  • Интеллектуальный анализ данных позволяет автоматически, основываясь на большом количестве накопленных данных, генерировать гипотезы, ко­торые могут быть проверены другими средствами анализа (например. OLAP).
  • Data Mining— исследование и обнаружение машиной (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны и доступны для интерпретации человеком.
  • Методами Data Mining решаются три основные задачи: задача классифи­кации и регрессии, задача поиска ассоциативных правил и задача класте­ризации. По назначению они делятся на описательные и предсказатель­ные. По способам решения задачи разделяют на supervised learning (обуче­ние с учителем) и unsupervised learning (обучение без учителя).
  • Задача классификации и регрессии сводится к определению значения за­висимой переменной объекта по его независимым переменным. Если зависимая переменная принимает численные значения, то говорят о задаче регрессии, в противном случае — о задаче классификации.
  • При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Най­денные зависимости представляются в виде правил и могут быть исполь­зованы как для лучшего понимания природы анализируемых данных, так и для предсказания событий.
  • Задача кластеризации заключается в поиске независимых групп (класте­ров) и их характеристик во всем множестве анализируемых данных. Реше­ние этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.
  • Методы Data Mining находятся на стыке разных направлений информаци­онных технологий: статистики, нейронных сетей, нечетких множеств, ге­нетических алгоритмов и др.
  • Интеллектуальный анализ включает в себя следующие этапы: понимание и формулировка задачи анализа, подготовка данных для автоматизирован­ного анализа, применение методов Data Mining и построение моделей, проверка построенных моделей, интерпретация моделей человеком.
  • Перед применением методов Data Mining исходные данные должны быть преобразованы. Вид преобразований зависит от применяемых методов.
  • Методы Data Mining могут эффективно использоваться в различных об­ластях человеческой деятельности: в бизнесе, медицине, науке, телеком­муникациях и т. д.

Анализ текстовой информации — Text Mining

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по опре­деленным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т. п. Таким образом, непосредственно для анализа этой информации и получения из нее новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. Из-за этого КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, тексто­вые документы практически невозможно преобразовать в табличное пред­ставление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как тек­стовые поля (BLOB-поля). В го же время в тексте скрыто огромное количест­во информации, но ее неструктурированность не позволяет использовать ал­горитмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста. В западной литературе такой анализ называют Text Mining.

Методы анализа в неструктурированных текстах лежат на стыке нескольких областей: Data Mining, обработка естественных языков, поиск информации, извлечение информации и управление знаниями.

Определение Text Mining: Обнаружение знаний в тексте — это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Как видно, от определения Data Mining оно отличается только новым поняти­ем "неструктурированные текстовые данные". Под такими знаниями понима­ется набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру. Примерами таких доку­ментов являются: web-страницы, электронная почта, нормативные документы ит. п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию. Документы, использующие язык расширяемой разметки XML (extensible Markup Lan­guage), стандартный язык обобщенной разметки SGML (Standard Generalised Markup Language) и другие подобные соглашения по структуре формирова­ния текста, принято называть полуструктурированными документами. Они также могут быть обработаны методами Text Mining.

Процесс анализа текстовых документов можно представить как последова­тельность нескольких шагов

  1. Поиск информации. На первом шаге необходимо идентифицировать, какие документы должны быть подвергнуты анализу, и обеспечить их доступ­ность. Как правило, пользователи могут определить набор анализируемых документов самостоятельно — вручную, но при большом количестве до­кументов необходимо использовать варианты автоматизированного отбо­ра по заданным критериям.
  2. Предварительная обработка документов. На этом шаге выполняются простейшие, но необходимые преобразования с документами для пред­ставления их в виде, с которым работают методы Text Mining. Целью та­ких преобразований является удаление лишних слов и придание тексту более строгой формы. Подробнее методы предварительной обработки бу­дут описаны в разд.
  3. Извлечение информации. Извлечение информации из выбранных докумен­тов предполагает выделение в них ключевых понятий, над которыми в дальнейшем будет выполняться анализ.

Применение методов Text Mining. На данном шаге извлекаются шаблоны и отношения, имеющиеся в текстах. Данный шаг является основным в процессе анализа текстов, и практические задачи, решаемые на этом шаге.

Интерпретация результатов. Последний шаг в процессе обнаружения знаний предполагает интерпретацию полученных результатов. Как прави­ло, интерпретация заключается или в представлении результатов на есте­ственном языке, или в их визуализации в графическом виде.

Визуализация также может быть использована как средство анализа текста. Для этого извлекаются ключевые понятия, которые и представляются в гра­фическом виде. Такой подход помогает пользователю быстро идентифициро­вать главные темы и понятия, а также определить их важность.

Предварительная обработка текста

Одной из главных проблем анализа текстов является большое количество слов в документе. Если каждое из этих слов подвергать анализу, то время по­иска новых знаний резко возрастет и вряд ли будет удовлетворять требовани­ям пользователей. В то же время очевидно, что не все слова в тексте несут полезную информацию. Кроме того, в силу гибкости естественных языков формально различные слова (синонимы и т. п.) на самом деле означают оди­наковые понятия. Таким образом, удаление неинформативных слов, а также приведение близких по смыслу слов к единой форме значительно сокращают время анализа текстов. Устранение описанных проблем выполняется на этапе предварительной обработки текста.

Обычно используют следующие приемы удаления неинформативных слов и повышения строгости текстов:

  • Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.
  • Стэмминг— морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.
  • Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;
  • Приведение регистра. Этот прием заключается в преобразовании всех сим­волов к верхнему или нижнему регистру.

Наиболее эффективно совместное применение перечисленных методов.

Задачи Text Mining

В настоящее время в литературе описано много прикладных задач, решаемых с помощью анализа текстовых документов. Это и классические задачи Data Mining: классификация, кластеризация, и характерные только для текстовых документов задачи: автоматическое аннотирование, извлечение ключевых понятий и др.

Классификация (classification) — стандартная задача из области Data Mining. Ее целью является определение для каждого документа одной или несколь­ких заранее заданных категорий, к которым этот документ относится. Осо­бенностью задачи классификации является предположение, что множество классифицируемых документов не содержит "мусора", т. е. каждый из доку­ментов соответствует какой-нибудь заданной категории.

Частным случаем задачи классификации является задача определения тема­тики документа [43].

Целью кластеризации (clustering) документов является автоматическое выяв­ление групп семантически похожих документов среди заданного фиксиро­ванного множества. Отметим, что группы формируются только на основе по­парной схожести описаний документов, и никакие характеристики этих групп не задаются заранее.

Автоматическое аннотирование (summarization) позволяет сократить текст, сохраняя его смысл. Решение этой задачи обычно регулируется пользовате­лем при помощи определения количества извлекаемых предложений или процентом извлекаемого текста по отношению ко всему тексту. Результат включает в себя наиболее значимые предложения в тексте.

Первичной целью извлечения кчючевых понятий (feature extraction) является идентификация фактов и отношений в тексте. В большинстве случаев такими понятиями являются имена существительные и нарицательные: имена и фа­милии людей, названия организаций и др. Алгоритмы извлечения понятий могут использовать словари, чтобы идентифицировать некоторые термины и лингвистические шаблоны для определения других.

Навигация по тексту (text-base navigation) позволяет пользователям переме­щаться по документам относительно тем и значимых терминов. Это выпол­няется за счет идентификации ключевых понятий и некоторых отношений между ними.

Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени. Тренд может быть использован, например, для обнаружения изменений интересов компании от одного сегмента рынка к другому.

Поиск ассоциаций также является одной из основных задач Data Mining. Для ее решения в заданном наборе документов идентифицируются ассоциатив­ные отношения между ключевыми понятиями.

Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов. Далее в этой главе рассматриваются решения следующих задач: извлечение ключевых понятий, классификация, кластеризация и авто­матическое аннотирование.

Классификация текстовых документов

Классификация текстовых документов, так же как и в случае классификации объектов заключается в отнесении документа к одному из заранее известных классов. Часто классификацию применительно к текстовым доку­ментам называют категоризацией или рубрикацией. Очевидно, что данные названия происходят от задачи систематизации документов по каталогам, категориям и рубрикам. При этом структура каталогов может быть как одно­уровневой, так и многоуровневой (иерархической).

Формально задачу классификации текстовых документов описывают набо­ром множеств.

В задаче классификации требуется на основе этих данных построить про­цедуру, которая заключается в нахождении наиболее вероятной категории из множества С для исследуемого документа.

Большинство методов классификации текстов так или иначе основаны на предположении, что документы, относящиеся к одной категории, содержат одинаковые признаки (слова или словосочетания), и наличие или отсутствие таких признаков в документе говорит о его принадлежности или непринад­лежности к той или иной теме.

Такое множество признаков часто называют словарем, т. к. оно состоит из лексем, которые включают слова и/или словосочетания, характеризующие категорию.

Подобно категориям каждый документ также имеет признаки, по которым его можно отнести с некоторой степенью вероятности к одной или несколь­ким категориям.

Необходимо заметить, что данные наборы признаков являются отличитель­ной чертой классификации текстовых документов от классификации объек­тов в Data Mining, которые характеризуются набором атрибутов.

Решение об отнесении документа d, к категории с, принимается на основании пересечения общих признаков

Задача методов классификации состоит в том, чтобы наилучшим образом вы­брать такие признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении документа к рубрике.

Средства анализа текстовой информации

  • Средства Oracle — Oracle Text2

Начиная с версии Oracle 7.3.3, средства текстового анализа являются неотъ­емлемой частью продуктов Oracle. В Oracle эти средства развились и полу­чили новое название— Oracle Text— программный комплекс, интегриро­ванный в СУБД, позволяющий эффективно работать с запросами, относящи­мися к неструктурированным текстам. При этом обработка текста сочетается с возможностями, которые предоставлены пользователю для работы с реля­ционными базами данных. В частности, при написании приложений для об­работки текста стало возможно использование SQL.

Основной задачей, на решение которой нацелены средства Oracle Text, явля­ется задача поиска документов по их содержанию — по словам или фразам, которые при необходимости комбинируются с использованием булевых опе­раций. Результаты поиска ранжируются по значимости, с учетом частоты встречаемости слов запроса в найденных документах.

  • Средства от IBM — Intelligent Miner for Text1

Продукт фирмы IBM Intelligent Miner for Text представляет собой набор от­дельных утилит, запускаемых из командной строки или из скриптов незави­симо друг от друга. Система содержит объединение некоторых утилиты для решения задач анализа текстовой информации.

IBM Intelligent Miner for Text объединяет мощную совокупность инструмен­тов, базирующихся в основном на механизмах поиска информации (infor­mation retrieval), что является спецификой всего продукта. Система состоит ряд базовых компонентов, которые имеют самостоятельное значение вне пре­делов технологии Text Mining:

  • Средства SAS Institute — Text Miner

Американская компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических и словесных рядов в письменной речи. Text Miner весьма универсальна, поскольку может работать с тексто­выми документами различных форматов — в базах данных, файловых систе­мах и далее в web.

Text Miner обеспечивает логическую обработку текста в среде пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с сущест­вующими структурированными данными, такими как возраст, доход и харак­тер покупательского спроса.

Основные тезисы

  • Обнаружение знаний в тексте — это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в не­структурированных текстовых данных.
  • Процесс анализа текстовых документов можно представить как последо­вательность нескольких шагов: поиск информации, предварительная обра­ботка документов, извлечение информации, применение методов Text Mining, интерпретация результатов.
  • Обычно используют следующие приемы удаления неинформативных слов и повышения строгости текстов: удаление стоп-слов, стэмминг, Л-граммы, приведение регистра.
  • Задачами анализа текстовой информации являются: классификация, кла­стеризация, автоматическое аннотирование, извлечение ключевых поня­тий, навигация по тексту, анализ трендов, поиск ассоциаций и др.
  • Извлечение ключевых понятий из текстов может рассматриваться и как отдельная прикладная задача, и как отдельный этап анализа текстов. В по­следнем случае извлеченные из текста факты используются для решения различных задач анализа.
  • Процесс извлечения ключевых понятий с помощью шаблонов выполняет­ся в две стадии: на первой из текстовых документов извлекаются отдель­ные факты с помощью лексического анализа, на второй стадии выполня­ется интеграция извлеченных фактов и/или вывод новых фактов.
  • Большинство методов классификации текстов так или иначе основаны на предположении, что документы, относящиеся к одной категории, содер­жат одинаковые признаки (слова или словосочетания), и наличие или от­сутствие таких признаков в документе говорит о его принадлежности или непринадлежности к той или иной теме.
  • Большинство алгоритмов кластеризации требуют, чтобы данные были представлены в виде модели векторного пространства, которая широко применяется для информационного поиска и использует метафору для от­ражения семантического подобия как пространственной близости.
  • Выделяют два основных подхода к автоматическому аннотированию тек­стовых документов: извлечение (выделение наиболее важных фрагментов) и обобщение (использование предварительно собранных знаний).

Заключение

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится  все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения, не говоря уже о предупреждении критических ситуаций. «Интеллектуальный анализ данных» извлечь максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. Помогает сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами. Помогает строить алгоритмы, способные обучаться принятию решений в различных профессиональных областях.

Средства «Интеллектуального анализа данных» предохраняют людей от информационной перегрузки, перерабатывая оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужные времена. 

Прикладные разработки ведутся по следующим направлениям: прогнозирование в экономических системах; автоматизация маркетинговых исследований и анализ клиентских сред для производственных, торговых, телекоммуникационных и Интернет-компаний; автоматизация принятия кредитных решений и оценка кредитных рисков; мониторинг финансовых рынков; автоматические торговые системы.

Список литературы

  1. «Технологии анализа данных: Data Mining. Visual Mining. Text Mining, OLAP» А. А. Барсегян. M. С. Куприянов, В. В. Стенаненко, И. И. Холод. — 2-е изд., перераб. и доп.
  2. http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - статья интернета
  3. http://www.piter.com/contents/978549807257/978549807257_p.pdf -Технологии анализа данных
  4. http://ru.wikipedia.org/wiki/Data_mining - Интеллектуальный анализ данных