Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Технологии интеллектуального анализа данных (Технологии интеллектуального анализа данных)

Содержание:

Введение

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пиатецким-Шапиро в 1989 году.

Английское словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: добыча данных, извлечение данных, а, также, интеллектуальный анализ данных. Более полным и точным является словосочетание обнаружение знаний в базах данных (knowledge discovering in databases, KDD).

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечеткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний). Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Технологии интеллектуального анализа данных.

Технологии интеллектуального анализа данных обеспечивают формирование аналитических данных посредством выполнения операции очищения данных локальных баз организации, применения статистических методов и других сложных алгоритмов. Появлению аналитических систем способствовало осознание руководящим звеном предприятий факта, что в базах данных содержится не только информация, но и знания (скрытые закономерности). Последние позволяют охарактеризовать процесс управления предприятием и дать интеллектуальную информацию для более обоснованного принятия решений.

Можно выделить следующие технологии интеллектуального анализа данных:

• Оперативный анализ данных посредством OLAP-систем;

• Поиск и интеллектуальный выбор данных Data Mining;

• Деловые интеллектуальные технологии BIS;

• Интеллектуальный анализ текстовой информации.

Data mining и базы данных.

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных. Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционые реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.

Data mining и статистика.

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы (). В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.

Data mining и искусственный интеллект.

Знания, добываемые методами Data mining, принято представлять в виде моделей. В качестве таких моделей выступают:

  • ассоциатиные правила;
  • деревья решений;
  • кластеры;
  • математические функции.

Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».

Этапы в процессе интеллектуального анализа данных.

Традиционно выделяются следующие этапы в процессе

интеллектуального анализа данных:

1. Изучение предметной области, в результате которого

формулируются основные цели анализа.

2. Сбор данных.

3. Предварительная обработка данных:

  • Очистка данных – исключение противоречий и случайных

"шумов"из исходных данных

  • Интеграция данных – объединение данных из нескольких

возможных источников в одном хранилище

  • Преобразование данных. На данном этапе данные

преобразуются к форме, подходящей для анализа. Часто

применяется агрегация данных, дискретизация атрибутов,

сжатие данных и сокращение размерности.

4. Анализ данных. В рамках данного этапа применяются

алгоритмы интеллектуального анализа с целью извлечения

паттернов.

5. Интерпретация найденных паттернов. Данный этап может

включать визуализацию извлеченных паттернов, определение

действительно полезных паттернов на основе некоторой функции

полезности.

6. Использование новых знаний.

Компоненты систем интеллектуального анализа.

Обычно в системах интеллектуального анализа данных выделяются

следующие главные компоненты:

1. База данных, хранилище данных или другой репозиторий

информации. Это может быть одна или несколько баз

данных, хранилище данных, электронные таблицы, другие виды

репозиториев, над которыми могут быть выполнены очистка и

интеграция. Виды баз данных:

• Реляционные базы данных;

• Хранилища данных;

• Транзакционные базы данных;

• Объектно-ориентированные базы данных;

• Объектно-реляционные базы данных;

• Пространственные базы данных (Spatial databases);

• Временн´ые базы данных (Temporal databases);

• Текстовые базы данных;

• Мультимедийные базы данных;

• Разнородные базы данных;

• Всемирная Паутина.

2. Сервер базы данных или хранилища данных. Указанный

сервер отвечает за извлечение существенных данных на основании

пользовательского запроса.

3. База знаний. Это знания о предметной области, которые

указывают, как проводить поиск и оценивать полезность

результирующих паттернов.

4. Служба добычи знаний. Она является неотъемлемой частью

системы интеллектуального анализа данных и содержит набор

функциональных модулей для таких задач, как характеризация,

поиск ассоциаций, классификация, кластерный анализ и анализ

отклонений.

5. Модуль оценки паттернов. Данный компонент вычисляет меры

интереса или полезности паттернов.

6. Графический пользовательский интерфейс. Этот модуль

отвечает за коммуникации между пользователем и системой

интеллектуального анализа данных, визуализацию паттернов в

различных формах.

Области применения.

Приведем некоторые примеры областей, где большое количество данных

хранится в централизованных или распределенных базах данных и

требует анализа:

Электронные библиотеки, в которых систематизировано хранятся

тексты в различных форматах.

Архивы изображений, состоящие из большого количества

изображений в сырой или сжатой форме. К изображениям

может прилагаться текст.

Базы данных геномных исследований. Как известно, организм

человека состоит из более чем 50000 видов генов и белков в

различных сочетаниях. Исследованием и интерпретацией огромных

баз данных, возникших в результате расшифровки генома

человека, занимается биоинформатика.

Медицинские изображения. Большое количество медицинских

сведений имеют вид изображений: ЭКГ, снимки внутренних

органов и т.д. Анализ этих изображений имеет большое значение

для медицины.

Финансовые данные также являются важной сферой применения

методов интеллектуального анализа данных. Эти данные

представляют из себя котировки акций, золота, рыночные индексы,

процентные ставки, кредитные операции банков, транзакции по

кредитным картам, выявленные мошеннические операции, и т.д.

Базы данных предприятий обычно хранят подробные сведения об

основных бизнес-операциях организации. Например, сведения

о клиентах могут представлять интерес для выработки

маркетинговой политики организации, политики удержания

клиентов, определения индивидуальных предпочтений клиентов.

Телекоммуникационные системы являются источником таких

данных, как история вызовов, сбоев, перегрузок, содержимого

траффика, и т.д.

Всемирная Паутина содержит огромный объем разнородной

мультимедийной информации различного типа. Ее можно считать

самой большой распределенной базой данных, которая когда-либо

существовала в мире.

Биометрические данные человека (отпечатки пальцев, снимки лиц,

и т.д.) находят все большее применение в системах однозначной

идентификации человека. Это порождает необходимость развития

методов поиска и анализа в подобных базах данных.

Задачи Data Mining.

Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик. Из них основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Далее приведено краткое описание основных задач анализа данных.

Задача классификации сводится к определению класса объекта по его характеристикам. Необходимо заметить, что в этой задаче множество классов, к которым может быть отнесен объект, известно заранее.

Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел.

При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.

Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

Перечисленные задачи по назначению делятся на описательные и предсказательные.

Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.

Решение предсказательных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. Па втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, что­бы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть ис­пользованы для предсказания появления некоторых событий.

По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя). Такое название произошло от термина Machine Learning (машинное обучение), часто используемого в англоязычной литературе и обозначающего все технологии Data Mining.

В случае supervised learning задача анализа данных решается в несколько этапов. Сначала с помощью какого-либо алгоритма Data Mining строится модель анализируемых данных — классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество его работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно вы­явить. К этому типу задач относят задачи классификации и регрессии.

Unsupervised learning объединяет задачи, выявляющие описательные модели, например закономерности в покупках, совершаемых клиентами большого магазина. Очевидно, что если эти закономерности есть, то модель должна их представить и неуместно говорить об ее обучении. Достоинством таких задач является возможность их решения без каких-либо предварительных знаний об анализируемых данных. К этим задачам относятся кластеризация, и поиск ассоциативных правил.

Основные тезисы.

  • Интеллектуальный анализ данных позволяет автоматически, основываясь на большом количестве накопленных данных, генерировать гипотезы, которые могут быть проверены другими средствами анализа (например. OLAP).
  • Data Mining— исследование и обнаружение машиной (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны и доступны для интерпретации человеком.
  • Методами Data Mining решаются три основные задачи: задача классификации и регрессии, задача поиска ассоциативных правил и задача кластеризации. По назначению они делятся на описательные и предсказательные. По способам решения задачи разделяют на supervised learning (обучение с учителем) и unsupervised learning (обучение без учителя).
  • Задача классификации и регрессии сводится к определению значения зависимой переменной объекта по его независимым переменным. Если зависимая переменная принимает численные значения, то говорят о задаче регрессии, в противном случае — о задаче классификации.
  • При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания событий.
  • Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.
  • Методы Data Mining находятся на стыке разных направлений информационных технологий: статистики, нейронных сетей, нечетких множеств, генетических алгоритмов и др.
  • Интеллектуальный анализ включает в себя следующие этапы: понимание и формулировка задачи анализа, подготовка данных для автоматизированного анализа, применение методов Data Mining и построение моделей, проверка построенных моделей, интерпретация моделей человеком.
  • Перед применением методов Data Mining исходные данные должны быть преобразованы. Вид преобразований зависит от применяемых методов.
  • Методы Data Mining могут эффективно использоваться в различных областях человеческой деятельности: в бизнесе, медицине, науке, телекоммуникациях и т. д.

Подготовка данных.

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.

Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.

Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков — это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.

Векторы признаков делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей.

Литература.

  1. «Технологии анализа данных: Data Mining. Visual Mining. Text Mining, OLAP» А. А. Барсегян. M. С. Куприянов, В. В. Стенаненко, И. И. Холод. — 2-е изд., перераб. и доп.
  2. http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - статья интернета
  3. http://ru.wikipedia.org/wiki/Data_mining - Интеллектуальный анализ данных
  4. http://www.piter.com/contents/978549807257/978549807257_p.pdf -Технологии анализа данных
  5. Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.
  6. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. РАСПОЗНАВАНИЕ. Математические методы. Программная система. Практические применения - www.solutions-center.ru. — М.: Изд. «Фазис», 2006. — 176 с. — ISBN 5-7036-0106-8
  7. Зиновьев А. Ю. Визуализация многомерных данных - pca.narod.ru/ZINANN.htm. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.
  8. Чубукова И. А. Data Mining: учебное пособие - www.intuit.ru/department/database/datamining/. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7