Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Технологии интеллектуального анализа данных. ( ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ КАК ПРОЦЕСС)

Содержание:

1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ КАК ПРОЦЕСС

По сути, интеллектуальный анализ данных - это обработка информации

и выявление в ней моделей и тенденций, которые помогают принимать

решения. Принципы интеллектуального анализа данных известны в течение

многих лет, но с появлением больших данных они получили еще более широкое

распространение.

Большие данные привели к взрывному росту популярности более

широких методов интеллектуального анализа данных, отчасти потому, что

информации стало гораздо больше, и она по самой своей природе и

содержанию становится более разнообразной и обширной. При работе с

большими наборами данных уже недостаточно относительно простой и

прямолинейной статистики. Имея 30 или 40 миллионов подробных записей о

покупках, недостаточно знать, что два миллиона из них сделаны в одном и том

же месте. Чтобы лучше удовлетворить потребности покупателей, необходимо

понять, принадлежат ли эти два миллиона к определенной возрастной группе, и

знать их средний заработок.

Эти бизнес-требования привели от простого поиска и статистического

анализа данных к более сложному интеллектуальному анализу данных. Для

решения бизнес-задач требуется такой анализ данных, который позволяет

построить модель для описания информации и в конечном итоге приводит к

созданию результирующего отчета. Этот процесс иллюстрирует рисунок 1.

Рисунок 1. Схема процесса

Процесс анализа данных, поиска и построения модели часто является

итеративным, так как нужно разыскать и выявить различные сведения, которые

можно извлечь. Необходимо также понимать, как связать, преобразовать и

объединить их с другими данными для получения результата. После

обнаружения новых элементов и аспектов данных подход к выявлению

источников и форматов данных с последующим сопоставлением этой

информации с заданным результатом может измениться.

2. ИНСТРУМЕНТЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Интеллектуальный анализ данных – это не только используемые

инструменты или программное обеспечение баз данных. Интеллектуальный

анализ данных можно выполнить с относительно скромными системами баз

данных и простыми инструментами, включая создание своих собственных, или

с использованием готовых пакетов программного обеспечения. Сложный

интеллектуальный анализ данных опирается на прошлый опыт и алгоритмы,

определенные с помощью существующего программного обеспечения и

пакетов, причем с различными методами ассоциируются разные

специализированные инструменты.

Например, IBM SPSS®, который уходит корнями в статистический

анализ и опросы, позволяет строить эффективные прогностические модели по

прошлым тенденциям и давать точные прогнозы. IBM InfoSphere® Warehouse

обеспечивает в одном пакете поиск источников данных, предварительную

обработку и интеллектуальный анализ, позволяя извлекать информацию из

исходной базы прямо в итоговый отчет.

В последнее время стала возможна работа с очень большими наборами

данных и кластерная/крупномасштабная обработка данных, что позволяет

делать еще более сложные обобщения результатов интеллектуального анализа

данных по группам и сопоставлениям данных. Сегодня доступен совершенно

новый спектр инструментов и систем, включая комбинированные системы

хранения и обработки данных.

Можно анализировать самые разные наборы данных, включая

традиционные базы данных SQL, необработанные текстовые данные, наборы

"ключ/значение" и документальные базы. Кластерные базы данных, такие как

Hadoop, Cassandra, CouchDB и Couchbase Server, хранят и предоставляют

доступ к данным такими способами, которые не соответствуют традиционной

табличной структуре.

В частности, более гибкий формат хранения базы документов придает

обработке информации новую направленность и усложняет ее. Базы данных

SQL строго регламентируют структуру и жестко придерживаются схемы, что

упрощает запросы к ним и анализ данных с известными форматом и

структурой.

Документальные базы данных, которые соответствуют стандартной

структуре типа JSON, или файлы с некоторой машиночитаемой структурой

тоже легко обрабатывать, хотя дело может осложняться разнообразной и

переменчивой структурой. Например, в Hadoop, который обрабатывает

совершенно "сырые" данные, может быть трудно выявить и извлечь

информацию до начала ее обработки и сопоставления.

3. ОСНОВНЫЕ МЕТОДЫ

Несколько основных методов, которые используются для

интеллектуального анализа данных, описывают тип анализа и операцию по

восстановлению данных. К сожалению, разные компании и решения не всегда

используют одни и те же термины, что может усугубить путаницу и

кажущуюся сложность.

Рассмотрим некоторые ключевые методы и примеры того, как

использовать те или иные инструменты для интеллектуального анализа данных.

3.1. Ассоциация

Ассоциация (или отношение), вероятно, наиболее известный, знакомый

и простой метод интеллектуального анализа данных. Для выявления моделей

делается простое сопоставление двух или более элементов, часто одного и того

же типа. Например, отслеживая привычки покупки, можно заметить, что вместе

с клубникой обычно покупают сливки.

Создать инструменты интеллектуального анализа данных на базе

ассоциаций или отношений нетрудно. Например, в InfoSphere Warehouse есть

мастер, который выдает конфигурации информационных потоков для создания

ассоциаций, исследуя источник входной информации, базис принятия решений

и выходную информацию. На рисунке 2 приведен соответствующий пример

для образца базы данных.

Рисунок 2. Информационный поток, используемый

при подходе ассоциации

3.2. Классификация

Классификацию можно использовать для получения представления о

типе покупателей, товаров или объектов, описывая несколько атрибутов для

идентификации определенного класса. Например, автомобили легко

классифицировать по типу (седан, внедорожник, кабриолет), определив

различные атрибуты (количество мест, форма кузова, ведущие колеса). Изучая

новый автомобиль, можно отнести его к определенному классу, сравнивая

атрибуты с известным определением. Те же принципы можно применить и к

покупателям, например, классифицируя их по возрасту и социальной группе.

Кроме того, классификацию можно использовать в качестве входных

данных для других методов. Например, для определения классификации можно

применять деревья принятия решений. Кластеризация позволяет использовать

общие атрибуты различных классификаций в целях выявления кластеров.

3.3. Кластеризация

Исследуя один или более атрибутов или классов, можно сгруппировать

отдельные элементы данных вместе, получая структурированное заключение.

На простом уровне при кластеризации используется один или несколько

атрибутов в качестве основы для определения кластера сходных результатов.

Кластеризация полезна при определении различной информации, потому что

она коррелируется с другими примерами, так что можно увидеть, где подобия и

диапазоны согласуются между собой.

Метод кластеризации работает в обе стороны. Можно предположить,

что в определенной точке имеется кластер, а затем использовать свои критерии

идентификации, чтобы проверить это. График, изображенный на рисунке 3,

демонстрирует наглядный пример. Здесь возраст покупателя сравнивается со

стоимостью покупки. Разумно ожидать, что люди в возрасте от двадцати до

тридцати лет (до вступления в брак и появления детей), а также в 50-60 лет

(когда дети покинули дом) имеют более высокий располагаемый доход.

Рисунок 3. Кластеризация

В этом примере видны два кластера, один в районе $2000/20-30 лет и

другой в районе $7000-8000/50-65 лет. В данном случае мы выдвинули гипотезу

и проверили ее на простом графике, который можно построить с помощью

любого подходящего ПО для построения графиков. Для более сложных

комбинаций требуется полный аналитический пакет, особенно если нужно

автоматически основывать решения на информации о ближайшем соседе.

Такое построение кластеров являет собой упрощенный пример так

называемого образа ближайшего соседа. Отдельных покупателей можно

различать по их буквальной близости друг к другу на графике. Весьма

вероятно, что покупатели из одного и того же кластера разделяют и другие

общие атрибуты, и это предположение можно использовать для поиска,

классификации и других видов анализа членов набора данных.

Метод кластеризации можно применить и в обратную сторону: учитывая

определенные входные атрибуты, выявлять различные артефакты. Например,

недавнее исследование четырехзначных PIN-кодов выявили кластеры чисел в

диапазонах 1-12 и 1-31 для первой и второй пар. Изобразив эти пары на

графике, можно увидеть кластеры, связанные с датами (дни рождения, юбилеи).

3.4. Прогнозирование

Прогнозирование – это широкая тема, которая простирается от

предсказания отказов компонентов оборудования до выявления мошенничества

и даже прогнозирования прибыли компании. В сочетании с другими методами

интеллектуального анализа данных прогнозирование предполагает анализ

тенденций, классификацию, сопоставление с моделью и отношения.

Анализируя прошлые события или экземпляры, можно предсказывать будущее.

Например, используя данные по авторизации кредитных карт, можно

объединить анализ дерева решений прошлых транзакций человека с

классификацией и сопоставлением с историческими моделями в целях

выявления мошеннических транзакций. Если покупка авиабилетов в США

совпадает с транзакциями в США, то вполне вероятно, что эти транзакции

подлинны.

3.5. Последовательные модели

Последовательные модели, которые часто используются для анализа

долгосрочных данных, – полезный метод выявления тенденций, или

регулярных повторений подобных событий. Например, по данным о

покупателях можно определить, что в разное время года они покупают

определенные наборы продуктов. По этой информации приложение

прогнозирования покупательской корзины, основываясь на частоте и истории

покупок, может автоматически предположить, что в корзину будут добавлены

те или иные продукты.

3.6. Деревья решений

Дерево решений, связанное с большинством других методов (главным

образом, классификации и прогнозирования), можно использовать либо в

рамках критериев отбора, либо для поддержки выбора определенных данных в

рамках общей структуры. Дерево решений начинают с простого вопроса,

который имеет два ответа (иногда больше). Каждый ответ приводит к

следующему вопросу, помогая классифицировать и идентифицировать данные

или делать прогнозы.

На рисунке 4 приведен пример классификации неисправных состояний.

Рисунок 4. Дерево решений

Деревья решений часто используются с системами классификации

информации о свойствах и с системами прогнозирования, где различные

прогнозы могут основываться на прошлом историческом опыте, который

помогает построить структуру дерева решений и получить результат.

3.7. Комбинации

На практике очень редко используется только один из этих методов.

Классификация и кластеризация – подобные методы. Используя кластеризацию

для определения ближайших соседей, можно дополнительно уточнить

классификацию. Деревья решений часто используются для построения и

выявления классификаций, которые можно прослеживать на исторических

периодах для определения последовательностей и моделей.

3.8. Обработка с запоминанием

При всех основных методах часто имеет смысл записывать и

впоследствии изучать полученную информацию. Для некоторых методов это

совершенно очевидно. Например, при построении последовательных моделей и

обучении в целях прогнозирования анализируются исторические данные из

разных источников и экземпляров информации.

В других случаях этот процесс может быть более ярко выраженным.

Деревья решений редко строятся один раз и никогда не забываются. При

выявлении новой информации, событий и точек данных может понадобиться

построение дополнительных ветвей или даже совершенно новых деревьев.

Некоторые из этих процессов можно автоматизировать. Например,

построение прогностической модели для выявления мошенничества с

кредитными картами сводится к определению вероятностей, которые можно

использовать для текущей транзакции, с последующим обновлением этой

модели при добавлении новых (подтвержденных) транзакций. Затем эта

информация регистрируется, так что в следующий раз решение можно будет

принять быстрее.

4. ПОЛУЧЕНИЕ И ПОДГОТОВКА ДАННЫХ

Сам интеллектуальный анализ данных опирается на построение

подходящей модели и структуры, которые можно использовать для обработки,

выявления и создания необходимой информации. Независимо от формы и

структуры источника данных, информация структурируется и организуется в

соответствии с форматом, который позволяет выполнять интеллектуальный

анализ данных с максимально эффективной моделью.

Подумайте о комбинировании бизнес-требований по интеллектуальному

анализу данных с выявлением существующих переменных (покупатель,

стоимость, страна) и созданием новых переменных, которые можно

использовать для анализа данных на подготовительном этапе.

Аналитические переменные для данных, полученных из множества

различных источников, можно составить в единую, определенную структуру

(например, создать класс покупателей определенных уровней и возрастов или

класс ошибок определенного типа).

В зависимости от источника данных важно выбрать правильный способ

построения и преобразования этой информации, каким бы ни был метод

окончательного анализа данных. Этот шаг также ведет к более сложному

процессу выявления, сбора, упрощения или расширения информации в

соответствии с входными данными (см. рисунок 5).

Рисунок 5. Подготовка данных

Источник данных, местоположение и база данных влияют на то, как

будет обрабатываться и объединяться информация.

4.1. Опора на SQL

Наиболее простым из всех подходов часто служит опора на базы данных

SQL. SQL (и соответствующая структура таблицы) хорошо понятен, но

структуру и формат информации нельзя игнорировать полностью. Например,

при изучении поведения пользователей по данным о продажах в модели данных

SQL (и интеллектуального анализа данных в целом) существуют два основных

формата, которые можно использовать: транзакционный и поведенческодемографический.

При работе с InfoSphere Warehouse создание поведенческодемографической модели в целях анализа данных о покупателях для понимания

моделей их поведения предусматривает использование исходных данных SQL,

основанных на информации о транзакциях, и известных параметров

покупателей с организацией этой информации в заранее определенную

табличную структуру. Затем InfoSphere Warehouse может использовать эту

информацию для интеллектуального анализа данных методом кластеризации и

классификации с целью получения нужного результата. Демографические

данные о покупателях и данные о транзакциях можно скомбинировать, а затем

преобразовать в формат, который допускает анализ определенных данных, как

показано на рисунке 6.

Рисунок 6. Специальный формат анализа данных

Например, по данным о продажах можно выявить тенденции продаж

конкретных товаров. Исходные данные о продажах отдельных товаров можно

преобразовать в информацию о транзакциях, в которой идентификаторы

покупателей сопоставляются с данными транзакций и кодами товаров.

Используя эту информацию, легко выявить последовательности и отношения

для отдельных товаров и отдельных покупателей с течением времени. Это

позволяет InfoSphere Warehouse вычислять последовательную информацию,

определяя, например, когда покупатель, скорее всего, снова приобретет тот же

товар.

Из исходных данных можно создавать новые точки анализа данных.

Например, можно развернуть (или доработать) информацию о товаре путем

сопоставления или классификации отдельных товаров в более широких

группах, а затем проанализировать данные для этих групп, вместо отдельных

покупателей.

В таблице 1 приведен пример расширения информации.

Таблица 1. Расширенная таблица товаров

product_id product_name product_group product_type

101 Клубника неупакованная Клубника Фрукты

102 Клубника в коробках Клубника Фрукты

110 Бананы неупакованные Бананы Фрукты

5. ЛАБОРАТОРНЫЕ РАБОТЫ

5.1. Цель лабораторной работы

Освоение методов интеллектуального анализа данных, в частности:

классификации объектов БД методом построения дерева решений; выявление

связей между объектами БД методом ассоциаций.

5.2. Задачи лабораторной работы

1. На основании модели предметной области из перечня объектовклассов выбрать 1-2 наиболее важных, для которых могут существовать

варианты (экземпляры классов). Определить для этих объектов – классов не

менее 3-х свойств, на основе которых экземпляры классов могут быть разбиты

на подклассы. Например, по содержанию предметной области, необходимо

арендовать помещение (под офис, под магазин и т.п.). Выбор осуществляется

на основе следующих свойств: цена за кв.м.; площадь, качество отделки

помещения (высокое, среднее, низкое); расстояние от метро (0 мин., до 10

минут, до 20 минут) и т.п. На основе этих параметров сформировать прототип

реляционной Базы Данных (РБД) из 15 записей с описанием конкретных

помещений. Задача состоит в том, чтобы разбить имеющиеся варианты на 3

класса (например: евро-класс (1), бизнес – класс (2), эконом – класс (3)).

2. На основе той же модели предметной области сформировать прототип

РБД из 15-ти транзакций, т.е. последовательности записей типа: (письменный

стол, кресло, компьютер, офис), (обеденный стол, меню, кафе), (кресло, стол,

настольная лампа, кабинет) и т.п.

3. Решить задачу классификации записей БД (п. 1) методом построения

дерева решений. Обосновать порядок применения свойств для классификации

объектов, выявить взаимосвязь данных, разработать правила классификации

применить метод прироста информации (метод энтропии).

4. Выявить наиболее сильные взаимосвязи между элементами

транзакций (гипотезами правил типа «если, то….») на основе вычисления

значений достоверности, поддержки, лифта, левериджа, улучшения для

разработанных гипотез, применить метод ассоциации.

5.3. Порядок решения задачи

1. Создать два прототипа РБД (15 записей).

2. Наполнить Хранилище Данных первичной информацией из

прототипов РБД.

3. Провести анализ данных и их классификацию на основе метода дерева

решений. Результат представить в виде дерева.

4. Сформировать множество гипотез правил на основании метода

ассоциаций, найти наиболее сильное и наиболее слабое правила и доказать это

расчетами. Расчеты лифта, левереджа осуществить вручную.

5.4. Представление результатов

В отчет о результатах лабораторной работы входят:

результаты по дереву решений:

 Прототип РБД;

 Имена классов для разбиения объектов РБД на классы;

 Расчеты по выбору порядка применения свойств для классификации

объектов (видеоформы);

 Дерево решений, классы объектов, классификационные правила

(видеоформы и вручную).

результаты по методу ассоциации:

 Прототип РБД;

 наиболее вероятное ассоциативное правило и расчеты его

достоверности, поддержки, лифта, левереджа и улучшения (видеоформы и

вручную);

 Результаты сравнения расчетов по ассоциативному правилу и

обоснованный вывод о наиболее значимом ассоциативном правиле.

6. ТЕОРЕТИЧЕСКИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

Классификацию данных можно рассматривать как процесс, состоящий

из двух этапов. На первом этапе строится модель, описывающая

предварительно определенный набор классов или категорий. Модель строится

на основе анализа данных, содержащих признаки (атрибуты) объектов и

соответствующую им метку класса. Такой набор называется обучающей

выборкой. В контексте классификации записи могут упоминаться как

наблюдения, примеры, прецеденты или объекты.

Поскольку метка класса каждого примера предварительно задана,

построение классификационной модели часто называют обучением с учителем.

В процессе обучения формируются правила, по которым производится

оттеснение объектов к одному из классов.

На втором этапе модель применяется для классификации новых, ранее

не известных объектов и наблюдений. Перед этим оценивается точность

построенной классификационной модели.

Деревья решений (деревья классификаций) – классификационная

техника, в ходе которой решающие правила извлекаются непосредственно из

исходных данных в процессе обучения. Дерево решений – это иерархическая

модель, где в каждом узле производится проверка определенного

атрибута(признака) с помощью правила. Каждая выходящая из узла ветвь есть

результат проверки, она содержит объекты, для которых значения данного

атрибута удовлетворяют правилу в узле. Каждый конечный узел дерева(лист)

содержит объекты, относящиеся к одному классу.

Пример дерева решений

Классический алгоритм построения деревьев решений использует

стратегию «разделяй и властвуй». Начиная с корневого узла, где присутствуют

все обучающие примеры, происходит их разделение на два подмножества или

более на основе значений атрибута, выбранных в соответствии с критерием

(правилом) разделения. Для каждого подмножества создается дочерний узел, с

которым оно ассоциируется. Затем процесс ветвления повторяется для каждого

дочернего узла до тех пор, пока не будет выполнено одно из условий остановки

алгоритма, что служит упрощению дерева. Упрощение дерева заключается в

том, что после его построения удаляется те ветви, правила в которых имеют

низкую ценность, поскольку относятся к небольшому числу примеров.

Мерой оценки возможного разбиения является так называемая

чистота, под которой понимается отсутствие примесей. Низкая чистота

означает, что в подмножестве представлены объекты, относящиеся к

различным классам. Высокая чистота свидетельствует о том, что члены

отдельного класса доминируют. Наилучшим разбиением можно назвать то,

которое дает наибольшее увеличение чистоты дочерних узлов относительно

родительского. Кроме того, хорошее разбиении должно создавать узлы

примерно одинакового размера или как минимум не создавать узлы,

содержащие всего несколько записей.