Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Технологии DM

Содержание:

Data Mining – DM

Data Mining (DM) — это технология поддержки процесса принятия решений, основанная на выявления скрытых закономерностей и систематических взаимосвязей между переменными внутри больших массивов информации, которые затем можно применить к новым совокупностям данных. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Обнаружение новых знаний можно использовать для повышения эффективности бизнеса.

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений.

Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведений, не содержит.

Пример. C помощью средств DM менеджер по маркетингу может предлагать клиентам индивидуальные котировки акций, обновлять новости, проводить специальные кампании по продвижению и передавать другую индивидуальную информацию, которая может их заинтересовать. При этом существенно сокращаются средства на рекламу и повышаются доходы. Кроме того, процесс полностью автоматизирован, ПО моментально обнаруживает любые изменения в поведении клиента, в отличие от специальных сервисов, представленных на сегодняшний день в Web, которые требуют от людей заполнения различных опросных листов и анкет.

Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными.

Пример. Cведения о том, как зависят продажи определенного товара от дня недели, времени суток или времени года, какие категории покупателей чаще всего приобретают тот или иной товар, какая категория клиентов чаще всего вовремя не отдает предоставленный кредит, какая часть покупателей одного конкретного товара приобретает другой конкретный товар.

Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока, поэтому процесс ее поиска и получил название Data Mining (mining по-английски означает «добыча полезных ископаемых», а поиск закономерностей в огромном наборе фактических данных действительно сродни этому).

Синонимами DM можно считать следующее:

• Обнаружение знаний в БД (Knowledge Discovery In Databases, KDD).

Это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов DM, а также обработки и интерпретации полученных результатов

• Интеллектуальный анализ данных (IAD).

Концепция интеллектуального анализа данных определяет задачи поиска функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

Функция Data Mining

Термин Data Mining обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя).

Пример. Анализ потребительской корзины, применяемый, чтобы выявить предпочтения потребителей и, соответственно, лучше удовлетворить спрос и повысить доход с клиентов. Однако характер покупательского поведения присутствует в данных неявно, и для его определения необходимо использовать именно Data Mining. И теперь можно выяснить, к примеру, что клиент, собирающийся купить товар X, будет не прочь приобрести заодно и товар Y. Эта информация ляжет в основу последующих решений: может быть, стоит располагать эти товары на витрине магазина рядом или, например, продвигать один из них, чтобы повысить продаж и обоих.

В отличие от оперативной аналитической обработки данных (OLAP) в DM задача формулировки гипотез и выявления необычных (unexpected) алгоритмов переложено с человека на компьютер. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение DM, как правило, то подразумевает ответы на вопросы типа «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечивает более нетривиальный подход к маркетинговой политике и к организации работы с клиентами.

Примеры заданий на такой поиск при использовании DM - Data Mining приведены в таблице.

Таблица 1. Примеры формулировок задач при использовании методов OLAP и DM - Data Mining.

OLAP

DM - Data Mining

Каковы средние показатели травматизма для курящих и некурящих?

Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?

Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)?

Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?

Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке?

Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?

Важное положение и применение DM - Data Mining

Важное положение DM — нетривиальность (нестандартность и неочевидность) разыскиваемых алгоритмов (шаблонов). Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). Иными словами, средства DM отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.

Следует отметить, что применение средств DM не исключает использования статистических инструментов и OLAP-средств, поскольку результаты обработки данных с помощью последних, как правило, способствуют лучшему пониманию характера закономерностей, которые следует искать.

Применение DM оправданно при наличии достаточно большого количества данных, в идеале — содержащихся в корректно спроектированном ХД (собственно, сами ХД обычно создаются для решения задач анализа и прогнозирования, связанных с поддержкой принятия решений). Данные в хранилище представляют собой пополняемый набор, единый для всего предприятия и позволяющий восстановить картину его деятельности на любой момент времени, а структура данных хранилища проектируется таким образом, чтобы выполнение запросов к нему осуществлялось максимально эффективно. Впрочем, существуют средства DM, способные выполнять поиск закономерностей, корреляций и тенденций не только в хранилищах данных, но и в OLAP-кубах, то есть в наборах предварительно обработанных статистических данных.

Эксперты считают, что в ближайшее десятилетие DM станет одним из перспективных направлений разработки ПО. За счет выявления содержательной структуры в собранной информации и ее анализа в режиме реального времени данная технология станет ключевым методом разработки «индивидуальной Сети», приспособленной под конкретные нужды каждого пользователя.

Проблемы, связанные с использованием DM-Технологий

Конечно, возможности DM велики, но уже сейчас аналитики предупреждают потенциальных инвесторов, что этот еще не устоявшийся сегмент рынка ПО может быть чрезмерно разрекламирован.

4.1 Сложность инструментов Data Mining

Сложность — существенный барьер для внедрения DM. Существует такое шутливое мнения, что DM — настолько сложная технология, что для ее освоения необходимо иметь три высших образования: одно в области статистики или вычислительных методов, другое в области бизнеса, чтобы понимать клиентов, и еще одно по вычислительной технике.

Фактически DM — это результат совместных усилий специалистов во всех трех областях. Управление проектом должны брать на себя бизнес-специалисты, задачей которых является формирование набора бизнес-задач и последующая интерпретация полученных результатов. Разработчик-аналитик, разбирающийся в методах DM, в статистике и инструментах должен создать надежную модель. А специалисты по информационным технологиям обеспечивают обработку данных, а также техническую поддержку.

IT-команды увлеклись мифом о том, что средства DM просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный DM проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных.

4.2 Опытность пользователя DM

Различные инструменты DM имеют свои сильные и слабые стороны. Поэтому конкретные программы должны четко соответствовать уровню подготовленности пользователя и его конкретным целям. Кроме того, DM, как правило, подразумевает употребление определенного технического жаргона, который может сильно усложнить для неопытного пользователя понимание работы программы, ее сути, практических результатов, а также того, какой продукт и каким способом лучше всего использовать для достижения определенных бизнес-целей. Это вызывает замешательство, и часто потенциальный клиент может вообще отказаться от использования DM. Еще хуже, если клиент вложит большие средства и пойдет неверным путем или потратит деньги на освоение различных инструментов для того, чтобы, наконец, понять, как нужно было применять DM в данной области деятельности.

Если DM применяется неправильно, то это может разорить компанию — использование DM должно быть неразрывно связано с повышением квалификации пользователя». Применение сложных инструментов предъявляет все большие требования к людям, которые необходимы компании, однако специалистов по DM, которые бы хорошо разбирались в бизнесе, очень немного. Извлечение полезных сведений невозможно без хорошего понимания сути данных. Кроме того, во многих случаях необходима тщательная интерпретация тех зависимостей или шаблонов, которые были обнаружены. Поэтому работа с этими средствами требует тесного сотрудничества между бизнес-экспертом и специалистом по инструментам DM.

Правильное использование прогнозирующих моделей должно быть грамотно интегрировано в реальные бизнес процессы, с тем, чтобы можно было четко оценивать и обновлять модели.

4.3 Трудозатраты

Результаты DM в большой мере зависят от уровня подготовки данных, а не от „чудесных возможностей“ некоего алгоритма или набора алгоритмов. Успешный анализ требует очищенных и подготовленных данных. По утверждению аналитиков и пользователей очистка клиентских записей, разделение их на поддающиеся обработке, но статистически достоверные образцы, а затем тестирование и уточнение всех результатов, занимает до 80% процентов всего DM-процесса. Таким образом, чтобы заставить технологию работать на себя потребуется много времени. Много усилий тратится на анализ предварительных данных и корректировку прогнозирующих моделей.

Неграмотно применив некоторые инструменты, предприятие может бессмысленно растратить свой потенциал, а иногда и миллионы долларов.

4.4 Высокий процент ложных результатов

Инструменты, занимающиеся поиском трудно обнаруживаемых зависимостей в БД, могут раскрыть действительно драгоценные «самородки» информации, которые дадут хорошие дивиденды в плане финансовой и конкурентной выгоды. Но, к сожалению, DM очень часто порождает множество вводящих в заблуждение и не имеющих существенного значения открытий. Многие пользователи и аналитики утверждают, что DM-средства могут выдавать тысячи ложных, статистически недостоверных или бессмысленных результатов. При этом пользователь должен понимать, какие из результатов имеют реальный смысл.

Пример. Компания Chase Manhattan, однажды получила неверное значение для среднего баланса нескольких клиентов, пользующихся кредитными карточками. Причина оказалась в том, что данные были некорректно переданы. Неправильная сортировка файлов привела к тому, что в качестве прогнозирующего параметра, определяющего интерес клиентов к планируемой маркетинговой кампании, были выбраны идентификаторы клиентов. Конечно, такой результат не имел никакого смысла.

4.5 Несоответствие результатов прогнозирования реальной ситуации

Есть одна сложнейшая задача, вставшая перед DM, которую многие эксперты считают неразрешимой, и которая оправдывает тот скептицизм, который часто слышен в адрес этой ниши рынка. Средства DM хорошо прогнозируют поведение потребителя на основе данных за прошлые периоды, то есть дают информацию о том, что человек, исходя из его предыдущих приобретений, демографических данных и других параметров, захочет купить с наибольшей вероятностью. Но, по мнению критиков, DM никогда четко не предскажет, что же человек захочет купить на самом деле.

Пример. DM-приложение может определить, что 34-х летная домохозяйка, имеющая двоих детей, вероятнее всего каждые три года в ближайшее десятилетие будет покупать отдельную микроволновую печку. Но такое ПО не может определить, что именно эта клиентка скорее купила бы более дорогую печь, где комбинируются микроволновый и конвекционный режимы, если бы та подошла ее по цене.

4.6 Конфиденциальность

Это одно из самых существенных возражений против DM. Сам по себе аналитический DM-процесс применяется к накопленным анонимным данным, при этом выявляются возможности использования, тенденции приобретения и десятки, если не сотни, других факторов. Но вот выполнение следующего этапа обработки данных — попытка связать их с характером поведения конкретного клиента, чтобы извлечь некий личный опыт взаимодействия с этим человеком, — вызывает настороженность среди сторонников прав на неприкосновенность частной жизни. Защитники конфиденциальности говорят о том, как важно быть честными с клиентами и сообщать им о собираемых данных и целях их использования.

Директивы кажутся простыми, но на практике их реализация сложна. В целом они звучат так.

Директивы:

  • Сообщить людям, какие собираются данные и как планируется их использовать.
  • Дать возможность эту информацию о себе не указывать.
  • Обеспечить просмотр и корректировку личных сведений.

Именно таким, самым трудным путем, решили пойти поставщики ПО для DM, пропагандируя возможность клиентов выполнять директивы.

4.7 Использование специальной БД - базы данных

Обычно поставщики DM продуктов требуют использования дорогой специализированной БД, витрины данных или аналитического сервера, которые позволят исследовать информацию, прежде всего потому, что для эффективной обработки необходимо привести данные к некоему специальному формату.

Чтобы максимально использовать мощность масштабируемых инструментов DM коммерческого уровня, предприятию необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию, добытую из внешних источников и установить специальную среду для работы DM алгоритмов.

4.8 Высокая стоимость

Хорошая DM программа обходится в сумму от 500 тыс. до 1,5 млн. долл., которая необходима на программное, аппаратное обеспечение и техническую поддержку. Вкладывая средства в такой проект, необходимо убедиться, что эффективность инвестиций будет достаточно высокой. Неплохой проверкой является небольшой DM-проект (от 100 тыс. до 200 тыс. долл.), который позволит выяснить, достаточно ли того объема и качества данных, которые имеются в наличии, чтобы сделать DM полезным для предприятия.

Несмотря на множество рассмотренных недостатков и проблем, связанных с DM, всё больше и больше программных продуктов этого класса находят свое применение. Конкурентные преимущества, которые дает DM, не позволяют игнорировать эту технологию. Но, чтобы получить полезные результаты требуются детальные знания данных и длительные проверки методом «проб и ошибок».

Очевидно, что идея, лежащая в основе этой технологии, имеют массу плюсов. А критики заслуживают отдельные методы ее реализации.

СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ

  1. Itstan.ru [Электронный ресурс]: Data Mining (DM) Интеллектуальный анализ данных. URL: http://www.itstan.ru/it-i-is/data-mining-dm-intellektualnyj-analiz-dannyh.html (дата обращения: 22.06.2020).
  2. Itstan.ru [Электронный ресурс]: Проблемы, связанные с использованием Data Mining DM – Технологии. URL: http://www.itstan.ru/it-i-is/problemy-svjazannye-s-ispolzovaniem-data-mining-dm-tehnologii.html (дата обращения: 22.06.2020).
  3. Studme.org [Электронный ресурс]: Средства Data Mining. URL: https://studme.org/148601108820/informatika/sredstva_data_mining (дата обращения: 22.06.2020).
  4. АСУ – Аналитика, системы принятия решений [Электронный ресурс]: Обзор методов Data Mining. URL: http://asu-analitika.ru/obzor-metodov-data-mining (дата обращения: 22.06.2020).
  5. Big Data, Школа больших данных [Электронный ресурс]: CRISP – DM. URL: https://www.bigdataschool.ru/wiki/crisp-dm (дата обращения: 22.06.2020).