Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

.Информационно-аналитические системы на базе OLAP-технологий

Содержание:

Введение

Часто в компаниях существует несколько информационных систем – системы складского учета, бухгалтерские системы, ERP системы для автоматизации отдельных производственных процессов, системы сбора отчетности с подразделений компании, а также множество информации, хранящейся в виде файлов, которые расположены на компьютерах сотрудников.

Более 33% отечественных топ-менеджеров к перспективным информационным технологиям, предназначенным для решения инновационных задач, относят сбор и анализ информации. Предполагая с их помощью «ускорить решение таких задач, как прогнозирование тенденций и выявление изменений в поведении и в требованиях клиентов» [2].

Имея несколько разрозненных источников информации, часто бывает очень сложно получить ответы на ключевые вопросы деятельности компании и увидеть общую картину. А когда нужная информация все же находится в одной из используемых систем или локальном файле, то она часто оказывается устаревшей или противоречит информации, полученной из другой системы.

Получение аналитической отчётности в информационных системах, основанных на традиционных базах данных сопряжено с рядом ограничений:

  • разработка каждого отчёта требует времени и ресурсов;
  • отчёты формируются очень медленно, замедляя при этом работу всей информационной системы;
  • данные, получаемые от различных структурных элементов компании не унифицированы и часто противоречивы;

Данная проблема эффективно решается с помощью информационно-аналитических систем, построенных на базе OLAP-технологий.

Актуальность OLAP-технологий обусловлена их практической значимостью для анализа больших объемов данных, позволяющие преодолеть ограничения традиционных информационных систем. В связи с этим имеется проблема выбора оптимальных схем хранения и обработки OLAP данных [1].

Целью данного реферата является классификация OLAP-систем по различным критериям. Реализация поставленной цели обусловила необходимость решения следующих задач:

  • определить понятие OLAP-технологии;
  • рассмотреть 12 определяющих признаков OLAP;
  • рассмотреть классификацию OLAP-технологий;
  • выявить достоинства и недостатки каждого из предложенных типов OLAP;
  • выявить основный преимущества OLAP-систем.

Предметом исследования является аналитическая обработка данных.

Объектом исследования являются OLAP-технологии.

Реферат состоит из введения, двух глав и заключения. В первой главе рассматривается определение понятия OLAP-технологии, 12 признаков OLAP, FASMI. Во второй главе описывается классификация OLAP-технологий. В третьей главе описываются основные преимущества OLAP-cистем. В четверной главе описываются недостатки OLAP-систем.

Исследования по данной теме были обнаружены в работах следующих авторов: Codd E.F., Codd S.B., Salley C.T., Celko Joe, Rob Mattison, S. Bimonte, A. Tchounikine, M. Miquel, Кудрявцев Ю.А., Erik Thomsen, Барсегян А.А., Куприянов М.С., Степаненко В.В. Паклин Н.Б., Орешков В.И. и других.

Термины и определения

Термин

Определение

Гибкий анализ данных (Ad hoc analysis)

Совокупность методов для построения новых или изменения сделанных ранее запросов к БД. Конечные пользователи имеют возможность делать запросы и анализировать данные, не программируя отдельных операций.

Объединение

Операция по вычислению значений, связанных с родительскими позициями в иерархических измерениях. Агрегирование может быть суммированием, усреднением или каким-либо другим более сложным действием для получения вторичного, интересующего аналитика значения.

Многомерный анализ

Анализ данных,  собранных по нескольким переменным (измерениям).

Измерение

Список значений, принадлежащих к одному и тому же типу данных с точки зрения пользователя. Например, дни, месяцы, кварталы и годы с точки зрения пользователя относятся к одному и тому же типу "Время". Понятие измерений позволяет интуитивно понятно организовать работу человека с данными.

FASMI (Fast Analysis of Shared Multidimensional Information)

Быстрый анализ разделяемой многомерной информации. Определяет принадлежность продукта к категории OLAP.

Гибридный OLAP (Hybrid OLAP)

Агрегатные структуры хранит в многомерном хранилище, сами данные в реляционной базе данных.

Гиперкуб

Многомерная конструкция, предназначенная для хранения данных Каждая ячейка (cell) определена отдельным элементом из каждого измерения (dimension).

Многомерный OLAP (Multidimensional OLAP).

Определяет многомерность некой структуры данных, подразумевает наличие трех или более независимых измерений.

Многомерная структура данных

Структура данных, имеющая не меньше трех независимых измерений.

Оперативная аналитическая обработка (данных), OLAP (On-Line Analytical Processing)

Категория приложений и технологий, которые обеспечивают сбор, хранение, манипулирование и анализ многомерных данных. Анализируемая информация представляется в виде многомерных кубов, где измерениями служат показатели исследуемого процесса, а в ячейках содержатся агрегированные данные.

Оперативная обработка транзакций (On-Line Transaction Processing)

Включает ввод, структурированное хранение и обработку оперативной информации (операций, документов) в режиме реального времени.

Вращение данных

Преобразования столбцов таблицы данных в строки и наоборот.

Реляционный OLAP (Relational OLAP)

Программный продукт предназначен для многомерного анализа данных, метаданных и вычисленных агрегатов. Для физической реализации многомерной модели данных используется реляционный сервер баз данных. Многомерная обработка данных выполняется либо на сервере реляционной базы данных, либо на сервере промежуточного уровня, либо на стороне клиента.

Срез

Выборка данных из многомерного куба таким образом, представляющая собой двумерную проекцию куба.

Продольные и поперечные, плоскостные и объемные срезы, с английского – Slice and Dice

Выборка данных из многомерного куба с заданными значениями и заданным взаимным расположением измерений.

Витрина данных

Специализированое локальное тематическое хранилище, подключенное к централизованному хранилищу данных и обслуживающее отдельное подразделение организации или определенное направление ее деятельности

1.Информационно-аналитические системы на базе OLAP-технологий

OLAP (от англ. OnLine Analytical Processing — оперативная аналитическая обработка данных) — подход к аналитической обработке данных, базирующийся на их многомерно-иерархическом представлении, являющийся частью более широкой области информационных технологий — бизнес-аналитики [3]. «12 законов аналитической обработки в реальном времени» OLAP были сформулированы в 1993 г. Е. Ф. Коддом.

Таблица 1 – 12 определяющих принципов OLAP

Принцип

Описание

1

Многомерное представление данных

Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные.

2

Прозрачность

Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда они берутся.

3

Доступность

Средства должны сами выбирать и связываться с наилучшим для формирования ответа на данный запрос источником данных. Средства должны обеспечивать автоматическое отображение их собственной логической схемы в различные гетерогенные источники данных.

4

Согласованная производительность

Производительность практически не должна зависеть от количества Измерений в запросе.

5

Поддержка архитектуры клиент-сервер

Средства должны работать в архитектуре клиент-сервер.

6

Равноправность всех измерений

Ни одно из измерений не должно быть базовым, все они должны быть равноправными (симметричными).

7

Динамическая обработка разреженных матриц

Неопределенные значения должны храниться и обрабатываться наиболее эффективным способом.

8

Поддержка многопользовательского режима работы с данными

Средства должны обеспечивать возможность работать более чем одному пользователю.

9

Поддержка операций на основе различных измерений

Все многомерные операции (например Агрегация) должны единообразно и согласованно применяться к любому числу любых измерений.

10

Простота манипулирования данными

Средства должны иметь максимально удобный, естественный и комфортный пользовательский интерфейс.

11

Развитые средства представления данных

Средства должны поддерживать различные способы визуализации (представления) данных.

12

Неограниченное число измерений и уровней агрегации данных

Не должно быть ограничений на число поддерживаемых Измерений.

Термин OLAP, предложенный Эдгаром Коддом (Edgar Codd) для разграничения таких систем с OLTP-системами (от англ. OnLine Transaction Processing — обработка транзакций в реальном времени), некоторые эксперты считают слишком широким. Поэтому Найджел Пендс (Nigel Pendse) предложил использовать для описания этой концепции и взамен предложенных Коддом 12-ти правил OLAP так называемый тест FASMI (от англ. Fast Analysis of Shared Multidimensional Information — быстрый анализ доступной многомерной информации), более точно характеризующую требования к этим системам.

Fast (быстрый) отражает упомянутое выше требование к скорости реакции системы. По Пендсу, интервалы с момента инициации запроса до получения результата должен измеряться секундами. Важность этого требования возрастает при использовании таких систем в качестве инструмента оперативного представления данных для аналитика, так как длительное время ожидания может пагубно влиять на цепочку рассуждений аналитика.

Analysis (анализ) предполагает приспособленность системы к использованию в релевантной для задачи и пользователя бизнес-логике с сохранением доступной «обычному» пользователю легкости оперирования данными без использования низкоуровневого специального инструментария.

Shared (доступность, общедоступность) описывает очевидное требование к возможности одновременного многопользовательского доступа к информации с интегрированной системой разграничения прав доступа вплоть до уровня конкретной ячейки данных.

Multidimensional (многомерность) является ключевым требованием концепции. Предполагается, что система должна обеспечивать полную поддержку многомерного иерархического представления как «наиболее логичного пути анализа бизнеса и организаций». Отметим, что многомерность указывает на модель концептуального представления данных, то есть на то, как пользователь должен представлять организацию данных при формулировании запросов, а не на то, в каких структурах хранятся данные физически.

Сущность многомерного представления данных состоит в следующем. Большинство бизнес-процессов описываются множеством показателей, свойств, атрибутов и т.д. Например, для описания процесса продаж могут понадобиться сведения о наименованиях товаров или их групп, о поставщике и покупателе, о городе, где производились продажи, а также о ценах, количествах проданных товаров и общих суммах. Кроме того, для отслеживания процесса во времени должен быть введен такой атрибут, как дата. Если собрать всю эту информацию в таблицу, то она окажется сложной для анализа. Более того, она может оказаться избыточной. Указанные проблемы возникают по причине того, что в плоской таблице хранятся многомерные данные. Доказано, что реляционная модель не является оптимальной с точки зрения задач анализа данных, поскольку предполагает высокую степень нормализации, в результате чего снижается скорость выполнения запросов. Поэтому разработку многомерной модели представления данных следует реализовывать с помощью многомерных кубов.

Многомерность в рамках OLAP предполагает концептуальное представление данных в виде многомерной структуры данных — гиперкуба (OLAP-куба), рёбрами в котором выступают измерения (dimension), например, Дата, Покупатель, Время, а данные (facts — факты; measures —меры, показатели) – даты, наименования товаров, ФИО покупателей и т.д., расположены на пересечении осей измерений [интуит].

В такой системе каждому набору значений измерений будет соответствовать ячейка, в которой можно разместить числовые показатели (то есть факты), связанные с данным набором. Таким образом, между объектами бизнес-процесса и их числовыми характеристиками будет установлена однозначная связь. [4] Принцип организации многомерного куба представлен на рисунке 1:

Рисунок 1 - Принцип организации многомерного куба

В ячейке 1 располагаются факты, относящиеся к продаже цемента ООО «Спецстрой» 3 ноября, в ячейке 2 – к продаже плит ЗАО «Пирамида» 6 ноября, в ячейке 3 – к продаже плит ООО «Спецстрой» 4 ноября.

Многомерный взгляд на измерения Дата, Товар и Покупатель представлен на рисунке 2:

Рисунок 2 - Измерения и факты в многомерном кубе

Фактами в данном случае являются Цена, Количество, Сумма. Тогда выделенный сегмент содержит информацию о том, сколько плит, на какую сумма и по какой цене приобрела фирма ЗАО «Строитель» 3 ноября.

В процессе поиска и извлечения из гиперкуба нужной информации над его измерениями производится ряд действий, наиболее типичными из которых являются:

  • сечение (срез);
  • транспонирование;
  • свертка;
  • детализация.

Сечение заключается в выделении подмножества ячеек гиперкуба при фиксировании значения одного или нескольких измерений. В результате сечения получается срез или несколько срезов, каждый з который содержит информацию, связанную со значением измерения, по которому он был построен. Манипулируя сечениями гиперкуба всегда можно сформироваться кросс-таблицу и с ее помощью очень быстро будет получен необходимый отчет [4]. На рисунке 3 схематично представлены сечения гиперкуба:

Рисунок 3 - Сечения гиперкуба

Слева сечение при некотором фиксированном значении измерения Дата. Полученный срез содержит информацию обо всех товарах и всех покупателях на определенную дату. На правом фрагменте рисунка получено два среза, пересечение которых содержит информацию обо всех покупателях, но на определенный товар и на определенную дату.

Транспонирование (вращение) обычно применяется к плоским таблицам, полученным в результате среза, и позволяет изменить порядок представления измерений таким образом, что измерения, отображавшиеся в столбцах, будут отображаться в строках, и наоборот.

Операции свертки (группировки) и детализации (декомпозиции) возможны только тогда, когда имеет место иерархическая подчиненность значений измерений. При свертке одно или несколько подчиненных значений измерений заменяются теми значениями, которым они подчинены. Пример свертки могут быть представлены в таблицах 2,3:

Таблица 2 - Исходная таблица

Группа

Товар

Сумма

Стройматериалы

Кирпич

22000

Цемент

12000

Керамзит

4500

Доска

7400

Инструмент

Отвертка

1200

Электропила

7600

Дрель

2450

Шпатель

780

Таблица 3 - Результат свертки исходной таблицы по измерению «Товар»

Группа

Сумма

Стройматериалы

45900

Инструмент

12030

Детализация – это процедура обратная свертке, уровень обобщения данных уменьшается. При этом значения измерений более высокого иерархического уровня заменяются одном или несколькими значениями более низкого уровня, то есть вместо наименований групп товаров отображаются наименования отдельных товаров.

Использование многомерной модели данных сопряжено с определёнными трудностями. Так для реализации требуется большой объем памяти. Это связано с тем, что при реализации физической многомерности используется большое количество технической информации, поэтому объем данных, который будет поддерживаться многомерным хранилищем данных обычно не превышает несколько десятков гигабайт. Кроме того, многомерная структура труднее поддается модификации, при необходимости встроить еще одно измерение требуется выполнить физическую перестройку всего многомерного куба. На основании этого можно сделать вывод, что применение систем хранения, в основе которых лежит многомерное представление данных, целесообразно только в тех случаях, когда объем используемых данных сравнительно велик, а сама многомерная модель имеет стабильный набор измерений[4].

В данном разделе рассмотрены общие принципы построения систем многомерного экспресс анализа данных, построенные на основе OLAP-продуктов. 

Также рассмотрены определения и основные особенности OLAP-технологии. Представлены 12 определяющих принципов OLAP и тест FASMI. Описано многомерное представление данных, а также способы представления многомерных данных в двумерной плоскости.

2. Архитектура OLAP-систем

На архитектуру конкретных OLAP-систем оказывают влияние несколько факторов. Среди них — взаимодействие с источниками данных, особенности организации хранения данных в самой OLAP-системе и подход к обработке данных в ней.

На рисунке представлена архитектура OLAP-систем:

Рисунок 4 - Архитектура OLAP-систем

Слой извлечения, преобразования и загрузки данных включает организационные подразделения и структуры организации всех уровней, поддерживающие базы данных оперативного доступа.

Он представляет собой самый низкий уровень генерации информации, уровень внутренних и внешних информационных источников, вырабатывающих первоначальную информацию.

Эта информация является рабочей для повседневной деятельности различных подразделений, которые ее вырабатывают и используют.

Загрузка данных из источников в хранилище осуществляется специальными процедурами, позволяющими:

  1. извлекать данные из различных баз данных, текстовых файлов;
  2. выполнять различные типы согласования и очистки данных;
  3. преобразовывать данные при перемещении их от источников к хранилищу;
  4. загружать согласованные и "очищенные" данные в структуры хранилища

Слой хранения данных предназначен для хранения значимой, проверенной, согласованной, непротиворечивой и хронологически целостной информации, которую с достаточно высокой степенью уверенности можно считать достоверной.

Слой реализован в виде хранилища данных (ХД) или витрины данных (ВД). Как правило, ХД или ВД реализуется в виде реляционной БД, работающей под управлением достаточно мощной реляционной СУБД.

Слой анализа данных предназначен для организации доступа аналитиков к данным ХД и ВД, используя специализированные рабочие места, поддерживающие необходимые технологии как оперативного, так и долговременного анализа. Результаты работы аналитиков оформляются в виде отчетов, графиков, рекомендаций и сохраняются как на локальном компьютере, так и в общедоступном узле локальной сети.

Современный подход к инструментальным средствам анализа не ограничивается использованием какой-то одной технологии. В настоящее время принято различать следующие основные вида аналитической деятельности:

  • стандартная отчетность;
  • нерегламентированные запросы;
  • многомерный анализ (OLAP);
  • извлечение знаний (data mining).

3. Классификация аналитических систем

Для обозначения аналитических технологий и средств в целом принято использовать термин "Business Intelligence" или, сокращенно, - BI. Понятие BI объединяет различные средства и технологии анализа и обработки данных масштаба предприятия. На их основе создаются BI-системы. Их цель - повысить качество информации для принятия управленческих решений. BI-системы больше известны под названием Систем Поддержки Принятия Решений (СППР, DSS, Decision Support System). В качестве синонимов понятия "СППР" оперируют также понятиями "аналитическая система" или "управленческая система".

По оценкам IDC рынок BI состоит из 5 сегментов:

  • OLAP-продукты,
  • инструменты добычи данных,
  • средства построения Хранилищ и Витрин данных,
  • управленческие информационные системы и приложения,
  • инструменты конечного пользователя для выполнения запросов и построения отчетов.

Рассмотрим более подробно каждый сегмент.

3.1 Классификация OLAP-систем

OLAP системы можно классифицировать по следующим параметрам:

  • по способу организации данных в многомерных кубах;
  • по способу хранения на физическом уровне;
  • по месту нахождения OLAP машины, рассчитывающей многомерные кубы;
  • по степени готовности к применению для конечного пользователя.

В различных OLAP системах используются два основных варианта организации данных [5]: гиперкубическая и поликубическая модели. В гиперкубической модели все показатели должны определяться одним и тем же набором измерений. Поликубическая модель предполагает, что в БД определяется несколько гиперкубов с различной размерностью и с различными измерениями в качестве их граней.

Как исходные, так и агрегированные данные могут храниться либо в реляционных, либо в многомерных структурах. Применяются три способа хранения данных на физическом уровне [5].

3.1.1 Классификация по способу организации данных в многомерных кубах

ROLAP, Relational OLAP – реляционный OLAP

В реляционных OLAP-системах структура куба данных хранится в реляционной базе данных.

Исходные данные остаются в той же реляционной базе данных, где они изначально и находились. Агрегированные данные помещают в специально созданные для их хранения служебные таблицы в той же базе данных. Серверы ROLAP наследуют возможности масштабирования и работы с транзакциями реляционных систем, однако существенные различия между запросами в стиле OLAP и SQL являются причиной низкой производительности. Достоинства и недостатки ROLAP архитектуры приведены в таблице 4:

Таблица 4 - Достоинства и недостатки ROLAP систем

Достоинства

Недостатки

Развитые средства администрирования; хорошая масштабируемость

Для сложных запросов SQL не является оптимальным.

Функциональность систем ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки;

Высокий уровень защиты данных и разграничения прав доступа

Неодинаковое время выполнения запроса для различных измерений

Возможность использования ROLAP с хранилищами данных и различными OLTP-системами

Сложно пересчитывать агрегированные значения при изменениях начальных данных

Возможность манипулирования большими объемами данных; объем данных могут ограничивать только лежащие в основе ROLAP системы реляционных баз данных

Ограниченные возможности с точки зрения расчета значений функционального типа.

В случае переменной размерности задачи ROLAP не требуют физической реорганизации БД, как в случае MOLAP.

Меньшая производительность, чем у MOLAP.

Системы ROLAP могут функционировать на гораздо менее мощных клиентских станциях, чем системы MOLAP.

Инструменты ROLAP позволяют производить анализ непосредственно над хранилищем данных.

MOLAP, Multidimensional OLAP – многомерный OLAP

Исходные и агрегированные данные хранятся в многомерных структрурах. MOLAP напрямую поддерживает многомерные представления данных с помощью многомерного механизма хранения. Скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной, так как многомерные данные полностью содержат исходные реляционные данные. Достоинства и недостатки MOLAP архитектуры приведены в таблице 5.

Таблица 5 – Достоинства и недостатки MOLAP систем

Достоинства

Недостатки

Все данные хранятся в многомерных структурах, что существенно повышает скорость обработки запросов

Низкий коэффициент использования дискового пространства, особенно в случае разреженных данных

Доступны расширенные библиотеки для сложных функций оперативного анализа

Необходимы специальные инструменты для формирования кубов и их пересчёта в случае изменения базовых значений

Многомерные запросы путем непосредственного доступа к ячейкам гиперкуба

Сложно изменять измерения без повторной агрегации

Структура и интерфейсы наилучшим образом соответствуют структуре аналитических запросов.

MOLAP могут работать только со своими собственными многомерными БД и основываются на патентованных технологиях для многомерных СУБД, поэтому являются наиболее дорогими.

Многомерные СУБД легко справляются с задачами включения в информационную модель разнообразных встроенных функций.

По сравнению с реляционными, очень неэффективно используют внешнюю память, обладают худшими по сравнению с реляционными БД механизмами транзакций.

Отсутствуют единые стандарты на интерфейс, языки описания и манипулирования данными.

Не поддерживают репликацию данных, часто используемую в качестве механизма загрузки.

HOLAP, Hybrid OLAP – гибридный OLAP

В гибридных OLAP сочетаются черты ROLAP и MOLAP, отсюда и название – гибридный. В моделях HOLAP используются преимущества и минимизируются недостатки обеих архитектур.

Гибридная архитектура, которая объединяет технологии ROLAP и MOLAP. HOLAP могут работать в двух режимах: вертикальной декомпозиции и горизонтальной декомпозиции [5, 7]. В первом случае HOLAP системы применяют ROLAP подход для разреженных областей многомерного пространства (исходные данные) и MOLAP – подход для плотных областей (агрегированные данные). При горизонтальной декомпозиции применяют MOLAP подход для оперативных данных и ROLAP подход – для исторических.

К достоинствам подхода можно отнести комбинирование технологии ROLAP для разреженных данных и MOLAP для плотных областей, а к недостаткам – необходимость поддерживания MOLAP и ROLAP.

3.1.2 Классификация по месту нахождения

По месту нахождения OLAP машины выделяют клиентский OLAP (DOLAP – Desktop OLAP) и серверный OLAP. В случае DOLAP сервер отправляет клиенту исходные данные, клиент выполняет расчет многомерных кубов и выдает результаты пользователю. В случае серверного OLAP сервер выполняет расчет многомерных кубов и отправляет клиенту конечный результат, клиент выдает принятый результат пользователю.

DOLAP является одноуровневой технологией OLAP. В данной архитектуре OLAP можно скачать относительно небольшие кубы данных из центральной точки (витрины или хранилища данных) и выполнять многомерный анализ, отключившись от этого ресурса [1].

Достоинства подхода DOLAP:

  • дружественный (user friendly) подход для манипулирования данными в локальном режиме;
  • высокая скорость обработки запросов;
  • низкая стомость;
  • удобный инструмент для пользователей, которые не могут постоянно поддерживать соединение с хранилищем данных;
  • наиболее простое развертывание продуктов из всех подходов к организации OLAP [1].

Недостатки:

  • ограниченная функциональность;
  • ограничение на объем данных.

3.1.3 Классификация по степени готовности к применению

По степени готовности к применению OLAP продукты делятся на две категории [1, 5]:

  • OLAP компонента – это инструмент разработчика. С её помощью разрабатываются клиентские OLAP программы. MOLAP компоненты являются инструментами генерации запросов к серверу. Одна из наиболее доступных компонент – Decision Cube в составе Borland C++ Builder [15].
  • Инструментальные OLAP системы – это программные продукты, предназначенные для создания аналитических приложений. Различают две категории инструментальных систем: системы для программирования и системы для быстрой настройки.
  • Конечные OLAP-приложения - это готовые прикладные решения для конечного пользователя. Они требуют только установки, и, не всегда, настройки под специфику пользователя. Пример такого решения - OLAP-приложения системы "Контур Стандарт", подготовленные для анализа данных в различных отраслях и для решения различных аналитических задач.

3.2 Классификация инструментов добычи данных

Knowledge Discovery in Databases (KDD)- это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов "раскапывания данных" (Data Mining), а также обработки и интерпретации полученных результатов.

Центральным элементом этой технологии являются методы Data Mining, позволяющие обнаруживать знания при помощи математических правил:

  • Фильтрация. Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа.
  • Деревья решений. Они позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если... то...". Деревья решений применяются при решении задач поиска оптимальных решений на основе описанной модели поведения.
  • Ассоциативные правила. Они позволяют находить закономерности между связанными событиями. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью C. Впервые это задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).
  • Генетические алгоритмы. Они применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Генетические алгоритмы нужны для настройки нейронных сетей, а также решения различных задач, когда можно составить описание возможных вариантов решения в виде вектора параметров, и известен критерий, определяющий эффективность каждого варианта. Генетические алгоритмы применяются для составления расписаний, портфелей ценных бумаг, заполнения контейнеров при перевозке (пересылке) грузов, выбор маршрутов движения, конфигурации оборудования и т.д.
  • Нейронные сети. Они реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных. Нейронные сети применяются для решения самых различных задач - восстановление пропусков в данных, поиск закономерностей, классификация и кластеризация данных, прогнозирование и моделирование.

Инструменты добычи данных поставляются заказчикам двумя способами:

  • в составе OLAP-систем,
  • в виде самостоятельных систем Data Mining.

Функциональность Data Mining в той или иной степени полноты реализации включена в аналитические системы различных производителей - Oracle, Hyperion, SAS и т.д. Однако, наиболее "продвинутыми" в этом плане являются специализированные системы математического анализа данных. В России авторитетным разработчиком систем в технологии KDD является компания "Лаборатория BaseGroup".

3.3 Классификация средств построения Хранилищ и Витрин данных

Хранилища и Витрины данных создаются с применением специализированных средств построения Хранилищ\витрин данных. К этим средствам относятся:

  • средства проектирования Хранилищ данных,
  • средства извлечения, преобразования и загрузки данных,
  • готовые предметно-ориентированные ХД.

Средства проектирования Хранилищ данных входят в состав реляционных и многомерных СУБД от таких производителей как Microsoft, Oracle, IBM, Sybase и других. Также часто применяются универсальные CASE-инструменты, такие как BPWin и ErWin. После описания структур хранения данных специальными системными утилитами выполняется их генерация. Такой подход к созданию Хранилища данных позволяет построить индивидуальное Хранилище или Витрину данных в сжатые сроки. В тоже время такой подход затрудняет перенос наработок от одного заказчика к другому и обмен практическим опытом в решении аналитических задач.

Альтернативным способом построения Хранилищ данных является применение других специализированных средств - Студий для построения Хранилищ данных. Такие продукты предлагают набор шаблонов и заготовок для быстрого создания Хранилища. В составе Студии может предоставляться базовая модель Хранилища данных, ориентированная на определенную бизнес-сферу. С помощью таких инструментов можно значительно быстрее создать Хранилище данных, воспользовавшись опытом предыдущих решений и начать его эксплуатацию.

ETL-средства (extraction, transformation, loading) - средства извлечения, преобразования и загрузки данных) обеспечивают три основных процесса, используемые при переносе данных из одного приложения или системы в другие. ETL-средства извлекают информацию из исходной базы данных, преобразуют ее в формат, поддерживаемый базой данных назначения, а затем загружают в нее преобразованную информацию. Эти средства обычно входят в состав функциональности реляционных и многомерных СУБД или Студий для построения Хранилищ данных. Однако существуют и специализированные системы, реализующие только ETL-функции. Классической ETL-системой является, например, продукт Ascential DataStage компании Ascential Software.

И, наконец, существует еще один способ построения Хранилищ и Витрин данных - это применение готовых предметно-ориентированных Хранилищ данных. Это самый надежный способ построить Хранилище данных в сжатые сроки. Готовые к эксплуатации Хранилища данных характеризуются наличием в них механизмов средств построения Хранилищ/Витрин данных, взаимосвязанных посредством единого словаря метаданных. К ним относятся - процедуры извлечения, преобразования, очистки и загрузки данных, функции генерации баз данных и процедур обработки, механизмы построения выборок данных, интерфейсы просмотра и анализа данных. Ограничением в применении готовых Хранилищ данных является их предметная ориентация. Например, финансовое Хранилище данных невозможно применить для решения задач оптимизации химического производства. Примером готового предметно-ориентированного Хранилища данных является система Контур Корпорация от компании Intersoft Lab. Применение предметно-ориентированных Хранилищ данных отражает общемировую тенденцию развития рынка BI, наметившуюся в последнее время - предоставления платформ для "быстрой" разработки аналитических приложений [5].

3.4 Классификация управленческих информационных систем и приложений

Существует еще один очень разносторонний класс аналитических систем. Это - конечные решения для управленцев и аналитиков. Исторически сложилось так, что технологическая основа реализации таких систем существенно различается. Одни из них построены на современных аналитических инструментах, другие - с применением базовых информационных технологий. Чтобы легче ориентироваться в этих системах вводится 3 классификации [5]:

  • по виду решаемой задачи,
  • по масштабу решаемой задачи,
  • по технологическому построению.

Аналитические системы классифицируются по виду задач, решаемых с их помощью. Среди видов задач можно выделить:

  • Анализ финансового состояния банка или предприятия, выполняемый по внешним публичным данным, таким как баланс, отчет о финансовых результатах, иногда - приложение к балансу и отчет о движении денежных средств. Системы - Audit Expert (Про-Инвест), Альт-финансы (Альт), АБФИ (Вестона), Аналитик, АФСП, АДП (ИНЭК) и другие.
  • Инвестиционный анализ - для комплексной оценки эффективности инвестиционных проектов и принятия решения об их финансировании, Project Expert (Про-Инвест), Альт-Инвест (Альт) и другие.
  • Подготовка бизнес-планов, учитывающих вариации схем производства, сбыта и финансирования, комплексного анализа маркетинговой ситуации, чувствительности проекта по основным параметрам. Системы - Project Expert (Про-Инвест), Альт-Инвест (Альт) и другие.
  • Маркетинговый анализ, позволяющий оценить положение компании на рынке, провести сравнительный анализ ее сбытовой деятельности с конкурентами, сформировать оптимальную структуру сбыта, определить доходность различных сегментов рынка и товаров, долю рынка компании, темпы роста и другое. Системы - Marketing Expert (Про-Инвест), Касатка и другие.
  • Управление проектами, применяемое для разработки расписания исполнения проекта, определения критического пути и резервов времени исполнения операций проекта; потребности проекта в финансировании, материалах и оборудовании, анализ рисков и планирование расписания с учетом рисков и так далее. Системы - MS Project (Microsoft), Open Plan (Welcom Software Technology) и другие.
  • Бюджетирование, обеспечивающее планирование, учет и анализ по центрам финансовой ответственности, бизнесам, продуктам в разрезе активов и пассивов, доходов и расходов, выполнение аллокаций и расчет финансового результата. Системы - Hyperion Pillar, Comshare MPC, Контур Корпорация.Бюджет (Intersoft Lab) и другие.
  • Финансовое управление, включающее помимо задач бюджетирования задачи финансового планирования, управленческого учета, трансфертного управления ресурсами, оценки бизнесов по методу ABC, анализа активов, пассивов, рисков. Системы - Oracle Financial Services Applications (Oracle), Контур Корпорация. Финансовое управление (Intersoft Lab) и другие. На практике встречается гораздо больше видов задач, но здесь был перечислен ряд только тех задач, которые нашли свое воплощение в тиражных аналитических системах. Некоторые из этих систем могут решать только одну задачу, другие являются комплексом, включающим в себя широкий перечень взаимосвязанных задач.

Аналитические системы также классифицируются по масштабу решаемой задачи:

  • Системы автоматизации труда одного специалиста. Это так называемые DeskTop-системы, предназначенные для автоматизации труда узкого специалиста. Как правило, для эксплуатации таких систем не требуется помощь службы автоматизации.
  • Системы для коллективной работы группы сотрудников. Такие системы содержат средства, обеспечивающие коллективную работу пользователей в режиме реального времени с единой базой данных в рамках прав доступа. Такие системы уже требуют выполнения функций администрирования и сопровождения.
  • Системы для применения в территориально распределенной корпорации. Эти системы включают в себя свойства аналитических систем для групп пользователей, а также средства взаимодействия с удаленными подразделениями корпорации (филиалами) в виде технологий сбора данных, дистрибуции НСИ и отчетов. Системы данного класса сложны в эксплуатации, но при этом обеспечивают наиболее полное решение аналитических и управленческих задач.

По технологическому построению аналитические системы можно условно разделить на монолитные и настраиваемые:

  • Монолитные аналитические системы характеризуются тем, что аналитическая методика в них реализуется в коде самой программы, а не в виде настройки универсального аналитического инструмента. В этом случае аналитическая система не требует, как правило, выполнения существенных работ по своей настройке (за исключением систем класса Data Mining). Она может использоваться практически сразу после установки. В то же время такие системы не "гибкие" и плохо поддаются изменениям в соответствии в требованиями пользователя. Монолитные системы разрабатываются с применением базовых средств программирования и СУБД.
  • Настраиваемые аналитические системы характеризуются тем, что при их создании применяются универсальные аналитические инструменты и специализированные средства, такие как OLAP, Студии, ETL, Data Mining. Их применение позволяет повысить качество аналитической системы, дает перспективы развития, но в то же время приводит к удорожанию конечного решения. Прикладные аналитические системы, выполненные в виде настроек универсальных аналитических инструментов, требуют большего объема работ при внедрении, однако позволяют реализовывать уникальные аналитические методики, принятые в организации.

Компромиссом между этими двумя классами систем является реализация аналитической методики в виде Приложения универсальной аналитической системы. Такой подход позволяет выполнять их тиражирование независимо друг от друга. Но подобных систем в настоящее время на рынке представлено крайне мало.

3.5 Инструменты конечного пользователя для выполнения запросов и построения отчетов

Системы данного класса (Query & Reporting) предназначены для формирования запросов к информационным системам в пользовательских терминах, а также их исполнение, интеграцию данных из разных источников, просмотр данных с возможностями детализации и обобщения и построение полноценных отчетов, как экранных, так и печатных. Предполагается, что уровень подготовки специалиста, создающего отчеты, может быть приравнен к опыту среднего пользователя Excel. Поэтому пользователь составляет запрос к источнику данных, используя заранее подготовленный программистом каталог терминов (семантический слой). Визуализация результатов запроса может быть представлена пользователю в различном виде - плоские или многомерные таблицы, графики, диаграммы, различные специализированные интерфейсы.

Инструменты конечного пользователя для выполнения запросов и построения отчетов поставляются двумя способами:

  • в составе OLAP-систем,
  • в виде специализированных систем Query & Reporting.

Практически каждая система класса OLAP снабжена средствами Query & Reporting. Эти средства могут быть как встроенными в основной продукт (примеры - Business Objects, "Контур Стандарт", Oracle Discoverer), так и выделенными в отдельный продукт (например, система Impromptu в составе продуктов Cognos).

Также существуют и специализированные системы генерации и дистрибуции отчетов. Наиболее распространенные из них - это продукты компаний Crystal Decisions и Actuate. В то же время эти системы имеют в своем составе собственные OLAP-средства. Поэтому провести четкую грань между OLAP-системами и системами класса Query & Reporting практически невозможно. Пример - продукты компании MicroStrategy, которые различные аналитики и издания с равной регулярностью относят к продуктам обоих классов [5].

3.6 Классификатор аналитических систем

Приведем полный классификатор аналитических систем, рассмотренных выше.

OLAP-продукты

Способ хранения данных

MOLAP

ROLAP

HOLAP

Место размещения OLAP-машины

OLAP-серверы

OLAP-клиенты

Степень готовности к применению

OLAP-компоненты

Инструментальные OLAP-системы

OLAP-приложения

OLAP-продукты

Метод Data Mining

Фильтрация

Деревья решений

Генетические алгоритмы

Ассоциативные правила

Нейронные сети

Способ предоставления

В составе OLAP-систем

В виде самостоятельных систем Data Mining

Средства построения Хранилищ и Витрин данных

Средства проектирования Хранилищ данных

В составе СУБД

Универсальные средства

Студии

Средства извлечения, преобразования и загрузки данных

В составе СУБД

Универсальные средства

Готовые, предметно-ориентированные ХД

Управленческие информационные системы и приложения

Виды решаемой задачи

Анализ финансового состояния

Инвестиционный анализ

Подготовка бизнес-планов

Маркетинговый анализ

Управление проектами

Бюджетирование

Финансовое управление

Масштаб решаемой задачи

Автоматизация труда одного специалиста

Для коллективной работы группы сотрудников

Для применения в территориально-распределенной корпорации

Технологическое построение

Монолитные

Настраеваемые

Инструменты конечного пользователя для выполнения запросов и построения отчетов

В составе OLAP-систем

В виде систем Query & Reporting

В данном разделе рассмотрены классификации OLAP-систем по различным критериям, приведены достоинства и недостатки каждой из представленных OLAP-систем. 

4. Основные преимущества OLAP-систем

Ключевое требование, предъявляемое к OLAP-системам — скорость, позволяющая использовать их в процессе интерактивной работы аналитика с информацией.

К преимуществам OLAP-систем можно отнести следующие:

  • предметная ориентированность означает, что в кубах собрана информация по различным аспектам деятельности организации: закупкам, продажам и т.п. Это отличает базы OLAP от оперативных БД, где данные организованы в соответствии с различными процессами, такими, как, например, оформление и выписка документов, оформление заказов и др.;
  • многопользовательский режим работы. Клиент-серверная архитектура OLAP-продуктов обеспечивает одновременный доступ большого числа пользователей. При этом анализ производится одинаково быстро по всем аспектам информации независимо от размера и сложности структуры БД;
  • прямой доступ к данным позволяет пользователю видеть сразу всю информацию, не отфильтрованную отчетами. То есть, если пользователь видит документ, например, со странной датой исполнения (например, накладная, датированная 5200 годом), то это означает, что такой документ реально существует в исходной (оперативной) базе;
  • сосредоточение необходимых данных в одном месте - это положение отражает ту особенность, что вся аналитика, например, факта продажи (контрагент, менеджер, дата, вид сделки и прочее) хранится в том же кубе и доступ к ней не требует дополнительного обращения к каким-то внешним источникам (справочникам и т.п.);
  • удобные средства доступа просмотра и анализа деловой информации. Пользователь получает интуитивно понятную модель данных, организуя их в виде многомерных кубов. Это позволяет ему проводить как сравнительный анализ показателей, так анализ различных сценариев по принципу "что-если", построенных на основе прогнозных и статистических данных компании;
  • удобная навигация по данным;
  • разнообразные инструменты для обработки данных;
  • визуализация информации;
  • On-line функционирование обеспечивают выявление ассоциаций, закономерностей, трендов, проведение классификации, обобщения или детализации, составление прогнозов, т. е. предоставляет инструмент для управления предприятием в реальном времени;
  • простота освоения и использования сводных таблиц;
  • неизменность данных позволяет формировать и в дальнейшем использовать для анализа массивы заранее обработанных данных (предвычисленные индексы), потому что OLAP-системы работают не с оперативными базами данных, а со стратегическими архивами, отличающимися низкой частотой обновления, интегрированностью, хронологичностью и предметной ориентированностью. Именно неизменность данных и позволяет вычислять их промежуточное представление, ускоряющее анализ гигантских объемов информации;
  • оперативность. В отличие от классических методов поиска запросы формируются не на основе жестко заданных (или требующих для модификации вмешательства программиста и, следовательно, времени) форм, а с помощью гибких нерегламентированных подходов
  • быстрая детализация итоговых данных;
  • высокая скорость формирования отчетов;
  • высокая точность отчетов;
  • возможность самостоятельного формирования нужных отчетов. В отличие от традиционных программ, которые выводят таблицу строго определенной формы и содержания, OLAP-технологии дают пользователю сформировать тот отчет, который ему необходим в данный момент. Пользователь может развернуть данные по произвольной аналитике, посмотреть их более или менее подробно (например, разложить по дням данные за месяц или же посмотреть те же цифры поквартально), вывести или же убрать какие-то показатели, сформировать иерархические заголовки таблицы и многое другое.

5. Недостатки OLAP – систем

К недостаткам OLAP-систем можно отнести следующие:

  • слабая предрасположенность к произвольному дизайну форм, т.к. OLAP отчеты – это, как правило, сводные таблицы;
  • выгрузка данных из баз в хранилище, разработка хранилища данных, схемы наполнения его данными – требует высокого уровня знаний специалиста;
  • при своем внедрении требуют достаточно большого объема дополнительных работ, прежде всего в области интеграции с имеющимися бизнес-системами (например, производственными системами, логистикой, системами складского и финансового учета). С технической точки зрения это означает необходимость разработки модулей сопряжения и переноса (преобразования) данных из этих систем, а также правильно подобранной аппаратной платформы;
  • их использование связано с созданием хранилищ данных, которые в отличие от традиционных систем автоматизации, оптимизируются на предоставление большого объема данных по различным аналитическим запросам. Причем во многих случаях эти данные проходят предварительную обработку в самих хранилищах с целью уменьшения излишней детализации и увеличения скорости доступа;
  • так как целью OLAP является быстрое предоставление разнообразной информации, подчас заранее не фиксированной, поэтому построения ХД должно производиться в изначально избыточном, с точки зрения классической теории построения реляционных БД, виде. Это связано с тем, что бизнес системы оптимизированы на ввод фиксированной информации и уменьшение объема данных (нормализация БД).

Заключение

Анализ современного состояния OLAP-технологий позволяет говорить о серьезных перспективах их развития. Многомерная обработка информации становится необходимым компонентом любого хранилища данных [5].

OLAP-системы входят в состав подавляющего большинства решений для бизнес-аналитики, «корпоративных» редакций СУБД основных поставщиков (IBM, Microsoft, Oracle) [5].

В бизнес-приложениях наибольший интерес представляет интеграция методов интеллектуального анализа данных с технологией оперативной аналитической обработки данных (On-Line Analytical Processing, OLAP). OLAP использует многомерное представление агрегированных данных для быстрого доступа к важной информации и дальнейшего ее анализа.

Системы OLAP обеспечивают аналитикам и руководителям быстрый последовательный интерактивный доступ к внутренней структуре данных и возможность преобразования исходных данных с тем, чтобы они позволяли отразить структуру системы нужным для пользователя способом. Кроме того, OLAP-системы позволяют просматривать данные и выявлять имеющиеся в них закономерности либо визуально, либо простейшими методами (такими как линейная регрессия), а включение в их арсенал нейросетевых методов обеспечивает существенное расширение аналитических возможностей.

Список литературы

информационный аналитический технология управление

  1. Андреев, А.Н. Классификация OLAP-систем вида xOLAP [Электронный ресурс] - URL: http://www.citforum.ru/consulting/BI/ xolap_classification (дата обращения 5.03.2013).
  2. Алешин Л.И., Гузев Ю.С. Методы аналитической обработки данных М:2008.
  3. Википедия — свободная энциклопедия [Электронный ресурс] - URL: http://ru.wikipedia.org/wiki/OLAP (дата обращения 12.03.2013).
  4. Паклин Н.Б., орешков В.И. Бизнес-аналитика: от данных к знаниям: Учебное пособие. 2-е изд., испр. – СПб.:Питер, 2013. -704 с.: ил.
  5. Чаусов В., Амириди Ю. Классификация аналитических систем. Три года спустя // Журнал .Банки и технологии. – 2002. – №6.
  6. Nigel Pendse. Multidimensional Data Model Extensions to Data Warehouses [Электронный ресурс] – URL: http://www.lexjansen.com/ pnwsug/1996/PNWSUG96001.pdf (дата обращения 16.03.2013).
  7. O’Brien J. Next_Generation OLAP. The Future of Dimensional Analysis // The TDWI BI Executive Summit. San Diego, Aug. 18–20, 2008.

Размещено на Allbest.ru