Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Технологии больших данных (Big Data) (Большие данные.)

Содержание:

Введение

Объем данных, генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями, уже привычно измеряется петабайтами. Так в дата-центрах Facebook хранится уже более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, Большой адронный коллайдер получает около 1 Пб данных в секунду.

Таким образом, в современном мире возникла проблема больших данных или Big Data. Мировые лидеры в сфере ИТ и бизнеса заняты поиском оптимального решения для управления огромным количеством постоянно прибывающей информации и ее анализа. Они ищут пути извлечения выгоды из данных находящихся в их распоряжении.

Тема больших данных интересна как с практической, так и с теоретической точек зрения. Сами технологии находятся в состоянии непрерывного развития, что позволяет как в режиме реального времени наблюдать за процессом их внедрения и совершенствования, так и непосредственно участвовать в создании новых технологий обработки больших массивов данных.

Также хочется заметить, что расширение познаний и навыков в сфере Big Data является особенно актуальным для студентов специальности бизнес-информатика.

Большие данные.

Описывая специфику больших данных, первым делом упоминают 3V: "volume, variety and velocity" или объем, разнообразие и скорость.

Объем подразумевает не только большое количество хранимой информации, но и ее дополнение, рост, изменение с течением времени.

Разнообразие типов и источников информации всегда было большой проблемой, когда появлялась необходимость свести их в один массив данных. Сегодня это разнообразие только увеличивается.

Скорость оценивается как при создании информации, так и при ее обработке.

Традиционным методом работы с массивами информации являются реляционные базы данных. Однако работа с реляционной базой данных на сотни терабайт - это еще не Big Data, а, например, "обычная" highload-БД. Разница, в данном случае, заключается в архитектуре БД и логике взаимодействия СУБД с хранящейся информацией.

В реляционных БД информация распределена дисперсионно, т.е. имеет место изначально заданная четкая структура, изменение которой в уже работающей базе связано с множеством проблем. Таким образом, в силу своей архитектуры, реляционные БД лучше всего подходят для коротких быстрых запросов, идущих однотипным потоком. Сложный же запрос либо потребует перестройки структуры БД, либо, в угоду быстродействию, увеличения вычислительных мощностей. Это указывает на еще одну проблему традиционных баз данных, а именно на сложность их масштабируемости.

Таким образом, для работы со сложными гибкими запросами необходима среда, позволяющая хранить и обрабатывать неструктурированные данные, поддающаяся масштабированию и допускающая применения распределенных вычислений, где для обработки данных используется не одна высокопроизводительная машина, а целая группа таких машин, объединенных в кластер.

Техники анализа больших данных

На данный момент существует и разрабатывается множество техник анализа больших кластеров информации. Далее будут приведены некоторые из них.

Слияние и интеграция данных (Data fusion and data integration). Набор техник, которые сводят вместе и анализируют информацию из различных источников, с целью получения более достоверной и, в перспективе, полезной информации, чем при использовании единственного источника. Для этого может быть использована обработка цифровых сигналов (Signal processing). Например, данные СМИ, проанализированные с помощью обработки естественного языка (natural language processing) и сопоставленные с данными о продажах, могут выявить механизм воздействия рекламных компаний и другой информации на поведение покупателей.

Интеллектуальный анализ данных (Data mining). Набор техник извлечения потенциально полезной информации из больших массивов данных путем комбинации различных методов, от статистики до машинного обучения (machine learning) и управления базами данных (database management). Они включают в себя ассоциативное обучение (association rule learning), кластерный анализ (cluster analysis), классификацию и регрессию.

Генетические алгоритмы (Genetic algorithms). Техника, используемая для оптимизации и основанная на принципе естественной эволюции: "выживание наиболее приспособленного". Здесь потенциальные решения внесены в код подобно хромосомам и могут составлять комбинации и мутировать. Также часто описываются как тип эволюционных алгоритмов, хорошо подходящих для решения нелинейных задач. Примером может являться улучшение рабочего графика или оптимизация инвестиционного портфеля.

Нейронные сети (Neural networks). Вычислительные модели, вдохновленные нервной системой человека и животных. Они хорошо подходят для нахождения сложных образов, и могут быть использованы для распознавания и оптимизации. Могут включать в себя, так называемое, обучение с учителем (supervised learning), или обучение без учителя (unsupervised learning)

Обработка потоков (Stream processing). Технологии обработки большого количества потоков данных о событиях в реальном времени.

Также широко используется метод визуализации и другие.

Технологии анализа больших данных.

Технологии анализа, в силу перспективности развития этого направления и большой коммерческой отдачи, также широко представлены, и их число продолжает расти. Ниже приведен список и описание наиболее заметных из них.

Business intelligence (BI). Прикладное программное обеспечение, разработанное для сбора, анализа и представления данных. Инструменты IB часто используются для создания стандартных отчетов или для отображения информации в реальном времени на панелях управления.

Cassandra. Бесплатная СУБД с открытым кодом, предназначенная для обращения с большим количеством данных на базе распределенной системы. Изначально разработана в Facebook, сейчас числится как проект the Apache Software foundation

Extract, transform, and load (ETL). Программные инструменты для извлечения данных их внешних источников, адоптации их под стандарт системы и загрузки в базу данных.

Google File System. Фирменная распределенная фаиловая система Гугла.

Hadoop. Бесплатная программная среда для обработки огромных массивов данных и решения определенных типов задач на основе распределенных систем. Разработка вдохновлена Google's MapReduce и Google File System. Изначально разработана в Yahoo!, сейчас числится как проект the Apache Software foundation.

Аналитика Big Data реалии и перспективы в Росси и мире.

О больших данных сегодня не слышал только человек, который не имеет никаких внешних связей с внешним миром. На Хабре тема аналитики Big Data и смежные тематики популярны. Но неспециалистам, которые хотели бы посвятить себя изучению Big Data, не всегда ясно, какие перспективы имеет эта сфера, где может применяться аналитика Big Data и на что может рассчитывать хороший аналитик. Давайте попробуем разобраться.

С каждым годом увеличивается объем генерируемой человеком информации. К 2020 году объем хранимых данных увеличится до 40-44 зеттабайт (1 ЗБ ~ 1 миллиард ГБ). К 2025 году — до примерно 400 зеттабайт. Соответственно, управление структурированными и неструктурированными данными при помощи современных технологий — сфера, которая становится все более важной. Интересуются большими данными как отдельные компании, так и целые государства.
К слову, именно в процессе обсуждения информационного бума и способов обработки генерируемых человеком данных и возник термин Big Data. Считается, что впервые его предложил в 2008 году редактор журнала Nature — Клиффорд Линч.

С тех пор рынок Big Data ежегодно увеличивается на несколько десятков процентов. И эта тенденция, по мнению специалистов, будет держаться и дальше. Так, по оценкам компании Frost & Sullivan в 2021 году общий объем мирового рынка аналитики больших данных увеличится до показателя в $67,2 млрд. Ежегодный рост составит около 35,9 %.

Технологии и методы анализа, которые используются для анализа Big Data:

  • Data Mining;
  • краудсорсинг;
  • смешение и интеграция данных;
  • машинное обучение;
  • искусственные нейронные сети;
  • распознавание образов;
  • прогнозная аналитика;
  • имитационное моделирование;
  • пространственный анализ;
  • статистический анализ;
  • визуализация аналитических данных

Аналитика Big Data в мире.

Сейчас аналитика больших данных используется в более чем 50 % компаний по всему миру. При том, что в 2015 году этот показатель составлял всего лишь 17 %. Big Data активнее всего используется компаниями, которые работают в сфере телекоммуникаций и финансовых услуг. Затем идут компании, которые специализируются на технологиях в здравоохранении. Минимальное использование аналитики Big Data в образовательных компаниях: в большинстве случаев представители этой сферы заявляли о намерении использовать технологии в ближайшем будущем.

В США аналитика Big Data используется наиболее активно: более 55 % компаний из самых разных сфер работают с этой технологией. В Европе и Азии востребованность аналитики больших данных ненамного ниже — около 53 %.

Аналитика Big Data в России.

По мнению аналитиков IDC, Россия является крупнейшим региональным рынком решений по аналитике Big Data. Рост объемов рынка таких решений в Центральной и Восточной Европе достаточно активный, каждый год этот показатель увеличивается на 11%. К 2022 году он достигнет в количественном отношении $5,4 млрд.
Во многом такое бурное развитие рынка обуславливается ростом этой сферы в России. В 2018 году выручка от продажи соответствующих решений в РФ составила 40% от совокупного объема инвестиций в технологии обработки Big Data всего региона.
В РФ больше всего на обработку Big Data тратят компании со стороны банковского и государственного секторов, телекоммуникационной индустрии и промышленности.

  1. Что сдерживает развитие рынка Big Data в Росси.

Высокая стоимость решений и отсутствие быстрых результатов.

Хотя интерес к решениям BI и Big Data растет во всех сферах, основным сдерживающим фактором, особенно в компаниях среднего бизнеса, остается стратегия выживания при отсутствии стратегии развития и рывка, и, как следствие, экономия на ИТ-бюджете. Заказчикам нужны не просто ИТ-технологии, им нужны конкурентоспособные бизнес-идеи и экономический эффект в ближайшем будущем.Инструменты обработки больших данных требуют больших вычислительных мощностей, а следовательно, дороги в закупке, установке и использовании.

Бизнес-пользователи при таких обстоятельствах хотят увидеть возврат инвестиций в оборудование в самой ближайшей перспективе. Однако на деле этого не происходит – как и любые аналитические инструменты, системы Big Data нацелены на оптимизацию бизнеса и не приносят «быстрых» доходов, - отмечает Роман Коновалов, генеральный директор «АйДи – Технологии управления».

Дефицит специалистов.

На рынке по-прежнему наблюдается дефицит специалистов, которые умеют реализовывать проекты в сфере Big Data. В России пока не образовались центры компетенций, которые бы занимались их массовой подготовкой. Поэтому успешные кейсы – это скорее истории отдельных компаний и разработчиков.

Кроме того, в России пока отсутствует профессиональное сообщество, которое взяло бы на себя большую задачу – информирование рынка изнутри.

Запрос есть со стороны как разработчиков, так и заказчиков, а компетенциями обладают отдельные вендоры и специалисты. Я думаю, что стоит использовать как можно больше различных форматов для создания экспертного сообщества. Мы все являемся участниками единого ИТ-пространства, и обмен опытом позволит укрепить потенциал рынка отечественной ИТ-разработки технологий Big Data, - отмечает Тимур Ахмеров, генеральный директор «БАРС Груп»

По мнению гендиректора CleverData Дениса Афанасьева, применение Big Data на практике сильно зависит от компетенций и навыков специалистов, поэтому компаниям важно развивать собственную экспертизу. Для извлечения пользы из данных требуются аналитики, совмещающие навыки и математика, и разработчика, и бизнес-аналитика. Университет этих компетенций позволяет разбираться одновременно в сфере анализа данных, в статистике, учитывать возможности технической реализации проектов и практического применения Big Data.

Некачественные данные.

Для российских заказчиков по-прежнему актуальна проблема некачественных данных – на основе разрозненных или недостоверных данных эффективно решать аналитические задачи невозможно.

Но важно, что направление обозначено и в целом движение вперед прослеживается, а на рынке присутствуют российские BI-инструменты, которые обеспечивают интеграцию с различными источниками данных, что жизненно необходимо для внедрения проектов Big Data, и инструментарием продвинутой аналитики одновременно. Например, «Форсайт. Аналитической платформа». В ней обеспечена интеграция с коммерческими платформами, среди которых – Teradata, Oracle Exadata, SAP Hana, HP Vertika, IBM Netezza и др.), а также open source продуктами (например, PostgreSQL, Hadoop и др.), - говорит Юлия Кудрявцева из компании «Форсайт».

Конфиденциальность данных.

Одними из основных сдерживающих факторов для развития и совершенствования инструментов аналитики в России являются опасения заказчиков в области конфиденциальности данных.

Несмотря на то, что инструменты к ибер защиты нового поколения, активно внедряются в бизнес-практику, пользователи систем Big Data все еще остерегаются сливов конфиденциальной информации о компаниях, а также персональных данных клиентов, - рассказывает Роман Коновалов, генеральный директор «АйДи – Технологии управления».

Более активному развитию рынка препятствует недоверие потребителей к технологиям, а также отдельные вопросы регулирования рынка.

Для работы с данными интернет-пользователей и их применения необходимо обеспечить конфиденциальность и особые условия хранения персональных данных, - добавляет Денис Афанасьев из Clever Data.

Состояние российского рынка Big Data.

Российский рынок Big Data находится на начальной стадии развития и под этим термином часто понимаются традиционные BI-подходы. Основными потребителями технологий больших данных, так же, как и основными носителями больших объемов данных, являются компании в банковском секторе, Телекоме и торговле. Для них анализ больших объемов данных, связанных с анализом платежеспособности клиентов, потребительским поведением и рыночной конъюнктурой является важнейшим инструментом для поддержания конкурентного преимущества.

В последние годы во всех компаниях из большой тройки мобильных операторов появились подразделения, специализирующиеся на работе с большими данными, причем они являются не просто информационными подразделениями для развития клиентских про файлов, они являются бизнес-единицами, которые призваны генерировать дополнительную прибыль.

Ритейл тоже находится в числе первопроходцев рынка Big Data. Все больше компаний из этого сегмента создают отдельные подразделения по работе с данными, чтобы как можно глубже погружаться в строки чеков за 2+ лет и находить новые скрытые взаимосвязи, добавляет Байбаков.

Иван Вахмянин, генеральный директор компании Visiology, полагает, что первая шумиха уже прошла, и сейчас происходит накопление реального опыта, как у заказчиков, так и у исполнителей.

Тренды российского и мирового рынка Big Data.

Основная тенденция российского рынка Big Data — проникновение технологий больших данных в те области, в которых раньше их было сложно представить.

Если ранее огромное число сегментов, например, производство, не так активно уделяло внимание технологиям работы с большими данными, то сейчас возможность собрать информацию со всех датчиков и другого оборудования завода дает гигантские возможности.

По мнению Константина Черноусова, заместителя генерального директора Vesolv, общий тренд заключается в том, что все хотят использовать Big Data, поскольку анализ больших данных повышает эффективность и конкурентоспособность компании. И одним из движимых фактов является, как ни странно, появляющиеся опасения от того, что конкурент начал извлекать выгоду, используя новую технологию.

Если говорить о мировых трендах, то в первую очередь можно говорить о тренде переноса инфраструктуры Big Data в облако, считает Иван Вахмянин, генеральный директор компании Visiology.

Второй тренд, по его словам, - это потоковая (streaming) аналитика, которая позволяет анализировать поступающие данные в реальном масштабе времени. Эта возможность особенно важна для приложений, построенных поверх данных, собираемых с датчиков (IoT, IIoT).

Павел Адылин из Artezio, добавляет, что для мирового рынка характерно разделение направления Big Data, которое у нас пока понимают в общем виде, на множество самостоятельных направлений, решающих более узкие специфические задачи.

Например, по его данным, можно выделить: программно-аппаратные средства обеспечения хранения больших данных, средства параллельной обработки данных, средства фильтрации данных и построения моделей, средства визуализации данных и их взаимосвязи, средства работы с изображениями, машинное обучение, интеллектуальные интерфейсы, автоматизация умственного труда.

С таким разделением также связано появление готовых отраслевых решений для малого и среднего бизнеса, работающих как автономные приложения, так и по моделям SaaS или BDaS (Big Data as Service).

Барьеры российского рынка Big Data.

Одна из главных проблем рынка Big Data в России - трудности с поиском квалифицированных специалистов.

По мнению Ивана Вахмянина из Visiology, дефицит таких кадров наблюдается не только потому, что они должны обладать довольно сложным набором навыков и компетенций, но и потому что сегодня мало кто понимает, как их готовить, оценивать и правильно организовывать их работу.

Константин Черноусов, заместитель генерального директора Vesolv, рассказывает, что сейчас постепенно входит в обиход такая профессия как Data Scientist. Она довольно редкая, но спрос на нее уже колоссальный: на одно резюме такого специалиста приходится порядка 50 запросов на работу.

В России таких специалистов, которые расскажут руководству о возможностях анализа с использованием Big Data, посчитают бюджет и реализуют проект, мало, и увеличить их количество быстро не получится, поскольку отсутствуют не просто курсы, а даже материалы на русском языке, - отмечает Черноусов.