Решили выяснить, что такое Big Data, зачем нужны большие данные и как работает эта технология. Разберем и несколько популярных мифов, которые беспокоят тех, кто только начинает знакомиться с технологией больших данных.
Big Data — что это такое?
Big Data — это различные данные больших объемов, которые хранятся на цифровых носителях.
Объем больших данных — это терабайты информации: фото, текстовые файлы, машинный код и многое другое. Но под концепцию Big необязательно подходят даже те данные, которые весят 1 000 000 ГБ, — петабайты. Информация должна соответствовать определенным критериям — это так называемое правило 3V.
Большой объем, т. е. данных настолько много, что им становится «тесно» на ваших рабочих серверах.
Разнообразие, т. е. данные представлены не одним, а сразу несколькими форматами: картинки, текст, видеофайлы и т. д.
Скорость, т. е. данные стремительно генерируются, их становится все больше и больше.
Концепция 3V была описана Дугом Лейни в 2001 году. Недавно к ней добавилось еще несколько V: Variability (изменчивость), Value (ценность) и Veracity (достоверность).
Зачем нужны большие данные?
Возможности использования больших данных многогранны, при этом используются во многих сферах деятельности: банковские структуры, здравоохранение, ритейл, наука, маркетинг и многое другое.
Big Data сегодня решает три глобальные задачи.
- Построение моделей. Технология позволяет систематизировать данные и найти причинно‑следственные связи. Это делает сложные системы более простыми для понимания.
- Оптимизация процессов. В задачу входит автоматизация энергозатратных или рутинных этапов работы, увеличение точности расчетов и экономия как времени, так и ресурсов. Яркий пример — автоматическое определение стоимости поездки в такси на основании данных о дорожной ситуации, погодных условиях и фактическом спросе на эту услугу в данный момент.
- Составление прогнозов. Комплексная аналитика позволяет разным сферам предугадывать те или иные процессы, на основании чего планировать свои дальнейшие действия.
Если говорить реальными примерами, то возможности использования больших данных практически безграничны.
- Производители автомобилей изучают поведение водителей в момент ДТП, разрабатывая тем самым улучшенную систему безопасности. Она проводит анализ и срабатывает в тот момент, когда, например, водитель путает педаль газа и тормоза.
- Нефтегазовые предприятия с помощью больших данных определяют наиболее подходящее место бурения, основываясь на собранной информации, а также контролируют работу трубопроводной системы.
- Крупные торговые сети анализируют полученную информацию о своих клиентах, на основании чего строят маркетинговые кампании для улучшения конверсии и повышения вовлеченности покупателей. Происходит это повсеместно — как в офлайне, так и в онлайн-торговле. Amazon предлагает скидки на добавленные товары в корзине, чтобы побудить человека сделать заказ. Большое количество таргетированной рекламы в интернете, предлагающей вам товары, которыми вы интересовались, искали в поисковой системе или на сайте со схожей тематикой, — все это так или иначе результат применения больших данных.
Как работает технология больших данных?
Работа с большими данными предполагает несколько этапов: сбор информации, хранение, обработку и анализ.
Сбор информации осуществляется из самых разных источников:
- социальные сети, блоги и средства массовой информации;
- социально-демографическая статистика стран и компаний;
- интернет вещей и подключенные к нему устройства;
- различные транзакционные источники: поставка и покупка товаров, переводы денежных средств, поиск информации в интернете, переходы по ссылкам и т. д.;
- показания различных приборов: данные и фотографии со спутников, показания с метеорологических станций, измерители состава водоемов и воздуха;
- медицинские анализы, результаты диагностики, снимки и многое другое.
Такой большой массив информации требует хранения. Это могут быть собственные серверы компаний и облачные хранилища. Большие данные также могут храниться на частных серверах, доступ к которым предоставляется бесплатно.
Финальный этап — это обработка и анализ полученных данных. Есть четыре вида аналитики.
- Описательная. Основная задача — проанализировать закономерности и причины успехов или неудач, чтобы на основе этой информации создать более эффективную модель.
- Диагностическая. Позволяет выявить отклонения от нормы, найти причину события.
- Предикативная. На основе имеющейся информации делает наиболее вероятный прогноз дальнейшего развития событий. В частности, этот анализ используется при оценке вероятности возврата кредита потенциальным заемщиком, на основании чего банк принимает решение.
- Предписательная. Предполагает анализ нескольких сценариев развития событий, что позволяет предотвратить убытки компании, оптимизировать различные процессы и т. д.
Аналитика больших данных предполагает использование простых арифметических операций, статистический и интеллектуальный анализ, машинное обучение, а также сложные математические алгоритмы.
Мифы о Big Data
Если с фактами про Big Data все примерно ясно, то не менее интересным является разбор наиболее распространенных мифов о технологии больших данных.
Миф № 1. Оборудование на основе Big Data заменит труд человека
Сегодня нет ничего такого, что походило бы на тот искусственный интеллект, который нам показывают в фильмах. Но автоматизация процессов активно развивается, что заметно уже в обычных супермаркетах: там стоят стойки самообслуживания, где можно буквально в несколько касаний пробить товар и оплатить его, не контактируя с кассиром.
Миф № 2. Big Data способен предугадать будущее
Big Data может собрать большой объем информации, выявить закономерности и даже спрогнозировать несколько сценариев дальнейшего развития событий. Но технология не может учесть непредвиденные факторы, вероятность которых всегда будет существовать. Даже если событие никогда раньше не случалось, никто не может гарантировать, что в будущем этого не произойдет. И Big Data просто не может спрогнозировать все на 100%.
Миф № 3. Аналитика больших данных проводится без участия человека
Большой объем данных — это половина дела. Важно проанализировать его, чтобы понять, есть ли в этом массиве нужная информация для решения той или иной задачи. Даже если машина найдет прямую связь между ростом продаж мороженого и количеством несчастных случаев на воде, это не значит, что эти события взаимосвязаны. Машина просто сопоставила две статистики, но окончательной интерпретацией и выводами занимается человек. И уж он точно понимает, что связь продаж мороженого и утопленников объясняется просто жаркой погодой: люди активнее покупают мороженое, чаще отдыхают на пляжах, купаются в море, и в связи с этим растет количество несчастных случаев на воде.
В t2 мы убедились, что аналитика больших данных — это не что‑то из категории сверхразума. Это «сильные очки», которые позволяют улучшить управленческое зрение. Важно не запутаться в нарастающем объеме информации, а вычленять из нее только то, что поможет улучшить существующие процессы и спрогнозировать ситуацию в будущем.