Большие данные на предприятиях Подводные камни и как на них не наткнуться Светлана Архипкина Oracle направление продаж технологий Большие Данные 2 Big Data – это новые возможности, ставшие доступными, благодаря новым технологиям или подходам к обработке больших объемов данных Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – 3 Текущая ситуация • Компании и организации строят корпоративные хранилища данных – Как правило на реляционных базах, таких как Oracle. • Хранилища бывают маленькие, большие и сверхбольшие – В случае сверхбольших иногда приходится не хранить данные за все периоды – А хотелось бы. Хранилище – это «память» компании (организации) • Появляются новые источники данных, которые хочется обрабатывать – Социальные сети, твиттер, телематика и проч. • Появляется желание обрабатывать то, что всегда существовало, но никто не пытался хранить и обрабатывать – Очень подробные данные, логи, видео, неструктурированный контент • Используя традиционные технологии это делать может быть очень дорого или невозможно – Затраты на инфраструктуру могут быть выше, чем получаемый эффект Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Почему Большие Данные стали использовать на «традиционных» предприятиях? • Технологии, раньше используемые только в веб-проектах (Hadoop, NoSQL) стали достаточно зрелыми – Не обязательно держать штат программистов, чтобы ими пользоваться • Появились новые возможности для получения конкурентных преимуществ: – – – – – Глубокий анализ поведения клиентов/ оборудования/ процессов Высокоточная реклама Объединение и анализ данных из многих источников, в том числе неструктурированных Анализ мошенничеств и т.д. • Big Data технологии позволяют существенно удешевить хранение и обработку данных Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Отличия традиционных предприятий от интернет-проектов в контексте Больших данных • Бизнес предприятия не построен вокруг создания кластеров • Большие данные начинают использоваться как новые возможности, дополняющие существующие системы • Значительные наработки и инвестиции в области реляционных СУБД и отсутствие или небольшой опыт в областях типа Hadoop – Отсюда обязательное требование по интеграции ТБД с реляционными базами, системами бизнес-анализа и т.д. • Пользователи требуют обеспечить работу с Большими данными как с обычной СУБД, используя привычные инструменты Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Особенности обработки больших данных •Большие объемы данных нужно хранить желательно дешевле, чем в традиционных СУБД. •Могут не использоваться многие возможности РСУБД •Для того, чтобы найти крупицу ценной информации, нужно переработать огромный объем данных •При этом экстремальная производительность может быть не нужна Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Общие принципы построения Big Data систем •Построены из большого количества (до десятков тысяч) узлов, на основе относительно дешевого оборудования •Каждый узел является сервером и хранения и обработки данных •Обработка данных ведется в массивно-параллельном режиме •MapReduce •Данные хранятся в нескольких копиях (обычно в трех) и отказ узла или двух не ведет к потере данных •Система практически неограниченно масштабируется Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – 8 Современные технологии обработки Big Data NoSQL DB • Not Only SQL – СУБД, часто построенные по принципу «ключ-значение» • Быстрая запись и выборка по ключу MapReduce • Фреймворк для распределенных вычислений и обработки данных на тысячах узлах • Можно использовать через SQL-подобные инструменты Hadoop HDFS • Лидирующая реализация MapReduce (проект Apache) • Масштабируемая пакетная обработка • Большое количество существующих наработок • Hadoop Distributed File System • Для построения дешевых, распределенных, масштабируемых хранилищ Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 9 Традиционная кластерная архитектура Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Подход Hadoop Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | В реальности часто бывает Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Hadoop • Apache Hadoop - распределенная масштабируемая вычислительная архитектура • Одна из самых популярных платформ для хранения и обработки больших объемов данных • Подходит для аналитических задач • Очень быстро развивается • Oracle совместно с Cloudera производит программно аппаратный комплекс для Hadoop (и Oracle NoSQL DB) Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Направления работы корпорации Oracle в области Больших данных • Оптмизированные программно-аппаратные комплексы для Больших данных на базе Cloudera Hadoop Distribution • Интеграция данных в Hadoop/NoSQL и традиционных реляционных данных • Разработка собственной Oracle NoSQL Database и других продуктов • Оптимизация (ускорение доступа) к данным • Безопасность • Визуализация Больших данных • Методология построения систем Больших данных на основе практического проектного опыта Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Big Data Management System БИЗНЕС АНАЛИТИКА РЕЗЕРВУАР ДАННЫХ Cloudera Hadoop ХРАНИЛИЩЕ ДАННЫХ Oracle Big Data Connectors Oracle Big Data SQL Oracle NoSQL Oracle R Advanced Analytics for Hadoop Oracle Data Integrator/ GoldenGate Oracle R Distribution Big Data Appliance Apache Flume Oracle Industry In-Memory, Multi-tenant Models Oracle Industry Models Oracle Advanced Analytics Oracle Advanced Analytics Oracle Spatial & Graph Oracle Spatial & Graph Exadata Oracle GoldenGate Oracle Data Oracle Oracle Event Integrator GoldenGate Processing SOURCES Oracle Event Processing Oracle Database Oracle Database Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Преимущества построения систем с резервуаром данных Резервуар данных Новые источники Хранилище Data Warehouse данных Традиционные источники данных Дешевое хранение Только значимые и актуальные данные живут в реляционном ХД Гибкость В резервуаре хранятся любые данные, не нужна предопредленная структура и модель хранения Предварительная обработка данных на распределенном кластере Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 1 Подводные камни мира Больших данных • Hadoop – это не только дешево, но кластер – это множество узлов, которые нужно инсталлировать, сопровождать, управлять и т.д. • Недооценка сложностей, которые возникают при переходе от «песочниц» к проекту масштаба предприятия – Возможность использования кучи дешевого железа – хорошо, но имеет свою цену • Недооценка недостатков Hadoop – Hadoop предназначен для загрузки больших кусков данных – Нет транзакций и т.д. • Недооценка сложности интеграции данных из двух миров (реляционного и Hadoop) Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Что вам НЕ придется делать с Big Data Appliance (1/2) • Подбирать и оптимизировать компоненты – сервера, диски, количество дисков, процессоры, сети, память и т.п. • Заключать отдельный договор о поддержке с Cloudera • Собирать кластер • Настраивать сетевые коммутаторы • Инсталлировать операционную систему на каждом узле и • Отслеживать и устанавливать оптимальные версии драйверов и прошивок для каждого компонента • Настраивать операционную систему для оптимальной производительности (у нас же очень много данных!) • Настраивать Java Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Что вам НЕ придется делать с Big Data Appliance (2/2) • Инсталлировать дополнительное ПО от Cloudera • Тестировать работоспособность и производительность каждого узла кластера • Заниматься самостоятельно трудоемкой процедурой многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и т.п. • И просто следить за тем, что нужно что-то проапгрейдить • Изучать как это все сделать без остановки и прерывания работы пользователей • Заниматься дизайном перебансировки кластера при его расширении • И т.д. и т.п. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Ускорение летных испытаний Ускорение летных испытаний для сокращения времени поставки новых самолетов • Захват и анализ данных с сенсоров • Огромные объем данных в единицу времени Solution components: Real-Time Decisions, Event Processing Solution Components: BDA and NoSQL Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Рецепты: Поиск ошибок и мошенничеств У мненьшение количества ошибок и мошенничеств • 8 миллионов рецептов обрабатывается каждый день • Поиск неправильного использования препаратов • Интеграция структурированных и неструктурированных данных • Геоаналитика Solution components:, BI Foundation, Endeca, Advanced Analytics – ‘R’ statistical analysis & data mining, Exalytics, Exadata Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Трансформация образования в Турции Улучшение аналитики для системы образования • 18M учеников и 42 000 школ • Аналитика поведения учеников и учителей • Комбинация RDBMS и Hadoop • Цель – сделать образование более эффективным Solution components: Real-Time Decisions, Event Processing Solution Components: 2 BDA, 2 Exadata, 2 Exalogic, 2 Exalytics, IDM Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Монетизация данных Геомаркетинг для предоставления новых услуг • Аналитика и предложеия в реальном времени • Использование Event Processing • Сервис предоставляется внешним партнерам • Генерация новых доходов Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Big Data в Oracle Team USA Мы взломали код •300 сенсоров на яхте •выдают 2 ГБ данных за одну гонку •Как вам удалось изменить счет с 1-8 на 9-8? Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |