How to Use the PowerPoint Template

реклама
Большие данные на предприятиях
Подводные камни и как на них не наткнуться
Светлана Архипкина
Oracle направление продаж технологий Большие Данные
2
Big Data – это новые возможности,
ставшие доступными, благодаря новым
технологиям или подходам к обработке
больших объемов данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Confidential –
3
Текущая ситуация
• Компании и организации строят корпоративные хранилища данных
– Как правило на реляционных базах, таких как Oracle.
• Хранилища бывают маленькие, большие и сверхбольшие
– В случае сверхбольших иногда приходится не хранить данные за все периоды
– А хотелось бы. Хранилище – это «память» компании (организации)
• Появляются новые источники данных, которые хочется обрабатывать
– Социальные сети, твиттер, телематика и проч.
• Появляется желание обрабатывать то, что всегда существовало, но никто не
пытался хранить и обрабатывать
– Очень подробные данные, логи, видео, неструктурированный контент
• Используя традиционные технологии это делать может быть очень дорого или
невозможно
– Затраты на инфраструктуру могут быть выше, чем получаемый эффект
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Почему Большие Данные стали использовать на
«традиционных» предприятиях?
• Технологии, раньше используемые только в
веб-проектах (Hadoop, NoSQL) стали достаточно зрелыми
– Не обязательно держать штат программистов, чтобы ими пользоваться
• Появились новые возможности для получения конкурентных преимуществ:
–
–
–
–
–
Глубокий анализ поведения клиентов/ оборудования/ процессов
Высокоточная реклама
Объединение и анализ данных из многих источников, в том числе неструктурированных
Анализ мошенничеств
и т.д.
• Big Data технологии позволяют существенно удешевить хранение и обработку
данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Отличия традиционных предприятий от интернет-проектов
в контексте Больших данных
• Бизнес предприятия не построен вокруг создания кластеров
• Большие данные начинают использоваться как новые возможности,
дополняющие существующие системы
• Значительные наработки и инвестиции в области реляционных СУБД и
отсутствие или небольшой опыт в областях типа Hadoop
– Отсюда обязательное требование по интеграции ТБД с реляционными базами,
системами бизнес-анализа и т.д.
• Пользователи требуют обеспечить работу с Большими данными как с
обычной СУБД, используя привычные инструменты
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Особенности обработки больших данных
•Большие объемы данных нужно
хранить желательно дешевле,
чем в традиционных СУБД.
•Могут не использоваться
многие возможности РСУБД
•Для того, чтобы найти крупицу
ценной информации, нужно
переработать огромный объем
данных
•При этом экстремальная
производительность может быть
не нужна
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Общие принципы построения Big Data систем
•Построены из большого количества (до десятков тысяч) узлов, на основе
относительно дешевого оборудования
•Каждый узел является сервером и хранения и обработки данных
•Обработка данных ведется в массивно-параллельном режиме
•MapReduce
•Данные хранятся в нескольких копиях (обычно в трех) и отказ узла или
двух не ведет к потере данных
•Система практически неограниченно масштабируется
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Confidential –
8
Современные технологии обработки Big Data
NoSQL DB
• Not Only SQL – СУБД, часто построенные по принципу «ключ-значение»
• Быстрая запись и выборка по ключу
MapReduce
• Фреймворк для распределенных вычислений и обработки данных на тысячах узлах
• Можно использовать через SQL-подобные инструменты
Hadoop
HDFS
• Лидирующая реализация MapReduce (проект Apache)
• Масштабируемая пакетная обработка
• Большое количество существующих наработок
• Hadoop Distributed File System
• Для построения дешевых, распределенных,
масштабируемых хранилищ
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
9
Традиционная кластерная архитектура
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Подход Hadoop
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
В реальности часто бывает
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Hadoop
• Apache Hadoop - распределенная масштабируемая вычислительная
архитектура
• Одна из самых популярных платформ для хранения и обработки
больших объемов данных
• Подходит для аналитических задач
• Очень быстро развивается
• Oracle совместно с Cloudera производит программно аппаратный
комплекс для Hadoop (и Oracle NoSQL DB)
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Направления работы корпорации Oracle в области
Больших данных
• Оптмизированные программно-аппаратные комплексы для Больших
данных на базе Cloudera Hadoop Distribution
• Интеграция данных в Hadoop/NoSQL и традиционных реляционных
данных
• Разработка собственной Oracle NoSQL Database и других продуктов
• Оптимизация (ускорение доступа) к данным
• Безопасность
• Визуализация Больших данных
• Методология построения систем Больших данных на основе
практического проектного опыта
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Management System
БИЗНЕС АНАЛИТИКА
РЕЗЕРВУАР ДАННЫХ
Cloudera Hadoop
ХРАНИЛИЩЕ ДАННЫХ
Oracle Big Data
Connectors
Oracle Big Data SQL
Oracle NoSQL
Oracle R Advanced
Analytics for Hadoop
Oracle Data
Integrator/
GoldenGate
Oracle R Distribution
Big Data Appliance
Apache
Flume
Oracle Industry
In-Memory,
Multi-tenant
Models
Oracle Industry Models
Oracle Advanced
Analytics
Oracle
Advanced
Analytics
Oracle Spatial & Graph
Oracle Spatial & Graph
Exadata
Oracle
GoldenGate
Oracle Data
Oracle
Oracle Event
Integrator GoldenGate Processing
SOURCES
Oracle Event
Processing
Oracle
Database
Oracle
Database
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Преимущества построения систем с резервуаром
данных
Резервуар данных
Новые источники
Хранилище
Data Warehouse
данных
Традиционные
источники данных
Дешевое хранение
Только значимые и
актуальные данные живут
в реляционном ХД
Гибкость
В резервуаре хранятся
любые данные, не нужна
предопредленная
структура и модель
хранения
Предварительная
обработка данных на
распределенном кластере
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
1
Подводные камни мира Больших данных
• Hadoop – это не только дешево, но кластер –
это множество узлов, которые нужно
инсталлировать, сопровождать, управлять и т.д.
• Недооценка сложностей, которые возникают при
переходе от «песочниц» к проекту масштаба
предприятия
– Возможность использования кучи дешевого железа –
хорошо, но имеет свою цену
• Недооценка недостатков Hadoop
– Hadoop предназначен для загрузки больших кусков данных
– Нет транзакций и т.д.
• Недооценка сложности интеграции данных из двух
миров (реляционного и Hadoop)
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (1/2)
• Подбирать и оптимизировать компоненты – сервера, диски,
количество дисков, процессоры, сети, память и т.п.
• Заключать отдельный договор о поддержке с Cloudera
• Собирать кластер
• Настраивать сетевые коммутаторы
• Инсталлировать операционную систему на каждом узле и
• Отслеживать и устанавливать оптимальные версии драйверов и
прошивок для каждого компонента
• Настраивать операционную систему для оптимальной
производительности (у нас же очень много данных!)
• Настраивать Java
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (2/2)
• Инсталлировать дополнительное ПО от Cloudera
• Тестировать работоспособность и производительность каждого
узла кластера
• Заниматься самостоятельно трудоемкой процедурой
многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и
т.п.
• И просто следить за тем, что нужно что-то проапгрейдить
• Изучать как это все сделать без остановки и прерывания работы
пользователей
• Заниматься дизайном перебансировки кластера при его
расширении
• И т.д. и т.п.
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Ускорение летных испытаний
Ускорение летных испытаний для сокращения
времени поставки новых самолетов
• Захват и анализ данных с сенсоров
• Огромные объем данных в единицу
времени
Solution components: Real-Time Decisions, Event Processing
Solution Components: BDA and NoSQL
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Рецепты: Поиск ошибок и мошенничеств
У мненьшение количества ошибок
и мошенничеств
• 8 миллионов рецептов обрабатывается
каждый день
• Поиск неправильного использования
препаратов
• Интеграция структурированных и
неструктурированных данных
• Геоаналитика
Solution components:, BI Foundation, Endeca, Advanced Analytics – ‘R’ statistical
analysis & data mining, Exalytics, Exadata
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Трансформация образования в Турции
Улучшение аналитики для системы образования
• 18M учеников и 42 000 школ
• Аналитика поведения учеников и
учителей
• Комбинация RDBMS и Hadoop
• Цель – сделать образование более
эффективным
Solution components: Real-Time Decisions, Event Processing
Solution Components: 2 BDA, 2 Exadata, 2 Exalogic, 2 Exalytics, IDM
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Монетизация данных
Геомаркетинг для предоставления новых услуг
• Аналитика и предложеия в реальном
времени
• Использование Event Processing
• Сервис предоставляется внешним
партнерам
• Генерация новых доходов
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data в Oracle Team USA
Мы взломали код
•300 сенсоров на яхте
•выдают 2 ГБ данных за одну гонку
•Как вам удалось изменить счет с 1-8 на 9-8?
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Скачать