ХРАНИЛИЩА ДАННЫХ Лекция 4 1 Содержание Интеграция информационных ресурсов в хранилищах данных. Проблема интеграции данных. 2 Две группы аналитических платформ Платформы первой группы ориентированы на работу с выделенными источниками данных - хранилищами и витринами данных, которые специально сформированы для аналитической обработки, что выражается и в особых структурах и моделях данных этих источников (Microsoft, Hyperion Solutions, «старая» Oracle). Платформы второй группы ориентированы на работу с более широким кругом источников (Business Objects, Cognos, Microstrategy) 3 Рынок BI в 2006 г. 4 Microsoft SQL Server 2008 Analyses Services 5 История 1996 – покупка программной технологии OLAP у израильской компании Panorama Software 1998 – выпуск OLAP Services как часть SQL Server 7 2000 – выпуск Analysis Services 2000 (+ Data Mining) 2005 – выпуск Analysis Services 2005 2008 – выпуск Analysis Services 2008 6 Структура MS SQL Server 2008 7 Основные функции SSAS OLAP – позволяет пользователям проектировать, реализовывать и управлять многомерными структурами, которые содержат данные, агрегированные из других источников (реляционных БД) Data Mining – позволяет пользователям проектировать, реализовывать и визуализировать модели добычи знаний, реализованные на основе данных из других источников, используя набор промышленно-стандартизированных алгоритмов анализа 8 Серверная архитектура Analysis Services Серверной компонентой SSAS является приложение msmdsrv.exe, которое работает как служба Windows Можно запускать несколько экземпляров, каждый будет работать как отдельная служба Компоненты приложения: модули безопасности XML for Analysis (XMLA) процессор запросов несколько других компонентов 9 Функции серверной компоненты парсинг запросов от пользователя управление метаданными управление транзакциями выполнение вычислений хранение данных измерений и ячеек создание агрегатов управление выполнением запросов кэширование объектов управление серверными ресурсами 10 Клиентская архитектура Языки запросов: 11 SQL Multidimensional Expressions (MDX) Data Mining Extensions (DMX) Analysis Services Scripting Language (ASSL) Unified Dimension Model позволяет обращаться к данным нескольких кубов Analysis Services в одном запросе 12 Объекты SSAS SSAS содержит объекты БД и сборки (Assemblies): БД содержат источники данных (data sources), представления источников данных (data source views), кубы (cubes), меры (measures), группы мер (measure groups), измерения (dimensions), атрибуты (attributes), иерархии (hierarchies), структуры и модели для добычи знаний (mining structures and models) и роли (roles) Сборки содержат пользовательские функции, расширяющие встроенные возможности языков Multidimensional Expressions (MDX) и Data Mining Extensions (DMX) 13 Объекты SSAS Data Source – настройки соединения с источником данных Data Source View – определение метаданных, логическая модель схемы данных, в терминах UDM, сохраняемая в формате XML Cube – набор мер и измерений. Часто используется как синоним UDM. Содержит также описания: 14 Calculation – вычисляемый показатель KPI (Key performance indicator) Actions – клиентская команда, сохраненная на сервере Partitions – средство физического разделения больших кубов при хранении Perspective – подмножество куба, скрывающее его сложную структуру для бизнес-пользователей Cube translation – представление имен в кубе на другом языке Объекты SSAS Структуры добычи знаний Структуры Data Mining – определяет область данных, для которых строится модель. Может содержать несколько моделей, настроенных на одну область данных. Основной элемент – столбцы, содержащие метаданные: тип данных, тип содержимого, порядок сборки и т.д. Модели Data Mining – определяют алгоритм добычи знаний, применяемый к данным конкретной структуры Data Mining Роли (roles) - используются подсистемой безопасности. Разделяются на серверные роли и роли БД 15 Отличительные особенности Нет дополнительной платы Тесная интеграция с Office, SharePoint, Reporting & Integrating Services Инструмент разработки MS Visual Studio - Business Intelligence Development Studio Инструмент управления - SQL Server Management Studio 16 Встроенные алгоритмы добычи знаний Алгоритм взаимосвязей Алгоритм кластеризации Алгоритм дерева принятия решений Алгоритм линейной регрессии Алгоритм логистической регрессии Упрощенный алгоритм Байеса Алгоритм нейронной сети Алгоритм кластеризации последовательностей Алгоритм временных рядов 17 Sybase Adaptive Server IQ 18 Архитектура PowerDesigner® WarehouseArchitect™ Sybase PowerStage Warehouse Control Center Sybase Warehouse Studio REPOSITORY Infomaker СУБД Sybase Adaptive Server IQ Multiplex 19 СУБД Sybase Adaptive Server IQ Multiplex использует особый, ориентированный на столбцы, метод хранения данных скорость выполнения запросов в 10 – 100 раз выше, чем для традиционных реляционных СУБД наименьшие расходы на содержание из всех серверов систем поддержки принятия решений 20 Sybase Warehouse Studio Warehouse Architect - CASE-средство проектирования хранилища Warehouse Control Center — средство управления метаданными и администрирования хранилища Infomaker — генератор отчетов Sybase PowerStage – ETL-инструмент 21 Продукция Oracle «старая» аналитическая платформа (ныне Oracle Business Intelligence Suite Standard Edition) новая платформа Oracle Business Intelligence Suite Enterprise Edition 22 Oracle Business Intelligence Suite Standard Edition 23 Структура Oracle9i Oracle Express Server Oracle Reports Database Data Mining Data Warehouses REPOSYTORY JDeveloper Data Warehouses Method (DWM) ETL BI JavaBeans Oracle Warehouse Builder OLAP Services Application Server 24 Компонент Data Warehouses объединяет те возможности сервера Oracle, которые предназначены для построения и эффективного использования хранилищ данных Особенности: 25 параллельная обработка запросов эффективные битовые (bitmap) индексы специализированные алгоритмы выполнения запросов, такие как хэш-соединения (hash joins) возможность секционирования данных (partitioning) технология управления суммарными данными на основе материализованных представлений (materialized views) Специальные функции Анализируя статистику работы системы, СУБД рекомендует администратору необходимые агрегаты, автоматически их создает и периодически обновляет. Затем при выполнении запросов с агрегированием система автоматически переписывает их таким образом, чтобы они обращались к суммарным данным, хранящимся в материализованных представлениях. Такой подход резко, иногда на несколько порядков, повышает производительность хранилища данных для конечных пользователей. 26 ETL компонент расширение стандартных средств СУБД Oracle дополнительными командами и средствами, полезными для задач сбора и преобразования данных, например: 27 внешние таблицы автоматическая фиксация изменения данных (change data capture) табличные функции одновременный ввод и корректировка данных ввод данных в несколько таблиц Опция OLAP Services позволяет хранить и обрабатывать многомерную информацию на том же сервере баз данных, где находится реляционное хранилище (по функциям OLAP Services = МСУБД OracleExpress). Средства OLAP Services поддерживают в полном объеме основной язык сервера Express, а для существующих баз данных Express обеспечивается их миграция в СУБД Oracle 28 Опция DataMining Классификационные модели Деревья решений Наивный Байесовский классификатор Адаптивная Байесовская сеть Метод опорных векторов Регрессионные модели Поиск существенных атрибутов Иерархический алгоритм k-средних Иерархический алгоритм с неизвестным число кластеров Поиск ассоциаций Априорный алгоритм Выделение признаков Метод минимальной длины описания Кластеризация Метод опорных векторов Алгоритм сингулярной декомпозиции Выделение аномальных выбросов 29 Интегрированная CASE-среда Oracle Warehouse Builder позволяет: проектировать, создавать и администрировать хранилища и витрины данных разрабатывать и генерировать процедуры извлечения, преобразования и загрузки данных из различных источников эффективно управлять метаданными в основе – стандарт Common Warehouse Model 30 Поддержка аналитических задач стандартная отчетность – OracleReports нерегламентированные запросы – OracleDiscoverer сложный многомерный анализ – опция OLAP Services вместе с Jdeveloper и BI JavaBeans или OracleExpress data mining - опция OracleDataMining публикация в Web - с помощью сервера приложений Oracle9i ApplicationServer 31 Data Warehouse Method (DWM) оригинальная методология выполнения проекта по созданию и сопровождению информационноаналитических систем. Является частью общего подхода Oracle к проектированию и реализации различных проектов. 32 Архитектура 33 В целом вся платформа Oracle BI SuiteEE построена на SOA (Service Oriented Architecture) Спасибо за внимание! 34