Аннотация Хранилища данных

реклама
Аннотация
учебной дисциплины «Хранилища данных и OLAP-системы»
программы профессиональной переподготовки
«Информационная бизнес-аналитика»
Цель: изучить теоретическую базу в сфере интеллектуальных методов
анализа и приобрести разнообразные практические навыками, которые
позволят слушателям непосредственно участвовать в реализации программ и
проектов, связанных с информационными технологиями поддержки
принятия решений.
Задачи:
 Изучить технология хранения данных при принятии решений
 Хранилище данных (Data Warehousing) в виде ненормализованных
баз данных;
 Многомерные системы управления базами данных - МСУБД
 приобрести навыки Аналитические возможности Analysis Manager;
 изучить методы Интеграция Web - технологии и технологии
Хранилища;
 получить
представление
об
использовании
системы
сбалансированных показателей для оценки эффективности;
 получить представление об Ключевые факторы поддержки
распределенных данных;
 Инструментальное средство Analysis Manager;
 Мастер построения модели DataMining:
 Специализированные средства представления отчетности.
Ожидаемые результаты:
В результате изучения дисциплины слушатели должны:
 знать правила создание транзакционных и мгновенных публикаций;
 знать методы построения многомерного куба;
 уметь использовать инструментальное средство Data Transformation
Services для заполнения хранилища данных;
 приобрести навыки проектирования хранилища средствами
ненормализованной базы данных;
 уметь осуществлять экспорт данных из кросс-таблицы в файлы
форматов MS Excel, MS Word и HTML;
 уметь выполнять операции с таблицами;
 уметь работать с клиентскими модулями;
 знать способы публикации данных срезов кубов на Web;
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 1
 знать функционал специализированных средств
хранилищам и генерации отчетности (Юниверс).
доступа
к
Содержание
Тема 1. Технология хранения данных при принятии решений
Проблема хранения данных при принятии решений.
Причины появления Хранилищ данных. Хранилище - надстройка над
существующими базами данных. Отличительная особенность Хранилищ.
Основные требования к данным, вводимым в Хранилище. Задачи построения
Хранилища.
Тема 2. Хранилище данных (Data Warehousing) в виде
ненормализованных баз данных
Архитектура Хранилищ данных: оперативные источники, оперативный
склад данных, основное хранилище данных, инструменты доступа
пользователям, ETL- средства. Многомерное моделирование в виде
ненормализованных баз данных: схема «Звезда», схема «Снежинка», ее
преимущества и недостатки. Характеристика таблицы фактов и таблиц
измерений. Связи в ненормализованных базах данных.
Тема 3. Многомерные системы управления базами данных - МСУБД
Особенности организации многомерных систем управления базами
данных (МСУБД). Достоинства и недостатки МСУБД.
Исторические
данные.
Формирование
исторических
данных.
Статичность (неизменность) исторических данных. Свойства исторических
данных. Агрегированные данные.
Прогнозируемые данные. Изменяемость прогнозируемых данных.
Прогнозирование и моделирование. Различие между оперативными и
прогнозируемыми данными. Общезначимость оперативных данных.
Сравнительные характеристики МСУБД и РСУБД.
Основные понятия в многомерной модели данных: измерение
(Dimension) или рубрика, ячейка (Cell) или показатель (Measure).
Определение показателя.
Гиперкубические и поликубические модели данных. Два основных
варианта организации данных и их отличия.
Операции манипулирования Измерениями. Формирование "Среза"
(Slice). Операция "Вращение" (Rotate). Отношения между измерениями.
Операция Агрегации (Drill Up). Операция Детализации (Drill Down).
Тема 4. Заполнение хранилища данными
Использование инструментального средства Data Transformation
Services для заполнения хранилища данными. Выполнение этапов
заполнения хранилища в DTS:
 описание источников данных;
 описание потоков данных;
 описание преобразования данных;
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 2
 запуск DTS;
 просмотр таблиц в Query Analyzer.
Тема 5. Cоздание многомерного хранилища данных (куба)
Инструментальное средство Analysis Manager;
Выполнение этапов построения коллективных и локальных кубов:
 описание измерений;
 описание таблицы фактов;
 построение вычисляемых выражений.
Тема 6. Технология аналитической обработки данных (OLAP)
Назначение и особенности технологии OLAP. Признаки технологии
OLAP. 12 правил оценки средств OLAP. Виды запросов к данным,
содержащимся в Хранилище, выполняемые с помощью OLAP технологий.
Состав OLAP-системы. Характеристики и назначение компонентов OLAPсистемы.
Варианты реализации OLAP. Понятия MOLAP (Multidimensional OLAP),
ROLAP (Relational OLAP), HOLAR (Hybrid OLAR). Преимущества и
недостатки этих способов. Оперативная аналитическая обработка (OLAP) и
интеллектуальный анализ данных (ИАД) - две составные части процесса
поддержки принятия решений. Перспективы объединения этих двух видов
анализа.
Клиентские компоненты получения OLAP срезов кубов:
 Analysis Manager;
 Получение сводных таблиц Excel;
 создание сводных диаграмм с данными OLAP-кубов.
Создание и редактирование локальных OLAP-кубов клиентом с помощью
Microsoft Excel.
Тема 7. Клиент Microsoft Data Analyzer
Возможности Microsoft Data Analyzer. Область применения Microsoft
Data Analyzer. Обеспечение соединения с кубом. Создание отображений
куба. Средства анализа данных: навигации, фильтрации и сортировки,
бизнес-центр, редактор вычисляемых измерений
для построения
многомерных запросов, поиск схожих значений.
Средства публикации и создания отчетов: публикации по электронной
почте, на слайде, в виде HTML-страниц, в виде рабочих тетрадей Excel или
PivotTables.
Тема 8. Аналитические возможности Analysis Manager
Мастер построения модели DataMining. Выбор критерия для анализа.
Построение дерева решений. Изменение измерений. Пересчет модели.
Построение модели кластеризации. Изменение измерений и критериев
оценки.
Тема 9. Интеграция Web - технологии и технологии Хранилища
Цель интеграции Web-технологии и Хранилища. Преимущества
интеграции Internet/Intranet технологии и технологии Хранилищ.
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 3
Особенности информационного Web сервера. Особенности работы Web
клиента.
Публикация сводной таблицы на Web, клиентские манипуляции со
сводной Web – таблицей, создание Web-страниц со сводными диаграммами.
Тема 10. Язык MDX (Multidimensional Expressions)- непроцедурный
язык для формулирования запросов к многомерным базам данных
Назначение языка MDX. Утилита MDX Sample Application. Отображение
структуры куба в MDX Sample Application. Синтаксис запроса на языке
MDX. Выполнение запроса. Агрегация в запросах. Фильтрация в запросах.
Запросы с иерархическим измерением. Функции языка MDX.
Тема 11. Поддержка распределенных данных
Ключевые факторы поддержки распределенных данных: автономность;
задержки; непротиворечивость данных; непротиворечивость схем.
Модели публикаций. Публикующий сервер и распределительный сервер.
Распределительная база данных. Подписки, публикации, статьи.
Принудительная (push) и запросная (pull) подписки.
Типы серверов-подписчиков: местный, глобальный и анонимный.
Фильтрация данных: горизонтальное и вертикальное разбиение.
Типы репликации: мгновенная; репликация слиянием; транзакционная.
Преимущества и недостатки различных типов репликации. Агенты
мгновенной репликации, распределительные агенты.
Подписчики с немедленным обновлением.
Тема 12. Специализированные средства представления отчетности
Инструменты запросов или генераторы отчетов (Юниверсы) к OLAPданным. Средства доступа и генерация отчетов Business Object. Анализ
данных в Юниверсе средствами BusinessObject: получение доступа к данным,
выбор переменных Юниверса для анализа, замена иерархии переменных,
ввод в Юниверс расчетных переменных, создание отчетов с разрывами по
Мастер-переменной, создание условий выбора, получение Кросс-таблиц
(срезов), транспонирование Кросс-таблиц, установка иерархических срезов,
использование фильтрации, построение диаграмм.
Практические работы
Тема 1. Проектирование хранилища средствами ненормализованной
базы данных
Ознакомление с CASE средствами проектирования хранилища данных.
Проектирование таблицы фактов и таблиц измерений. Установление связей
между таблицами. Генерация хранилища.
Тема 2. Заполнение хранилища
Использование инструментального средства Data Transformation
Services для заполнения хранилища данных. Описание источников данных.
Описание потоков данных. Описание преобразования данных. Выполнение
DTS. Просмотр таблиц в Query Analyzer.
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 4
Тема 3. Построение многомерного куба
Организация доступа к источнику данных - оперативной реляционной
базе данных. Построение куба. Настройка измерения времени. Настройка
измерений и фактов. Редактирование многомерного куба.
Тема 4. Работа по OLAP- технологии с хранилищем
Настройка параметров среза.
Использование кросс – таблиц.
Транспонирование кросс – таблиц. Возможности перетаскивания заголовка
измерения на заголовок столбца. Поиска записи в кросс – таблице.
Управления отображением вычисляемых значений. Экспорт данных из
кросс-таблицы в файлы форматов MS Excel, MS Word и HTML.
Операции с таблицами. Открытие обычной таблицы. Экспорт данных в
таблице. Вывод статистических характеристик для полей таблицы. Экспорт
данных в другие аналитические модули
Построение графических отчетов. Построение диаграмм.
Управление окнами.
Тема 5. Работа с клиентскими модулями
Получение MOLAP срезов кубов с помощью Analysis Manager.
Получение сводных таблиц в Excel. Создание сводных диаграмм с данными
OLAP-кубов. Создание и редактирование локальных OLAP-кубов клиентом с
помощью Microsoft Excel;
Тема 6. Клиент Microsoft Data Analyzer
Возможности Microsoft Data Analyzer. Область применения Microsoft
Data Analyzer. Обеспечение соединения с кубом. Создание отображений
куба. Средства анализа данных: навигации, фильтрации и сортировки,
бизнес-центр, редактор вычисляемых измерений
для построения
многомерных запросов, поиск схожих значений.
Средства публикации и создания отчетов: публикации по электронной
почте, на слайде, в виде HTML-страниц, в виде рабочих тетрадей Excel или
PivotTables.
Тема 7. Публикация данных срезов кубов на Web
Публикация сводной таблицы на Web. Манипуляции со сводной Web –
таблицей. Создание Web-страниц со сводными диаграммами
Тема 8. Язык MDX (Multidimensional Expressions)- непроцедурный
язык для формулирования запросов к многомерным базам данных
Назначение языка MDX. Утилита MDX Sample Application. Отображение
структуры куба в MDX Sample Application. Синтаксис запроса на языке
MDX. Выполнение запроса. Агрегация в запросах. Фильтрация в запросах.
Запросы с иерархическим измерением. Функции языка MDX.
Тема 9. Аналитические возможности Analysis Manager
Мастер построения модели DataMining. Выбор критерия для анализа.
Построение дерева решений. Изменение измерений. Пересчет модели.
Построение модели кластеризации. Изменение измерений и критериев
оценки.
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 5
Тема 10. Поддержка распределенных данных
Включение публикующего и распределительного серверов. Запуск
Мастера настройки публикаций и распределения. Отключение
распределительного сервера.
Создание транзакционных и мгновенных публикаций. Выбор сервера.
Выбор БД. Выбор сервера подписчика. Выбор таблиц для публикации.
Включение в фильтрации столбцов и строк выбранных таблиц. Настройка
расписания для агента мгновенной репликации. Назначение подписки для
серверов подписчиков.
Создание публикаций слиянием таблиц. Разрешения конфликтов
публикации. Установка объединения обрабатываемых таблиц. Выбор
возможности минимизации сетевого трафика.
Принудительная подписка. Мастер принудительной подписки.
Запросная подписка. Мастер запросной подписки.
Управление распределением данных. Поддержка неоднородных
репликаций. Публикация в Internet. Диспетчер репликации. Работа с
журналом ошибок.
Тема 11. Специализированные средства доступа к хранилищам и
генерации отчетности (Юниверс)
Установка связи с исходной Базой данных. Выбор фрагмента Базы
данных для включения в Юниверс. Создание связей в таблицах Юниверса.
Создание структуры Юниверса. Сохранение Юниверса.
Обеспечение доступа к данным. Выбор переменных Юниверса для
анализа. Замена иерархии переменных. Ввод в Юниверс расчетных
переменных. Создание отчетов с разрывами. Создание условий выбора.
Установка срезов (получение Кросс-таблиц). Транспонирование Кросстаблиц. Установка иерархических срезов. Использование фильтрации.
Редактирование переменных в Юниверсе. Расчет суммирующих показателей
по выбранному столбцу. Построение графических отчетов (диаграмм).
Оценка и контроль знаний
Промежуточный контроль знаний заключается в разработке типовых
(учебных) моделей с использованием различных методов.
Итоговый контроль знаний проводится в виде контрольной работы и
письменного экзамена.
Оценка выставляется по десятибалльной системе.
Перечень вопросов для письменного экзамена.
1. Область применения хранилищ данных.
2. Синтаксис кодов для создания запроса на языке MDX.
3. Основные требования к данным, вводимым в хранилище данных.
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 6
4. Создание запроса с суммарными значениями по годам и
детализированными значениями по кварталам на языке MDX.
5. Понятие многомерных систем управления базами данных (МСУБД).
6. Применение PivotTable List для отображения OLAP-данных.
7. Возможности создания хранилищ данных в реляционных БД.
8. Создание сводной web-страницы в Microsoft FrontPage.
9. Сравнительная характеристика МСУБД и РСУБД.
10.Вставка PivotTable List в web-страницу, создаваемую в FrontPage.
11.Понятие витрины данных.
12.Создание web-страниц со сводными диаграммами.
13.Многомерное представление при описании структур данных.
14.Метод деревьев решений как один из алгоритмов добычи данных.
15.Гиперкубические и поликубические модели данных.
16.Кластеризация как алгоритм добычи данных.
17.Операции манипулирования измерениями в OLAP.
18.Способы построения моделей добычи данных в SQL Server 2005.
19.Технологии аналитической обработки данных (OLAP).
20.Характеристика данных, которые подходят для таблицы фактов.
21.Характеристика вариантов реализации OLAP.
22.Распределенные корпоративные хранилища данных.
23.Характеристики Data Transformation Services (DTS) MS SQL Server.
24.Зависимые и независимые киоски данных.
25.Описание потоков данных в DTS.
26.Коллективные и частные измерения.
27.Выполнение DTS в MS SQL Server.
28.Иерархии типа «родитель-потомок» (parent-child).
29.Создание многомерной базы данных (куба) в MS SQL Server.
30.Характеристика виртуальных кубов.
31.Создание измерения типа «родитель-потомок» в MS SQL Server.
32.Особенности решений Business Intelligence.
33.Создание вычисляемых выражений в кубе с помощью MS SQL Server.
34.Функциональность средства «Бизнес-центр», входящего в состав
Microsoft Data Analyzer.
35.Возможности Microsoft Data Analyzer.
36.Последовательность создания локального куба.
37.Сравнительная характеристика классов информационных систем EDM
и BI.
38.Функции PivotTable List.
39.Функции поиска схожих значений, реализованные в Microsoft Data
Analyzer.
40.Принципы выбора количества предвычисляемых агрегатов.
41.Создание публикаций по электронной почте с помощью Microsoft Data
Analyzer.
42.Характеристика архитектуры хранилища HOLAP.
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 7
43.Создание публикаций на слайде с помощью Microsoft Data Analyzer.
44.Характеристика архитектуры хранилища ROLAP.
45.Создание публикаций в виде HTML-страниц с помощью Microsoft Data
Analyzer.
46. Технологии обновлении данных в ХД.
47.Просмотр OLAP-срезов с использованием Analysis Manager.
48.Взаимодействие хранилища данных, системы DSS, OLAP и
оперативных БД.
49.Информационные технологии принятия решений.
50.Характеристика службы PivotTable Reports как средства создания
сводных таблиц Microsoft Excel.
51.Функциональные возможности Business Rule Management Systems.
52.Создание сводной таблицу с данными OLAP-кубов в Excel.
53.Роль хранилищ данных в информационной технологии принятия
решений.
54.Построение сводной диаграммы в Excel, синхронизированной со
сводной таблицей с данными из куба.
55.Основные принципы многомерного анализа данных.
56.Создание локальных OLAP-кубов с помощью Microsoft Excel.
57.Построение OLAP-срезов в Pro Clarity.
58.Преобразование простых вопросов в комплексные многомерные
запросы с помощью средства «Бизнес- центр» Microsoft Data Analyzer.
59.Построение ключевых показателей эффективности в Pro Clarity.
60.Средства визуального анализа данных в Microsoft Data Analyzer.
61.Возможности построения перспектив в Pro Clarity.
62.Концептуальные основы хранилищ данных.
63.Двенадцать правил Кодда, применяемые для оценки OLAP-систем.
64.Расскажите о функциональности Pro Clarity в части построения
‘Perfomance Map’.
65.Технологии построения куба в MS SQL Server 2005.
66.Использование Integration Services для заполнения реляционного
хранилища.
67.Получение реляционной схемы данных из многомерного куба.
68.Создании перспективы в кубах MS SQL Server 2005.
69.Создании систем ключевых показателей в MS SQL Server 2005.
70.Присоединение куба к источникам данных разного типа.
71.Характеристика действий (Actions) в кубах MS SQL Server 2005.
72.Функциональные возможностях пакета MS ProClarity.
73.Тест FASMI, возможности его применения для оценки OLAP-систем.
74.Процесс построения логической схемы «звезда» в AIS.
75.Определение ETL, примеры ETL-процессов.
76.Процесс построения отображения «звезды» на куб в AIS.
77.Таблицы фактов и измерений. Понятия «схема звезда» и «схема
снежинка».
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 8
78.Построение ETL-процессов в OWB, компоненты Workflow.
79.Возможности применения OLTP-систем для оперативного анализа
данных.
80.Архитектура и компоненты Oracle Warehouse Builder.
Основная литература
1. Перминов Г.И. Системы интеллектуального анализа данных
(Business Intelligence). Учебно-методический комплекс. – М.: ГУВШЭ, 2007.
Дополнительная литература:
1. Методы и модели анализа данных: OLAP и Data Mining.
/А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод.
СПб.: БХВ-Петербург, 2004. 13-26 с.
2. Введение
в
OLAP-технологии
Microsoft.
/А.Федоров,
Н.Елманова. М.: Диалог-МИФИ, 2002. 268 с.
3. Хранилища данных. От концепции до внедрения / С.Архипенков,
Д.Голубев., О.Максименко. М.: Диалог-МИФИ, 2002. 528 с.
4. Oracle & Data Warehousing / L.Hobbs, S.Hillson. – Digital Press,
2000. 380 с.
Авторы:
А.А. Дружаев., к.э.н., преподаватель кафедры бизнес-аналитики НИУ
ВШЭ, Директор департамента консалтинга компании «Ланит»
ППП «Информационная бизнес-аналитика», ВШБИ
Страница 9
Скачать