ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФАКУЛЬТЕТ МАТЕМАТИКИ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ Кафедра информационных систем ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ Программа курса для направления 230200.68 «Информационные системы. Программа Базы знаний» АСТРАХАНЬ 2009 ПОЯСНИТЕЛЬНАЯ ЗАПИСКА Данный курс является дисциплиной национально-регионального компонента направления 230200.68 «Информационные системы. Программа Базы знаний». Цель дисциплины «Технологии анализа данных» заключается в предоставлении слушателям комплекса знаний, умений и навыков, необходимых для повышения эффективности профессиональной деятельности средствами современных информационных технологий в сфере бизнес-аналитики. Курс ориентирован на тех, кто интересуется вопросами построения хранилищ данных, оперативного анализа данных, интеллектуального анализа данных, методами автоматического поиска закономерностей в больших массивах информации. В рамках курса «Технологии анализа данных» студенты знакомятся с вопросами разработки систем поддержки принятия решений, организацией хранилищ данных, а также с задачами анализа данных. Наиболее подробно в курсе представлен интеллектуальный анализ данных (Data Mining). Описания сопровождаются примерами применения. Основную часть курса составляют практические задания для самостоятельной работы. Они должны быть реализованы с помощью средств Business Intelligence в Microsoft SQL Server / Oracle (хранилища данных, OLAP), а также RapidMiner (Data Mining). В результате изучения дисциплины слушатели должны знать: - типы задач, решаемых с помощью систем поддержки принятия решений; - общее назначение, структуру и операции с хранилищем данных; - назначение и архитектуру OLAP-систем, операции над OLAPкубами; - модели, методы и средства интеллектуального анализа данных. Слушатели должны уметь: - использовать инструменты для создания хранилищ данных и создания отчетов на их основе; - создавать OLAP-кубы и работать с ними; - использовать инструменты для интеллектуального анализа данных. Курс рассчитан на слушателей, имеющих навыки работы с реляционными СУБД. Желательно наличие общего представления о методах математической статистики. Курс также связан с дисциплиной «Интеллектуальные информационные системы». Изучение курса завершается итоговой экзаменационной оценкой в соответствии с суммой набранных баллов по системе текущего контроля студентов. В течение семестра студент выполняет лабораторные работы в среде Microsoft SQL Server / Oracle (хранилища данных, OLAP), а также RapidMiner (Data Mining), демонстрирует преподавателю результаты. Преподаватель может задать студенту дополнительные вопросы по выполненной работе для контроля усвоения темы. РАСПРЕДЕЛЕНИЕ ЧАСОВ ПО ТЕМАМ И ВИДАМ УЧЕБНЫХ ЗАНЯТИЙ Наименование тем Тема 1. Хранилища данных Тема 2. Оперативный анализ данных (OLAP) Тема 3. Введение в Data Mining Тема 4. Алгоритмы Data Mining: классификация и прогнозирование Тема 5. Алгоритмы Data Mining: поиск ассоциативных правил и кластеризация Тема 6. Применение Data Mining и современные тенденции. Продвинутые техники Data Mining Итого аудиторных часов Количество часов самостоятельной работы студентов Всего часов Количество аудиторных часов в том числе по видам учебных занятий Практические, Всего Лабораторные Лекции семинарские занятия занятия 4 2 2 4 2 2 2 2 6 2 4 8 3 5 2 2 26 13 54 80 13 СОДЕРЖАНИЕ КУРСА Тема 1. Хранилища данных Системы поддержки принятия решений. Определение хранилища данных, их использование и современные тенденции. Сравнение понятий хранилища данных и базы данных. Архитектура хранилища данных. ETLпроцессы (извлечение, преобразование и загрузка данных). Конечные инструменты хранилищ данных. Комплексная агрегация и множественная гранулярность. Оптимизация и тестирование хранилища данных. Тема 2. Оперативный анализ данных (OLAP) OLAP: витрины данных, кубы данных, многомерная модель данных: схема звезда, схема снежинка, таблица фактов. Сравнительный анализ OLAP и OLTP. Способы реализации многомерной модели: MOLAP, ROLAP, HOLAP. Развертывание OLAP-кубов. Операции над OLAP-кубами (срез, вращение, консолидация, детализация). Тема 3. Введение в Data Mining Определение Data Mining и область применения. Основы Data Mining, связанные понятия и техники. Обзор алгоритмов Data Mining. Цикл получения, предварительной обработки, анализа данных, интерпретации результатов и их использования. Тема 4. Алгоритмы Data Mining: классификация и прогнозирование Определение задач классификации и их применение. Методы классификации. Деревья решений. Наивный Байесовский метод. Метод ближайшего соседа. Метод опорных векторов (SVM). Задача прогнозирования. Прогнозирование временных рядов. Тема 5. Алгоритмы Data Mining: поиск ассоциативных правил и кластеризация Множества данных. Генерация множеств данных и правил. Корреляционный анализ. Алгоритм Apriori. Основные вопросы кластеризации. Дивизимные и иерархические методы кластеризации Тема 6. Применение Data Mining и современные тенденции. Продвинутые техники. Применение Data Mining. Приложения Business Intelligence. Программное обеспечение Data Mining. Основные сложности Data Mining. Направления Data Mining: Text Mining, Web Mining, Spatial Mining, Temporal Mining. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА 1. Барсегян, А.А., Куприянов, М.С., Степаненко, В.В., Холод, И.И., Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. – СПб.: БХВПетербург, 2007. – 384 с. 2. Паклин, Н.Б., Орешков, В.И., Бизнес-аналитика: от данных к знаниям. – СПб.: Питер, 2009. – 624 с. 3. Сегаран, Т., Программируем коллективный разум. – СПб.: Символ-Плюс, 2008. – 368 с. 4. Han J., Kamber M., Data Mining: Concepts and Techniques (Second Edition), Morgan Kaufmann Publishers, 2006. – 800 p. 5. Макленнен Д., Танг Ч., Криват Б.,Microsoft SQL Server 2008: Data Mining – интеллектуальный анализ данных. BHV, 2009 6. Дюк, В. Data Mining : учебный курс / Дюк, В., Самойленко, А. - ; - СПб. : Питер, 2001. - 368 с. - (Учебный курс). 7. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP : Рек. УМО вузов по ун-тетскому политех. образованию в качестве учеб. пособ. по спец. "Информационные системы и технологии" направления "Информационные системы" / А.А. Барсегян, М.С. Куприянов и др. - 2-е изд. ; перераб. и доп. - СПб. : БХВ-Петербург, 2008. - 384 с.+ ! CD-ROM