Аннотация учебной дисциплины «Системы интеллектуального анализа данных» программы профессиональной переподготовки «Информационная бизнес-аналитика» Цель: изучить теоретическую базу в сфере интеллектуальных методов анализа и приобрести разнообразные практические навыками, которые позволят слушателям непосредственно участвовать в реализации программ и проектов, связанных с информационными технологиями поддержки принятия решений. Задачи: Изучить меры хаотичности временных рядов; Освоить методы нелинейной динамики к изучению временной динамики экономических рядов; Знать характеристики синергетических моделей; Приобрести знания по методам и моделям DataMining; Изучить методы, основанные на нечеткой логике; Получить представление об преимуществах и недостатках нейротехнологии.; Получить представление об алгоритмах построения деревьев решений; Освоить методы кластеризации; Изучить мастер построения модели DataMining. Направления применения Web Mining и Web Usage Mining. Ожидаемые результаты: В результате изучения дисциплины слушатели должны: знать правила спектрального анализа; знать возможности предсказывания финансовых крахов; уметь использовать деревья решений; приобрести навыки применения методов кластеризации (Clustering); уметь применять методы нахождения последовательностей (сиквенциальный анализ); уметь выполнять поиск по объекту во внешнем источнике информации; уметь работать с клиентскими модулями; знать способы организации приближенного поиска и передачи знаний заинтересованным лицам; ППП «Информационная бизнес-аналитика», ВШБИ Страница 1 знать функционал PolyAnalyst.). модуля текстового анализа в системе Содержание Раздел 1. Синергетические модели. Возможности применения методов нелинейной динамики к изучению временной динамики экономических рядов. Анализ одномерных временных рядов и теория детерминированного хаоса. Понятие об аттракторе. Меры хаотичности временных рядов. Показатель трендоустойчивости временного ряда Херста. Алгоритм нормированного размаха Херста (R/Sанализ). Показатели Ляпунова. Оценка показателей Ляпунова по временному ряду. Энтропия Колмогорова. Длина памяти в экономических рядах. Горизонт прогнозирования. Корреляционная размерность. Фрактальная размерность. Определение фрактальной размерности по одноразовому измерению временного ряда. ТеоремаТакенса.Алгоритмы расчета фазовой размерности. Спектральный анализ. Вейвлет анализ. Дискретный вейвлет анализ. Непрерывный вейвлет анализ. Сингулярный спектральный анализ. Возможности предсказывания финансовых крахов. Раздел 2. Модели DataMining. Методы DM, основанные на эволюционном или генетическом программировании. Сходства и различия между эволюционными стратегиями и генетическими алгоритмами. Различия между эволюционными стратегиями и генетическими алгоритмами. Основные принципы, заложенные в эволюционные программы: кроссинговер, мутация, селекция. Фундаментальная теорема генетического алгоритма. Разновидности генетических алгоритмов: по методы селекции, по процедуре репродукции, по генетическим операторам, по методам кодирования, по масштабированию функции приспособленности. Краткий обзор программных средств, реализующих эволюционные алгоритмы. Методы, основанные на нечеткой логике. Основные понятия. Способы задания характеристической функции. Логические функции для нечетких множеств. Нечеткая и лингвистическая переменная. Прямой нечеткий вывод. Этапы нечетного вывода. Модификации алгоритма нечеткого вывода. Алгоритмы нечеткого логического вывода: Мамдани (Mamdani), Цукамото (Tsukamoto), Сугэно (Sugeno), алгоритм Ларсена (Lаrsеn), упрощенный алгоритм нечетного вывода. Методы приведения к четкости. ППП «Информационная бизнес-аналитика», ВШБИ Страница 2 Пример анализа риска банкротства. Постановка задачи комплексного анализа банкротства. Решение задачи с использованием нечетких множеств. Классификация значений. Построение функций принадлежности. Выводы. Нейронные сети (Neural Networks). Понятия об нейронных сетях (НС). Преимущества и недостатки нейротехнологии. Области применения. Общие черты НС. Нейроны. Классификация по типу нейронов: классификация нейронов по виду функции стимуляции, классификация нейронов по виду функции активации, классификация нейронов по типу сигнала, классификация нейронов по вероятностной определенности. Классификация нейросетевых архитектур: по типу связей в сети - сеть прямого распространения, рекуррентная сеть, соревновательная сеть; по наличию скрытых элементов; по динамическим характеристикам. Классификация методов обучения: по используемым парадигмам - «с учителем» (контролируемое обучение), «без учителя» (самообучение) и смешанная; по используемым правилам - коррекция по ошибке; машина Больцмана; правило Хебба; обучение методом соревнования; обучение методом селекции. Многослойный персептрон (MLP). Методы нахождения глобального минимума функции ошибок. Радиальная базисная функция (RBF). Преимущества сети RBF перед сетями MLP. Принципы обучения RBF-сети. Вероятностная нейронная сеть (PNN). Преимущества и недостатки PNN– сетей. Сеть Кохонена. Основной итерационный алгоритм Кохонена. Область применения сети Кохонена. Гибридные сети (ГС). Необходимость построения гибридной сети. Эффективность гибридизации. Принцип работы гибридной сети. Отличие ГС от обычной нейросети. Принцип обучения ГС. База знаний гибридной сети. Алгоритм вывода для ГС. Адаптивная нечеткая нейросистема (ANFIS). Архитектура нейронной сети ANFIS. Примеры использования системы Anfis: построение регрессионно-авторегрессионной модели сильно зашумленного ряда; прогноз сильно зашумленного ряда. Методы нахождения «ближайшего соседа» (Nearest-Neighbor matching). Характеристика методов извлечения и адаптации прецедентов. Метод ближайшего соседа. Преимущества и недостатки метода. Модификации методов ближайшего соседа. Метод k-ближайших соседей и взвешенный метод (к-БС). Адаптивные методы ближайшего соседа. Метод ускоренного поиска ближайшего соседа (Fast Nearest Neighbor Searching). Модифицированный метод ближайшего соседа (ММБС). Выбор опорных точек. Алгоритм выбора опорных точек. Вычислительная сложность ММБС. Редуцированные методы ближайшего соседа (РМБС). ППП «Информационная бизнес-аналитика», ВШБИ Страница 3 Процедуры фильтрации шумовых документов в выборке. Алгоритм РМБС. Обобщенный метод ближайшего соседа (ОМБС). Алгоритм ОМБС. Деревья решений (Decision Tree – DT). Понятие об алгоритмах построения деревьев решений. Преимущества использования деревьев решений. Правила построения деревьев решений: разбиений; остановки; отсечения. Разновидности DT – алгоритмов: альтернативные методы расщепления данных в узлах дерева, альтернативные методы отсечения незначимых ветвей (pruning), оптимизация построенного дерева, использование нечетких критериев расщепления, построение вместо дерева ациклического графа (решетки) более общего вида, тернарное разбиение данных в узлах для учета случаев, когда значение критерия разбиения не может быть вычислено для части записей. Методы кластеризации (Clustering). Понятия о кластеризации. Особенности кластеризации в Data Mining. Методы кластеризации с числовыми атрибутами. Классификация методов кластеризации. Иерархические методы. Иерархические агломеративные методы. Меры расстояния между объектами. Методы объединения: метод одиночной связи (ближайшего соседа); метод полных связей (наиболее удаленного соседа); метод средней связи; метод Уорда (Ward’s method). Иерархические дивизимные методы. Алгоритм Макнаотона. Пример дивизимного метода. Итеративный метод кластеризации - k средних. Метод нечеткой кластеризации Fuzzy C-Means. Алгоритм Fuzzy CMeans. Кластеризация категорийных данных. Масштабируемый алгоритм CLOPE. Формальное описание алгоритма. Реализация алгоритма. Области применения алгоритма кластеризации. Метод Naive Bayes. Понятие о методе Naive Bayes. Пример применения метода Navie Bayes. Проблемы использования метода Navie Bayes. Область применения метода Naive Bayes. Дискриминантный анализ. Назначение, цели, предпосылки, особенности дискриминационного анализа. Дискриминантные функции и их геометрическая интерпретация. Количество дискриминантных функций. Алгоритм дискриминационного анализа 2-х классов. Пример дискриминации двух групп. Проверка решения и классификация новых объектов Дискриминационный анализ при числе групп более двух. Алгоритм решения задачи для общего случая k классов. Пример классификации при числе групп более двух. ППП «Информационная бизнес-аналитика», ВШБИ Страница 4 Влияние числа выбранных переменных на результат анализа. Методы отбора переменных. Критерии отбора переменных для двух и более групп: Wilks' lambda {Лямбда Уилкса), Mahalonobis distance (Расстояние Махалонобиса), Smallest F ratio (Наименьшее F-отношение), Rao's V (V Pao), Sum of unexplained variance (Сумма необъясненной дисперсии). Классификация без интерпретации. Взаимосвязь между дискриминантными переменными и дискриминантными функциями Вклад отдельной переменной в значение дискриминантной функции. Степень корреляционной зависимости между переменными и дискриминантными функциями. Методы ассоциации. Понятие об ассоциации. Метод Basket Analysis. Оценка полезности ассоциативных правил: поддержка (support), достоверность (confidence), улучшение (improvement). Методы нахождения последовательностей (сиквенциальный анализ). Разновидности ассоциативных правил. Алгоритмы. Алгоритм Apriori. Пример применения алгоритма Apriori. Разновидности алгоритма Apriori. Методы построения логических правил (If-Then). Понятие о методе IfThen. Поиск логических правил в данных (на примере системы WizWhy). Основные черты метода. Загрузка и управление данными. Задание параметров процедуры поиска правил. Настройки выдачи отчетов. Дополнительные возможности построения логических правил. Работа с окном диалога Ошибки/Примеры (Errors/Examples). Работа с окнами форматирования. Окно работы с внешними данными. Отчеты системы (Отчет о правилах, список правил, визуализация полученных правил, содержание записи в деталях, индекс признака, окно распечатки, окно экспорта правил, отчет о трендах, отчет о неожиданных правилах). Предсказание на основе полученных правил. Построение множества правил и деревьев решений на примере системы See5. Подготовка данных для See5 (Файл имен переменных, файл данных, файлы тестовых данных, файл стоимости). Интерфейс пользователя. Построение дерева решений. Детальное изучение результатов. Преобразование дерева решений в набор правил. Усиление решения (Boosting). Использование правил для принятия решений. Смягчение порогов. Дополнительные настройки алгоритма. Перекрестная проверка полученных результатов. Выборка из больших наборов данных. Учет стоимости различных ошибок классификации. Использование классификаторов. Детальная проверка и сохранение результатов. Раздел 3. Text Mining. Понятие о Text Mining. Особенности данных для Text Mining Задачи Text Mining. Суммаризация (реферирование). Составление выдержек. Формирование краткого изложения. Классификация. ППП «Информационная бизнес-аналитика», ВШБИ Страница 5 Кластеризация. Семантические карты. Ответ на запросы, поиск по ключевым словам. Хранилище слов. Аналитическая обработка текстовой информации. Применение нейронных сетей при анализе текстовой информации Пример алгоритма Text mining Модули текстового анализа в системе PolyAnalyst. Text Analysis (ТА) текстовый анализ. Text Categorizer (TC) - каталогизатор текстов. Link Terms (LT) - связь понятий. Раздел 4. Web Mining. Направления применения Web Mining и Web Usage Mining. Задачи применения Data Mining в Web Сети. Спецификация доступных ресурсов. Увеличение ценности каждого посетителя. Учет интересов посетителя вебсайта. Дифференцированное управление своими ресурсами. Сбор информации новыми способами. Проверка качества содержания и архитектуры вебсайта. Области применения Web Analyst (WA). E-участник. Сайты по рекламированию. Интеграторы Сети. Поиск в сети с помощью Data Mining. ( Задача структуризация Сети. Вертикальный Поиск. Мобильный Поиск. Мультимедийный Поиск.) Архитектура Web-Analyst. Компоненты Web-Analyst On-Line. Автономные Компоненты Web-Analyst. Перспективы применения WA. Направление Web Content Mining. Продукты Ontos Series. Light Ontos – управление информацией и поиском документов. LightOntos Personal Edition. LightOntos Business Edition. LightOntos for Workgroups. Сферы применения LightOntos. База знаний в Web Mining. Понятие онтологии. Онтологии в Web Mining. Практическая реализация задач Web Mining. Сбор данных для анализа. Определение предметной области. Аналитическая обработка документов. Структурирование знаний, обеспечение их хранения, обновления и представления. Формирование базы знаний. Представление знаний. Организация приближенного поиска и передача знаний заинтересованным лицам. Поиск по объекту во внешнем источнике информации. Поиск по ситуации во внешнем источнике информации. Поиск с применением технологии триплетов. Передача знаний. Оценка и контроль знаний В рамках учебной дисциплины применяются следующие формы текущего и итогового контроля: - оценка контроль работы на практических занятиях; - экзамен. Оценка за работу на практических занятиях выставляется на основании степени участия слушателя в аудиторных занятиях, прежде всего – при ППП «Информационная бизнес-аналитика», ВШБИ Страница 6 решении практических задач и изучении отдельных информационнотехнологических решений. Экзамен включает в себя устный ответ на теоретический вопрос. Оценка выставляется по десятибалльной системе. Перечень вопросов для письменного экзамена. Какова классификация интеллектуальных систем? Что такое методы ИАД и каково их назначение? Каковы особенности методов ИАД? Охарактеризуйте области применения методов ИАД. Каковы этапы исследований методами ИАД? В чем заключается этап предварительной обработки данных при использовании ИАД? 7. Охарактеризуйте метод «Деревьев решений». 8. Охарактеризуйте особенности регрессионного анализа в методах ИАД. 9. Какие разновидности регрессионного метода ИАД Вы знаете? 10.Охарактеризуйте модели временных рядов с запаздываниями. 11.Охарактеризуйте метод «Ближайшего соседа». 12.Охарактеризуйте метод поиска правила. 13.Охарактеризуйте метод кластеризации. 14.Охарактеризуйте метод классификации. 15.Охарактеризуйте метод дискриминации. 16.Какие различия в целях и алгоритмах статистического и интеллектуального подходов. 17.Охарактеризуйте генетические алгоритмы. 18.Охарактеризуйте нейросетевые методы анализа. 19.Охарактеризуйте методы для анализа нечетких множеств. 20.Перечислите основные направления эволюционного моделирования и приведите основные факторы, определяющие неизбежность эволюции. 21.В чем особенности эволюционного программирования? Приведите основные шаги обобщенного алгоритма эволюционного программирования. 22.Охарактеризуйте метод эволюционных стратегий. В чем его отличие от эволюционного программирования и от генетических алгоритмов? 23.Применение эволюционных вычислений в ИИС. 24.Какие алгоритмы называют генетическими? Сформулируйте основные особенности генетических алгоритмов. 25.Охарактеризуйте простой генетический алгоритм. Приведите пример. 26.Опишите операторы репродукции и кроссинговера в простом генетическом алгоритме. Приведите примеры. 1. 2. 3. 4. 5. 6. ППП «Информационная бизнес-аналитика», ВШБИ Страница 7 27.Приведите примеры использования простого генетического алгоритма для вычисления функции f(x) = х4 на интервале [0,1, 2, 3,4]. 28.Составьте примеры, иллюстрирующие работу операторов репродукции, кроссинговера, мутации и инверсии. 29.Дайте характеристику понятию «схема» в простом генетическом алгоритме. Приведите примеры. 30.Фундаментальная теорема генетического алгоритма. 31.Приведите пример применения фундаментальной теоремы генетического алгоритма. 32.Сформулируйте прикладную экономическую или управленческую оптимизационную задачу и опишите ее решение с применением генетического алгоритма. 33.Классифицирующие системы Холланда. 34.Перечислите основные этапы технологии генетического программирования. 6. Литература основная и дополнительная Основная литература: Перминов Г.И. Системы интеллектуального анализа данных (Business Intelligence). Учебно-методический комплекс. – М.: ГУ-ВШЭ, 2007. Дополнительная литература: Гринченко В.Т., Мацыпура В.Т., Снарский А.А. Введение в нелинейную динамику. Хаос и фракталы. Гл.2. ЛКИ, 2007 Кричевский М.Л. Интеллектуальные методы в менеджменте. Гл. 4. СПб.: Питер, 2005. Малинецкий Г.Г., Потапов А.Б., Подлазов А.В. Нелинейная динамика. Подходы, результаты, надежды. М.: КомКнига/URSS. 2006. Петерc Э. Фрактальный анализ финансовых рынков. Применение теории хаоса в инвестициях и экономике. М.: Интернет-трейдинг, 2004. Ширяев В.И. Финансовые рынки и нейронные сети. Гл.6. ЛКИ, 2007 Андрейчиков А.В., Андрейчикова О.Н. Интеллектуальные информационные системы. – М.: ФиС, 2004, Барсегян А.А. и др. Методы и модели анализа данных: OLAP и Data Mining. –С.Пб.: БХВ-Петербург, 2004, Дюк В., Самойленко А. Data Mining. Учебный курс. С-Пб.: Питер, 2001. Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. –М.: Издатель – Молгачева, 2001. Круглов В.В., Дли М.И. Интеллектуальные информационные системы. Компьютерная поддержка систем нечеткой логики и нечеткого вывода. –М.: Физматлит. 2002. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. Пер. с польского. –М.: Горячая линия - Телеком, 2006, ППП «Информационная бизнес-аналитика», ВШБИ Страница 8 Чубукова И.А. Data Mining. – М.: Информационных Технологий; БИНОМ. 2006. Интернет – Университет Авторы: А.А. Дружаев., к.э.н., преподаватель кафедры бизнес-аналитики НИУ ВШЭ, Директор департамента консалтинга компании «Ланит» ППП «Информационная бизнес-аналитика», ВШБИ Страница 9