Программа курса «Математические методы анализа данных» Курс предназначен для изучения в магистратуре ММФ НГУ (направление подготовки "Математика и компьютерные науки"). Продолжительность обучения – 0.5 года. В основе дисциплины лежат материалы годового спецкурса «Теория статистических решений», читаемого на кафедре теоретической кибернетики более 10 лет. 1. Обоснование необходимости курса. Теория и методы анализа данных (Data mining) – активно развивающееся направление в области компьютерных наук. При анализе сложных систем возникает необходимость анализа и обобщения больших объемов разнородной информации. Помимо «классических» методов многомерного статистического анализа, для этого используются методы дискретной математики, теории информации, математической логики. Изучение курса даст углубленное понимание данных дисциплин, позволит увидеть, как полученные теоретические результаты используются при решении практических задач. Ядро курса представляет собой многомерный статистический анализ. В настоящее время на ММФ НГУ не читаются обязательные курсы по данной дисциплине. В то же время существует достаточно большое число студентов - магистрантов (по предварительной оценке – несколько десятков), специализирующихся на разных кафедрах и которым по тематике дипломных работ необходимо владение методами анализа данных. Знание этих методов востребовано и после окончания вуза. Положительный опыт преподавания дисциплин, связанных с анализом данных, накоплен, например, в МГУ, где на механико-математическом факультете читается обязательный курс «Многомерный статистический анализ»; на факультете вычислительной математики и кибернетики ведутся такие обязательные курсы, как «Математические методы классификации», «Статистический анализ данных» и др. 2. Содержание лекций. 1) Введение. Основные понятия. Задачи анализа данных. Задача распознавания образов. 2) Дискриминантная (решающая) функция. Риск, вероятность ошибки распознавания. Оптимальная (байесовская) решающая функция. 3) Оптимальная решающая функция при многомерных нормальных распределениях. 4) Построение решающих функций в пространстве бинарных, номинальных переменных. «Наивный» байесовский классификатор. 5) Восстановление смеси распределений. ЕМ-алгоритм. Непараметрическое оценивание плотности распределения. Метод ближайших соседей. 6) Классификация с помощью линейных функций. Линейный дискриминант Фишера. 7) Метод опорных векторов. Потенциальные функции, беспризнаковое распознавание. 8) Методы распознавания образов, основанные на нахождении логических закономерностей. Методы построения деревьев решений. 9) Построение коллективного решающего правила. Бустинг деревьев решений. 10) Оценивание качества решающих функций. Проблема переобучения. Бутстреп. Оценки Вапника-Червоненкиса. 11) Задача регрессионного анализа. Основные модели регрессии. Оценивание параметров регрессионной модели. 12) Регрессия с нечисловыми переменными. Логистическая регрессия. Деревья регрессии. 13) Анализ временных рядов. Основные модели временных рядов. 14) Задача кластерного анализа и основные алгоритмы ее решения. 15) Поиск наиболее информативной подсистемы переменных. Алгоритм случайного поиска с адаптацией. Литература 1. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006. 2. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир, 1976. 3. 4. 5. 6. 7. 8. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности - М.: Финансы и статистика, 1989. Лбов Г.С. Анализ данных и знаний. Учебное пособие. НГУ, 2010. Мерков А.Б. Распознавание образов. Введение в методы статистического обучения. М.: Едиториал УРСС, 2011. Лбов Г.С., Бериков В.Б. Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. - Новосибирск: Изд-во Ин-та математики, 2005. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. М: Дело, 1997. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. – М.:Мир, 1974. – Вып.1,2. Интернет-ресурсы: 1. Интернет-сайт по методам машинного обучения: http://www.machinelearning.ru 2. Анализ статистических данных с использованием деревьев решений: http://math.nsc.ru/AP/datamine/decisiontree.htm 3. Содержание практических занятий. 1) Оценивание параметров распределений. Риск, вероятность ошибки при принятии решений. 2) Построение оптимальной решающей функции при известных распределениях. Случай одной, двух переменных, двух образов. Случай трех образов. 3) Построение оптимальной решающей функции при нормальных распределениях. Случай одной, двух переменных, двух образов, равных и неравных матриц ковариаций. 4) Построение «наивного» байесовского классификатора в случае бинарных переменных. 5) Решение задач распознавания образов с помощью непараметрического оценивания плотности и метода k ближайших соседей. 6) Построение линейного дискриминанта Фишера в случае двух переменных, двух образов. 7) Решение задач распознавания образов с помощью метода опорных векторов. Случай двух переменных, двух образов, различных штрафных функций и функций ядра. 8) Вычисление критериев качества логических закономерностей при распознавании образов. Применение алгоритмов КОРА, ТЭМП в случае булевых переменных. 9) Определение критериев качества деревьев решений (энтропийный критерий, критерий Джини, хи-квадрат и др.). 10) Решение задач распознавания образов с использованием коллективного подхода. Построение леса решений. Применение алгоритма бустинга деревьев решений. 11) Нахождение оценок Вапника-Червоненкиса для случая дискретного классификатора. Вычисление емкости класса решающих функций. 12) Оценивание параметров моделей регрессии по таблицам данных. Построение регрессионной модели в случае мультиколлинеарности, гетероскедастичности и автокоррелированности наблюдений. 13) Решение задач регрессионного анализа при наличии нечисловых переменных. Оценивание параметров логистической регрессии. 14) Оценивание параметров трендовых, авторегрессионных моделей. Выделение циклической составляющей ряда. 15) Решение задач кластерного анализа различными алгоритмами (k-средних, иерархического алгоритма построения дендрограммы, алгоритма кратчайшего незамкнутого пути). Вычисление индексов качества кластерного анализа. 4. Компьютерные занятия Курс дополняется компьютерными занятиями, на которых решаются практические задачи на основе реальных таблиц данных, взятых, например, из архива UCI: http://archive.ics.uci.edu/ml/. При этом будет использована свободная программная среда R, а также другие имеющиеся системы статистического анализа (STATISTICA, MATLAB, R), пакет анализа данных в Excel.