Вопросы по курсу «Многомерные статистические методы» Корреляционный анализ Частное и условное нормальное распределение. Функция регрессии одного нормального вектора на другой. Частная ковариация и частный коэффициент корреляции. Декоррелирующее преобразование случайного вектора. Расстояние Махалонобиса. Одновременная диагонализация двух матриц. Парный коэффициент корреляции, его свойства, интерпретация и недостатки (нелинейная зависимость, аномальные наблюдения, ложная корреляция). Выборочный парный коэффициент корреляции, аппроксимация его распределения. Доверительный интервал, проверка гипотезы о равенстве нулю. Использование преобразования Фишера. Измерение тесноты статистической связи при нелинейной зависимости. Случай группированных данных: корреляционное отношение, проверка гипотезы о его равенстве нулю. Случай негруппированных данных: индекс корреляции. Частный коэффициент корреляции, его геометрическая интерпретация. Вычисление частных коэффициентов корреляции: рекуррентная формула для нормального распределения и использование алгебраических дополнений корреляционной матрицы, проблема определения выборочных значений. Аппроксимация распределения частного коэффициента корреляции. Два способа определения множественного коэффициента корреляции. Способы его вычисления и свойства. Проверка гипотезы о равенстве нулю. Классификация (обучение с учителем) Классификация для случая заданных распределений двух классов. Лемма Неймана-Пирсона, байесовское правило. Классификация в модели Фишера с одинаковыми и разными ковариационными матрицами двух классов. Классификация двух нормальных распределений посредством линейной поверхности. Характеристики качества классификации: вероятность ошибки классификации, взвешенная ошибка классификации, функция потерь, зависящая от степени различения. Вероятность ошибки классификации в модели Фишера. Отбор информативных признаков: необходимость, возможные последствия исключения признака на примере модели Фишера, измерение качества подмножества признаков. Методы поиска информативного набора признаков: перебор, последовательное включение и исключение, случайный поиск с адаптацией. Классификация для случая заданных распределений трех и более классов. Байесовское правило. Классификация в модели Фишера с общей ковариационной матрицей классов. Базовые понятия обучения с учителем: случайная классифицированная выборка, алгоритм классификации (решающее правило, классификатор), виды ошибок классификации (условная вероятность ошибочной классификации, ожидаемая ошибка классификации, асимптотическая ожидаемая ошибка классификации), виды асимптотики при анализе качества классификации. Модель Фишера в асимптотике растущей размерности. Алгоритмы построения решающих правил. Статистические и эвристические алгоритмы. Кусочно-линейные классификаторы: правило ближайшего соседа, правило k ближайших соседей, метод эталонов. Алгоритмы подстановки. Методы, основанные на ядерных оценках плотностей распределения. Метод потенциальных функций. Алгоритмы классификации: метод дробящихся эталонов, логические решающие правила. Кластеризация (обучение без учителя) Исходные данные для кластеризации: матрица объект-свойство, матрица взаимных расстояний. Нестрогая постановка задачи кластеризации. Расстояния между объектами. Расстояния между классами. Меры качества разбиения выборки на классы. Случаи известного и неизвестного числа классов. Расщепление смесей распределений. Понятие смеси распределений. Задача расщепления смеси. Использование результатов расщепления для классификации. Идентифицируемость (различимость) смесей распределений. Итерационная процедура расщепления смеси распределений, основанная на принципе максимального правдоподобия. Определение числа классов. Процедура расщепления смеси распределений, основанная на методе моментов. Процедура адаптивного вероятностного обучения. Эвристические алгоритмы таксономии. Алгоритм k эталонов. Метод взаимного поглощения. Алгоритм k средних. Базовый алгоритм ФОРЕЛЬ. Алгоритм ПУЛЬСАР (ФОРЕЛЬ-2). Алгоритм СКАТ. Последовательные процедуры таксономии. Метод эталонов. Метод k средних с заданным и с переменным числом классов. Иерархическая таксономия: метод декомпозиции, метод агломерации, множественное слиянием, быстрые алгоритмы попарной агломерации. Итеративный самоорганизующийся метод анализа данных (ИСОМАД). Литература 1. С.А. Айвазян, В.С. Мхитарян Прикладная статистика и основы эконометрики. – М.: ЮНИТИ, 1998. 2. С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика. Исследование зависимостей. – М.: Финансы и статистика, 1985. 3. С.А. Айвазян, В.М. Бухштабер, И.С. Енюков Прикладная статистика. Классификация и снижение размерности. – М.: Финансы и статистика, 1989. 4. А.М. Дубров, В.С. Мхитарян, Л.И. Трошин Многомерные статистические методы для экономистов и менеджеров: Учебник - Финансы и статистика, 2000. 5. Боровиков Г.И. Statistica. Анализ и обработка данных в системе WINDOWS. М., Финансы и статистика, 1998. 6. Т. Андерсон Введение в многомерный статистический анализ. – М.: Физматгиз, 1963. 7. К. Фукунага. Введение в статистическую теорию распознавания образов. – М.: Наука, 1979.