Построение регрессионных моделей и решение задачи предсказания 1 Два класса решаемых задач X11 X21 . . . … Xn1 … … X12 X22 . . . … Y1 Y2 X X1m Метод- ПГК Задачи . . . . . . … Xnm 1. Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация Методы : РГК, РЛС Задачи Y . . . … Yn 1. Построение модели Y(X) 2. Прогнозирование 2 Постановка задачи. Исходные данные Независимые наблюдения - предикторы X11 X21 . . . … Xn1 … … X12 X22 . . . … X X1m Зависимые переменные - отклики Y1 Y2 Y . . . . . . … Xnm m -количество переменных (факторов) . . . … Yn n –количество образцов (наблюдений) 3 Цель исследования 1. Построить модель для известных наборов X и Y 2. Оценить возможности модели для предсказания неизвестных значений Y по новым значениям X. 4 Множественная регрессия. y=Xb+f y=b 0 +b 1 x 1 +b 2 x 2 +..+b m x m +f Проверка основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значениях откликов. Сложности 1. Количество переменных больше, чем количество образцов 2. Наличие связей между переменными в X -матрице 5 Коллинеарность Коллинеарность означает, что между переменными, составляющими матрицу X, существует взаимная корреляция, т.е. они в некоторой степени линейно зависимы между собой, например X1=f (X2, X3, …, Xn) X1 X2 X1 Y X2 X3 X3 X4 X4 t1 Y t2 6 Регрессия на главные компоненты (РГК) Для «нужного» количества ГК Двухэтапная процедура РГК 7 Моделирование – хемометрический подход (ycal , Xcal) Построение модели (ytest , Xtest) Проверка качества прогноза 8 Обучающий набор данных Предикторы Xcal Отклики Ycal Измеренные референтным методом 1. Набор должен быть достаточно большим 2. Должны охватывать всю будущую совокупность 3. Измерения X, по возможности, должны быть несложными Планирование эксперимента Теория пробоотбора 9 Построение модели Модель Модель Ошибка моделирования Калибровочная остаточная дисперсия Стандартная ошибка калибровки 10 Оценка антиоксидантов методом ДСК Объект Антиоксиданты в ПП Цель Оценка эффективности АО Y- измерения Длительное термостарение X- измерения Температура начала окисления Эксперимент Дифференц. калориметрия Обработка Регрессия на главные компоненты 11 ДСК эксперимент Оценка температуры начала окисления (ТНО) при разных скоростях нагрева v 5 4 3 Сигнал ДСК, mV v=5 v=2 2 1 v=10 0 v=15 ТНО ТНО -1 v=20 ТНО -2 ТНО -3 ТНО -4 -5 200 210 220 230 Температура, C 12 ДСК данные и референтные данные Образцы Время старения в печке (дни) ТНО (С) для разных скоростей нагрева (град/мин) 2 5 10 15 20 калибровка C1 6 193.0 200.0 207.1 210.1 209.1 C2 C3 C4 C5 C6 C7 1 2 18 3 15 173.6 192.5 194.0 193.4 194.0 179.2 203.5 197.7 192.7 197.7 181.7 204.4 209.7 199.1 209.7 190.9 208.5 212.8 207.9 212.8 193.2 212.9 202.0 209.2 205.3 1.5 185.8 193.1 199.0 205.2 209.7 C8 2.5 185.8 193.1 199.0 205.2 207.1 C9 3 3 186.0 186.0 192.1 192.1 197.0 197.0 211.3 211.0 207.0 208.2 5 203.0 208.5 216.5 222.9 222.0 T1 T2 0.5 185.0 191.7 197.0 197.2 211.2 17 194.0 197.7 209.7 212.8 203.1 T3 8 186.8 191.0 208.2 205.1 205.1 T4 5 203.9 213.9 220.2 221.4 227.2 C10 C11 контроль 13 Предварительная обработка данных. X-измерения однородные Yи-измерения дисперсия ошибки растет с ростом Yи не взвешиваются методом измерения способ приготовления образцов X и Y - центрируются 14 Метод главных компонент в примере с АО Стандартная ошибка калибровки График счетов (ГК1-ГК2) 10 PC2 1.2 8 T4 T1 6 4 C7 C10 2C9 C5 C8 C11 C3 -40 C2 -20 -2 0 C1 20 N PC RMSEC 0 1 1 0.792 2 0.151 3 6.70E-02 4 6.09E-02 1 0.8 PC1 0 RMSEC 0.6 40 0.4 -4 T3 -6 -8 -10 C6 T2 C4 0.2 N PCs 0 0 1 2 3 ГК1-ГК2: объясняют 96% структуры X и 97 % структуры Y15 4 Тестовый набор данных Предикторы Xtest Отклики Ytest Измеренные референтны методом 1. Набор должен быть достаточно большим 2. Должны охватывать всю будущую совокупность 3. Не должны быть «слишком» похож на калибровочный набор Используются только для оценки ошибки предсказания 16 Моделирование – стадия проверки Используются для проверки качества прогноза Модель Ошибка прогнозирования Проверочная дисперсия Стандартная ошибка прогноза 17 Способы проверки Проверка на тестовом наборе Самый надежный способ Перекрестная проверка Используется тогда, когда нельзя собрать тестовый массив Проверка корректировкой размахом 1. Самый быстрый и самый грубый способ 2. Не использует тестовый массив 18 Перекрестная проверка Самый медленный способ проверки и Тестовый набор отсутствует не всегда надежный (ytest , Xtest) Моделируют тестовый набор используя калибровочный (ycal , Xcal) Создают как бы «тестовый массив» 19 Полная перекрестная проверка Xcal Модель 1 Ycal Модель 2 … … «Тестовый набор» Модель N Модель 20 Проверка корректировкой размахом «Быстрый» Требует построения лишь одной модели «Грубый» Ошибка предсказания всегда оценивается слишком оптимистично 21 Сколько выбрать главных компонент 22 Ошибка моделирования и ошибка предсказания Проверка корректировкой размахом Перекрестная проверка 1.4 RMSE Проверка на тестовом наборе 1.2 1 0.8 Ошибка моделирования не зависит от вида проверки 0.6 0.4 0.2 0 1 2 3 N PCs 4 23 Количество ГК для АО примера 1.4 N PCs 1 2 3 4 RMSEC 0.792 0.151 6.70E-02 6.09E-02 RMSE RMSE RMSEP 1.228 0.253 0.414 0.417 RMSEC RMSEC RMSEP 1.2 1 0.8 0.6 0.4 2 главные компоненты 0.2 N PCs 0 1 2 3 4 24 Прогноз эффективности АО Образец Ts1 Ts2 Ts3 Ts4 Пред-ние Откл-ие 0.564 4.072 3.125 1.856 0.407 0.16 0.371 0.287 Изм-ние 0.707 4.123 2.828 2.236 RMSEP = 0.253 Yпред=Y2*RMSEP 25 Слабость РГК РГК – мощное средство борьбы с мультиколлинеарностью в матрице X РГК –двухэтапный метод Декомпозиция X по МГК МЛР Эта декомпозиция не учитывает связи между XиY 26 Регрессия на латентные структуры (ПЛС - регрессия) X W P T U Схематическое представление Y Q X1 X2 X3 X4 t1 Y t2 27 Интерпретация ПЛС-модели T - матрица счетов P - матрица нагрузок W –матрица взвешенных (эффективных) нагрузок U - матрица счетов Q - матрица нагрузок 28 Графике зависимости X-Y Данные содержат выбросы Данные не содержат выбросы 29 График остаточной дисперсии Остаточная дисперсия Y – количества ГК Для ПЛС-моделей дисперсия должна падать 30 Заключительный график Предсказанные значения Y - измеренные значения Y 31 Определение октанового числа бензина по данным ИК-спектроскопии Исходные данные Обучающий массив = 26 образца Прогнозный массив = 13 образцов Количество переменных (длин волн) = 226 (1100 – 1550 nm) 32 Выводы Два основных проекционных регрессионных метода. Регрессия на главные компоненты Регрессия на латентные структуры. 1. Уменьшают размерность исследуемых данных 2. Позволяют проанализировать скрытые в данных закономерности Выбор меньшего числа ГК дает более устойчивую модель Проверка с помощью представительного тестового набора наиболее надежный способ оценки ошибки прогнозирования 33