Построение регрессионных моделей и решение задачи

реклама
Построение
регрессионных моделей
и решение
задачи предсказания
1
Два класса решаемых задач
X11
X21
.
.
.
…
Xn1
…
…
X12
X22
.
.
.
…
Y1
Y2
X
X1m
Метод- ПГК
Задачи
.
.
.
.
.
.
…
Xnm
1.
Анализ структуры, поиск
латентных переменных
2.
Классификация и
дискриминация
Методы : РГК, РЛС
Задачи
Y
.
.
.
…
Yn
1.
Построение модели Y(X)
2.
Прогнозирование
2
Постановка задачи. Исходные данные
Независимые наблюдения
- предикторы
X11
X21
.
.
.
…
Xn1
…
…
X12
X22
.
.
.
…
X
X1m
Зависимые переменные
- отклики
Y1
Y2
Y
.
.
.
.
.
.
…
Xnm
m -количество переменных
(факторов)
.
.
.
…
Yn
n –количество образцов
(наблюдений)
3
Цель исследования
1. Построить модель для известных наборов X и Y
2. Оценить возможности модели для предсказания
неизвестных значений Y по новым значениям X.
4
Множественная регрессия.
y=Xb+f
y=b 0 +b 1 x 1 +b 2 x 2 +..+b m x m +f
Проверка основных статистических гипотез об уравнении регрессии, его
коэффициентах и прогнозируемых значениях откликов.
Сложности
1. Количество
переменных больше,
чем количество
образцов
2. Наличие связей
между переменными в
X -матрице
5
Коллинеарность
Коллинеарность означает, что между
переменными, составляющими
матрицу X, существует взаимная
корреляция, т.е. они в некоторой
степени линейно зависимы между
собой, например X1=f (X2, X3, …,
Xn)
X1
X2
X1
Y
X2
X3
X3
X4
X4
t1
Y
t2
6
Регрессия на главные компоненты (РГК)
Для «нужного»
количества ГК
Двухэтапная процедура РГК
7
Моделирование – хемометрический
подход
(ycal , Xcal)
Построение модели
(ytest , Xtest)
Проверка качества
прогноза
8
Обучающий набор данных
Предикторы
Xcal
Отклики
Ycal
Измеренные
референтным
методом
1. Набор должен быть
достаточно большим
2. Должны охватывать всю
будущую совокупность
3. Измерения X, по
возможности, должны быть
несложными
Планирование
эксперимента
Теория
пробоотбора
9
Построение модели
Модель
Модель
Ошибка моделирования
Калибровочная
остаточная дисперсия
Стандартная ошибка
калибровки
10
Оценка антиоксидантов методом ДСК
Объект
Антиоксиданты в ПП
Цель
Оценка эффективности АО
Y- измерения
Длительное термостарение
X- измерения
Температура начала окисления
Эксперимент
Дифференц. калориметрия
Обработка
Регрессия на главные
компоненты
11
ДСК эксперимент
Оценка температуры начала окисления (ТНО)
при разных скоростях нагрева v
5
4
3
Сигнал ДСК, mV
v=5
v=2
2
1
v=10
0
v=15
ТНО
ТНО
-1
v=20
ТНО
-2
ТНО
-3
ТНО
-4
-5
200
210
220
230
Температура, C
12
ДСК данные и референтные данные
Образцы
Время старения в
печке (дни)
ТНО (С) для разных скоростей нагрева (град/мин)
2
5
10
15
20
калибровка
C1
6
193.0
200.0
207.1
210.1
209.1
C2
C3
C4
C5
C6
C7
1
2
18
3
15
173.6
192.5
194.0
193.4
194.0
179.2
203.5
197.7
192.7
197.7
181.7
204.4
209.7
199.1
209.7
190.9
208.5
212.8
207.9
212.8
193.2
212.9
202.0
209.2
205.3
1.5
185.8
193.1
199.0
205.2
209.7
C8
2.5
185.8
193.1
199.0
205.2
207.1
C9
3
3
186.0
186.0
192.1
192.1
197.0
197.0
211.3
211.0
207.0
208.2
5
203.0
208.5
216.5
222.9
222.0
T1
T2
0.5
185.0
191.7
197.0
197.2
211.2
17
194.0
197.7
209.7
212.8
203.1
T3
8
186.8
191.0
208.2
205.1
205.1
T4
5
203.9
213.9
220.2
221.4
227.2
C10
C11
контроль
13
Предварительная обработка данных.
X-измерения
однородные
Yи-измерения
дисперсия ошибки
растет с ростом Yи
не взвешиваются
методом измерения
способ приготовления
образцов
X и Y - центрируются
14
Метод главных компонент в примере с АО
Стандартная ошибка
калибровки
График счетов
(ГК1-ГК2)
10
PC2
1.2
8
T4
T1 6
4
C7
C10
2C9 C5
C8
C11
C3
-40 C2
-20
-2
0
C1
20
N PC RMSEC
0
1
1
0.792
2
0.151
3 6.70E-02
4 6.09E-02
1
0.8
PC1
0
RMSEC
0.6
40
0.4
-4
T3
-6
-8
-10
C6
T2
C4
0.2
N PCs
0
0
1
2
3
ГК1-ГК2: объясняют 96% структуры X и 97 % структуры Y15
4
Тестовый набор данных
Предикторы
Xtest
Отклики
Ytest
Измеренные
референтны
методом
1. Набор должен быть достаточно
большим
2. Должны охватывать всю
будущую совокупность
3. Не должны быть «слишком»
похож на калибровочный набор
Используются только
для оценки ошибки
предсказания
16
Моделирование – стадия проверки
Используются для проверки
качества прогноза
Модель
Ошибка прогнозирования
Проверочная дисперсия
Стандартная ошибка
прогноза
17
Способы проверки
Проверка на
тестовом
наборе
Самый надежный
способ
Перекрестная
проверка
Используется тогда,
когда нельзя собрать
тестовый массив
Проверка
корректировкой
размахом
1. Самый быстрый и самый
грубый способ
2. Не использует тестовый
массив
18
Перекрестная проверка
Самый медленный
способ проверки и
Тестовый набор
отсутствует
не всегда надежный
(ytest , Xtest)
Моделируют тестовый
набор используя
калибровочный
(ycal , Xcal)
Создают как бы
«тестовый массив»
19
Полная перекрестная проверка
Xcal
Модель 1
Ycal
Модель 2
…
…
«Тестовый
набор»
Модель N
Модель
20
Проверка корректировкой размахом
«Быстрый»
Требует
построения лишь
одной модели
«Грубый»
Ошибка предсказания
всегда оценивается
слишком оптимистично
21
Сколько выбрать главных компонент
22
Ошибка моделирования и
ошибка предсказания
Проверка
корректировкой
размахом
Перекрестная
проверка
1.4
RMSE
Проверка на
тестовом
наборе
1.2
1
0.8
Ошибка
моделирования не
зависит от вида
проверки
0.6
0.4
0.2
0
1
2
3
N PCs
4
23
Количество ГК для АО примера
1.4
N PCs
1
2
3
4
RMSEC
0.792
0.151
6.70E-02
6.09E-02
RMSE RMSE
RMSEP
1.228
0.253
0.414
0.417
RMSEC
RMSEC
RMSEP
1.2
1
0.8
0.6
0.4
2 главные
компоненты
0.2
N PCs
0
1
2
3
4
24
Прогноз эффективности АО
Образец
Ts1
Ts2
Ts3
Ts4
Пред-ние
Откл-ие
0.564
4.072
3.125
1.856
0.407
0.16
0.371
0.287
Изм-ние
0.707
4.123
2.828
2.236
RMSEP = 0.253
Yпред=Y2*RMSEP
25
Слабость РГК
РГК – мощное средство борьбы с
мультиколлинеарностью в матрице X
РГК –двухэтапный
метод
Декомпозиция
X по МГК
МЛР
Эта декомпозиция не
учитывает связи между
XиY
26
Регрессия на латентные структуры
(ПЛС - регрессия)
X
W
P
T
U
Схематическое
представление
Y
Q
X1
X2
X3
X4
t1
Y
t2
27
Интерпретация ПЛС-модели
T - матрица
счетов
P - матрица
нагрузок
W –матрица
взвешенных
(эффективных)
нагрузок
U - матрица
счетов
Q - матрица
нагрузок
28
Графике зависимости X-Y
Данные содержат
выбросы
Данные не содержат
выбросы
29
График остаточной дисперсии
Остаточная дисперсия Y – количества ГК
Для ПЛС-моделей дисперсия должна падать
30
Заключительный график
Предсказанные значения Y - измеренные значения Y
31
Определение октанового числа бензина
по данным ИК-спектроскопии
Исходные данные
Обучающий массив = 26
образца
Прогнозный массив = 13
образцов
Количество переменных
(длин волн) = 226
(1100 – 1550 nm)
32
Выводы
Два основных проекционных регрессионных метода.
Регрессия на главные
компоненты
Регрессия на
латентные структуры.
1. Уменьшают размерность исследуемых данных
2. Позволяют проанализировать скрытые в данных
закономерности
Выбор меньшего числа ГК дает более устойчивую модель
Проверка с помощью представительного тестового набора
наиболее надежный способ оценки ошибки прогнозирования
33
Скачать