Интервальный подход к решению задач линейной калибровки. Метод простого интервального оценивания. Родионова Оксана Евгеньевна rcs@chph.ras.ru Институт химической физики РАН 1 Основной постулат ПИО метода Все погрешности ограничены! Никакая погрешность не может превосходить по абсолютной величине некоторую константу , Prob{| | > }= 0 + 2 Оценка содержания влаги в зерне по данным БИК-спектроскопии 2 1 0 -1 -2 9058. 9290. 9521. 9753. 9984. 10216 10447 10679 X: спектры зерна 9058 10679 см-1 (118 длин волн) y - содержание влаги Исходный набор N=141 образцов 3 Почему погрешность ограничена? 40 141 образец 30 0.38 20 0.21 10 0.03 0 8 9 10 11 12 13 14 Гистограмма для Y (содержание влаги в зерне) 4 ПЛС регрессия. Исходный набор 5 ПЛС регрессия. Отмечены «выбросы» 6 ПЛС модель. «Выбросы» удалены 7 Гистограмма Y после удаления выбросов 40 30 20 10 0 10 m-3s 12 m-2s m-s m 14 m+s m+2s m+3s 8 Простейший пример 7 T2 T2 Данные y Обучающий C1 1.0 1.28 C2 2.0 1.68 C3 4.0 4.25 C4 5.0 5.32 Тестовый T1 3.0 3.35 T2 4.5 6.19 T3 5.5 5.40 Распределение погрешности C4 C4 5 Отклик, y x 6 T3 T3 4 T1 C3 C3 3 2 C1 C1 C2 C2 1 Переменная, x 0 0 1 2 3 4 5 6 Модель = = y=ax+ a=1 9 Метод наименьших квадратов 7 T2 6 C4 Отклик, y 5 T3 4 T1 C3 3 2 C1 C1 C2 C2 1 Переменная, x 0 0 1 2 3 4 5 6 10 Простое интервальное оценивание (ПИО метод) ||< 7 6 Максимальная погрешность известна: 5 Отклик, y = 0.7 (=2.5s) 2 C4 C3 2 4 3 2 C2 2 2 C1 1 Переменная, x 0 0 1 2 3 4 5 6 11 ПИО метод, калибровка 7 6 C4 Отклик, y 5 C3 4 3 2 C2 C1 1 amin amax Обучающий x y C1 1.0 1.28 0.58 1.98 C2 2.0 1.68 0.49 1.19 C3 4.0 4.25 0.89 1.24 C4 5.0 5.32 0.92 1.20 Переменная, x 0 0 1 2 3 4 5 6 12 Область допустимых значений параметров (ОДЗ) amin amax Обучающий x y C1 1.0 1.28 0.58 1.98 C2 2.0 1.68 0.49 1.19 C3 4.0 4.25 0.89 1.24 C4 5.0 5.32 0.92 1.20 C4 C3 C2 C1 ОДЗ a min=0.92 a max=1.19 a 13 ПИО предсказание 7 T2 6 T3 C4 Тест x y v- T1 3.0 3.35 2.77 3.57 T2 4.5 6.19 4.16 5.36 T3 5.5 5.40 5.08 6.55 v+ Отклик, y 5 C3 4 T1 3 2 C2 C1 1 Переменная, x 0 0 1 2 3 4 5 6 14 Статус образцов. Обучающий набор amax y C1 1.0 1.28 0.58 1.98 C2 2.0 1.68 0.49 1.19 C3 4.0 4.25 0.89 1.24 C4 5.0 5.32 0.92 1.20 7 6 C4 C4 5 Отклик, y Обучающий x amin C3 4 3 2 C2 C2 Образцы C2 и C4 – граничные. Они образуют ОДЗ C1 1 Переменная, Переменная, xx 0 Образцы C1 и C3 – внутренние. 0 1 2 3 44 55 66 Они не влияют на размер ОДЗ. 15 Статус образцов. Проверочный набор 7 Что происходит при добавлении нового образца в обучающий набор ? 6 C4 Отклик, y 5 4 3 2 C2 1 C4 Переменная, x C2 a a min =0.92 ОДЗ 0 0 1 2 3 4 5 6 a max=1.19 16 Статус образцов. Внутренний образец При добавлении образца T1, ОДЗ не изменяется. Такой образец называется внутренним. 7 6 C4 Отклик, y 5 Интервал предсказания лежит внутри интервала калибровки 4 T1 3 2 C2 1 T1 Переменная, x C4 0 C2 a a min =0.92 ОДЗ 0 1 2 3 4 5 6 a max=1.19 17 Статус образцов. Выброс 7 При добавлении образца T2, ОДЗ исчезает. Такой образец называется выбросом. T2 6 C4 Отклик, y 5 Интервал предсказания лежит вне интервала калибровки 4 3 2 C2 1 Переменная, х 0 0 T2 1 2 3 4 5 6 C4 C2 a a min=0.92 a max=1.19 18 Статус образцов. Внешний образец При добавлении образца T3, ОДЗ уменьшается. Такой образец называется внешним. 7 6 T3 C4 5 Отклик. y Интервал предсказания перекрывается с интервалом калибровки 4 3 2 C2 1 Переменная, х T3 0 C4 0 1 2 3 4 5 6 C2 a a min =0.92 ОДЗ a max=1.11 19 ПИО – остаток и ПИО - размах Определение 1. ПИО - остаток это - v+ h Характеристика смещения Определение 2. ПИО – размах это - Характеристика воспроизводимости y– v– r y y+ 20 Диаграмма статуса образцов Утверждение 1 Образец (x, y) является внутренним T2 B | r (x, y) | 1 – h (x) Утверждение 2 Образец (x, y) является выбросом 1 ПИО - остаток, r ( Треугольник BCD ) A C1 C4 C T1 C3 C2 -1 11 ПИО - размах, h T3 D | r (x, y) | > 1 + h (x) ( Прямые AB и DE ) E 21 Оценка , min C4 C4 C4 C4 C4 0.6 0.5 0.4 0.3 ==0.7 C3 C3 C3 C3 C3 C2C2C2C2C2 C1 C1 C1 C1 C1 RPV RPV RPV RPV a > bmin = 0.3 22 Оценка с помощью регрессионных остатков e = ymeasured – ypredicted bмнк= max {|e1|, |e2|, ... , |en |} bмнк = 0.4 bSIC= bOLS C(n) Prob{ < bSIC}=0.90 bSIC = 0.8 23 Правило1-2-3-4 Sigma 1s RMSEC RMSEC = 0.2 = 1s 2s bmin bmin = 0.3 = 1.5s 3s bмнк bмнк = 0.4 = 2s 4s bSIC bSIC = 0.8 = 4s 24 Основные этапы метода ПИО ОДЗ + V+ V— 25 Экспериментальные данные {X,Y} ПЛС/РГК модель Фиксированное число ГК Блок-схема общей процедуры ПИО модель Результаты Результаты yоценка RMSEC RMSEP 26 программа SIC (Simple Interval Calculation) Вывод PCR Min Test 2 0.9 -0.21707 -0.04265 2.266062 3.000227 0.224148 2.328328 -0.50135 2.882659 -1.75168 -0.56146 -0.39703 1.960634 2.629629 0.19825 1.838605 -0.71523 1.921697 -2.41336 -0.96881 -0.81959 1.477542 1.971046 0.145111 1.244546 -0.89341 1.100055 -2.85773 -0.65416 -0.45416 1.945829 2.545835 -0.25416 2.145834 -0.65416 Prediction with 2 PCs SIC PCR Test 4 3 2 Response 1 PCs Error Max 1 0 1 -1 2 3 4 5 6 7 8 9 -2 -3 Test Sam ples -4 Status Plot for Responce 1 by 2 PCs 1.5 1 SIC-Residual Ввод 0.5 7 0 0 -0.5 6 3 49 12 0.5 8 1 1.5 5 -1 27 -1.5 SIC-Leverage Определение качества бензина по ИК-спектру в ближней области 0.6 0.4 0.2 0 1100 1200 1300 1400 1500 1600 26 обучающих образца; 13 проверочных образцов X : 1100 – 1550 nm, 226 длин волн 28 ПЛС декомпозиция 1 p PLS = y n b p n 2PC 1 1 1 = y – y0 1 n a n n T 2 X 1 29 Правило «1-2-3-4 Sigma» RMSEC = 0.27 = 1s bmin = 0.48 = 1.8s bмнк = 0.58 = 2.2s bSIC = 0.88 = 3.3s = bSIC = 0.88 30 ОДЗ в двумерном случае y1 – y0– t11a1 + t12a2 y1 – y0 + y2 – y0– t21a1 + t22a2 y2 – y0 + ... yn – y0– tn1a1 + tn2a2 yn – y0 + Имеется система из 2n =48 неравенств относительно 2-х неизвестных параметров a1 и a2 31 Область допустимых значений 40 a2 35 30 25 RPV 20 15 10 5 5 a 11 0 0 0 0 5 5 10 10 15 15 20 20 25 25 30 30 35 35 40 40 32 ОДЗ и диаграмма статуса образцов ОДЗ в пространстве параметров a2 1 18+ 3 24 23 4 9 – 12 RPV 9 20 13 SIC-Residual 28 Диаграмма статуса образцов – 2 + 2 0 3 10 1 23 1 18 24 7+ 6 5 12 14 6 22 4 20 11 14– 12 19 8 15 21 5 1617 0 1 16 14 16 18 20 Образцы 24 7 13 a1 SIC-Leverage -1 22 Граничные образцы C7 C9 C13 C14 C18 C23 —— —— —— —— —— —— 33 Проверочный набор. Интервалы предсказания: ПИО & ПЛС 94 Диаграмма статуса образцов Reference values PLS 2RMSEP SIC prediction 2 13 SIC-Residual Octane Number 92 90 88 11 6 1 8 7 9 -1 1 5 10 4 3 0 12 2 1 2 3 SIC-Leverage 86 1 2 3 4 5 6 7 8 9 10 11 12 13 Test Samples Опорные значения ПЛС прогноз 2RMSEP ПИО интервал -2 34 Определение следовых концентраций нефти в воде Общее число образцов N =80 Число переменных P =1024 Y : 0, 2.5, 5, 10, 20, 50, 100, 300 ppm. X (801024) Hz -20 -30 0 200 400 600 800 1000 -40 dBVms -50 -60 -70 -80 -90 -100 -110 40 обучающих образцов 2.5 ppm 100 ppm 40 проверочных образцов 35 Нелинейность в ПЛС модели 3 U1 X=TPt + E 2 Ti – Ui 1 T1 0 -40 10 60 -1 2 Y=UQt + F показывают связь X-Y U1 T это X-счета U это Y-счета 1 T1 0 -40 10 -1 -2 60 y = log (1+yraw) 36 Моделирование (ПИО) Диаграмма статуса образцов (ДСО) График влиятельности ПЛС модели 0.04 1 5 0.6 ПИО остаток Остаток 0.03 0.02 34 0.2 37 -0.2 0 0.2 0.4 0.6 0.01 4 27 34 31 0 0 0.05 0.1 40 -0.6 0.8 27 1 1.2 40 5 37 38 0.15 31 4 38 0.2 0.25 Размах -внутренние образцы; -1 ПИО размах -граничные образцы Всего образцов в обучающем наборе 40, из них граничных 8 37 Прогноз Диаграмма статуса образцов 1.5 2.5 log(1+y) T7 1 ПИО остаток 2 1.5 1 T40 0.5 T39 T12 0 0 0.2 T7 0.6 0.4 0.8 1 1.2 -0.5 0.5 T5 -1 0 T3 T5 T6 T7 T10 T11 T12 T26 T29 T35 T39 T40 ПИО размах -1.5 20 t2 10 t1 0 -70 График счетов -35 0 35 70 -10 38 -20 Заключение 1. ПИО метод дополняет существующие методы многомерной калибровки, позволяя оценить неопределенность в прогнозе индивидуально для каждого образца. 2. ПИО метод позволяет построить классификацию образов. Для образцов из обучающего набора выявить наиболее влиятельные, формирующие модель. Для новых образцов, оценить взаимоотношение образца и модели 39