КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ Представление в матричном виде Матрица регрессоров Матрица- столбец параметров модели bT = ( b1, b2, … bk) Вектор – столбец оценки измеряемой величины • Основные предположения Оценки параметров модели методом наименьших квадратов Введем обозначения Свойства оценок параметров Дисперсии предсказанного значения Где fx – вектор регрессоров Несмещенная оценка дисперсии Статистический анализ качества регрессионной модели Последствия ошибок • При недоборе параметров оценки оказываются смещенными и несостоятельными • При переборе – оценки остаются несмещенными, но при этом теряется точность Последствия ошибок Истинная модель – многочлен 3-го порядка 2.3710 104.855 6.644 B 38.716 4.804 100 6 b 40 5 3 yi H x i 2.68310 3 5 xi 9.992 Линейная оценка (недобор параметров) 2.3710 259.468 65.268 B 100 6 b 40 5 3 yi Yi 2.68310 3 5 xi 9.992 Квадратичная оценка (недобор параметров) 2.3710 225.117 B 78.967 2.744 100 6 b 40 5 3 yi Yi 2.68310 3 5 xi 9.992 Аппроксимация многочленом 4-го порядка – перебор 2.3710 105.445 17.604 B 39.381 4.19 0.061 100 6 b 40 5 3 yi Yi 2.68310 3 5 xi 9.992 Сравнение моделей 3 3 2.3710 2.3710 yi yi Yi Yi 3 2.3710 3 2.68310 5 xi 3 2.68310 5 9.992 yi Yi 3 2.68310 5 xi 9.992 xi 9.992 Статистический анализ регрессионной модели • Проверка гипотезы об адекватности модели • Проверка гипотезы о значимости параметров модели • Анализ остатков • Построение доверительных интервалов Проверка адекватности модели • Независимая оценка дисперсии Ìîäåëèðóåì âñïîìîãàòåëüíóþ âûáîðêó N n round 2 u 0 n 1 n 1 10 3 V H( 0 ) s w( rnd( 1 ) rnd( 1 ) ) u Ïîëó÷èì íåçàâèñèìóþ îöåíêó äèñïåðñèè sN Stdev( V ) sN 984.657 Оценка остаточной дисперсии Îñòàòêè Îñòàòî÷íàÿ ñóììà êâàäðàòîâ e y Y i i Qост i ei i ×èñëî ñòåïåíåé ñâîáîäû Îöåíêà äèñïåðñèè (îñòàòî÷íàÿ äèñïåðñèÿ) r N k d Qост r 2 Суммы квадратов отклонений Ñóììà êâàäðàòîâ, îáóñëîâëåííàÿ óðàâíåíèåì ðåãðåññèè QR Y Yср i 2 i Äèñïåðñèÿ, îáóñëîâëåííàÿ ðåãðåññèåé QR Ïîëíàÿ ñóììà êâàäðàòîâ Q y yср i 2 DR k1 Q 2.421 10 9 i Ïðîâåðêà QR Qост 2.421 10 9 • Полная сумма квадратов равна сумме квадратов, обусловленных регрессией плюс сумма квадратов относительно регрессии (остаточная сумма квадратов) Дисперсионное отношение Фишера 2 sN 9.695 10 Íåçàâèñèìàÿ îöåíêà äèñïåðñèè Äèñïåðñèîííîå îòíîøåíèå Ôèøåðà F d 5 F 1.085 2 sN L if F 1 F 1 F L 1.085 Êðèòè÷åñêàÿ òî÷êà Fc qF( 0.95 N k n 1 ) Fc 1.095 Ôóíêöèÿ ïðèíÿòèÿ ðåøåíèÿ f if L Fc "ADEQU" "NO_ADEQU" f "ADEQU" Проверка гипотезы о значимости коэффициента детерминации • Коэффициент детерминации (множественной корреляции) в случае парной регрессии (функция одной переменной) равен квадрату коэффициента корреляции между наблюдаемыми и предсказанными значениями определяемой переменной. • Он показывает, насколько лучше наша модель описывает эксперимент по сравнению со средним значением 3 4.08510 yi Yi y ср 3 3.96610 5 xi 9.992 R corr ( y Y) QR 2 R 0.365 R 0.133 Q 0.133 Ñòàòèñòèêà êðèòåðèÿ -- îòíîøåíèå äèñïåðñèè, îáóñëîâëåííîé ðåãðåññèåé ê îñòàòî÷íîé äèñïåðñèè: 2 F R (N k) 1 R2 (k 1) L if F 1 F 1 F Êðèòè÷åñêàÿ òî÷êà Ôóíêöèÿ ïðèíÿòèÿ ðåøåíèÿ F 101.974 èëè DR d 101.974 L 101.974 Ft qF( 0.95 k 1 N k ) Ft 2.609 f if L Ft "NE_ZNATHIM" "ZNATHIM" f "ZNATHIM" Проверка гипотезы о значимости коэффициентов модели SB Äèñïåðñèè îöåíîê T SB ( 39.047 9.942 m 2.945 C m m d 0.351 ) Çàäàåì óðîâåíü çíà÷èìîñòè è íàõîäèì êðèòè÷åñêóþ òî÷êó tkr qt 1 N k 2 0.05 tkr 1.961 Ðàññ÷èòûâàåì ñòàòèñòèêó êðèòåðèÿ äëÿ êàæäîãî êîýôôèöèåíòà ìîäåëè B T m m SB m T T ( 3.72 2.515 15.903 17.962 ) Вв одим функцию принятия решения и находим ее значение, на основании которой делаем выводы о значимости коэффициентов. Если коэффициент незначим, то соответс твующий член в модели надо исключить. Kr m i f T m tkr "NeZnathi n" "Zn ath im" "Zn ath im" "Zn ath im" Kr "Zn ath im" "Zn ath im" Анализ остатков Анализ остатков 3.25 1.92 ei 0.6 d 0.72 2.04 3.367 3 1.68810 3.37 Yi Предсказанные значения Анализ остатков 3 1.50310 3.247 Нормированные остатки Нормированные остатки 3.247 3.25 1.92 ei 0.6 d 0.72 2.04 3.367 5 3.37 xi независимая переменная 9.992 Анализ остатков 1.92 ei 0.6 d 0.72 2.04 3.367 3 1.68810 3.37 Yi Предсказанные значения Анализ остатков 3.247 3.25 Нормированные остатки Нормированные остатки 3.247 3 1.50310 3.25 1.92 ei 0.6 d 0.72 2.04 3.367 5 3.37 xi независимая переменная 9.992 Анализ остатков Нормированные остатки 3.247 3.25 1.92 ei 0.6 d 0.72 2.04 3.367 5 3.37 xi независимая переменная 9.992 Неадекватная модель Анализ остатков Нормированные остатки 3.398 3.4 2.06 ei 0.73 d 0.61 1.94 3.279 628.073 3.28 Yi Предсказанные значения 443.345 Доверительные интервалы для предсказанного значения 1 x 2 f ( x) 2 3 x x3 Y2 Y tkr i i d f x T C f x i 0 0 i Y1 Y tkr i i d f x T C f x i i 0 0 2.59510 Доверительные интервалы для Y 3 4000 yi 2000 Y1 i 0 Yi Y2 i 0 6 4 2 0 2 4 6 8 10 H x i 2000 3.14210 3 4000 5 xi 9.925 2.70210 Доверительные интервалы для Y 3 3000 2000 yi Y1 i 0 1000 Yi Y2 i 0 6 H x i 4 2 0 2 4 6 8 10 1000 2000 2.36210 3 3000 5 2.59510 xi Доверительные интервалы для Y 3 4000 9.85 yi 2000 Y1 i 0 Yi Y2 i 0 6 4 2 0 2 4 6 8 10 H x i 2000 3.14210 3 4000 5 xi 9.925 50 ТОЧЕК 1.57310 Доверительные интервалы для Y 3 2000 1000 yi Y1 i 0 Yi 6 4 2 0 2 4 6 8 10 Y2 i 0 1000 H x i 2000 2.67810 3 3000 5 xi 9.7 Непараметрический РЕГРЕССИОННЫЙ АНАЛИЗ • Сглаживание РЕЗУЛЬТАТОВ ПРЕСЛЕДУЕТ 4 ЦЕЛИ ОСНОВНАЯ ИДЕЯ СГЛАЖИВАНИЯ • Процедура локального усреднения Здесь Wni последовательность весов, зависящих от всех xi Методы сглаживания • Сглаживание с помощью «регрессограммы» • Ядерное сглаживание • Сглаживание по k ближайшим соседям Ядерное сглаживание • Задаем функцию «ядра» K(x) Ядро Епанечникова Сглаживание по k ближайшим соседям