Лекция 8.6 Что делать в случае гетероскедастичности? Что делать в случае гетероскедастичности? Y 1 2 X u Предположим, что нам известны дисперсии возмущений si2 для всех наблюдений i = 1,…,n. 1 Y 1 2 X u u i s i2 дисперсия Yi si 1 1 si 2 Xi si ui si Разделим обе части равенства на si для каждого наблюдения. 2 Y 1 2 X u u i s i2 дисперсия Yi si 1 1 si 2 дисперсия новых возмущений Xi si ui si ui 1 дисперсии 2 s i s i ui s i2 2 1 si Тогда дисперсии возмущений в новой регрессии станут одинаковыми и равными 1. 3 Преобразование переменных Y 1 2 X u дисперсия Yi si Y ' 1 H 2 X ' u' Y ' 1 Yi si 1 si u i s i2 2 , H Xi si 1 si , ui si X ' Xi si , u' ui si Все сводится к оценке новой регрессии с преобразованными факторами, оцениваем регрессию Y' на X' и H, которые определенны выше. Отметим, что в новой регрессии нет константы. 1 становится коэффициентом наклона перед переменной 1/si. 4 Взвешенный метод наименьших квадратов Y 1 2 X u u i s i2 дисперсия Yi si Y ' 1 H 2 X ' u' 1 1 si Y ' Yi 2 si Xi si , H ui si 1 si , X ' Xi si , u' ui si Указанный метод называется взвешенным методом наименьших квадратов. Наибольший вес 1/si получают наблюдения с наименьшей дисперсией возмущений si. 5 Взвешенный метод наименьших квадратов Y 1 2 X u variance of ui s i2 s i Z i Однако на практике стандартные отклонения возмущений обычно неизвестны. Но, оказывается, достаточно знать эти стандартные отклонения с точностью до постоянного множителя. Предположим, что стандартные отклонения возмущений пропорциональны некоторой известной переменной Zi. 6 Взвешенный метод наименьших квадратов Y 1 2 X u дисперсия u i s i2 s i Z i Yi X i ui 1 1 2 Zi Zi Zi Zi В этом случае мы достигаем гомоскедастичности остатков, разделив все переменные на Zi. 7 Взвешенный метод наименьших квадратов Y 1 2 X u дисперсия u i s i2 s i Z i Yi X i ui 1 1 2 Zi Zi Zi Zi дисперсия ui s i2 1 2 2 2 si 2 2 si / Zi Zi Y ' 1 H 2 X ' u' Y ' Yi X u 1 , H , X ' i , u' i Zi Zi Zi Zi Действительно, как показано выше, дисперсии новых остатков одинаковы и равны 2. Нам нет необходимости знать 2. Достаточно того, что это константа (т.е. одинаковые дисперсии для всех возмущений, гомоскедастичность) . 8 Взвешенный метод наименьших квадратов Y 1 2 X u дисперсия u i s i2 s i Z i Yi X i ui 1 1 2 Zi Zi Zi Zi Y ' 1 H 2 X ' u' Y ' Yi X u 1 , H , X ' i , u' i Zi Zi Zi Zi Если после выполнении теста Голдфелда – Квандта гипотеза о гомоскедастичности отвергается, то в качестве Z может быть использована переменная Xj. 9 Взвешенный метод наименьших квадратов Y 1 2 X u u i s i2 дисперсия Yi si Y ' 1 H 2 X ' u' 1 1 si Y ' Yi 2 si Xi si , H ui si 1 si , X ' Xi si , u' ui si На практике вместо si часто используют их оценки. Например, если после проведения теста Глейзера гипотеза о гомоскедастичности была отвергнута, поскольку в регрессии ei X i ui , i 1,..., n ^ ^ коэффициент β значим, то σi = |ei|, i = 1,..,n 10 Пример Промышленное производство на душу населения 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 0 5000 10000 15000 20000 25000 30000 35000 40000 ВВП на душу населения Пример зависимости производства на душу населения от ВВП на душу населения (диаграмма рассеивания). 11 Пример Промышленное производство на душу населения 9000 8000 7000 RSS1 = 5,378,000 6000 5000 4000 3000 2000 1000 RSS2 = 17,362,000 0 0 5000 10000 15000 20000 25000 30000 35000 40000 ВВП на душу населения Упорядочив страны по возрастанию ВВП на душу населения, разбивает их на три группы, средние наблюдения выкидывает, а для первой и последней группы наблюдений оцениваем регрессии и находим RSS. 12 Пример Промышленное производство на душу населения 9000 8000 RSS1 = 5,378,000 7000 RSS 2 / n2 k 17,362,000 / 9 F ( n2 k , n1 k ) 3.23 5000 RSS1 / n1 k 5,378,000 / 9 6000 4000 F (9,9)crit ,5% 3.18 3000 2000 1000 RSS2 = 17,362,000 0 0 5000 10000 15000 20000 25000 30000 35000 40000 ВВП на душу населения Проводим тест Голфелда - Квандта. Поскольку тестовая статистика больше критической при 5% уровне значимости, нулевая гипотеза о гомоскедастичности отвергается. 13 Пример Y 1 2 X u дисперсия u i s i2 s i X i Альтернативная гипотеза в тесте Голфелда – Квандта предполагает пропорциональность стандартного отклонения возмущений объясняющей переменной (в данном примере X = GDP) . 14 Пример Y 1 2 X u дисперсия s i2 s i X i Yi ui 1 1 2 Xi Xi Xi Напомним, что для получения эффективных оценок требуется преобразовать переменные, разделив их на ту переменную, которой пропорционально стандартное отклонение возмущений. 15 Пример Manufacturing/GDP 0.40 0.30 0.20 0.10 0.00 0 10 20 30 40 50 60 70 80 1/GDP x 1,000,000 Диаграмма рассеяния в преобразованных переменных. 16 Пример Manufacturing/GDP 0.40 RSS1 = 0.065 0.30 0.20 0.10 RSS2 = 0.070 0.00 0 10 20 30 40 50 60 70 80 1/GDP x 1,000,000 Снова проводим тест Голдфелда - Квандта. 17 Пример Manufacturing/GDP 0.40 RSS1 = 0.065 RSS 2 / n2 k 0.070 / 9 F ( n2 k , n1 k ) 1.08 RSS1 / n1 k 0.065 / 9 0.30 F (9,9)crit ,5% 3.18 0.20 0.10 RSS2 = 0.070 0.00 0 10 20 30 40 50 60 70 80 1/GDP x 1,000,000 На этот раз гипотеза о гомоскедастичности не отвергается. С помощью преобразования гетероскедастичность была устранена. 18 Второй способ борьбы с гетероскедастичностью 300000 250000 Выпуск 200000 150000 100000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Существует другой способ борьбы с гетероскедастичностью, связанный с выбором другой функциональной формы модели, а именно, линейной в логарифмах. 19 Логарифмическое преобразование данных 13 log Manufacturing 12 11 10 9 8 7 9 10 11 12 13 14 15 log GDP Диаграмма рассеяния для переменных в логарифмическом масштабе. 20 Линейная в логарифмах модель 13 RSS1 = 2.140 log Manufacturing 12 11 10 9 8 RSS2 = 1.037 7 9 10 11 12 13 14 15 log GDP Проведем снова тест Голдфелда – Квандта для линейной в логарифмах модели.. 21 HETEROSCEDASTICITY: WEIGHTED AND LOGARITHMIC REGRESSIONS 13 RSS1 = 2.140 log Manufacturing 12 RSS 2 / n2 k 1.037 / 9 F (n2 k , n1 k ) 0.48 RSS 1 / n1 k 2.14 / 9 11 10 F (9,9)crit ,5% 3.18 9 8 RSS2 = 1.037 7 9 10 11 12 13 14 15 log GDP Нулевая гипотеза о гомоскедастичности не отвергается. 22 Логарифмический масштаб 13 South Korea log Manufacturing 12 11 Mexico Singapore 10 9 Greece 8 7 9 10 11 12 13 14 15 log GDP В логарифмическом масштабе разнице между Южной Кореей и Мексикой не так сильно отличается от разницы для Сингапура и Греции, как при линейном масштабе. 23 Линейный масштаб 300000 Manufacturing 250000 200000 South Korea 150000 100000 Singapore 50000 Mexico Greece 0 0 200000 400000 600000 800000 1000000 1200000 1400000 GDP 24 Различные спецификации MANˆ U 604 0.194GDP (5700) (0.013) MANˆ U 1 0.189 533 GDP GDP (0.019)(841) ˆ NU 1.694 0.999 log GDP log MA (0.785) (0.066) R 2 0.89 R 2 0.02 R 2 0.90 По одним и тем же данным оценено несколько моделей. 25