ПРАКТИКУМ ПО ПРИКЛАДНЫМ ЭКОНОМИЧЕСКИМ ИССЛЕДОВАНИЯМ Часть 2 ЛЕКЦИЯ 2 ТЕСТИРОВАНИЕ РЕГРЕССИОННЫХ ОСТАТКОВ НА НАЛИЧИЕ ВЫБРОСОВ, НОРМАЛЬНОСТЬ, ГОМОСКЕДАСТИЧНОСТЬ Демидова О.А., demidova@hse.ru Каф. Математической экономики и эконометрики, доцент Лаборатория «Эмпирический анализ предприятий и рынков», заведующий Тестирование регрессионных остатков на гомоскедастичность Гетероскедастичность Y b1 X1 X2 X3 X4 X5 X Одно из условий теоремы Гаусса – Маркова состоит в том, что возмущения u имеют нулевое математическое ожидание и одинаковую дисперсию. 2 Гетероскедастичность Y b1 X1 X2 X3 X4 X5 X Было сделано также дополнительное предположение о нормальном законе распределения возмущений. 3 Гетероскедастичность Y b1 X1 X2 X3 X4 X5 X Свойство одинаковой дисперсии возмущений называется гомоскедастичностью. 4 Гетероскедастичность Y b1 X1 X2 X3 X4 X5 X Линия теоретической регрессии Y = b1 + b2X, которую мы не можем провести и проверить, одинаково ли распределены возмущения. 5 Гетероскедастичность Y b1 X1 X2 X3 X4 X5 X Если дисперсии возмущений различны, то это явление называется гетероскедастичностью. 6 Гетероскедастичность Y b1 X1 X2 X3 X4 X5 X Наличие гетероскедастичности можно заподозрить, если отклонение наблюдений от линии выборочной регрессии (остатки) достаточно сильно различаются. 7 Гетероскедастичность Y b1 X1 X2 X3 X4 X5 X Однако ответ на вопрос, имеет ли место гетероскедастичность, можно получить только с помощью тестов. 8 Последствия гетероскедастичности Если предположение об одинаковых дисперсиях возмущений не выполняется, то • стандартные ошибки коэффициентов регрессии вычисляются по неверным формулам •t – тесты для проверки гипотез о конкретных значениях коэффициентов не дают правильных результатов •F – тесты для проверки гипотез о линейных ограничениях на коэффициенты регрессии не дают правильных результатов •Оценки МНК коэффициентов регрессии больше не являются BEST, теряется эффективность оценок . 9 Пример Промышленное производство на душу населения 1800000 1600000 1400000 1200000 1000000 800000 600000 400000 200000 0 0 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000 ВВП на душу населения Данные для 30 стран в 1997. 10 Пример Промышленное производство на душу населения 300000 250000 200000 150000 100000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Взглянув на этот рисунок, можно сделать предположение, что с ростом ВВП дисперсия возмущений увеличивается. 11 Пример Промышленное производство на душу населения 300000 250000 200000 South Korea 150000 100000 50000 Mexico 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Сравним Южную Корею и Мексику с приблизительно одинаковым уровнем ВВП. 12 Пример Промышленное производство на душу населения 300000 250000 200000 150000 100000 Singapore 50000 Greece 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Другая пара для сравнения – Сингапур и Греция, также с почти одинаковым уровнем ВВП. Очевидно, что для первой пары с большим ВВП и разница больше. Можно предположить наличие гетероскедастичности. 13 Тест Голдфелда – Квандта Y b1 X1 X2 X3 X4 X5 X Гетероскедастичность – различие дисперсий возмущений для различных наблюдений. Ясно, что видов гетероскедастичности может быть сколь угодно много. 1 Тест Голдфелда – Квандта Y b1 X1 X2 X3 X4 X5 X Однако одним из самых распространенных видов гетероскедастичности является пропорциональность стандартного отклонения возмущений одной из объясняющих переменных. 2 Тест Голдфелда – Квандта Y b1 X1 X2 X3 X4 X5 X Этот тип гетероскедастичности иллюстрируется на приведенной диаграмме. Дисперсия возмущений пропорциональна переменной Х. 3 Тест Голдфелда – Квандта Основная и альтернативная гипотезы в тесте Голфелда – Квандта (и во всех остальных тестах, в которых проверяется, имеет ли место гетероскедастичность) формулируются следующим образом: H0: гомоскедастичность H1: гетероскедастичность Однако сам тест зависит от того, какой вид гетероскедастичности мы предполагаем в альтернативной гипотезе. 4 Тест Голдфелда – Квандта Yi b1 b 2 X 2i ... b k X ki u i , D(u i ) i2 , i 1,..., n H 0: H 1: i2 u2 i 1,..., n i ~ X ji для некоторого X j , i 1,..., n 4 Тест Голдфелда – Квандта 300000 250000 Выпуск 200000 150000 100000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Для проведения теста Голдфелда – Квандта все наблюдения делятся на 3 части. Если выборка небольшая, то выделяют приблизительно 3/8 части всех наблюдений для первой и третьей части и приблизительно 1/4 в середине. 5 Пример проведения теста Голдфелда – Квандта 300000 250000 Выпуск 200000 150000 100000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Для 28 стран оценивается зависимость выпуска продукции обрабатывающей промышленности от ВВП. Выделено 11 стран с маленьким ВВП, 6 со средним и 11 с большим. 6 Пример проведения теста Голдфелда – Квандта 300000 250000 Выпуск 200000 150000 100000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Отдельно оцениваются регрессии для 11 стран с маленьким ВВП и для 11 стран с большим ВВП. 7 Пример проведения теста Голдфелда – Квандта 300000 250000 RSS1 = 157,000,000 Выпуск 200000 150000 100000 RSS2 = 13,518,000,000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Для каждой регрессии находятся суммы квадратов остатков RSS1 и RSS2. 8 Пример проведения теста Голдфелда – Квандта 300000 250000 RSS1 = 157,000,000 Выпуск 200000 150000 100000 RSS2 = 13,518,000,000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Если имеет место гомоскедастичность, RSS1 и RSS2 не должны сильно различаться (если число наблюдений в оцениваемых регрессиях совпадает). 9 Пример проведения теста Голдфелда – Квандта 300000 Manufacturing 250000 RSS1 = 157,000,000 200000 150000 100000 RSS2 = 13,518,000,000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 GDP Однако в рассматриваемом примере RSS2 значительно превышает RSS1. 10 Тестовая статистика в тесте Голдфелда - Квандта 300000 250000 RSS1 = 157,000,000 RSS 2 / n2 k 13,518,000,000 / 9 F ( n2 k , n1 k ) 86.1 RSS1 / n1 k 157,000,000 / 9 Выпуск 200000 150000 F (9,9)crit ,0.1% 10.1 HH 100000 RSS2 = 13,518,000,000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 ВВП Тестовая статистика F рассчитывается по приведенной выше формуле. В числителе – оценка дисперсии возмущений по последним n2 наблюдениям, а в знаменателе - оценка дисперсии возмущений по первым n1 наблюдениям. K – число параметров в модели. 11 Тестовая статистика в тесте Голдфелда - Квандта 300000 Manufacturing 250000 RSS1 = 157,000,000 RSS 2 / n2 k 13,518,000,000 / 9 F ( n2 k , n1 k ) 86.1 RSS1 / n1 k 157,000,000 / 9 200000 150000 F (9,9)crit ,0.1% 10.1 100000 RSS2 = 13,518,000,000 50000 0 0 200000 400000 600000 800000 1000000 1200000 1400000 GDP Тестовая F – статистика превышает критическое значение даже при уровне значимости 0.1% . Нулевая гипотеза о гомоскедастичности отвергается. 12 Формальное описание теста Голфелда - Квандта • Оценивается регрессия по всем наблюдениям. •Полезно взглянуть на график остатков. Может появиться предположение, что дисперсия возмущений увеличивается с ростом некоторой переменной. •Упорядочиваем все наблюдения по модулю подозрительной переменной. •Делим все наблюдения на три группы (если наблюдений достаточно много, то приблизительно на трети). Удобно, если в первой и третьей группах количество наблюдений одинаково. •Наблюдениями средней группы пренебрегаем, а по первым n1 и последним n2 наблюдениям оцениваем отдельные регрессии. •Используя суммы квадратов остатков (RSS) в оцененных регрессиях, рассчитываем тестовую статистику по формуле RSS 2 /( n2 k ) F (n2 k , n1 k ) RSS 1 /( n1 k ) •Сравниваем полученное значение F – статистики с критическим (при выбранном уровне значимости). •Если значение F – статистики превышает критическое, нулевая гипотеза о гомоскедастичности отвергается. 13 Тест Глейзера Дисперсия возмущений не обязательно пропорциональна какомулибо фактору, может быть и другой вид зависимости, для определения которой используется тест Глейзера. 2 Тест Глейзера Yi b1 b 2 X 2i ... b k X ki u i , D(u i ) i2 , i 1,..., n H 0: H 1: i2 u2 i 1,..., n i ~ X для некоторого X j , 1 или 1 / 2 или 1, i 1,..., n 3 Формальное описание теста Глейзера • Оценивается регрессия по всем наблюдениям. •Сохраняются остатки регрессии ei. •Оцениваются регрессии ei bX i ui , i 1,..., n ei b X i ui , i 1,..., n 1 ei b u i , i 1,..., n Xi •Если коэффициент β значим хотя бы в одной из трех регрессий (значимость коэффициента проверяется как обычно с помощью t – статистики), то имеет место гетероскедастичность (соответствующего вида). 4 Тест Уайта Содержательный смысл теста Уайта состоит в следующем: если в модели дисперсия возмущений каким-то, возможно, достаточно сложным образом зависит от регрессоров, то это должно каким-то образом отражаться в остатках обычной регрессии исходной модели. 1 Тест Уайта H0: гомоскедастичность H1: гетероскедастичность Вид гетероскедастичности не конкретизируется. 2 Формальное описание теста Уайта • Оценивается регрессия по всем наблюдениям. •Сохраняются остатки регрессии ei. •Оцениваются регрессия квадратов остатков на все регрессоры, их квадраты, попарные произведения и константу. •В последней оцененной регрессии находим коэффициент множественной детерминации R2 •Вычисляем тестовую статистику по формуле nR2. Тестовая статистика имеет распределение «хи – квадрат» с k-1 степенями свободы, где k – число оцениваемых коэффициентов. •Сравниваем полученное значение тестовой статистики с критическим при выбранном уровне значимости. Если значение тестовой статистики превышает критическое, то нулевая гипотеза о гомоскедастичности отвергается. 3 Тест Уайта Привлекательной чертой теста Уайта является его универсальность. Однако этот тест не является конструктивным. Если гетероскедастичность выявлена, то тест Уайта не дает указания на функциональную форму гетероскедастичности. Единственным способом коррекции является применение стандартных ошибок в форме Уайта. 4 Тест Бройша - Пагана Yi b1 b 2 X 2i ... b k X ki u i , D(u i ) i2 , i 1,..., n H 0: i2 u2 i 1,..., n H 1: ~ f ( 0 1 Z1i .. r Z ri ), 2 i для некоторых i 1,..., n переменных Z1 ,..., Z r Вид функции f может быть любой. 1 Формальное описание теста Бройша - Пагана • Оценивается регрессия Yi b1 b 2 X 2i ... b k X ki ui , i 1,..., n по всем наблюдениям. Сохраняются остатки регрессии ei, i = 1,…,n. Находится RSS. •Находится оценка дисперсии возмущений по формуле ^ RSS n 2 u • Оценивается регрессия e2 на Z1,…,Zr, находится ESS0. 2 Формальное описание теста Бройша - Пагана •Тестовая статистика 2 ESS 0 2ˆ 4 •Имеет распределение «хи – квадрат» с r степенями свободы. •Если 2 cr2 , (r ) при выбранном уровне значимости, то гипотеза H0 о гомоскедастичности отвергается. 3 Что делать в случае гетероскедастичности? Y b1 b 2 X u Предположим, что нам известны дисперсии возмущений i2 для всех наблюдений i = 1,…,n. 1 Y b1 b 2 X u u i i2 дисперсия Yi i b1 1 i b2 Xi i ui i Разделим обе части равенства на i для каждого наблюдения. 2 Y b1 b 2 X u u i i2 дисперсия Yi i b1 1 i b2 дисперсия новых возмущений Xi i ui i ui 1 дисперсии 2 i i ui i2 2 1 i Тогда дисперсии возмущений в новой регрессии станут одинаковыми и равными 1. 3 Преобразование переменных Y b1 b 2 X u дисперсия Yi i Y ' b1 H b 2 X ' u' Y ' b1 Yi i 1 i u i i2 b2 , H Xi i 1 i , ui i X ' Xi i , u' ui i Все сводится к оценке новой регрессии с преобразованными факторами, оцениваем регрессию Y' на X' и H, которые определенны выше. Отметим, что в новой регрессии нет константы. b1 становится коэффициентом наклона перед переменной 1/i. 4 Взвешенный метод наименьших квадратов Y b1 b 2 X u u i i2 дисперсия Yi i Y ' b1 H b 2 X ' u' b1 1 i Y ' Yi b2 i Xi i , H ui i 1 i , X ' Xi i , u' ui i Указанный метод называется взвешенным методом наименьших квадратов. Наибольший вес 1/i получают наблюдения с наименьшей дисперсией возмущений i. 5 Взвешенный метод наименьших квадратов Y b1 b 2 X u variance of ui i2 i Z i Однако на практике стандартные отклонения возмущений обычно неизвестны. Но, оказывается, достаточно знать эти стандартные отклонения с точностью до постоянного множителя. Предположим, что стандартные отклонения возмущений пропорциональны некоторой известной переменной Zi. 6 Взвешенный метод наименьших квадратов Y b1 b 2 X u дисперсия u i i2 i Z i Yi X i ui 1 b1 b 2 Zi Zi Zi Zi В этом случае мы достигаем гомоскедастичности остатков, разделив все переменные на Zi. 7 Взвешенный метод наименьших квадратов Y b1 b 2 X u дисперсия u i i2 i Z i Yi X i ui 1 b1 b 2 Zi Zi Zi Zi дисперсия ui i2 1 2 2 2 i 2 2 i / Zi Zi Y ' b1 H b 2 X ' u' Y ' Yi X u 1 , H , X ' i , u' i Zi Zi Zi Zi Действительно, как показано выше, дисперсии новых остатков одинаковы и равны 2. Нам нет необходимости знать 2. Достаточно того, что это константа (т.е. одинаковые дисперсии для всех возмущений, гомоскедастичность) . 8 Взвешенный метод наименьших квадратов Y b1 b 2 X u дисперсия u i i2 i Z i Yi X i ui 1 b1 b 2 Zi Zi Zi Zi Y ' b1 H b 2 X ' u' Y ' Yi X u 1 , H , X ' i , u' i Zi Zi Zi Zi Если после выполнении теста Голдфелда – Квандта гипотеза о гомоскедастичности отвергается, то в качестве Z может быть использована переменная Xj. 9 Взвешенный метод наименьших квадратов Y b1 b 2 X u u i i2 дисперсия Yi i Y ' b1 H b 2 X ' u' b1 1 i Y ' Yi b2 i Xi i , H ui i 1 i , X ' Xi i , u' ui i На практике вместо i часто используют их оценки. Например, если после проведения теста Глейзера гипотеза о гомоскедастичности была отвергнута, поскольку в регрессии ei bX i ui , i 1,..., n ^ ^ коэффициент β значим, то σi = |ei|, i = 1,..,n 10 История, произошедшая на Нью-Йорской фондовой бирже Securities and Exchange Commission vs Antitrust division of the US Department of Justice Биржевой комитет: Комиссионные брокерам не являются объектом соглашения между брокерами и клиентами, а устанавливаются биржевым комитетом Подразделение министерства юстиции: Цены комиссионных д.б. либерализованы 2 История, произошедшая на Нью-йоркской фондовой бирже Биржевой комитет: Yˆ t отношение 476000 31.348 X 1.08310 6 X 2 ( 2.98) ( 40.39) ( 6.54) где Y – доход брокерских компаний, Х – количество акций в сделке. Вывод: естественная монополия, не надо либерализовывать цены. 3 История, произошедшая на Нью-Йорской фондовой бирже Подразделение министерства юстиции : Дисперсия ошибок зависит от объема сделки. Надо поделить все переменные на Yˆ t отношение X . Новое оцененное уравнение: 342000 25.77 X 4.3410 6 X 2 ( 32.3) ( 7.07 ) ( 0.503) Вывод: это не естественная монополия, надо либерализовать цены. 4