Часть 2 ПРАКТИКУМ ПО ПРИКЛАДНЫМ ЭКОНОМИЧЕСКИМ ИССЛЕДОВАНИЯМ ЛЕКЦИЯ 2

реклама
ПРАКТИКУМ ПО ПРИКЛАДНЫМ
ЭКОНОМИЧЕСКИМ ИССЛЕДОВАНИЯМ
Часть 2
ЛЕКЦИЯ 2
ТЕСТИРОВАНИЕ РЕГРЕССИОННЫХ ОСТАТКОВ
НА НАЛИЧИЕ ВЫБРОСОВ, НОРМАЛЬНОСТЬ,
ГОМОСКЕДАСТИЧНОСТЬ
Демидова О.А., demidova@hse.ru
Каф. Математической экономики и эконометрики, доцент
Лаборатория «Эмпирический анализ предприятий и рынков», заведующий
Тестирование регрессионных
остатков на гомоскедастичность
Гетероскедастичность
Y
b1
X1
X2
X3
X4
X5
X
Одно из условий теоремы Гаусса – Маркова состоит в том, что
возмущения u имеют нулевое математическое ожидание и
одинаковую дисперсию.
2
Гетероскедастичность
Y
b1
X1
X2
X3
X4
X5
X
Было сделано также дополнительное предположение о
нормальном законе распределения возмущений.
3
Гетероскедастичность
Y
b1
X1
X2
X3
X4
X5
X
Свойство одинаковой дисперсии возмущений называется
гомоскедастичностью.
4
Гетероскедастичность
Y
b1
X1
X2
X3
X4
X5
X
Линия теоретической регрессии Y = b1 + b2X, которую мы не
можем провести и проверить, одинаково ли распределены
возмущения.
5
Гетероскедастичность
Y
b1
X1
X2
X3
X4
X5
X
Если дисперсии возмущений различны, то это явление
называется гетероскедастичностью.
6
Гетероскедастичность
Y
b1
X1
X2
X3
X4
X5
X
Наличие гетероскедастичности можно заподозрить, если
отклонение наблюдений от линии выборочной регрессии
(остатки) достаточно сильно различаются.
7
Гетероскедастичность
Y
b1
X1
X2
X3
X4
X5
X
Однако ответ на вопрос, имеет ли место гетероскедастичность,
можно получить только с помощью тестов.
8
Последствия гетероскедастичности
Если предположение об одинаковых дисперсиях возмущений не
выполняется, то
• стандартные ошибки коэффициентов регрессии вычисляются
по неверным формулам
•t – тесты для проверки гипотез о конкретных значениях
коэффициентов не дают правильных результатов
•F – тесты для проверки гипотез о линейных ограничениях на
коэффициенты регрессии не дают правильных результатов
•Оценки МНК коэффициентов регрессии больше не являются
BEST, теряется эффективность оценок .
9
Пример
Промышленное производство на
душу населения
1800000
1600000
1400000
1200000
1000000
800000
600000
400000
200000
0
0
1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000
ВВП на душу населения
Данные для 30 стран в 1997.
10
Пример
Промышленное производство на
душу населения
300000
250000
200000
150000
100000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Взглянув на этот рисунок, можно сделать предположение, что с
ростом ВВП дисперсия возмущений увеличивается.
11
Пример
Промышленное производство на
душу населения
300000
250000
200000
South Korea
150000
100000
50000
Mexico
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Сравним Южную Корею и Мексику с приблизительно
одинаковым уровнем ВВП.
12
Пример
Промышленное производство на
душу населения
300000
250000
200000
150000
100000
Singapore
50000
Greece
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Другая пара для сравнения – Сингапур и Греция, также с почти
одинаковым уровнем ВВП. Очевидно, что для первой пары с
большим ВВП и разница больше. Можно предположить наличие
гетероскедастичности.
13
Тест Голдфелда – Квандта
Y
b1
X1
X2
X3
X4
X5
X
Гетероскедастичность – различие дисперсий возмущений для
различных наблюдений. Ясно, что видов гетероскедастичности
может быть сколь угодно много.
1
Тест Голдфелда – Квандта
Y
b1
X1
X2
X3
X4
X5
X
Однако одним из самых распространенных видов
гетероскедастичности является пропорциональность
стандартного отклонения возмущений одной из объясняющих
переменных.
2
Тест Голдфелда – Квандта
Y
b1
X1
X2
X3
X4
X5
X
Этот тип гетероскедастичности иллюстрируется на приведенной
диаграмме. Дисперсия возмущений пропорциональна
переменной Х.
3
Тест Голдфелда – Квандта
Основная и альтернативная гипотезы в тесте Голфелда –
Квандта (и во всех остальных тестах, в которых проверяется,
имеет ли место гетероскедастичность) формулируются
следующим образом:
H0: гомоскедастичность
H1: гетероскедастичность
Однако сам тест зависит от того, какой вид
гетероскедастичности мы предполагаем в альтернативной
гипотезе.
4
Тест Голдфелда – Квандта
Yi  b1  b 2 X 2i  ...  b k X ki  u i , D(u i )   i2 , i  1,..., n
H 0:
H 1:
 i2   u2 i  1,..., n
 i ~ X ji для некоторого X j , i  1,..., n
4
Тест Голдфелда – Квандта
300000
250000
Выпуск
200000
150000
100000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Для проведения теста Голдфелда – Квандта все наблюдения
делятся на 3 части. Если выборка небольшая, то выделяют
приблизительно 3/8 части всех наблюдений для первой и
третьей части и приблизительно 1/4 в середине.
5
Пример проведения теста Голдфелда – Квандта
300000
250000
Выпуск
200000
150000
100000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Для 28 стран оценивается зависимость выпуска продукции
обрабатывающей промышленности от ВВП. Выделено 11 стран
с маленьким ВВП, 6 со средним и 11 с большим.
6
Пример проведения теста Голдфелда – Квандта
300000
250000
Выпуск
200000
150000
100000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Отдельно оцениваются регрессии для 11 стран с маленьким ВВП
и для 11 стран с большим ВВП.
7
Пример проведения теста Голдфелда – Квандта
300000
250000
RSS1 = 157,000,000
Выпуск
200000
150000
100000
RSS2 = 13,518,000,000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Для каждой регрессии находятся суммы квадратов остатков
RSS1 и RSS2.
8
Пример проведения теста Голдфелда – Квандта
300000
250000
RSS1 = 157,000,000
Выпуск
200000
150000
100000
RSS2 = 13,518,000,000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Если имеет место гомоскедастичность, RSS1 и RSS2 не должны
сильно различаться (если число наблюдений в оцениваемых
регрессиях совпадает).
9
Пример проведения теста Голдфелда – Квандта
300000
Manufacturing
250000
RSS1 = 157,000,000
200000
150000
100000
RSS2 = 13,518,000,000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
GDP
Однако в рассматриваемом примере RSS2 значительно
превышает RSS1.
10
Тестовая статистика в тесте Голдфелда - Квандта
300000
250000
RSS1 = 157,000,000
RSS 2 / n2  k 13,518,000,000 / 9
F ( n2  k , n1  k ) 

 86.1
RSS1 / n1  k
157,000,000 / 9
Выпуск
200000
150000
F (9,9)crit ,0.1%  10.1
HH
100000
RSS2 = 13,518,000,000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Тестовая статистика F рассчитывается по приведенной выше
формуле. В числителе – оценка дисперсии возмущений по
последним n2 наблюдениям, а в знаменателе - оценка дисперсии
возмущений по первым n1 наблюдениям. K – число параметров
в модели.
11
Тестовая статистика в тесте Голдфелда - Квандта
300000
Manufacturing
250000
RSS1 = 157,000,000
RSS 2 / n2  k 13,518,000,000 / 9
F ( n2  k , n1  k ) 

 86.1
RSS1 / n1  k
157,000,000 / 9
200000
150000
F (9,9)crit ,0.1%  10.1
100000
RSS2 = 13,518,000,000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
GDP
Тестовая F – статистика превышает критическое значение даже
при уровне значимости 0.1% . Нулевая гипотеза о
гомоскедастичности отвергается.
12
Формальное описание теста Голфелда - Квандта
• Оценивается регрессия по всем наблюдениям.
•Полезно взглянуть на график остатков. Может появиться предположение, что
дисперсия возмущений увеличивается с ростом некоторой переменной.
•Упорядочиваем все наблюдения по модулю подозрительной переменной.
•Делим все наблюдения на три группы (если наблюдений достаточно много, то
приблизительно на трети). Удобно, если в первой и третьей группах количество
наблюдений одинаково.
•Наблюдениями средней группы пренебрегаем, а по первым n1 и последним n2
наблюдениям оцениваем отдельные регрессии.
•Используя суммы квадратов остатков (RSS) в оцененных регрессиях,
рассчитываем тестовую статистику по формуле
RSS 2 /( n2  k )
F (n2  k , n1  k ) 
RSS 1 /( n1  k )
•Сравниваем полученное значение F – статистики с критическим (при выбранном
уровне значимости).
•Если значение F – статистики превышает критическое, нулевая гипотеза о
гомоскедастичности отвергается.
13
Тест Глейзера
Дисперсия возмущений не обязательно пропорциональна какомулибо фактору, может быть и другой вид зависимости, для
определения которой используется тест Глейзера.
2
Тест Глейзера
Yi  b1  b 2 X 2i  ...  b k X ki  u i , D(u i )   i2 , i  1,..., n
H 0:
H 1:
 i2   u2 i  1,..., n

 i ~ X для некоторого X j ,
  1 или   1 / 2 или   1, i  1,..., n
3
Формальное описание теста Глейзера
• Оценивается
регрессия по всем наблюдениям.
•Сохраняются остатки регрессии ei.
•Оцениваются регрессии
ei    bX i  ui , i  1,..., n
ei    b X i  ui , i  1,..., n
1
ei    b
 u i , i  1,..., n
Xi
•Если коэффициент β значим хотя бы в одной из трех регрессий
(значимость коэффициента проверяется как обычно с помощью
t – статистики), то имеет место гетероскедастичность
(соответствующего вида).
4
Тест Уайта
Содержательный смысл теста Уайта состоит в следующем: если
в модели дисперсия возмущений каким-то, возможно,
достаточно сложным образом зависит от регрессоров, то это
должно каким-то образом отражаться в остатках обычной
регрессии исходной модели.
1
Тест Уайта
H0: гомоскедастичность
H1: гетероскедастичность
Вид гетероскедастичности не конкретизируется.
2
Формальное описание теста Уайта
• Оценивается
регрессия по всем наблюдениям.
•Сохраняются остатки регрессии ei.
•Оцениваются регрессия квадратов остатков на все регрессоры,
их квадраты, попарные произведения и константу.
•В последней оцененной регрессии находим коэффициент
множественной детерминации R2
•Вычисляем тестовую статистику по формуле nR2. Тестовая
статистика имеет распределение «хи – квадрат» с k-1 степенями
свободы, где k – число оцениваемых коэффициентов.
•Сравниваем полученное значение тестовой статистики с
критическим при выбранном уровне значимости. Если значение
тестовой статистики превышает критическое, то нулевая
гипотеза о гомоскедастичности отвергается.
3
Тест Уайта
Привлекательной чертой теста Уайта является его
универсальность. Однако этот тест не является конструктивным.
Если гетероскедастичность выявлена, то тест Уайта не дает
указания на функциональную форму гетероскедастичности.
Единственным способом коррекции является применение
стандартных ошибок в форме Уайта.
4
Тест Бройша - Пагана
Yi  b1  b 2 X 2i  ...  b k X ki  u i , D(u i )   i2 , i  1,..., n
H 0:
 i2   u2 i  1,..., n
H 1:
 ~ f ( 0   1 Z1i  ..   r Z ri ),
2
i
для некоторых
i  1,..., n
переменных
Z1 ,..., Z r
Вид функции f может быть любой.
1
Формальное описание теста Бройша - Пагана
• Оценивается
регрессия
Yi  b1  b 2 X 2i  ...  b k X ki  ui , i  1,..., n
по всем наблюдениям. Сохраняются остатки регрессии ei,
i = 1,…,n. Находится RSS.
•Находится оценка дисперсии возмущений по формуле
^
RSS
 
n
2
u
• Оценивается регрессия e2 на Z1,…,Zr, находится ESS0.
2
Формальное описание теста Бройша - Пагана
•Тестовая статистика

2
ESS 0

2ˆ 4
•Имеет распределение «хи – квадрат» с r степенями свободы.
•Если
 2   cr2 , (r )
при выбранном уровне значимости,
то гипотеза H0 о гомоскедастичности отвергается.
3
Что делать в случае гетероскедастичности?
Y  b1  b 2 X  u
Предположим, что нам известны дисперсии возмущений i2 для
всех наблюдений i = 1,…,n.
1
Y  b1  b 2 X  u
u i   i2
дисперсия
Yi
i
 b1
1
i
 b2
Xi
i

ui
i
Разделим обе части равенства на i для каждого наблюдения.
2
Y  b1  b 2 X  u
u i   i2
дисперсия
Yi
i
 b1
1
i
 b2
дисперсия новых возмущений
Xi
i

ui
i
 ui 
1

дисперсии
 
2
 i   i
ui
 i2
 2 1
i
Тогда дисперсии возмущений в новой регрессии станут
одинаковыми и равными 1.
3
Преобразование переменных
Y  b1  b 2 X  u
дисперсия
Yi
i
Y '  b1 H  b 2 X ' u' Y ' 
 b1
Yi
i
1
i
u i   i2
 b2
, H
Xi
i
1
i
,

ui
i
X '
Xi
i
, u' 
ui
i
Все сводится к оценке новой регрессии с преобразованными
факторами, оцениваем регрессию Y' на X' и H, которые
определенны выше. Отметим, что в новой регрессии нет
константы. b1 становится коэффициентом наклона перед
переменной 1/i.
4
Взвешенный метод наименьших квадратов
Y  b1  b 2 X  u
u i   i2
дисперсия
Yi
i
Y '  b1 H  b 2 X ' u'
 b1
1
i
Y '
Yi
 b2
i
Xi
i
, H

ui
i
1
i
,
X '
Xi
i
, u' 
ui
i
Указанный метод называется взвешенным методом наименьших
квадратов. Наибольший вес 1/i получают наблюдения с
наименьшей дисперсией возмущений i.
5
Взвешенный метод наименьших квадратов
Y  b1  b 2 X  u
variance of ui   i2
 i  Z i
Однако на практике стандартные отклонения возмущений
обычно неизвестны. Но, оказывается, достаточно знать эти
стандартные отклонения с точностью до постоянного
множителя. Предположим, что стандартные отклонения
возмущений пропорциональны некоторой известной
переменной Zi.
6
Взвешенный метод наименьших квадратов
Y  b1  b 2 X  u
дисперсия
u i   i2
 i  Z i
Yi
X i ui
1
 b1  b 2

Zi
Zi
Zi Zi
В этом случае мы достигаем гомоскедастичности остатков,
разделив все переменные на Zi.
7
Взвешенный метод наименьших квадратов
Y  b1  b 2 X  u
дисперсия
u i   i2
 i  Z i
Yi
X i ui
1
 b1  b 2

Zi
Zi
Zi Zi
дисперсия
 ui 
 i2
1 2
2
   2 i  2 2  
i /
 Zi  Zi
Y '  b1 H  b 2 X ' u'
Y '
Yi
X
u
1
, H  , X '  i , u'  i
Zi
Zi
Zi
Zi
Действительно, как показано выше, дисперсии новых остатков
одинаковы и равны 2. Нам нет необходимости знать 2. Достаточно
того, что это константа (т.е. одинаковые дисперсии для всех
возмущений, гомоскедастичность) .
8
Взвешенный метод наименьших квадратов
Y  b1  b 2 X  u
дисперсия
u i   i2
 i  Z i
Yi
X i ui
1
 b1  b 2

Zi
Zi
Zi Zi
Y '  b1 H  b 2 X ' u'
Y '
Yi
X
u
1
, H  , X '  i , u'  i
Zi
Zi
Zi
Zi
Если после выполнении теста Голдфелда – Квандта гипотеза о
гомоскедастичности отвергается, то в качестве Z может быть
использована переменная Xj.
9
Взвешенный метод наименьших квадратов
Y  b1  b 2 X  u
u i   i2
дисперсия
Yi
i
Y '  b1 H  b 2 X ' u'
 b1
1
i
Y '
Yi
 b2
i
Xi
i
, H

ui
i
1
i
,
X '
Xi
i
, u' 
ui
i
На практике вместо i часто используют их оценки. Например,
если после проведения теста Глейзера гипотеза о
гомоскедастичности была отвергнута, поскольку в регрессии
ei    bX i  ui , i  1,..., n
^
^
коэффициент β значим, то σi = |ei|, i = 1,..,n
10
История, произошедшая на Нью-Йорской фондовой
бирже
Securities and Exchange Commission vs Antitrust division of the US
Department of Justice
Биржевой комитет: Комиссионные брокерам не являются
объектом соглашения между брокерами и клиентами, а
устанавливаются биржевым комитетом
Подразделение министерства юстиции: Цены комиссионных д.б.
либерализованы
2
История, произошедшая на Нью-йоркской фондовой
бирже
Биржевой комитет:
Yˆ
t  отношение
 476000  31.348 X 1.08310  6 X 2
( 2.98)
( 40.39)
( 6.54)
где Y – доход брокерских компаний, Х – количество акций в
сделке.
Вывод: естественная монополия, не надо либерализовывать
цены.
3
История, произошедшая на Нью-Йорской фондовой
бирже
Подразделение министерства юстиции :
Дисперсия ошибок зависит от объема сделки. Надо поделить
все переменные на
Yˆ
t  отношение
X
. Новое оцененное уравнение:
 342000  25.77 X  4.3410  6 X 2
( 32.3)
( 7.07 )
( 0.503)
Вывод: это не естественная монополия, надо либерализовать
цены.
4
Скачать