Регрессионные модели с фиктивными переменными 1. Понятие фиктивных переменных Экономические величины складываются под влиянием множества различных факторов, как количественных, так и качественных по своей природе. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование и пр., или факторы, оказывающие косвенное воздействие (во времени и/или пространстве) на изучаемый процесс, что приводит к неоднородной выборке рассматриваемых показателей. Иногда представляет интерес включение этих факторов в эконометрическую модель и исследование их влияния на изучаемую зависимость. Например, влияние пола или образования на уровень заработной платы или влияние дефолта на величину основных макроэкономических показателей. Возможным решением было бы разбить имеющиеся исходные статистические данные на заведомо однородные группы и строить модели для каждой однородной выборки с последующим выяснением различия в моделях. Например, построить модели зависимости заработной платы от стажа отдельно для мужчин и женщин или изучать поведение макроэкономических показателей отдельно на временном интервале до дефолта и после. Другой возможный подход состоит в построении и оценивании одной модели для всей совокупности наблюдений и измерении влияния фактора, явившегося причиной появления неоднородной выборки посредством введения этого фактора в модель. Чтобы ввести качественные факторы в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными или дамми-переменными. Этот способ обладает двумя следующими преимуществами: имеется простой способ проверки, является ли воздействие качественного фактора значимым, вследствие большей выборки оценки модели оказываются более эффективными (при условии выполнения определенных предположений). Регрессионные модели могут содержать одновременно как количественные, так и качественные переменные (модели ковариационного анализа- ANCOVA), либо только качественные переменные (модели дисперсионного анализа-ANOVA). Чаще всего применяются бинарные фиктивные переменные, принимающие два значения, 0 и 1, в зависимости от определенного условия. 2. Фиктивные переменные, влияющие на сдвиг свободного члена уравнения регрессии Рассмотрим следующую ситуацию: по группе лиц мужского и женского пола изучается линейная зависимость потребления Y зеленого чая от цены x : y a b x , где y – количество потребляемого чая; x – цена чая. Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: y1 a1 b1 x1 1 и женского пола: y2 a2 b2 x2 2 . А можно использовать общую совокупность данных и построить модель (ANCOVA) с включением в него фактора «пол» в виде фиктивной переменной z : Yˆ a bx z В общем уравнении регрессии зависимая переменная Y рассматривается как функция не только цены x , но и пола z . Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. 1 мужской пол, z1= 0 женский пол; Тогда уравнение для лиц женского пола можно записать: Yˆ a bx , а для лиц мужского пола: Yˆ (a ) bx Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии. Параметр b является общим для всей совокупности лиц, как для мужчин, так и для женщин. На основе МНК находим параметры модели с фиктивной переменной и проведем проверку на статистическую значимость. Статистическая значимость коэффициента при фиктивной переменной будет свидетельствовать о значимости сдвига в потреблении чая между мужчинами и женщинами. Если рассматриваемый качественный признак имеет не два, а несколько значений, то можно было бы ввести дискретную переменную, принимающую столько же значений. Обычно это не делается из-за трудности содержательной интерпретации коэффициента перед этой переменной. В этом случае целесообразно введение бинарных фиктивных l 1 переменных, где l - число значений качественного признака. Предположим, что изучается потребление чая не только от цены, но и региона проживания: северные регионы, центральные и южные. В этом случае разбиваем все данные на три категории, одну из которых, например, северные регионы считаем эталонной. Вводим две фиктивные переменные R1 и R2 1, проживание в центральном регионе R1 0, в противном случае 1, проживание в южном регионе R2 0, в противном случае Линейная регрессионная модель в этом случае запишется: Yˆ a bx 1 R1 2 R2 . Коэффициенты 1 и 2 в данном случае показывают сдвиг в объеме потребления чая в соответствующих регионах по отношению к потреблению чая в северных регионах. Сформулируем методику построения модели с фиктивными переменными: 1. Разбиваем данные на категории, число которых определяется числом градаций качественного признака. Одну из категорий принимаем за эталонную (выбирается произвольно). 2. Вводим фиктивные переменные для всех категорий, кроме эталонной. Каждая из введенных фиктивных переменных принимает значение, равное единице для данных рассматриваемой категории и нуль для данных остальных категорий. 3. Фиктивные переменные вводятся в уравнение с коэффициентом i , i 1, k 1, где k - число категорий. Каждый из коэффициентов i характеризует сдвиг значения результативного показателя для данных i ой категории относительно эталонной. Если i оказывается статистически значимым, то фактор (событие), выражаемое этой фиктивной переменной оказывает существенное влияние на результативный показатель Если рассматриваемый качественный признак имеет не два, а несколько значений, то можно было бы ввести дискретную переменную, принимающую столько же значений. Обычно это не делается из-за трудности содержательной интерпретации коэффициента перед этой переменной. В этом случае целесообразно введение бинарных фиктивных l 1 переменных, где l - число значений качественного признака. Модель может содержать несколько качественных признаков. В этом случае фиктивные переменные для каждого признака вводятся в соответствии с вышеприведенной методикой Пример. Предположим, что изучается потребление чая в зависимости от цены, пола и региона проживания: северные регионы, центральные и южные. Статистические данные приведены в следующей таблице 1 2 3 3 4 5 6 7 Потребл (кг) y 0,2 0,4 0,4 0,6 0,6 0,8 0,75 0,9 Цена (тыс. руб) c 1 1 0,8 0,8 0,6 0,6 0,5 0,5 Пол z 1 0 1 0 1 0 0 1 центр. регион R1 0 0 0 0 0 0 0 0 Южный регион R2 0 0 0 0 0 0 0 0 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 0,9 1,1 0,2 0,45 0,45 0,6 0,5 0,6 0,6 0,65 0,6 0,7 0,5 0,6 0,7 0,9 0,9 1,1 1 1,2 1,2 1,4 0,3 0,3 1 1 0,8 0,8 0,6 0,6 0,5 0,5 0,3 0,3 1 1 0,8 0,8 0,6 0,6 0,5 0,5 0,3 0,3 1 0 1 0 1 0 1 0 0 1 1 0 1 0 1 0 1 0 0 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 Вводим фиктивную бинарную переменную z для признака «пол» и две бинарные переменные R1 и R2 для регионов проживания. Линейная регрессионная модель в этом случае запишется: Yˆ a bx z 1 R1 2 R2 . Коэффициент показывает сдвиг в потреблении чая мужчинами относительно женщин, а коэффициенты 1 и 2 в показывают сдвиг в объеме потребления чая в центральном и южном регионах соответственно относительно северных регионов Найдем параметры модели, используя МНК (с помощью «Пакета анализа» EXCEL) Y-пересечение c z R1 R2 Коэффициенты 1,39 -1,04 -0,12 0,03 0,29 Ст. ошибка 0,05 0,06 0,03 0,04 0,04 t-стат. 27,26 -16,35 -4,00 0,93 7,55 P-Значение 0,00 0,00 0,00 0,36 0,00 Уравнение регрессии: Yˆ 1,39 1,04 x 0,12 z 0,03R1 0,29 R2 R 2 0,933 F 87,77 Fкрит следовательно, уравнение статистически значимо в целом с вероятностью 95% Так как P-значение для параметров ao , b, , 2 менее 0,05 , то они статистически значимы. Следовательно, потребление чая существенно зависит от цены, пола и проживания в южных регионах. Коэффициент 1 статистически незначим, что означает, что потребление чая в центральных регионах статистически незначимо отличается от потребления в северных регионах Можно построить отдельные уравнения для мужчин и женщин и каждого региона. Тип категории Женщины северные регионы уравнение Yˆ 1,39 1,04 x Yˆ 1,27 1,04 x Мужчины северные регионы Yˆ 1,42 1,04 x Yˆ 1,3 1,04 x Женщины центральные регионы Мужчины центральные регионы Yˆ 1,68 1,04 x Yˆ 1,56 1,04 x Женщины южные регионы Мужчины южные регионы В этих уравнениях различны только свободные члены, угол наклона всех прямых одинаков (одинаковый коэффициент перед переменной «цена»). 3. Фиктивные переменные взаимодействия Иногда представляет интерес влияние некоторого качественного фактора не только на свободный член регрессионного уравнения, но и на коэффициент перед количественной переменной. Пример. Исследуем тенденцию изменения заработной платы от стажа X и пола. Можно предположить, что фактор «пол» будет оказывать влияние не только на разницу в заработной плате мужчин и женщин, но и скорость ее изменения (наклон линии регрессии). Чтобы учесть этот факт, вводим фиктивную бинарную переменную z для признака «пол», а также переменную для коэффициента наклона ( z X ) . Эту переменную называют переменной взаимодействия. Получаем уравнение с тремя факторными переменными: Yˆ a bX z ( zX ) .Зарплата Y (тыс. руб) Стаж X (год) Пол(Z) XZ 8 2 0 0 6 2 1 2 10 3 0 0 8 3 1 3 12 8,5 13 4 4 5 0 1 0 0 4 0 9 5 1 5 14 7 0 0 9 7 1 7 15 9,5 20 12 8 8 10 10 0 1 0 1 0 8 0 10 22 12 0 0 15 12 1 12 25 15 0 0 16 15 1 15 Применим МНК (используя «Пакет анализа» EXCEL), получим следующее уравнение: Yˆ 6,89 1,27 X 3,11z 0,43( zX ) Коэффициент R 2 0,976 F 195,8 Fкрит ,следовательно, уравнение статистически значимо в целом с вероятностью 95% Y-пересечение Стаж(X) Пол(Z) XZ Коэффициенты 6,89 1,27 -3,11 -0,43 Ст. ошибка 0,65 0,08 0,92 0,11 t-стат. 10,64 16,50 -3,39 -3,96 P-Значение 0,000 0,000 0,004 0,001 Все параметры модели статистически значимы, следовательно, как стаж, так и «пол» оказывают существенное влияние на уровень заработной платы, причем не только на ее общее изменение, но и скорость изменения. Уравнение для мужчин запишется: Yˆ 6,89 1,27 X , а для женщин: Yˆ 3,78 0.84 X . В этом случае имеется различие не только свободных членов , но и коэффициентов перед переменной «стаж», что и подтверждает рис. 29 заработная плата(тыс.руб) 26 23 20 17 14 11 8 5 2 2,00 5,00 8,00 11,00 14,00 17,00 стаж мужчины женщины Рис. Динамика заработной платы 4. Фиктивные переменные во временных рядах Данные временных рядов экономических показателей могут изменить свои значения под влиянием каких либо событий: мер государственного регулирования, спадов и активизации деловой активности, природных условий и пр. Иногда представляет интерес определить, оказали ли эти события на изучаемый показатель. В этом случае все данные разбивают на две категории: до события и после события. Вводят бинарную фиктивную переменную D. 0, до события D 1, после события Тогда уравнение модели можно записать: Y a bt D , если анализируется влияние рассматриваемого события на сдвиг кривой роста без изменения ее наклона. Если при этом может поменяться и наклон кривой, то вводится переменная взаимодействия Dt , а уравнение имеет вид: Y a bt D (Dt) . Если коэффициенты или будут статистически значимы, то рассматриваемое событие оказывает влияние на структурные сдвиги в динамике изучаемого показателя. Фиктивные переменные в моделях с сезонностью Иногда заметное воздействие на зависимость оказывает сезонный фактор. В этом случае желательно при построении модели принять его во внимание. Если не учитывать это воздействие, то оно вносит свой вклад в случайную компоненту, в результате чего происходит ненужное снижение эффективности оценок других коэффициентов. Пример. В таблице приведены данные об объемах продаж топлива (в т.тонн ) компании « Спектр»за каждый четырехмесячный период года. период I январь-апрель II май-август 2007 2008 2009 2010 30 35 42 46 15 20 24 28 III сентябрьдекабрь 40 45 48 55 По этим статистическим данным мы в строили модель тренда и сезонности. Используем фиктивные переменные для выявления наличия сезонности и построения моделей для каждого сезона. Произвольно возьмем I период в качестве эталонной категории и будем использовать фиктивные переменные для оценки разницы в объеме продаж между другими периодами. Вводим две фиктивные переменные D2 , D3 , которые определяются следующим образом: D2 равно единице, когда наблюдение относится ко II периоду и нулю в остальных случаях; D3 равно единице в III периоде и нулю в остальных. Запишем модель: Yˆ a bt 2 D2 3 D3 Коэффициенты 2 , 3 показывают величину изменения в расходе топлива соответственно во втором и третьем периодах по сравнению с первым (эталонной категорией). Найдем параметры модели, используя МНК (с помощью «Пакета анализа» EXCEL) Y-пересечение t D1 D2 Коэффиц. 29.33 1.62 -18.12 5.5 Ст. ошибка 0.70 0.09 0.72 0.74 t-стат. 41.99 18.58 -25.08 7.46 P-Знач. 0.000 0.000 0.000 0.000 Коэффициент R2 0,995 F 541,03 Fкрит ,следовательно, уравнение статистически значимо в целом с вероятностью 95% Уравнение модели запишется: Yˆ 29,327 1,62 t 18,12 D2 5,5D3 Статистическая значимость коэффициентов 2 , 3 перед переменными D2 и D3 (P-значение < 0,05) свидетельствует о существенном различии в продажах топлива в зависимости от сезона. Составим отдельные уравнения для каждого периода: Y 29,327 1,62 t – (период I); Y 11,206 1,62 t – (период II); Y 34,833 1,62 t – (период III). Получили три отдельные линии регрессии. Усредняя их, получим: Y 25,12 1,62 t . Расстояние между отдельной линией регрессии для любого периода и усредненной линией, которое представлено разностью значений постоянного члена в уравнениях регрессии, дает оценку сезонных отклонений для определенного периода. Период I 29,327-25,12=4,21 Период II 11,206-25,127=-13,92 Период III 34,833-25,127=9,71 Cумма сезонных отклонений должна равняться 0 . Рис. Сезонные графики изменения объема продаж 5. Критерий Чоу В процессе эконометрического исследования могут возникнуть следующие проблемы: Для различных интервалов значений независимой переменной характер ее связи с зависимой переменной может меняться. Например, при исследовании затрат на летний отдых в зависимости от возраста до определенного момента (50-55 лет) будет их возрастание, после чего может иметь место обратная тенденция. Структура временного ряда может меняться под влиянием каких либо событий, что приводит к неоднородной выборке. Возникает вопрос, строить ли эконометрическую модель по всей совокупности наблюдений или разделить ее на отдельные однородные подвыборки. Может возникнуть и обратная проблема: имеются две выборки значений зависимой и объясняющих переменных, полученные в разных условиях и имеющие разный объем. Необходимо выяснить, действительно ли эти выборки неоднородны в регрессионном смысле или переход от одной выборки к другой не повлияет на структуру линейной модели регрессии и, следовательно, их можно объединить в одну и строить модель регрессии по объединенной выборке При решении данной проблемы возможны следующие случаи: 1. При достаточных объемах выборок можно построить регрессии по каждой выборке и найти интервальные оценки параметров регрессий. В случае пересечения соответствующих доверительных интервалов можно сделать вывод о целесообразности единой модели регрессии. 2. Если объем хотя бы одной из выборок незначителен, то возможности такого подхода резко сужаются из-за невозможности построения сколько-нибудь надежных оценок. В этом случае рекомендуется использовать критерий (тест) Г. Чоу, где эти трудности в существенной степени преодолеваются. Алгоритм критерия Чоу. Пусть первая выборка содержит n1 наблюдений, а вторая n 2 .Объединенная выборка содержит n n1 n2 наблюдений. 1. По каждой выборке строятся линейные регрессионные модели: k Y 0 ' j ' X j j 1 и k Y 0 ' ' j ' ' X j ' ' j 1 2. Формулируется нулевая гипотеза о равенстве параметров моделей и дисперсии регрессионных остатков: H 0 : j ' j ' ' ; j 1, k; D( ) D( ) 2 3. Находим параметры моделей по МНК и рассчитываем суммы квадратов остатков для регрессий по этим подвыборкам n1 n2 i 1 i 1 ( RSS 1 ei и RSS 2 ei ) m 4. Строим регрессию Y 0 j X j по объединенной выборке и j 1 n рассчитываем ее сумму квадратов остатков RSS ei . i 1 5. Рассчитываем F статистику по формуле: F ( RSS RSS1 RSS 2 ) (n 2k 2) ( RSS1 RSS 2 ) (k 1) Если F F ( , (k 1), (n 2k 2)) , то нулевая гипотеза отвергается и мы не можем объединить две выборки в одну Если нулевая гипотеза верна, то две регрессионные модели можно объединить в одну объема n n1 n2 : Модифицированный критерий Чоу: Речь идет о том, когда к основной выборке добавляется небольшая порция данных (например, когда число добавляемых наблюдений сравнимо с числом параметров модели) По такой малой подвыборке нельзя построить значимые оценки коэффициентов регрессии. Вопрос в том, можно ли их объединять. В этом случае F статистика рассчитывается по формуле : F ( RSS RSS1 ) (n1 k 1) RSS1 n2 Если F F ( , n2 , (n k 1)) , то нулевая гипотеза отвергается и мы не можем добавить данные к основной выборке.. Идея теста Чоу тесно связана с методикой регрессионного анализа с фиктивными переменными, когда имеется возможность разделения совокупности наблюдений по степени воздействия этого фактора на отдельные группы и требуется установить возможность использования единой модели регрессии. Оценивание регрессии с использованием фиктивных переменных более информативно в том отношении, что позволяет использовать t -критерий для оценки существенности влияния каждой фиктивной переменной на зависимую переменную. Тест Чоу может применяться, например, для выявления стабильности временного ряда. Для этого временной ряд разбивается на две подвыборки: до существенных изменений ряда и после этого. Выдвигается гипотеза о структурной стабильности тенденции ряда и проверяется на основании теста Чоу.