Иткина А.Я. Эконометрика на практике To be, or not to be … Уильям Шекспир Тема N. Фиктивная зависимая переменная Общая постановка задачи Имеется выборка, в которой зависимая переменная Y является качественной (с двумя альтернативами), а независимые переменные могут быть как качественными, так и количественными. Необходимо построить модель, в которой Y Задание Y в виде Y 0, 1-я альтернатива, 1, 2-я альтернатива. f ( x1 , x2 ,...) . , позволяет переформулировать задачу как вероятностную. Какова вероятность того, что Y примет значение одной из альтернатив, при конкретном наборе факторов? Пример 1. В России имеется около 60 000 скважин, добыча из которых ведется с использованием ЭЦН. Имеется выборка по ЭЦН. Требуется оценить работоспособность насоса в зависимости от его срока службы. Переформулируем задачу следующим образом: как зависит вероятность выхода из строя насоса от его возраста (в месяцах). Зададим Y 0, насос исправен, 1, насос сломан. Построение линейной МНК модели приводит к а) невозможным значениям зависимой переменной, например BREAK(1) -0.21 ; б) нарушению логики – 1 Тема N. Фиктивная зависимая переменная вероятность поломки растет с возрастом линейно, в то время как на самом деле новые насосы ломаются очень редко, а несломанных насосов старше 3.5 лет почти нет. logit модель Зададим вероятность того, что зависимая переменная примет значение 1, в виде P(Y 1| x1; x2 ;... xn ) 1 1 e ( k1x1 k2 x2 ... kn xn b ) . Такая форма задания переменной позволяет справиться с а) выходом вероятности за границы [0;1]; б) линейностью изменения вероятности при изменении факторов. Однако при такой форме зависимости коэффициенты включены в модель нелинейно и напрямую использовать МНК невозможно. Общепринято обозначать за z и находить k1 x1 k2 x2 ...kn xn b коэффициенты методом максимального правдоподобия. В Eviews logit модель можно построить путем выбора в окне уравнения метода BINARY – Binary choice (…), а среди предложенных методов оценки отметив Logit. Для рассмотренного выше примера модель записана может следующим 1 break 1 e (0.14 age 4.91) быть образом . То, какие именно коэффициенты определятся в модели, влияет на скорость роста вероятности. Графически это выражается в крутизне перехода от области с почти нулевой вероятностью к области с вероятностью близкой к единице. По графику зависимости break (age) можно заметить, что новые насосы (до 10 месяцев) почти не ломаются. На промежутке от 25 до 40 месяцев вероятность растет почти линейно с возрастом. Более старые насосы ломаются с вероятностью более 80%. 2 Иткина А.Я. Эконометрика на практике Вероятность поломки насоса в зависимости от его возраста 1 0.8 0.6 0.4 0.2 0 0 10 20 30 40 50 Рис. 1. Зависимость break от age Для более четкого понимания роли возраста стоит вычислить производную dbreak . Она покажет скорость, с которой растет вероятность поломки: dage e z dz z 2 (1 e ) dage dbreak dage e (0.14age 4.91) 0.14 . По графику (рис. 2) видно, что (1 e (0.14age 4.91) )2 максимум воздействия возраста приходится на период 33-35 месяцев. В соответствии с моделью увеличение возраста насоса на 1 месяц с 34 до 35 месяцев увеличивает вероятность поломки на 3.5%. Эта вероятность невелика, т.е. большое количество насосов старше 35 месяцев продолжают работать. Выборочный возраст насосов ограничен 49 месяцами. Незначительное количество (существенно менее половины) насосов в выборке сломаны. Поэтому график вероятности (рис. 1) не доходит до 1, а график предельного воздействия (рис. 2) оборван справа и не доходит до 0. Предельное воздействие возраста насоса на его поломку 0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0 0 10 20 30 40 50 60 Рис. 2. Скорость поломок в зависимости от возраста насоса 3 Тема N. Фиктивная зависимая переменная probit модель Зададим вероятность того, что зависимая переменная примет значение 1, в виде P(Y 1| x1; x2 ;... xn ) (k1 x1 k2 x2 ...kn xn b) , т.е. функции стандартного нормального распределения. Такая форма задания переменной также позволяет а) соблюдать границы вероятности [0;1]; б) нелинейно менять вероятность при изменении факторов. Однако при такой форме зависимости коэффициенты снова включены в модель нелинейно и напрямую использовать МНК невозможно. Общепринято обозначать за z k1 x1 k2 x2 ...kn xn b и находить коэффициенты модели методом максимального правдоподобия. В Eviews probit модель можно построить путем выбора в окне уравнения метода BINARY – Binary choice (…), а среди предложенных методов оценки отметив Probit. Для рассмотренного выше примера модель может быть записана следующим образом break Ф(0.074age 2.564) . В Excel зависимость может быть вычислена с помощью встроенной функции НОРМРАСП( z;0;1;1), где z 0.074age 2.564 . Вероятность поломки насоса в зависимости от его возраста 1 0.8 0.6 logit 0.4 probit 0.2 0 0 20 40 60 По графику зависимости break (age) можно заметить, что две модели дают очень похожие прогнозы. Probit модель предлагает немного более пологий рост вероятности, нежели logit. Скорость поломки в модели probit можно вычислить с помощью функции плотности нормального распределения dbreak dage Ф ( z) dz dage f ( z ) 0.074 . В Excel плотность f ( z) можно вычислить используя функцию НОРМРАСП( z;0;1;0) . По графику (рис. 3) видно, что максимум воздействия возраста совпадает в двух моделях. Однако величина этого максимума в модели probit на 0.5% ниже, чем в logit модели. 4 Иткина А.Я. Эконометрика на практике Предельное воздействие возраста насоса на его поломку 0.04 logit 0.035 probit 0.03 0.025 0.02 0.015 0.01 0.005 0 0 10 20 30 40 50 60 Рис. 3. Скорость поломок в зависимости от возраста насоса Анализ окна модели В верхней части окна выписан метод построения модели, например: Method: ML Binary Probit (Quadratic hill climbing). Эта запись означает, что коэффициенты модели были найдены методом максимального правдоподобия (maximum likelihood) для бинарной probit-модели. Будем далее сокращенно писать ММП вместо метода максимального правдоподобия. Рассмотрим верхнюю часть таблицы. Каждой переменной соответствует коэффициент. Это значение коэффициента оценено по выборке. Относительно каждой переменной проверяется гипотеза о равенстве коэффициента при ней 0, т.е. о том, что соответствующая переменная не влияет на функцию-вероятность (в генеральной совокупности). Приведенные стандартные ошибки коэффициентов являются асимптотическими, т.е. доверять им можно при больших выборках. В связи с этим в программе Eviews вместо t-Statistic используют z-Statistic – расчетное значение стандартного нормального распределения z-Statistic Coefficient . Prob. – это, при Std . Error условии верности выдвинутой гипотезы, вероятность получения такого или большего расчетного значения z-Statistic (для положительного коэффициента)/такого или меньшего расчетного значения z-Statistic (для отрицательного коэффициента), т.е. это односторонняя вероятность. Доверительные интервалы для коэффициентов модели следует рассчитывать, используя таблицы статистики Стьюдента. 5 Тема N. Фиктивная зависимая переменная Для приведенного выше примера коэффициент 0.074 с вероятность 95% попадет в интервал (0.038;0.110), рассчитанный по t-Statistic и в (0.039;0.109), рассчитанный по zStatistic. Т.е. для достаточно больших выборок или для коэффициентов с маленькой Std.Error можно пользоваться таблицами стандартного нормального распределения. В нижней части таблицы имеются уже знакомые нам описательные статистики: среднее значение и стандартное отклонение зависимой переменной, стандартная ошибка регрессии и остаточная сумма квадратов. Они имеют тот же смысл, что в МНКмоделях. Дополнительно приведены несколько статистик ММП: Логарифмическое правдоподобие (Log likelihood) – максимизируемое значение функции максимального правдоподобия. Среднее значение логарифмического правдоподобия (Avg. log likelihood) - Avg. log likelihood Log likelihood , n - объем выборки. n Ограниченное логарифмическое правдоподобие (Restr. log likelihood) – значение функции максимального правдоподобия в модели с одной лишь константой, т.е. в случае равенства коэффициентов при остальных объясняющих переменных 0. Restr. log likelihood вычисляется только в моделях со свободным членом. Статистика "отношение правдоподобия" (LR statistic) – аналог F-статисики в МНК-моделях. Проверяется значимость модели в целом. Приводится только для моделей со свободным членом. Проверяется гипотеза о совпадении построенной модели и модели только со свободным членом, т.е. возможность одновременного равенства всех коэффициентов модели 0, кроме свободного члена. Статистика критерия рассчитывается как 2(Log likelihood Restr. log likelihood) . В скобках задано количество степеней свободы (1 df) – количество переменных модели. Probability(LR stat) – при условии верности нулевой гипотезы LR stat асимптотически распределена как 2 с указанным выше df числом степеней свободы. McFadden R-squared – псевдо коэффициент детерминации в ММП-моделях, аналог соответствующего коэффициента в МНК-моделях, рассчитывается как 1 Log likelihood Restr. log likelihood и меняется в интервале [0;1). Может применяться для сравнения моделей между собой, но не имеет понятной интерпретации. 6 Иткина А.Я. Эконометрика на практике Теперь обратимся к меню. View/Expectation-Prediction Table – этот пункт меню позволяет увидеть в скольких случаях построенная модель, а также лучшая константа, «угадала» значение зависимой переменной, а в скольких «ошиблась». При вызове этого пункта возникает окно, в котором по умолчанию стоит значение 0.5. Это число показывает, что при прогнозе выше него бинарная переменная приняла значение 1, а ниже него – 0. Соответственно можно задать любое значение из интервала (0;1). Обратимся к следующему пункту меню View/Goodness-of-Fit Test... Он дает дополнительную возможность проверить качество построенной модели, т.е. степень совпадения реальных и предсказанных значений вероятности. Для этого данные группируются по какой-нибудь переменной или с помощью квантилей (m групп), определяется реальное (Actual) количество наблюдений, попавших в каждый интервал, и рассчитывается по модели ожидаемая частота (Expect) попадания в этот интервал. Близость теоретических и реальных частот оценивается с помощью критериев согласия Хосмера-Лемешова (Hosmer-Lemeshow) и Андрюса Асимптотически статистики этих критериев имеют распределение (Andrews). 2 с числом степеней свободы m-2 и m соответственно. Низкие значения вероятности показывают, что гипотезу отвергают, а значит, имеются существенные различия между реальными и предсказанными значениями вероятностей. Литература: 1. Бородич С.А. Эконометрика. Учебное пособие. – Минск: Новое знание, 2006. – 407 с. 2. Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 2009. – 413 с. 3. Program Eviews. User's Guide. 7