Модели с дискретной зависимой переменной Дискретные зависимые переменные • 1. 2. 3. Типичные ситуации: Выбор из нескольких альтернатив: голосование; решение учиться/не учиться, покупать/не покупать; выбор профессии и т.п. (номинальная переменная) Ранжированный выбор: доход семь, уровень образования, успеваемость и т. п. (ординальная, порядковая, ранговая переменная). Количественная целочисленная характеристика: количество прибыльных организаций, количество университетов, количество отличников и т. п. Линейная модель вероятности Пусть yi xi i i – номер наблюдения, 1 2 k - набор неизвестных параметров, i - случайная ошибка, xi ( xi1 , xi2 ,, xik ) - набор независимых переменных, т.е. yi 0 x x 2 x k i 1 i 1 2 i k i Линейная бинарная модель вероятности Так как yi принимает значения 0 или 1 и E ( i ) 0 , то E ( yi ) 1 P( yi 1) 0 P( yi 0) P( yi 1) xi P( yi 1) xi Недостатки линейной вероятностной модели • Нарушение условия нормальности распределения случайного члена. • Гетероскедастичность. • Прогнозное значение может выходить за пределы [0;1]. Бинарные модели yt F ( xt ) t , P( yt 1) F ( xt ) Свойства функции F(z): 1. F(z) – монотонно возрастает. 2. F(z) [0;1]. 3. F(z)→0 при z →−∞. 4. F(z)→1 при z →+∞. Logit и Probit модели eu F (u ) (u ) - функция логистического распределения, 1 eu 1 F (u ) (u ) 2 где u e u xt z2 2 dz -функция нормального распределения, Метод максимального правдоподобия • Пусть y1, y2 ,, yn выборка, полученная в результате проведения n независимых наблюдений с.в. Y. Пусть вид закона распределения, например, вид плотности f ( y , ) , известен, но неизвестен параметр , которым определяется этот закон. Требуется по выборке оценить параметр . Метод максимального правдоподобия Функцией правдоподобия, построенной по выборке y1 , y2 ,, yn , называется функция вида n L( y1 , y2 ,, yn ) f ( yi , ) i 1 где f ( yi , ) - плотность распределения с.в. Y, если Y – непрерывная, f ( yi , ) p( yi , ) p{Y yi , } , если Y – дискретная с.в. За точечную оценку параметра β, согласно ММП, берут значение, при котором функция правдоподобия достигает максимума. 9 Метод максимального правдоподобия Оценка максимального правдоподобия является решением уравнения dL( y , ) 0 d или d ln L( y, ) 0. d 10 Оценивание бинарной вероятностной модели L (1 F ( xi )) F ( xi ) yi 0 -функция правдоподобия yi 1 После логарифмирования и дифференцирования по вектору β получим векторное уравнение правдоподобия ( yi ( xi )) xi 0 - для Logit - модели i i i 1 xi xi 0 - для Probit – модели, yi 0 yi 1 i i 1 i e 2 ( yi xi )' ( yi xi ) 2 2 xi , i (u )du 11 Тест отношения правдоподобия (LR-статистика) • H0:β1=β2=…=βk=0 ~ ˆ LR 2 ln L( ) ln L( ) - имеет распределение χ2 с k степенями свободы, где k-число объясняющих переменных LR ( , k ) -H0 отклоняется, признается 2 статистическая значимость модели, LR 2 ( , k ) - H0 не отклоняется, признается статистическая незначимость модели 12 Пример • Необходимо проверить, правда ли, что стаж работы помогает программистам в написании сложных программ, если на написание отпущен ограниченный промежуток времени. Для исследования были выбраны двадцать пять программистов с различным стажем работы (выраженным в месяцах). Их попросили написать сложную компьютерную программу за определенный промежуток времени. Бинарная переменная отклика принимала значение 1, если программист справился с поставленной задачей, и 0, если нет. • Исходные данные: файл program.sta ( STATISTICA) Пример • Построим логит регрессионную модель. • Действие 1. Выберете пункт меню Анализ -> Углубленные методы анализа -> Нелинейное оценивание. В появившемся окне выберете Логит регрессия. Стартовая панель модуля выглядит следующим образом: Пример • Действие 2. Выберем переменную SUCCESS(успех) как зависимую и EXPERNCE(опыт) как независимую. Для этого нажмите на кнопку Переменные. • Программа автоматически выберет коды зависимой переменной. Пример • Действие 3. После нажатия на кнопку ОК на стартовой панели будет отображен диалог определения оценивания модели. . На вкладке Дополнительно выберете Метод оценивания - Квази- Ньютоновский. Установите опцию Асимптотические стандартные ошибки на Вкл. Нажмите на кнопку ОК, чтобы начать вычисления. При этом будут отображаться результаты итераций. Пример • Действие 4 • После проведения вычислений будет отображена панель диалога просмотра результатов. Здесь собрана вся информация, касающаяся построенной модели и результатов оценивания. Для данного примера окно выглядит следующим образом. Пример • На панели диалога отображения результатов содержится р-уровень гипотезы. Если этот р-уровень менее 5%, то модель значима. • В данном случае р-уровень гипотезы оказался ниже 5% - значение статистики χ2 для разницы между текущей моделью и моделью, содержащей лишь свободный член, высоко значимо. Поэтому можно заключить, что стаж работы влияет на успехи программиста в выполнении поставленной задачи. Результаты работы собраны в виде нескольких таблиц. Пример • Выберем опцию Параметры и стандартные ошибки. Рассмотрим таблицу, в которой содержатся данные об оценках регрессионных коэффициентов. В таблице результатов ниже оба параметра имеют уровень значимости p<0.05. Пример • Действие 5. На вкладке Быстрый выберите опцию Наблюдаемые, предсказанные и значения остатков. Пример • На вкладке Дополнительно нажмите на кнопку Классификация. Будет отображена таблица с результатами классификации. • Оценить качество построенной модели можно, если оценить параметр Отношение несогласия. • Все наблюдения с предсказанными значениями (вероятностью) меньше или равными 0.5 классифицируются как неудача - Failure, остальные, с предсказываемыми значениями больше 0.5, классифицируются как успех Success. Отношение несогласия вычисляется как отношение произведения чисел правильно расклассифицированных наблюдений к произведению чисел неправильно расклассифицированных.