Факультет менеджмента Направление Управление проектами Модели бинарного выбора Выполнили: Горшкова Виринея Солодская Ольга Пискунова Марина Хайретдинов Эльдар Группы: 626, 627 НИУ ВШЭ , Москва, 2013 www.hse.ru Модели бинарного выбора Модели бинарного выбора Модель зависимости бинарной переменной от совокупности факторов Зависимая переменная принимает всего два значения — 0 и 1 (коды: 0 –нет; 1- да). Метод оценивания: ММП (метод максимального правдоподобия) photo photo Probit используется интегральная функция стандартного нормального распределения НИУ ВШЭ , Москва, 2013 Logit используется CDF логистического распределения Gambit используется распределение экстремальных значений - photo распределение Гомперца 2 Алгоритм построения модели Алгоритм построения модели 1. Определение зависимой переменной и факторов photo 2. Построение переменной Z, как линейной комбинации независимых переменных 3. Построение уравнения для искомой вероятности события 4. Проведение вычислений с помощью 5. метода максимального правдоподобия photo 6. Интерпретация результатов и исследование качества оценки photo НИУ ВШЭ , Москва, 2013 3 Алгоритм построения модели Сферы применения 1. Медицина (определение вероятности успешного лечения и т.п.) photo 2. Социология 3. Маркетинговые исследования (предсказание склонности к покупке) 4. Задачи классификации (скоринг в банках, маркетинг и пр.) photo Примеры: • голосование; • решение работать/не работать; • решение покупать/не покупать товар длительного пользования (автомобиль, дом); • форма собственности (государственная, смешанная, частная); • выбор профессии (научный работник, преподаватель, консультант, менеджер); photo • способ попадания из дома на работу (пешком, автобус, метро, метро и автобус, автомобиль) НИУ ВШЭ , Москва, 2013 4 Показатели качества моделей Показатели качества моделей Псевдокоэффициент детерминации Информационные критерии Коэффициент детерминации МакФаддена photo Статистика отношения правдоподобия photo Доля правильных прогнозов photo НИУ ВШЭ , Москва, 2013 5 Показатели качества моделей Показатели качества моделей: Информационные критерии Акаике (AIC) 2 ln L 2k AIC n n Шварца (SC) SC 2 ln L k ln( n) n n Хэннана-Куинна (HQ) HQ 2 ln L 2k ln ln( n) n n photo photo photo НИУ ВШЭ , Москва, 2013 6 Преимущества и недостатки Преимущества и недостатки моделей: моделей Преимущества 1. Исправление недостатка линейной модели, в которой вероятность могла получаться больше 1 (что логически неверно): вероятность от 0 до 1 2. Легко интерпретируется (можем идентифицировать увеличение/ снижения вероятности наступления того или иного события при процентом изменении значения фактора – отношение шансов). 3. При решении задач классификации объекты можно разделять на несколько групп: Например, в скоринге не только -(0 плохой, 1 - хороший), но и несколько групп (1, 2, 3, 4 группы риска). НИУ ВШЭ , Москва, 2013 Недостатки 1. Систематическое завышение оценки коэффициентовphoto регрессии при размере выборки – менее 500 2. Проблемы мультиколлинеарности 3. Минимум 10 исходов на каждую независимую переменную (к 1 недостатку) photo Например, интересующий исход – смерть пациента. Если 50 пациентов из 100 умирают – максимальное число независимых переменных в модели = 50/10=5 photo 7 Пример 1: соц. исследование Исследование факторов, влияющих на вероятность окончания средней школы Зависимая переменная: GRAD окончание средней школы Индивид окончил школу «1», нет – «0». Предикторы: ASVABC - результат тестирования познавательных способностей SM - число лет обучения матери респондента SF - число лет обучения отца респондента MALE - пол •Nemes S, Jonasson JM, Genell A, Steineck G. 2009 Bias in odds ratios by logistic regression modelling and sample size. BMC Medical Research Methodology Пример 1: верификация модели 3) (Подставляется полученное выражение для Z) 4) Таблица оцененных коэффициентов. Далее для оценки кумулятивного и предельного эффектов необходимо произвести дальнейшие расчеты, подставив полученные коэффициенты в формулы. Пример 1: верификация модели Пример нахождения выражения предельного эффекта для одной из переменных Столбец предельных эффектов Пример 1: отношение шансов Интерпретация коэффициентов: отношения шансов •Увеличение ASVABC на один балл увеличивает вероятность успешного окончания школы на 0,4 процентных пункта. •Аналогично, влияет принадлежность к мужскому полу. •Образование родителей влияет незначительно •Кроме того, на 10% уровне значимости значим только коэффициент при переменной ASVABC Пример 2: финансовый менеджмент Зависимая переменная: вероятность участия российских компаний в межфирменных отношениях Предикторы: 1. факторы окружающей среды • • • • • Уровень конкуренции в отрасли; Принадлежность к отрасли; Макро – показатели; Уровень развития законодательства в отрасли; Наличие поддержки со стороны предприятия. 2. характеристики компании • • • • Срок присутствия на рынке Количество собственников в совете директоров Численность сотрудников Наличие патентов 𝑝(𝑖𝑛𝑡𝑒𝑟𝑓𝑖𝑟𝑚) = 1 12 i ) 1 + 𝑒 −(𝛽0+𝛽1 ∗𝑖𝑛𝑡𝑒𝑟𝑛𝑎𝑙.𝑓𝑎𝑐𝑡𝑜𝑟𝑠+𝛽2 ∗𝑒𝑥𝑡𝑒𝑟𝑛𝑎𝑙.𝑓𝑎𝑐𝑡𝑜𝑟𝑠+ε Пример критериев качества модели Для метода максимального правдоподобия нет коэффициента, аналогичного R-square, поэтому используются следующие способы: -Число правильно предсказанных исходов, если в наблюдении i, считать предсказанием 1 при p(i)>0,5, 0 – в противном случае p=1 Pr. Prob=1 Pr. Prob=0 Total p=0 597 1124 1721 -Площадь под рок-кривой Площадь под рок-кривой 0.73; качество модели высокое Total 283 3159 3442 880 4283 5163 Пример 3: A model for Happiness Измерение уровня удовлетворенности населения жизнью Зависимая переменная: уровень удовлетворенности (индекс счастья) Предикторы: х1 – обучение в колледже; х2 – семейный статус; х3 – удовлетворенность собственным материальным положением; х4 – удовлетворенность работой; х5 –уровень здоровья х6 –часы работы х7– принадлежность к социальному классу еi – отклонение уровень счастья= a*х1+b*х2+c*х3+d*x4+e*x5+f*x6+g*x7+ei Carlos Gámez «A model for happiness» (2009) 14 15 Области применения моделей: маркетинг Пример 4 (маркетинг) Изучение поведения покупателей Зависимая переменная: покупка Покупка - "1", клиент ушел без покупки - "0". photo Предикторы: T – время проведенное в магазине; photo Y – возраст клиента; K – внешняя респектабельность клиента по 5-бальной шкале; еi – ошибка Покупкаi = a*Ti+b*Yi+c*Ki+ei НИУ ВШЭ , Москва, 2013 photo 16 Пример №1 Пример 4 (маркетинг) Оценка модели: критерии AIC SC HQ Logit 1.231 1.297 1.258 Probit 1.232 1.298 1.259 Gompit 1.224 1.290 1.251 photo Переменная Коэффициент время проведенное в -1.44 магазине Ст. ошибка z-Statistic Prob. 0.32 -4.55 0.00 0.04 Возраст клиента 0.32 0.15 2.10 Внешняя привлекательность -0.84 0.44 -1.91 C 2.04 0.78 2.63 McFadden R-squared 0.11 Mean dependent var 0.4 S.D. dependent var 0.49 S.E. of regression 0.45 Akaike info criterion 1.23 Sum squared resid Schwarz criterion 1.29 Log likelihood -118.61 Hannan-Quinn criter. 1.25 Deviance 237.23 268.1797 Restr. log likelihood -134.09 НИУ ВШЭ , Москва, 2013 Restr. deviance 0.06 photo 0.01 40.91 photo 17 Список используемой литературы 1. Stefan Boes, Rainer Winkelmann (2004) «Income and Happiness» Carlos Gámez (2009) «A model for happiness» photo 2. Nemes S, Jonasson JM, Genell A, Steineck G. 2009 Bias in odds ratios by logistic regression modelling and sample size. BMC Medical Research Methodology 3. Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996). "A simulation study of the number of events per variable in logistic regression analysis". J Clin Epidemiol 49 (12): 1373–9. 4. Agresti A (2007). "Building and applying logistic regression models". An Introduction photo to Categorical Data Analysis. Hoboken, New Jersey: Wiley. p. 138 5. Hryckiewicz, Aneta and Kowalewski, Oskar, Predicting Foreign Bank Exits? A Logit and Probit Regression Approach (January 15, 2010) photo НИУ ВШЭ , Москва, 2013 18 photo Спасибо за внимание! photo photo НИУ ВШЭ , Москва, 2013 19