Пример №1

реклама
Факультет менеджмента
Направление Управление проектами
Модели бинарного выбора
Выполнили:
Горшкова Виринея
Солодская Ольга
Пискунова Марина
Хайретдинов Эльдар
Группы: 626, 627
НИУ ВШЭ , Москва, 2013
www.hse.ru
Модели
бинарного выбора
Модели
бинарного
выбора
Модель зависимости бинарной переменной от совокупности факторов
Зависимая переменная принимает всего два значения — 0 и 1 (коды: 0 –нет; 1- да).
Метод оценивания: ММП (метод максимального правдоподобия)
photo
photo
Probit
используется
интегральная
функция стандартного
нормального
распределения
НИУ ВШЭ , Москва, 2013
Logit
используется CDF
логистического
распределения
Gambit
используется
распределение
экстремальных
значений - photo
распределение
Гомперца
2
Алгоритм
построения модели
Алгоритм
построения
модели
1. Определение зависимой переменной и факторов
photo
2. Построение переменной Z, как линейной комбинации
независимых переменных
3. Построение уравнения для искомой вероятности события
4. Проведение вычислений с помощью
5. метода максимального правдоподобия
photo
6. Интерпретация результатов и исследование качества
оценки
photo
НИУ ВШЭ , Москва, 2013
3
Алгоритм
построения модели
Сферы
применения
1. Медицина (определение вероятности успешного лечения и
т.п.)
photo
2. Социология
3. Маркетинговые исследования (предсказание склонности к
покупке)
4. Задачи классификации (скоринг в банках, маркетинг и пр.)
photo
Примеры:
• голосование;
• решение работать/не работать;
• решение покупать/не покупать товар длительного пользования (автомобиль, дом);
• форма собственности (государственная, смешанная, частная);
• выбор профессии (научный работник, преподаватель, консультант,
менеджер);
photo
• способ попадания из дома на работу (пешком, автобус, метро, метро и автобус,
автомобиль)
НИУ ВШЭ , Москва, 2013
4
Показатели качества моделей
Показатели качества моделей
Псевдокоэффициент
детерминации
Информационные
критерии
Коэффициент
детерминации
МакФаддена
photo
Статистика
отношения
правдоподобия
photo
Доля правильных
прогнозов
photo
НИУ ВШЭ , Москва, 2013
5
Показатели качества
моделей
Показатели
качества
моделей:
Информационные критерии
Акаике (AIC)
2 ln L 2k
AIC  

n
n
Шварца (SC)
SC  
2 ln L k ln( n)

n
n
Хэннана-Куинна (HQ)
HQ  
2 ln L 2k ln ln( n)

n
n
photo
photo
photo
НИУ ВШЭ , Москва, 2013
6
Преимущества
и недостатки
Преимущества и недостатки
моделей:
моделей
Преимущества
1. Исправление недостатка линейной модели,
в которой вероятность могла получаться
больше 1 (что логически неверно):
вероятность от 0 до 1
2. Легко интерпретируется (можем
идентифицировать увеличение/ снижения
вероятности наступления того или иного
события при процентом изменении
значения фактора – отношение шансов).
3. При решении задач классификации
объекты можно разделять на несколько
групп:
Например, в скоринге не только -(0 плохой, 1 - хороший), но и несколько
групп (1, 2, 3, 4 группы риска).
НИУ ВШЭ , Москва, 2013
Недостатки
1. Систематическое завышение
оценки коэффициентовphoto
регрессии
при размере выборки – менее 500
2. Проблемы мультиколлинеарности
3. Минимум 10 исходов на каждую
независимую переменную (к 1
недостатку)
photo
Например, интересующий
исход –
смерть пациента. Если 50
пациентов из 100 умирают –
максимальное число независимых
переменных в модели = 50/10=5
photo
7
Пример 1: соц. исследование
Исследование факторов, влияющих на вероятность окончания средней
школы
Зависимая переменная: GRAD окончание средней школы
Индивид окончил школу «1», нет – «0».
Предикторы:
ASVABC - результат тестирования познавательных способностей
SM - число лет обучения матери респондента
SF - число лет обучения отца респондента
MALE - пол
•Nemes S, Jonasson JM, Genell A, Steineck G. 2009 Bias in odds ratios by logistic
regression modelling and sample size. BMC Medical Research Methodology
Пример 1: верификация модели
3)
(Подставляется полученное выражение для Z)
4)
Таблица оцененных коэффициентов. Далее для оценки кумулятивного и
предельного эффектов необходимо произвести дальнейшие расчеты,
подставив полученные коэффициенты в формулы.
Пример 1: верификация модели
Пример нахождения выражения
предельного эффекта для одной из
переменных
Столбец предельных эффектов
Пример 1: отношение шансов
Интерпретация коэффициентов: отношения шансов
•Увеличение ASVABC на один балл увеличивает
вероятность успешного окончания школы на 0,4
процентных пункта.
•Аналогично, влияет принадлежность к мужскому
полу.
•Образование родителей влияет незначительно
•Кроме того, на 10% уровне значимости значим
только коэффициент при переменной ASVABC
Пример 2: финансовый менеджмент
Зависимая переменная: вероятность участия российских компаний в
межфирменных отношениях
Предикторы:
1. факторы окружающей среды
•
•
•
•
•
Уровень конкуренции в отрасли;
Принадлежность к отрасли;
Макро – показатели;
Уровень развития законодательства в отрасли;
Наличие поддержки со стороны предприятия.
2. характеристики компании
•
•
•
•
Срок присутствия на рынке
Количество собственников в совете директоров
Численность сотрудников
Наличие патентов
𝑝(𝑖𝑛𝑡𝑒𝑟𝑓𝑖𝑟𝑚) =
1
12 i )
1 + 𝑒 −(𝛽0+𝛽1 ∗𝑖𝑛𝑡𝑒𝑟𝑛𝑎𝑙.𝑓𝑎𝑐𝑡𝑜𝑟𝑠+𝛽2 ∗𝑒𝑥𝑡𝑒𝑟𝑛𝑎𝑙.𝑓𝑎𝑐𝑡𝑜𝑟𝑠+ε
Пример критериев качества модели
Для метода максимального правдоподобия нет коэффициента,
аналогичного R-square, поэтому используются следующие
способы:
-Число правильно предсказанных исходов, если в наблюдении i, считать
предсказанием 1 при p(i)>0,5, 0 – в противном случае
p=1
Pr. Prob=1
Pr. Prob=0
Total
p=0
597
1124
1721
-Площадь под рок-кривой
Площадь под рок-кривой 0.73; качество
модели высокое
Total
283
3159
3442
880
4283
5163
Пример 3: A model for Happiness
Измерение уровня удовлетворенности населения жизнью
Зависимая переменная: уровень удовлетворенности (индекс счастья)
Предикторы:
х1 – обучение в колледже;
х2 – семейный статус;
х3 – удовлетворенность собственным материальным положением;
х4 – удовлетворенность работой;
х5 –уровень здоровья
х6 –часы работы
х7– принадлежность к социальному классу
еi – отклонение
уровень счастья= a*х1+b*х2+c*х3+d*x4+e*x5+f*x6+g*x7+ei
Carlos Gámez «A model for happiness» (2009)
14
15
Области применения моделей: маркетинг
Пример 4 (маркетинг)
Изучение поведения покупателей
Зависимая переменная: покупка
Покупка - "1", клиент ушел без покупки - "0".
photo
Предикторы:
T – время проведенное в магазине;
photo
Y – возраст клиента;
K – внешняя респектабельность клиента по 5-бальной
шкале;
еi – ошибка
Покупкаi = a*Ti+b*Yi+c*Ki+ei
НИУ ВШЭ , Москва, 2013
photo
16
Пример №1
Пример
4 (маркетинг)
Оценка модели: критерии
AIC
SC
HQ
Logit
1.231
1.297
1.258
Probit
1.232
1.298
1.259
Gompit
1.224
1.290
1.251
photo
Переменная
Коэффициент
время проведенное в
-1.44
магазине
Ст. ошибка
z-Statistic
Prob.
0.32
-4.55
0.00
0.04
Возраст клиента
0.32
0.15
2.10
Внешняя
привлекательность
-0.84
0.44
-1.91
C
2.04
0.78
2.63
McFadden R-squared
0.11
Mean dependent var
0.4
S.D. dependent var
0.49
S.E. of regression
0.45
Akaike info criterion
1.23
Sum squared resid
Schwarz criterion
1.29
Log likelihood
-118.61
Hannan-Quinn criter.
1.25
Deviance
237.23
268.1797
Restr. log likelihood
-134.09
НИУ ВШЭ , Москва, 2013
Restr. deviance
0.06
photo
0.01
40.91
photo
17
Список используемой литературы
1. Stefan Boes, Rainer Winkelmann (2004) «Income and Happiness»
Carlos Gámez (2009) «A model for happiness»
photo
2. Nemes S, Jonasson JM, Genell A, Steineck G. 2009 Bias in odds ratios by logistic
regression modelling and sample size. BMC Medical Research Methodology
3. Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996). "A simulation study
of the number of events per variable in logistic regression analysis". J Clin Epidemiol
49 (12): 1373–9.
4. Agresti A (2007). "Building and applying logistic regression models". An Introduction
photo
to Categorical Data Analysis. Hoboken, New Jersey: Wiley. p. 138
5. Hryckiewicz, Aneta and Kowalewski, Oskar, Predicting Foreign Bank Exits? A Logit
and Probit Regression Approach (January 15, 2010)
photo
НИУ ВШЭ , Москва, 2013
18
photo
Спасибо за внимание!
photo
photo
НИУ ВШЭ , Москва, 2013
19
Скачать