Министерство экономического развития и торговли Российской Федерации Государственный Университет Высшая школа экономики Программа дисциплины АНАЛИЗ СОЦИОЛОГИЧЕСКИХ ДАННЫХ-1 Для направления 040200.62 "Социология" (подготовки бакалавра) Авторы: Рыжова А.В. (aryzhova@list.ru), Воронина Н.Д. (nvoronina@hse.ru) Рекомендована секцией УМС __Социология_______________ Председатель _Ледяев В.Г.________________ «___» __ноября_______ 2010 г. Одобрена на заседании кафедры Методов сбора и анализа социологической информации Зав. кафедрой д.с.н., проф. Козина И.М. «___» _сентября______ 2010 г. Утверждена УС факультета Социологии Ученый секретарь ______________________________ «_____» __________________ 2010 г. Москва ОРГАНИЗАЦИОННО-МЕТОДИЧЕСКИЙ РАЗДЕЛ 1.1. ЦЕЛИ КУРСА: - изучение современных математико-статистических методов анализа данных; - освоение программных средств обработки и анализа социологической информации на компьютере; - анализ специфики использования методов математики и статистики для изучения социальных явлений и особенности интерпретации результатов анализа социологических данных. 1.2. ЗАДАЧИ КУРСА: - разбор возможностей и ограничений основных методов одномерного и многомерного статистического анализа социологических данных; - формирование у студентов практических навыков использования компьютерных программ анализа социологических данных на примерах конкретных массивов результатов социологических исследований.. 1.3. МЕТОДИЧЕСКАЯ НОВИЗНА КУРСА (НОВЫЕ МЕТОДИКИ, ФОРМЫ РАБОТЫ, АВТОРСКИЕ ПРИЕМЫ В ПРЕПОДАВАНИИ КУРСА) В рамках курса каждый из математико-статистических методов анализа данных рассматривается с точки зрения возможности решения тех или иных социологических задач. Разбор всех рассматриваемых методов в процессе лекционных занятий происходит и использованием мультимедийной техники на основе данных конкретных социологических исследований. В целях освоения технических приемов работы с компьютерными программами статистического анализа данных (SPSS) после каждой лекции студентам дается небольшое задание для самостоятельной работы. Выполнение этих заданий контролируется в ходе семинарских занятий. 1.4. МЕСТО КУРСА В СИСТЕМЕ СОЦИОГУМАНИТАРНОГО ОБРАЗОВАНИЯ Курс читается студентам бакалавриата направления “Социология” в 3-4 модулях 2 курса и 1 модуле 3 курса. Рассчитан на студентов, прослушавших базовые курсы математики, теории вероятностей и математической статистики, а также основ социологии и методов социологических исследований с целью углубления теоретических и практических знаний в области интерпретации и анализа социологической информации. 1.6. ТРЕБОВАНИЯ К УРОВНЮ ОСВОЕНИЯ СОДЕРЖАНИЯ КУРСА По окончании данного курса студенты должны уметь применять следующие методы и методики анализа и интерпретации социологической информации: 1. Построение и анализ таблиц сопряженности с помощью различных коэффициентов связи. 2. Анализ взаимосвязи качественных и количественных переменных с помощью теста Стьюдента и модели однофакторного дисперсионного анализа. 3. Построение моделей множественной линейной и логистической регрессии. 4. Использование подходов поиска «латентных переменных» методами факторного анализа и главных компонент. 5. Группировка объектов с помощью методов кластерного анализа и деревьев решений По каждому из перечисленных методов студенты должны уметь: 1. Выбрать наиболее адекватный метод для решения поставленной социологической задачи. 2. Определить и обосновать необходимый формат предлагаемой математической модели. 3. Проанализировать выполнение ограничений модели и предложить схему преодоления в случае нарушения этих ограничений. 4. Выполнить расчеты модели на компьютере. 5. Проанализировать математико-статистический смысл полученных результатов. 6. Дать социологическую интерпретацию построенной модели. 3 ТЕМАТИЧЕСКИЙ ПЛАН УЧЕБНОЙ ДИСЦИПЛИНЫ НАЗВАНИЯ ТЕМ Лекции Семинары Самост. работа Всего часов Тема 1. Основы работы с пакетом SPSS. Обработка данных (перекодировка, сортировка значений, построение новых переменных). Принципы работы с синтакс файлами. 2 5 18 25 Тема 2. Шкалы измерений (номинальная, порядковая, интервальная, шкала отношений). Меры средней тенденции и меры разброса. Возможность расчета тех и других для признаков, измеренных по разным шкалам. 2 2 6 10 Тема 1. Критерий Хи-квадрат. Коэффициенты связи, основанные на статистике Хи-квадрат. Коэффициенты сопряженности Гудмена-Краскала. 3 2 10 15 Тема 2. Коэффициенты ранговой корреляции, их специфика и познавательные возможности. 2 2 5 9 Тема 3. Лог-линейные модели для таблиц сопряженности. Насыщенные и ненасыщенные модели. Интерпретация параметров. Проверка значимости отдельных эффектов. Проверка качества модели. 3 2 6 11 1 1 6 8 Часть 1. Подготовка к анализу данных. Описательная статистика. Часть 2. Анализ взаимосвязей между номинальными переменными Часть 3. Анализ взаимосвязей между номинальными и интервальными переменными Тема 1. Связь между номинальной и интервальной переменной для случая, когда номинальная переменная является дихотомической: критерий Стьюдента 4 Тема 2. Связь между номинальной и интервальной переменной для случая, когда номинальная переменная может принимать любое количество значений: дисперсионный анализ 3 3 10 16 Тема 1. Общее описание модели парной линейной регрессии. Интерпретация регрессионных коэффициентов. Оценка качества модели. Ограничения модели регрессии: нормальность распределения остатков и гомоскедастичность. 4 3 14 21 Тема 2. Общее описание модели множественной регрессии. Проверка значимости влияния на отклик отдельных предикторов и их групп. Ограничения модели регрессии: мультиколлинеарность. 6 3 14 23 Тема 3. . Регрессионная модель с использованием фиктивных переменных: один и несколько наборов фиктивных переменных. Интерпретация регрессионной модели при одновременном использовании метрических и фиктивных переменных. 4 4 15 23 Тема 4. Логистическая регрессия (логитанализ). Отношение преобладаний и логит. Интерпретация регрессионных коэффициентов. Оценка качества модели с помощью метода максимума правдоподобия. Мультиномиальная логистическая регрессия. 8 4 15 27 7 4 16 27 Часть 4. регрессии Часть 5. переменных. Модели множественной Модели латентных Тема 1. Модель факторного анализа как модель латентных переменных. Различные подходы к определению числа факторов. Процент объясненной дисперсии как показатель качества факторной модели. 5 Тема 2. Индивидуальные значения факторов. Сохранение факторов как новых переменных. Вращение матрицы факторных нагрузок. Ортогональные и неортогональные методы вращения. 5 4 12 21 Тема 1. Иерархический агломеративный кластерный анализ. Кластерный анализ методом k-средних. Проблемы выбора меры расстояния и формы кластера. 6 4 16 26 Тема 2. Сохранение номера кластера как новой переменной. Проблема устойчивости кластеризации. Методы оценки устойчивости. Описание и интерпретация результатов кластеризации. 4 3 14 21 Тема 3.. Модели деревьев решений. Особенности работы алгоритмов CHAID и CRT. Ошибки классификации, определение понятия риска. 4 4 15 23 Тема 4.. Цена ошибки классификации (Misclassification Cost). Возможность задавать различные значения цены ошибки классификации для разных типов ошибок, интерпретация соответствующих моделей. Проверка качества модели, способы решения проблемы излишней подгонки дерева: кросс-проверка, V-кратная кросспроверка, отсечение ветвей. 4 3 11 18 Всего 68 53 203 324 Часть 6. Модели классификации многомерной 6 БАЗОВЫЙ УЧЕБНИК Крыштановский А.О. Анализ социологических данных. Москва, Изд-во ГУВШЭ, 2006 ФОРМЫ ПРОМЕЖУТОЧНОГО И ИТОГОВОГО КОНТРОЛЯ В процессе работы над курсом студенты должны будут выполнить серию домашних заданий; по итогам каждой части проводится письменная контрольная работа; в конце 4 модуля 2 курса предполагается экзамен, в конце 1 модуля 3 курса (т.е. после окончания курса) – зачет. Оценка за зачет и экзамен складывается следующим образом: - общий балл за домашние задания, контрольные работы и активность на семинарах 50%; - оценка за зачет (экзамен) 50%. Если оценка за зачет (экзамен) является неудовлетворительной, неудовлетворительная оценка выставляется за весь курс. то КОНТРОЛЬНЫЕ РАБОТЫ И ДОМАШНИЕ ЗАДАНИЯ КОНТРОЛЬНЫЕ РАБОТЫ Контрольные работы проводятся после каждой темы и оцениваются по 10балльной шкале. Пропущенная контрольная работа может быть переписана 1 раз только при условии пропуска по уважительной причине. Работа, написанная на «неудовлетворительно», не переписывается. Контрольная работа состоит из следующих частей: 1. Теоретические вопросы 2. Вопрос на анализ таблиц из фрагмента SPSS Output 3. Описание команд фрагмента синтакс-файла ДОМАШНИЕ ЗАДАНИЯ Домашние задания одновременно являются частями Курсовой работы по МСИ. Всего предполагается 5 домашних заданий, по следующим темам: Задание 1. Факторный анализ Задание 2. Кластерный анализ Задание 3. Регрессионный анализ Задание 4. Т-Тесты, дисперсионный анализ 7 Задание 5. Критерий Хи-квадрат для таблиц сопряженности, коэффициенты связи, лог-линейный анализ Для всех заданий задача для студента формулируется по следующей схеме: 1. На основе методологического блока Вашей курсовой работы выделите содержательную задачу (задачи), которая может быть решена (или при решении которой используется) соответствующий метод анализа 2. Укажите место задачи на структурной схеме курсовой работы 3. Приведите фрагмент таблицы интерпретации и операционализации понятий, соответствующий этой задаче 4. Приведите соответствующий фрагмент Анкеты с переменными 5. Проведите анализ с помощью рассматриваемого метода 6. Опишите полученный результат и сделайте выводы по содержательной задаче Каждое из домашних заданий оценивается по 10-балльной шкале. Задания присылаются в заранее установленный срок. Оценка присланных позже установленного срока (без уважительной причины) работ снижается на 50%. ПРИМЕРЫ ЭКЗАМЕНАЦИОННЫХ ВОПРОСОВ 1. Модели независимости, заложенных в коэффициентах, основанных на критерии хи-квадрат, коэффициентах ранговой корреляции, коэффициенте корреляции Пирсона 2. Ограничения коэффициентов связи (коэффициенты, основанные на критерии хи-квадрат, коэффициенты ранговой корреляции, коэффициент корреляции Пирсона) 3. Т-Тесты :для одновыборочный независимых (проверяемая выборок, для стат.гипотеза. парных выборок, алгоритм проверки, содержательные выводы). 4. Дисперсионный анализ (проверяемая стат.гипотеза. алгоритм проверки, содержательные выводы). 8 5. Дисперсионный анализ Краскэла-Уоллиса (проверяемая стат.гипотеза. алгоритм проверки, содержательные выводы) 6. 7. Линейная регрессионная модель: оценка качества модели и значения коэффициентов регрессионного уравнения 8. Линейная регрессионная модель: стандартизованные коэффициенты регрессионного уравнения 9. Линейная регрессионная модель: ограничения 10. Линейная регрессионная модель: выбросы 11. Регрессия с фиктивными переменными: применение, алгоритм, значение коэффициентов. 12. Бинарная логистическая регрессия: оценка качества модели, значение коэффициентов 13. Множественная логистическая регрессия: смысл контрольных групп 14. Алгоритм иерархического аггломеративного кластерного анализа 15. Кластерный анализ: алгоритм К-средних 16. Кластерный анализ для группировки переменных 17. Построение деревьев решений: алгоритм CHAID 18. Факторный анализ: смысл таблицы общностей 19. Факторный анализ: факторные нагрузки и интерпретация факторов 20. Факторный анализ: алгоритмы отбора факторов 21. Алгоритм лог-линейного анализа 9 СОДЕРЖАТЕЛЬНЫЙ РАЗДЕЛ ТЕМЫ И КРАТКОЕ СОДЕРЖАНИЕ. Часть 1. Подготовка к анализу данных. Описательная статистика. Тема 1. Основы работы с пакетом SPSS. Обработка данных (перекодировка, сортировка значений, построение новых переменных). Принципы работы с синтакс файлами. Тема 2. Шкалы измерений (номинальная, порядковая, интервальная, шкала отношений). Меры средней тенденции и меры разброса. Возможность расчета тех и других для признаков, измеренных по разным шкалам. Примечание: Тема 2, часть 1, а также Тема 1, часть 2 и Темы 1,2, часть 3 пересекаются с курсом «Математико-статистические модели в социологии». В рамках нашего курса мы предполагаем, что с содержанием данных тем студенты уже знакомы и уделяем основное внимание реализации в SPSS. Основная литература 1. Крыштановский А.О. Анализ социологических данных. Москва, Изд-во ГУВШЭ, 2006 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие.4-е изд.,перераб. М.,ИД «ФОРУМ», 2008 3. Толстова Ю.Н. Измерение в социологии. М.: КДУ, 2007. 4. Толстова Ю.Н. Анализ социологических данных: Методология, дескриптивная статистика, изучение связей между номинальными признаками: Учеб. пособие. - М.: Научный мир, 2000. Дополнительная литература: 1. Паниотто В.И., Максименко В.С. Количественные методы в социологических исследованиях, Киев: Наукова думка, 1982 2. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ., М., Мир, 1982. 3. Marsh C. Exploring Data. Polity Press, 1988 10 Часть 2. Анализ взаимосвязей между номинальными переменными Тема 1. Критерий Хи-квадрат. Коэффициенты связи, основанные на статистике Хи-квадрат. Коэффициенты сопряженности Гудмена-Краскала. Тема 2. Коэффициенты ранговой корреляции, их специфика и познавательные возможности. Тема 3. Лог-линейные модели для таблиц сопряженности. Насыщенные и ненасыщенные модели. Интерпретация параметров. Проверка значимости отдельных эффектов. Проверка качества модели. Основная литература: 1. Крыштановский А.О. Анализ социологических данных. Москва, Изд-во ГУВШЭ, 2006. 2. Аптон Г. Анализ таблиц сопряженности. М., Финансы и статистика, 1982. 3. Толстова Ю.Н. Математико-статистические модели в социологии: Математическая статистика для социологов. Учебное пособие. М.: ИД ГУВШЭ, 2007 4. Agresti A. Categorical Data Analysis. //Wiley, 2002 Дополнительная литература: 1. Толстова Ю.Н. Анализ социологических данных: Методология, дескриптивная статистика, изучение связей между номинальными признаками: Учеб. пособие. - М.: Научный мир, 2000. 2. Татарова Г.Г. Методология анализа данных в социологии. М., Издательский дом “Стратегия”, 1998. 3. Gibbons J.D. Nonparametric measures of association. //Sage univ. paper, N91, 1993 11 Часть 3. Анализ взаимосвязей между номинальными и интервальными переменными Тема 1. Связь между номинальной и интервальной переменной для случая, когда номинальная переменная является дихотомической: критерий Стьюдента Тема 2. Связь между номинальной и интервальной переменной для случая, когда номинальная переменная может принимать любое количество значений: дисперсионный анализ Основная литература: 1. Крыштановский А.О. Анализ социологических данных. Москва, Изд-во ГУВШЭ, 2006. 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие.4-е изд.,перераб. М.,ИД «ФОРУМ», 2008 3. Толстова Ю.Н. Математико-статистические модели в социологии: Математическая статистика для социологов. Учебное пособие. М.: ИД ГУВШЭ, 2007 4. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ., М., Мир, 1982. Дополнительная литература: 1. Iversen G.I., Norpoth H. Analysis of variance. /Sage Univ. paper, 1, 1976 2. Bray J.H., Maxwell S.E. Multivariate analysis of variance. /Sage Univ. paper, 54, 1985 Часть 4. Модели множественной регрессии Тема 1. Общее описание модели парной линейной регрессии. Интерпретация регрессионных коэффициентов. Оценка качества модели. Ограничения модели регрессии: нормальность распределения остатков и гомоскедастичность. 12 Тема 2. Общее описание модели множественной регрессии. Проверка значимости влияния на отклик отдельных предикторов и их групп. Ограничения модели регрессии: мультиколлинеарность. Тема 3. . Регрессионная модель с использованием фиктивных переменных: один и несколько наборов фиктивных переменных. Интерпретация регрессионной модели при одновременном использовании метрических и фиктивных переменных. Тема 4. Логистическая регрессия (логит-анализ). Отношение преобладаний и логит. Интерпретация регрессионных коэффициентов. Оценка качества модели с помощью метода максимума правдоподобия. Мультиномиальная логистическая регрессия. Основная литература: 1. Крыштановский А.О. Анализ социологических данных. Москва, Изд-во ГУВШЭ, 2006 2. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебние.-8-е изд., М., «Дело»,2007 3. Доугерти К. Введение в эконометрику: учебникю 2-е изд. /Пер. с англ.,М.,»ИНФРА-М», 2004 4. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие.4-е изд.,перераб. М.,ИД «ФОРУМ», 2008 Дополнительная литература: 1. Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика, ч.1. М.: Юнити, 2001 2. Schroeder D.S., Sjoquist D.L., Stephan P.E. Understanding Regression Analysis. Sage University Paper series on Quantitative Applications in the Social Sciences, N57 3. Berry W.D. Understanding Regression Assumptions. Sage University Paper series on Quantitative Applications in the Social Sciences, N92 4. Hardy M.A. Regression with dummy variables. Sage University Paper series on Quantitative Applications in the Social Sciences, N93 13 Часть 5. Модели латентных переменных. Тема 1. Модель факторного анализа как модель латентных переменных. Различные подходы к определению числа факторов. Процент объясненной дисперсии как показатель качества факторной модели. Тема 2. Индивидуальные значения факторов. Сохранение факторов как новых переменных. Вращение матрицы факторных нагрузок. Ортогональные и неортогональные методы вращения. Основная литература: 1. Крыштановский А.О. Анализ социологических данных. Москва, Изд-во ГУВШЭ, 2006. 2. Статистические методы анализа информации в социологических исследованиях. М., Наука, 1979. 3. Факторный, дискриминантный и кластерный анализ. М., Финансы и статистика, 1989. 4. Интерпретация и анализ данных социологических исследований. М., Наука, 1987. Дополнительная литература: 1. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ., М., Мир, 1982. 2. Kim, Muller. Factor analysis //Sage University Paper series on Quantitative Applications in the Social Sciences, N14 3. Dunteman. Principle Component Analysis //Sage University Paper series on Quantitative Applications in the Social Sciences, N69 4. Kline P. An easy guide to factor analysis. //Routledge, London & N.Y., 1994 Часть 6. Модели многомерной классификации. Тема 1. Иерархический агломеративный кластерный анализ. Кластерный анализ методом k-средних. Проблемы выбора меры расстояния и формы кластера. 14 Тема 2. Сохранение номера кластера как новой переменной. Проблема устойчивости кластеризации. Методы оценки устойчивости. Описание и интерпретация результатов кластеризации. Тема 3.. Модели деревьев решений. Особенности работы алгоритмов CHAID и CRT. Ошибки классификации, определение понятия риска. Тема 4.. Цена ошибки классификации (Misclassification Cost). Возможность задавать различные значения цены ошибки классификации для разных типов ошибок, интерпретация соответствующих моделей. Проверка качества модели, способы решения проблемы излишней подгонки дерева: кросс-проверка, Vкратная кросс-проверка, отсечение ветвей. Основная литература: 1. Крыштановский А.О. Анализ социологических данных. Москва, Изд-во ГУВШЭ, 2006. 2. Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика, ч.1. М.: Юнити, 2001 3. Анализ и интерпретация данных в социологических исследованиях. М., Наука, 1987. 4. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ., М., Мир, 1982. Дополнительная литература: 1. Факторный, дискриминантный и кластерный анализ. М., Финансы и статистика, 1989. 2. Aldenderfer M.S., Blashfield R.K. Cluster analysis. //Sage univ.paper, N44 1984. 3. Arabie P., Carroll J.D., DeSabro W.S. Three-way scaling and clustering.//Sage univ. paper, N65, 1987. Авторы: ___________________________/Рыжова А.В./ ___________________________/Воронина Н.Д./ 15