Ю.Н.Толстова Роль понятия признака в эмпирической социологии взгляд сквозь призму истории развития науки Предполагается знание элементов теории измерений, математической статистики и анализа данных в объеме программы бакалавриата Эмпирическая социология начинается с измерения Подумаем, зачем нужно измерение Принимаем идеи репрезентационной теории измерений Стивенс Стэнли Смит (Stevens Stanley Smith) (1906-1973) 1939 ЭС МС Измерение – это моделирование Литература: Суппес Дж., Зинес Дж. Основы теории измерений // Психологические измерения. М.: Мир, 1967. С. 9-110 Пфанцагль И. Теория измерений. М.: Мир, 1976 Толстова Ю.Н. Измерение в социологии. М.: КДУ, 2007 Нечисловое измерение • Изучение малых групп - отображение в граф Маша Даша Сережа Петя Наташа Маша любит Петю, Петя любит Наташу, Наташа любит Сережу, Сережа любит Дашу, а Даша думает только о дружбе с Машей. Измерение с помощью социометрических методов нам позволило увидеть грустную картину человеческих отношений Числовое измерение ЭС Маша МС Даша Удовлетворенность учебой Используется понятие непрерывной числовой переменной, хорошо моделирующейся с помощью прямой линии Понятие переменной ввел Декарт Рене (1596-1650) Изучение числовых переменных продолжили Лейбниц Готфрид Вильгельм (1646-1716) Ньютон Исаак (1743-1727) создавшие Дифференциальное и интегральное исчисление Понятие числовой переменной оказалось очень эффективным в естественных науках Годится ли для социолога понятие непрерывного признака? Не всегда! Проблемы имеются Приведём примеры Первый пример Зачем социолог настойчиво разбивает диапазоны изменения признаков на интервалы? Ясно: именно такое разбиение позволяет найти те статистические закономерности, которые ищет исследователь. Без этого за деревьями можно не увидеть леса. Существует много работ, посвященных предложению разных способов такого разбиения. Много содержательных разработок, показывающих, что при одном разбиении искомая закономерность четко проявляется, при другом – нет. То же – для формальных методов анализа данных. Скажем, всем известный критерий «Хи-квадрат», служащий для оценки связи между двумя признаками, при одном разбиении исходного признака на интервалы заставит нас принять гипотезу о независимости признаков, при другом - отвергнуть Второй пример Многие «числовые» признаки, часто встречающиеся в социологических исследованиях, в действительности лишь служат индикатором каких-то латентных свойств объектов. Рассмотрим, например, возраст. Для директора дома отдыха, анализирующего документы приехавших, знание возраста каждого нужно только для того, чтобы определить, к какой из трех категорий каждый относится: к той, для которой нужно обеспечить песочницы и ведерки-совочки; той, для которой нужно альпинистское снаряжение; или той, для которой нужна тихая комната для просмотра телевизора. А как насчет справедливости соотношения возрастов: 90 -80=20-10 с точки зрения оценки социальной зрелости? С содержательной точки зрения возраст может быть и номинальным, и порядковым, и вообще не отвечать никакому из привычных типов шкал. Третий пример Признак может быть многомерным. Так, имеет ли смысл помещать респондентов на одну числовую ось , измеряя их отношение к работе, если в этом отношении существую два несвязанных друг с другом аспекта, касающиеся, соответственно, возможности реализовать себя и размера зарплаты? Четвертый пример Зачастую бывает непонятно, имеет ли смысл понятие типа шкалы. Например, Маша из Ростова-на-Дону получила «отлично» по математической статистике. То же верно для Даши из Новосибирска. Всегда ли мы можем быть уверены, что качество знаний у обеих девушек одинаково? Если не всегда, то можем ли мы говорить хотя бы о номинальности шкалы? Мы говорили о непрерывном признаке. Не поможет нам и дискретность признаков. Дискретные признаки тоже часто не могут устроить социолога Пользуясь, скажем, тем же критерием Хи-квадрат для оценки связи между двумя номинальными (дискретными) признаками, мы вполне можем придти к выводу о том, что связи между полом и профессией нет, в то время как из таблицы будет видно, что все учителя – женщины. Серьезная социальная проблема (феминизация образования) окажется «замазанной» используемым критерием, поскольку он «рассматривает» признак как нечто цельное, как бы усредняет результаты по всем рассматриваемым альтернативам каждого признака, в то время как социолога вполне могут интересовать или только учителя, или только группа профессий, относимых обычно к «интеллигентским» (например, учителя, врачи, художники и артисты вместе) и т.д. Не годится само понятие признака Посмотрим, о чем говорит история развития социологических методов. Где был тот момент, когда стало ясно, что понятие признака не всегда годится для социолога? Да и был ли он? Ведь и сейчас самый распространенный способ представления исходных данных – это матрица объект-признак. Перейдем к истории Рассмотрим самую основную линию развития социологических методов - линию, связанную с теорией вероятностей и математической статистикой . Именно на эти ветви математики опирается подавляющее большинство методов измерения и анализа данных Теория вероятностей (ТВ) и математическая статистика (МС) в период примерно с середины XVII до середины XIX веков развивались в тесной связи с развитием эмпирической социологии (ЭС). Математика и социология друг друга «подталкивали». Ученые, занимающиеся естественными науками, принципиально отвергали статистический способ познания реальности, призывая к использованию типологического подхода Теория вероятностей Джероламо КарданоТВ (1501-1576) Элементы «Книга о случайности и играх» Первичные ТВ Паскаль Блэзпонятия (1623-1662) Паскаль Блэз (1623-1662) Т Ферма Пьер (1601-1665) Переписка. Рождение основных понятий ТВ Бернулли Якоб (1654-1705) Переписка. Рождение основных понятий «О законе больших чисел» ТВ выборки и Рождение понятий генеральной совокупности Лаплас Лаплас Пьер Пьер Симон Симон (1749-1827) (1749-1827) Великийматематик, математик,получавший получавшийи Великий социологические социологические результаты результаты Эмпирическая социология Граунт Джон (1604-1674) ) «Естественные и политические наблюдения …» Установил устойчивость ряда частот, характеризующих развитие общества Кондорсе Мари Жан Антуан Николя (1743-1794) «Эскиз исторической картины прогресса человеческого разума» Кондорсе Призывал активно использовать ТВ в социологии Кетле Ламберт Адольф Жак (17961874) Построил социальную физику на базе ТВ ТВ поначалу имела дело с дискретными событиями ЭС и ТВ вполне «удовлетворяли» друг друга Между тем в математике бурно развивалась мощная ветвь, направленная на изучение непрерывных числовых переменных - дифференциальное и интегральное исчисление (ДИИ) ЭС и ТВ по-разному на неё «реагировали» И «дружба» на время прекратилась ТВ ТВ, соединяясь с ДИИ, постепенно породила математическую статистику ЭС ЭС «заметила» теорию непрерывных переменных далеко не сразу ТВ и числовой признак основная историческая линия-1 200 лет теорией вероятностей пользовались в основном ученые обществоведы и понятие числового признака относительно медленно проникало в ТВ. Как это было? С XV до середины XVIII века ТВ рассматривала дискретные события 1733 Абрахам де Муавр (1667-1754) вводит понятие нормального распределения, но как предельную форму дискретного биномиального 1809 Гаусс Карл Фридрих (1777-1855). «Теория движения небесных тел». Вводит понятие нормального распределения в современном виде 1812 Лаплас Пьер Симон (1749-1827 ) в работе «Аналитическая теория вероятностей» независимо от Гаусса делает то же 1867 Чебышёв Пафнутий Львович (1821-1894) . «О средних величинах» Рождается понятие случайной величины – основного объекта изучения МС и ТВ ТВ и числовой признак основная историческая линия-2 ТВ+ ДИИ = понятие случайной величины Почва для развития МС 200 лет ученые –естественники категорически отрицали необходимость использования статистического метода познания. Но в середине XIX века родилась теория газов и … всё изменилось Основатель статистической физики – Максвелл Джеймс Кларк (1831-1879) Под воздействием физики МС и ТВ начали бурно развиваться В основе развития – числовая случайная величина Социологи перестали узнавать то, в рождении чего принимали активное участие, отшатнулись от ТВ и МС 1933 Колмогоров Андрей Николаевич (1903-1989) «Основные понятия теории вероятностей» . Современное представление о случайной величине Рождаются ТВ и МС в современном понимании ТВ и числовой признак Основная историческая линия - 3 Итак, примерно к 1930 году родилась МС в современном понимании этого слова Её объект изучения – числовые переменные (случайные величины) Предмет – параметры их распределений Цель – на основе выборочных распределений дать определенные оценки того, что делается в генеральной совокупности Точечное и интервальное оценивание параметров Проверка статистических гипотез В рамках МС развивались методы поиска статистических закономерностей (закономерностей в среднем) Методы изучения связей между переменными Регрессионный, дисперсионный, причинный анализ Коэффициент парной корреляции обобщается: рождаются коэффициент детерминации, множественной корреляции, канонической корреляции Методы классификации Большинство известных методов разработаны в рамках анализа данных Здесь - часть тех, которые основаны на геометрическом представлении данных (например, алгоритмы разделения смесей) ЭС и числовой признак Основная историческая линия - 1 Cередина XVII конец ХIХ века. Частотные таблицы. Изучение связей на их базе. Союз с ТВ на базе изучения дискретных явлений Милль Джон Стьюарт (1806-1873) анализ дискретных связей без ТВ и МС Конец XIX начало ХХ века Та же линия. Отказ от новых результатов ТВ и зарождающейся МС Социология перестала узнавать то, что сама породила Статистический метод познания связывался социологами только с изучением общества, не ассоциировался с ТВ и МС Ведущие русские ученые анализировали ситуацию, переживали за отечественную социологию Чупров Александр Александрович (1874-1926): «физики активно используют статистику в виде зарождающейся МС. Первая половипризнак ЭС и числовой Основная Основная историческая историческая линия линия -- 22 Первая половина ХХ века Понятие числовой переменной начинает активно использоваться в психологии и за ней - в социологии Рождается понятие Рождаются Спирмен Чарльз Эдвардс (1843-1941) на той же основе строятся шкалы Лайкерта, Гуттмана Появляется шкала Терстоуна и другие Терстоун Луис Леон (1887-1976) Середина ХХ века Лазарсфельд Пауль Феликс (1901-1976) создатель латентно-структурного анализа задумывается о том, дискретна или непрерывна латентная переменная Истории вопроса большое внимание уделяет соавтор Лазарсфельда : Neil W. Henry. Latent Structure Analysis at Fifty. Virginia Commonwealth University Richmond VA 23284-2014, 1999 К середине ХХ века социология постепенно начала использовать методы МС, сопряженные с числовыми переменными, но это продолжалось недолго 50-летние дебаты по поводу того, стоит ли считать непрерывной латентную переменную , сопровождались изменением отношения социологии к методам поиска статистических закономерностей. Это отношение находилось в тесной взаимосвязи с изменением самой совокупности этих методов. Одно детерминировало другое Изменения в методах, в частности, сопровождались пересмотром роли моделей, базирующихся на предположении о существовании числовых (и не только числовых) переменных . Но не только это волновало ученых. Примерно в середине ХХ века наука начала пересматривать подход МС к изучению статистических закономерностей Стало ясно, что за отказом социологии на стыке XIX и ХХ веков от идей МС можно усмотреть нечто глубинное (хотя нельзя отрицать и то, что зачастую такой отказ сопрягался и с недостаточной методической грамотностью социологов) К середине ХХ века стало ясно, что МС не справляется с теми задачами, которые ставила перед ней жизнь и, в частности, социология (равно как и многие другие науки) Родился Анализ данных (АД) Один из главных создатетей его идеологии Тьюки Джон Уилдер (1915-2000) Чем АД отличается от МС? -эвристичность, нестрогость алгоритмов - отсутствие возможности для многих методов переносить результаты с выборки на генеральную совокупность - необходимость постоянного диалога между исследователем и компьютером В рамках АД стали развиваться подходы, говорящие о том, что «засилье» числовых переменных пошатнулось. Выделим три направления, важных именно для социолога Направление 1. В основе многих социальных явлений всё же лежат числовые признаки, но они , как правило, с большим трудом поддаются измерению Чтобы их измерить, надо прибегать к нетривиальным методам сбора данных, преобразовывая их далее с помощью довольно сложных процедур Многомерное шкалирование (исходные данные - матрицы близостей между шкалируемыми объектами) Методы парных сравнений (исходные данные – результаты попарного сравнения респондентами шкалируемых объектов) Conjoint analysis (исходные данные – сочетания значений номинальных признаков, за которыми «стоят» измеряемые числовые). Подчеркнем принципиальную важность появления конджойнт-анализа. Несмотря на то, что в итоге он позволяет измерить числовые латентные признаки, сам способ сбора данных говорит о важности для человека рассмотрения сочетаний значений отдельных признаков. О том, что человек в обыденной жизни часто мыслит именно такими сочетаниями, косвенно говорят -появление указанных ниже таких методов поиска сочетаний , которые не опираются на предположения о существовании числовых латентных переменных) -появление в психологии теории виньеток (виньетка - это как раз и есть упомянутое сочетание; конджойнт анализ – это по сути теория виньеток ) Направление 2. Социологические явления описываются т.н. категориальными признаками (номинальными и порядковыми) Числовые переменные «работают», только если диапазон их изменения разбить на интервалы Логлинейный анализ (анализ многомерных таблиц сопряженности) Generalized Linear Models Логистическая регрессия Agresti Alan . An Introduction to Categorical Data Analysis. John Wiley and Sons, Inc., 1996 В методах, упомянутых выше, признак (числовой, либо категориальный) предполагается как бы объективно существующим (естественно, по сути это означает адекватность соответствующих модельных предположений, любой признак – это только модель). Приведем пример. Профессия – это нечто имеющее социальный смысл. А ведь можно также предполагать, что та же профессия с точки зрения решаемой с помощью АД задачи это некий удобный способ систематизировать такие качества человека, как «быть токарем», «быть пекарем», «быть лекарем», интересующие исследователя каждая сама по себе, вне связи с другими. Первую точку зрения можно ассоциировать с социологическим реализмом, вторую – с социологическим номинализмом. Толлстова Ю.Н. Анализ социологических данных. М.: Научный мир, 2000 Следу.ющее направление лежит в русле второй точки зрения Направление 3. Социальные явления описываются чаще всего с помощью сочетаний значений отдельных признаков. Признаки не представляются для социолога интересными сами по себе. Сочетания для разных объектов (людей ) могут отвечать разным признакам, количество признаков тоже может быть различным. Пример: за кандидата N голосуют бывшие военные с высшим экономическим образованием и мужчины, сельские жители, имеющие трех поросят Алгоритмы типа AID (automatic interaction detector) Методы поиска логических закономерностей Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Н.: Наука, 1981 Финн В.К. Интеллектуальные системы и общество. М.: URSS, 2006 (описанная в книге компьютерная система названа по инициалам Джона Стьюарта Милля; автор считает, что этот ученый является основоположником того направления в науке, которое впоследствии было связано с созданием искусственного интеллекта) Во второй половине ХХ века АД вступил в новую фазу. Родился DATA MINING Он имеет две стороны Первая. Иногда DATA MINING называют интеллектуальным анализом данных, поскольку он включает в себя много алгоритмов, обычно относимых к области создания искусственного интеллекта. И эта сторона, несомненно, привлекательна для социологов. Среди упомянутых алгоритмов, в частности, фигурируют алгоритмы типа AID. Вторая. Рассчитанность на возможность обсчета огромных массивов данных людьми, не разбирающимися в методах. И это у нас вызывает определенную настороженность, поскольку главная составляющая успешности применения анализа данных для решения социологических задач – это пристальное внимание социолога к тем моделям, которые заложены в используемых методах. Надеемся, что все сказанное в данной презентации по поводу одной из самых главных модельных составляющих – интерпретации понятий используемых признаков - даст возможность читателям-слушателям убедиться в важности внимательного отношения к модельным предположениям.