УДК 004.832.3:001.8 ОБ ОДНОМ ВАРИАНТЕ ФОРМАЛИЗОВАННОГО КАЧЕСТВЕННОГО АНАЛИЗА СОЦИОЛОГИЧЕСКИХ ДАННЫХ* М.А. Михеенкова1, В.К. Финн2 Рассматриваемая в работе формализация качественного анализа социологических данных осуществляется средствами ДСМ-метода автоматического порождения гипотез. Помимо анализа данных об индивидуальном субъекте подход распространяется на данные о группах индивидуумов – социальных общностях. Возможно также использование его для изучения динамически изменяющихся состояний социума. Введение Систематическое извлечение знаний из неупорядоченных и неформализованных эмпирических данных в гуманитарных областях затрудняется некоторыми особенностями гуманитарного знания: прежде всего, отсутствием точного языка с дескриптивной и аргументативной функцией [Поппер, 2000], а также преобладанием идей вместо точно определенных понятий. При этом наличие обширного экспериментального материала, к примеру, в социальных науках привело к повсеместному распространению количественных (статистических) методов для анализа данных3. Однако еще Питирим Сорокин характеризовал универсальность применения этих методов как «культ нумерологии» и «ложное околичествление нескалярных качественных данных» [Сорокин, 2002]. Как следствие, все более широкое распространение в современной социологической практике приобретают качественные методы анализа данных, представляющие собой, как правило, творческую эвристику общения исследователя с индивидом (интерпретирующим исследуемые процессы и явления) с последующим Работа выполнена при финансовой поддержке РГНФ (проект № 05-03-03019а) 125190, г. Москва, ул. Усиевича, д.20,ВИНИТИ РАН, mmikh@viniti.ru 2 125190, г. Москва, ул. Усиевича, д.20,ВИНИТИ РАН, finn@viniti.ru 3 Такой подход представляется достаточно естественным, если рассматривать анализ данных как процесс построения социологической модели и проверку соответствия этой модели имеющимся данным (см. [Крыштановский, 2006]). * 1 сравнением и типологизацией результатов (см., например, [Готлиб, 2005]). Субъективный характер такого рода подходов заставляет исследователей говорить о необходимости развития точных методов качественного анализа данных [Ядов, 2003]4. Особенно актуальным это оказывается, если обратиться к характеризации социологии как научной дисциплины, основными двумя проблемами которой являются изучение действий индивидов (особенно в их социальных отношениях друг к другу) и создание каузальных объяснений процесса действия, его направлений и последствий (помимо изучения субъективных мотивов) [Парсонс, 2002]. Анализ социологических данных Мы будем рассматривать формализованный качественный анализ данных как автоматическое извлечение зависимостей из имеющихся фактов. При этом изучаемые множества событий (например, поведение людей) предполагают причинную обусловленность наличия изучаемых эффектов (как и их отсутствия). Термин «причинно обусловлены» в социальных науках можно понимать как предрасположенность (в смысле К.Р. Поппера) к совершению поведенческих актов (действий, установок, мнений), которая реализуется при отсутствии противодействующих влияний (как внутренних – личностных, так и внешних – ситуационных). Далее, используемые параметры описания индивида выражают его социальный характер, черты личности и нетривиальные биографические данные, отражающие историю становления личности (или, по крайней мере, адаптацию в социальной среде). Это приближает нас к решению актуальной задачи структурации социологических данных, допускающей определение сходства фактов и обнаружение закономерностей (см. в связи с этим [Гидденс, 1995]). Сходство индивидов, описания которых представлены указанными выше «качественными» параметрами, является предполагаемым источником детерминации их поведения (в соответствии с фундаментальным принципом «сходство фактов влечет наличие (отсутствие) изучаемых эффектов и их повторяемость»). ДСМ-метод – инструмент анализа Одним из возможных подходов к формализации качественного анализа социологических данных и последующей ее реализации средствами интеллектуальных систем (ИС) является ДСМ-метод автоматического порождения гипотез [Финн, 1999; Климова и др., 1999], позволяющий решать задачу исследования индивидуального поведения и Хотя в этой работе качественные методы не рассматриваются как инструмент извлечения зависимостей – в противоположность количественным, – что представляется дискуссионной точкой зрения. 4 порождения его детерминант. Вместе со специальной логикой аргументации он оказывается также средством анализа и прогнозирования мнений [Гусакова и др., 2001; Финн и др., 2002]. Метод состоит из: (1) формального языка, обладающего дескриптивной и аргументативной функциями; (2) правдоподобных ДСМ-рассуждений, являющихся синтезом трех познавательных процедур – индукции, аналогии и абдукции (с последующим возможным применением дедукции); (3) квазиаксиоматических теорий (КАТ), систематизирующих открытое множество знаний о предметной области; (4) дедуктивной имитации ДСМ-рассуждений в КАТ (доказательства непротиворечивости системы аксиом, представляющих правила вывода для индукции и аналогии, единственности модели этой системы и обратимости этих правил вывода), гарантирующей корректность их результатов; (5) интеллектуальных систем типа ДСМ, имеющих в качестве подсистемы Решателя [Финн, 2004] Рассуждатель, реализующий ДСМрассуждения, а в качестве базы знаний – соответствующую КАТ, включающую множество гипотез Н, порожденных ДСМрассуждением. Исходный предикат ДСМ-метода X1Y интерпретируется как «субъект Х обладает эффектом Y», где Y – переменная для представления действий, установок и мнений. Предикаты V2W и W 3V означают, что «подмножество характеристик V есть причина эффекта поведения W» и «эффект поведения W есть следствие подмножества характеристик V». ДСМ-рассуждение, формализованное средствами бесконечнозначной логики предикатов (1-го порядка для конечных моделей и слабой логики предикатов 2-го порядка для бесконечных моделей), состоит из последовательного и итерируемого применения индуктивных выводов (из предиката X1Y порождаются предикаты V2W или W 3V, т.е. в автоматическом режиме формируются фрагменты базы знаний (БЗ) интеллектуальной системы типа ДСМ) и выводов по аналогии (они используют гипотезы V2W и W 3V о причинах изучаемых эффектов, порожденные индукцией, для расширения и уточнения представленного в начальном состоянии БФ отношения 1*); цикл «индукция – аналогия» повторяется до стабилизации множества гипотез Н = Н1 Н2, где Н1 – гипотезы о причинах изучаемых эффектов, полученные с использованием п.п.в. 1-го рода – индукции, а Н2 – гипотезы, являющиеся предсказаниями, полученные с использованием п.п.в. 2-го рода – аналогий. ДСМрассуждение завершается применением абдукции (формализованной посредством критерия достаточного основания принятия гипотез, к.д.о.п.г.) – процедуры объяснения начального состояния базы фактов (БФ), в которой представлен предикат X1Y. В самом общем виде формализованным качественным анализом данных можно назвать анализ сложно организованных объектов (систем), сводимый к исследованию зависимостей между отношениями, представляющими эти объекты. С этой точки зрения ДСМ-метод АПГ, опирающийся на представление социума в виде системы отношений и предоставляющий средства для анализа этой системы и порождения новых отношений, есть не что иное, как инструмент формализованного качественного анализа данных в социологии. Это инструмент помогает решить две основные проблемы социологии М. Вебера: исследование индивидуального поведения и обнаружение детерминант социального поведения (см. выше). Кроме того, специально созданная четырехзначная логика аргументации [Финн и др., 2002] позволяет к этим задачам добавить проблему распознавания рационального поведения (точнее, такого вида поведения, как мнение) [Финн и др., 2005] и отклонений от него (в соответствии с идеей М. Вебера). Социальные общности Рассматриваемый подход может быть не только использован для представления и анализа знаний об индивидуальном субъекте, но и расширен для представления знаний о социальной общности, т.е. решения задачи структурации данных типа «социальная общность – эффекты поведения» и создания средств прогнозирования эффектов поведения для таких данных. Описание социальной структуры средствами языка с аргументативной и дескриптивной функцией опирается на предложенный в [Гусакова и др., 2001] вариант семантики ДСМ-метода для анализа и прогнозирования мнений, относящихся к набору тем Т 1, . . . ,Тs. Аргументированное принятие указанного множества тем основано на их представлении в виде ответов на соответствующие каждой теме множества вопросов, раскрывающие ее содержание. Такое представление позволяет распознать рациональное мнение средствами ДСМ-метода АПГ (и отделить его от нерационального). Поясним сказанное на примере частного случая s=1. Пусть задана некоторая тема опроса Т* такая, что она характеризуется утверждениями p1, …, pn. Пусть, далее, ?Jpi – терм, в котором – переменная со значениями из {1, –1, 0, } (“фактическая истина”, “фактическая ложь”, “фактическое противоречие”, “неопределенность”, соответственно). Терм ?Jpi понимается как вопрос «верно ли, что v[pi] = ?». Положим j J ( j ) p1&…& J ( j ) pn, где i(j) {1, 0, }, i = 1, …, n; j = 1, 1 n …, 4n. Будем называть j – максимальную конъюнкцию атомов J ( j ) pn – i мнением индивида, при этом множество членов этой конъюнкции обозначим [j]={ J ( j ) p1, …, J ( j ) pn}. Пусть U(2) = {( J i pi)& (i{1, – n 1 1, 0, }), i =1, …, n}. Задача изучения мнений сводится к изучению высказываний J (Cj1[j]) – «субъект Cj имеет мнение j» – и j порождения детерминант J ([j] 3 Cj) – «мнение j есть следствие j характеристик субъекта Cj» – для дальнейшего прогнозирования мнений. (1) Здесь Cj, Cj, [j], [j] – константы, Cj, Cj 2 U (U(1) есть множество характеристик субъекта, представляющих, как говорилось выше, социальные, индивидуальные и биографические черты личности) [j], [j] 2U , j = , m – оценка, полученная применением ДСМ-метода АПГ, (2) где j{1, 0, }, а m – число применений ДСМ-правил правдоподобного вывода. Основанием для построения модели структуры изучаемого социума и являются порожденные обратным ДСМ-методом АПГ детерминанты мнений. Для малых групп кластеры Гq, q=1, ..., r, образующие социальную структуру относительно темы Т*, могут быть определены как общности индивидуумов, имеющих общие мнения и общие характеристики, n определяющие эти мнения (здесь Q = [], J(1,n) s 1 J1,s). Гi+ {X | nY(J1,0(X1Y)&J(1n)(Qi 3Ci)&(QiY)&(CiX))}, i=1, ..., l1; Гj {X | nY(J1,0(X1Y)&J(1n)(Qj 3Cj)&(QjY)&(Cj X))}, j=1, ..., l2; Гk0 {X | nY(J0,0(X1Y)&J(0n)(Qk 3Ck)&(QkY)&(CkX))}, k=1, ..., l3; {X | nYJ(,n)(X1Y)}. Таким образом, социальная структура 1, …, r состоит из i+ (i = 1, …, l1), j– (j = 1, …, l2), k0 (k = 1, …, l3) и , т.е. r = l1+l2+l3+1, а + = l1 l2 l3 i 1 j 1 k 1 i+, – = j–, 0 = k0. Заметим, что для всех q ({+, –, 0}, q = 1, …, r) число элементов |q| 2, т.к. ДСМ-гипотезы порождаются на основе сходства по крайней мере двух примеров из БФ. Образующие социальную структуру кластеры – выделенные социальные общности – представляют покрытие социума на основе всех порожденных детерминант мнения (поведения), следовательно, число их может значительно превосходить число исходных элементов в БФ. Построим для Г+ диаграмму D+ частичного порядка .. ip iq , если С iq Сip . Число вершин этой диаграммы l1 2 s1 – s1 – 1 , где s1 – число (+)-примеров в БФ. Выберем из этих вершин все максимальные вершины – они-то и будут формировать социальную структуру, а соответствующие им i+ – социальные общности. Итак, Гi+ {X | nYJ1,0(X1Y)&J(1n)(Qi 3Ci)&(QiY)&(CiX)& UJ(1n)(U 3Ci)&(CiX)&(CiCi)}, i=1, ..., l1, l1 l1. Можно (и для обратного метода это естественно) рассматривать частичный порядок i i , если Qi Qi . В этом случае социальную p q q p структуру формируют соответствующие максимальные вершины, которым соответствуют общности Гi+ {X | nYJ1,0(X1Y)&J(1n)(Qi 3Ci)&(QiY)&(CiX)& VJ(1n)(Qi 3V) &(QiY)& (QiQi)}, i=1, ..., l1, l1 l1 . Аналогично строятся диаграммы для – (число вершин этой диаграммы l2 2 s2 – s2 – 1 , где s2 – число (–)-примеров в БФ) и 0 (число s вершин этой диаграммы l3 2 3 – s3 – 1 , где s3 – число (0)-примеров в БФ) и формируются общности j– и k0, соответственно. Дальнейшее исследование поведения социальных общностей (определенных кластеров) может осуществляться различными средствами, в том числе – вновь с помощью ДСМ-АПГ, что предполагает формализацию сходства этих общностей и их поведения. БФ образуют факты J,0(1Q) и J(, 0)(Г1Q), представляющие новое изучаемое поведение социальных общностей, {1, –1, 0}, Г и Q – соответственно, константы для общностей и поведения. Сходство социальных общностей определяется посредством сходства формирующих эти общности детерминант, например Гi+ Гj+ = Ci Cj. Можно усилить определение сходства общностей, если для описания последних используются какиелибо дополнительные характеристики. Соответственно, строятся предикаты для правил правдоподобного вывода 1-го и 2-го рода. Заметим здесь, что приведенное представление о социальных общностях представляет собой лишь часть возможной характеризации таковых – так, внутри общностей могут быть заданы отношения, сами общности могут также быть связаны различными отношениями и.т.п. Элементы социальной структуры i, где {+, –, 0}, порожденные обратным ДСМ-методом относительно темы Т*, могут быть определены более сложным, но и более содержательным образом. i+ mi {XnY(J1,0(X1Y)&( & ((ChiX)&(QhiY)&(J(1,n)(Qhi 3Chi))) h 1 mi g &W1…WgZ1…Zg( & (J(1,n)(Wh 3Zh)&(ZhX)&(WhY)& (( Qji) h 1 j 1 g ( Wh)))), i = 1, …, l1. h 1 i ({+, –, 0}) описывают множества субъектов таких, что их мнение в начальном состоянии фактов (обучающей выборке) имеет максимальное покрытие гипотезами «Qhi – следствие причины Chi» (J(,n)(Qhi 3 Chi), 1 i lh, h = 1, 2, 3, j = 1, …, m, где {1, –1, 0}, а m – число гипотез, образующих максимальное покрытие мнения. Аналогично определяются j– (j = 1, …, l2), k0 (k = 1, …, l3). Как и прежде, {XnY(J(,n)(X1Y)}, r = l1+l2+l3+1. g m m g Если к.д.о.п.г. выполнен и ( Qji)( Wh), но (( Qji)=( Wh)), j 1 h 1 j 1 h 1 то это означает, что поведение не является рациональным: мнение не вполне детерминировано. Установление сходства описанных социальных общностей ({+,–, 0, }) и постановка проблемы прогнозирования поведения посредством ДСМ-системы, как и выше, опирается на установление отношения частичного порядка . Di+ – диаграмма, соответствующая i+ (i = 1, …, l1). mi mi Вершины диаграммы: Chi, Qhi. h 1 ms ms mt h 1 mt Chs, Qhs Cht, Qht, где 1s, tl1 (для i+). h 1 h 1 h 1 h 1 Сходство Ds+ и Dt+ Ds, t = Ds+ П Dt+ определяется как покомпонентное сходство: ms mt ms mt ( Chs) ( Cht), ( Qhs) ( Qht). h 1 h 1 h 1 h 1 В идеальном случае мнение q полностью покрывается порожденными гипотезами и совпадает для соответствующих вершин, ms [q] = Qhs = h 1 mt Qht, где– мнение. Аналогичные построения h 1 проводятся для Dj– (j = 1, …, l2), и Dk0 (k = 1, …, l3). Анализ динамики поведения Другой интересной проблемой изучения социальной реальности является создание БФ, изменяющихся во времени, т.е. анализ динамически изменяющихся состояний социума (как индивидуальных, так и ситуационных), с последующим изучением причин социальных изменений. Возможно несколько вариантов динамических изменений элементов БФ: 1). t*(J, 0(C, S1Q)) = J, 0(C, S(t)1Q(t)), 2). t*(J, 0(C, S1Q)) = J(t), 0(C, S(t)1Q), 3). t*(J, 0(C, S1Q)) = J(t), 0(C, S(t)1Q(t)). Варианты 2). и 3). представляют собой немонотонные рассуждения – с изменяющимися во времени типами истинностных значений. Вариант 1). допускает возможность анализа средствами ДСМ-АПГ – как уже существующими, так и вновь создаваемыми (к примеру, формализующими аналоги метода сопутствующих изменений Д.С. Милля). Заменим непрерывное время t дискретными состояниями, упорядоченными в соответствии с изменением по времени: S(ti) = Si, Q(ti) = Qi, i = 1, …, m. Тогда факты J, 0(C, S(ti)1Q(ti)) ({1, –1, 0}) и J(,0)(C, S(ti)1Q(ti)) из БФ0(ti) в момент времени ti могут быть записаны в виде J, 0(C, Si1Qi) и J(, 0)(C, Si1Qi), соответственно, i = 1, …, m. Таким образом, мы имеем m начальных состояний БФ0i. Возможны 2 стратегии анализа БФ0i. В первом случае каждое i-е состояние рассматривается как стационарное, и средствами ДСМ-АПГ с параметром ситуации (см., например, [Финн и др., 2002]) порождаются гипотезы Н = Н1 Н2. Можно предложить критерий динамической устойчивости порожденных гипотез dsi = |H i H i 1 | |H i | , которая характеризует отношение числа повторяющихся гипотез к общему числу гипотез. Аналогично, динамическая устойчивость для гипотез первого рода (о причинах) определяется как dsi1 = |H 1i H 1i 1 | |H 1i | , эта характеристика носит более объективный характер, так как примеры недоопределенности могут не совпадать в соседних состояниях, т.е. гипотезы Н 2 относятся к совершенно разным объектам. Практическая реализация предложенных теоретических конструкций требует междисциплинарных усилий специалистов в области искусственного интеллекта и соответствующей гуманитарной области (в нашем случае – социологии). Заключение Применение ИС для анализа и прогнозирования изучаемых эффектов социального поведения, представленных в неявном виде в БФ, создает возможность формализованного качественного анализа с помощью когнитивных рассуждений, расширяя инструментарий обработки социологических данных, а, возможно, данных других социальных наук. Развитие исследований подобного рода будет способствовать как объективизации эмпирических социологических исследований, так и развитию методологии и логики социальных наук, что, разумеется, будет стимулом для академических социологических исследований (включающих эвристический поиск нового знания о социуме) и для развития аппарата компьютерной поддержки таких исследований (автоматизированных рассуждений и методов порождения гипотез, программных средств интеллектуальных систем). Список литературы [Гидденс, 1995] Гидденс Э. Элементы теории структурации // В кн.: Современная социальная теория: Бурдье, Гидденс, Хабермас. – Новосибирск, 1995. [Готлиб, 2005] Готлиб А.С. Введение в социологическое исследование (качественный и количественный подходы). – М.: ФЛИНТА, 2005. [Гусакова и др., 2001] Гусакова С.М., Михеенкова М.А., Финн В.К. О логических средствах анализа мнений // НТИ, Сер. 2, 2001, № 5. [Климова и др., 1999] Климова С.Г., Михеенкова М.А., Панкратов Д.В. ДСМ-метод как метод выявления детерминант социального поведения // НТИ, Сер. 2, 1999, № 12. [Крыштановский, 2006] Крыштановский А.О. Анализ социологических данных. – М.: Издательский дом ГУ ВШЭ, 2006. [Парсонс, 2002] Парсонс Т. О теории и метатеории // В кн.: Теоретическая социология, Антология, ч.2. – М.: Книжный дом «Университет», 2002. [Поппер, 2000] Поппер К. Призыв Бернайса к более широкому пониманию рациональности // В кн.: Эволюционная эпистемология и логика социальных наук. - М.: Эдиториал УРСС, 2000. – С. 163 – 175. [Сорокин, 2002] Сорокин П. Квантофрения // В сб.: Социология (Хрестоматия для вузов), составитель А.И. Кравченко. – М.: Академический проект, 2002. С. 63 – 74. [Финн, 1999] Финн В.К. Синтез познавательных процедур и проблема индукции // НТИ, сер. 2, 1999, № 1. [Финн и др., 2002] Финн В.К., Михеенкова М.А. О логических средствах концептуализации анализа мнений // НТИ, Сер. 2, 2002, № 6. [Финн, 2004] Финн В.К. Об интеллектуальном анализе данных // Новости искусственного интеллекта, 2004, № 3. [Финн и др., 2005] Финн В.К., Михеенкова М.А. Логические средства формализации закрытых опросов и проблемы распознавания рациональности мнений // Материалы конф. «Сорокинские чтения-2004», МАКС Пресс, 2005. [Ядов, 2003] Ядов В.А. Стратегия социологического исследования. – М.: Добросвет, 2003.