Модуль оценки рациональности в Интеллектуальной системе анализа социологических данных А. В. Сидорова Всероссийский институт научной и технической информации 125190, г. Москва, ул. Усиевича, д.20, alenavs@inbox.ru В теоретической социологии рациональность, как правило, рассматривается как оптимальное достижение заранее поставленной цели, «как устанавливаемое с помощью рассудка соотношение между интенцией и избранными средствами, определяющее рациональность действия с точки зрения имеющихся у действующего субъекта знаний, объективных возможностей и средств» [Девятко, 2003]. Однако в данной работе рациональность понимается как аргументированное принятие решений. То есть предполагается, что у респондента есть некоторый набор аргументов «за» или «против» определенного решения и на их основе он отвечает на вопросы и делает выбор. Анализ рациональности мнений производится для результатов социологического опроса, при этом опросы общественного мнения должны быть представлены как ответы на вопросы о соответствующей теме [Финн и др., 2004]. Таким образом, формулируется тема мнения Т* (или темы – T1*, T2*,…), задается система вопросов, раскрывающих содержание темы – каркас темы . Мнение – ответы респондента на вопросы каркаса темы p1, …, pn, ответ – одно из предложенных значений: «да», «нет», противоречие, нет ответа (недоопределенность). Уточнение идеи “темы” (или множества “тем”) как некоторой организации знаний, предполагающей их аргументированное принятие, в [Финн и др., 2002] названо концепт уализацией анализа мнений. Смысл этой концептуализации состоит в том, что средствами ДСМ-метода АПГ возможно распознавание рационального поведения – в отличие от нерационального. Возможность такого эффективного различения влечет за собой не только осмысленные теоретические следствия, но и технологически не совпадающие стратегии анализа и прогнозирования мнений качественными методами, реализуемыми в интеллектуальных системах типа ДСМ [Финн и др., 2004]. Описание ДСМ-метода, на котором основаны интеллектуальные системы типа ДСМ, можно найти, например в [Финн, 1999] или в [Финн и др., 2005]. Пусть ?Jpi, где ∈ {1, –1, 0, } (“фактическая истина”, “фактическая ложь”, “фактическое противоречие”, “недоопределенность”, соответственно), - вопрос «верно ли, что v[pi] = ?». Здесь J – оператор Россера-Тюркетта, J = t, если v[] = , J = f, если v[] , v[] есть функция оценки, – типы “внутренних” истинностных значений для представления фактов, t, f – “внешние” истинностные значения двузначной логики. Положим j ≖ J ( j ) p1&…& J ( j ) pn, где i(j) {1, 0, }, i = 1, …, n; j = 1, …, 4n (“≖”1 n 1 предикат графического равенства). j – мнение j-ого индивида, при этом множество членов этой конъюнкции обозначим [j]={ J ( j ) p1, 1 …, J ( j ) pn}. Пусть U(2) = n {(≖ J i pi)&(i{1, –1, 0, }), i =1, …, n}. Изучение мнений есть изучение высказываний J j (Cj1[j]) – «субъект Cj имеет мнение j» – и J j ([j] 3 Cj) – «мнение j есть следствие характеристик субъекта Cj», – Cj, Cj, [j], [j] – константы, Cj, Cj 2 U , (1) [j], [j] 2 U , j = , m – истинностное значение (оценка), полученная применением (2) ДСМ-метода АПГ, где j{1, 0, }, а m – число применений ДСМ-правил правдоподобного вывода [Михеенкова и др., 2005]. Для оценки рациональности мнений респондентов в некотором массиве данных могут быть предложены численные критерии: степень непротиворечивости, близость к идеальному мнению, степень согласованности мнений внутри некоторой общности [Михеенкова и др., 2008]. Результат вычисления их значений и будет являться показателем степени рациональности мнений. Остановимся на каждом из критериев. Первый критерий – степень непротиворечивости мнений. В массиве вопросов могут быть установлены логические связи между некоторыми вопросами (например, если рационально мыслящий респондент ответил на какой-то вопрос «да», то он должен ответить «нет» на некоторый другой). С помощью этого критерия определяется, насколько респондент (или группа респондентов) распознает указанные связи в массиве вопросов. Это наиболее универсальный из выделенных критериев, так как помимо вычисления его значения для групп респондентов, возможно распознавание рационально или нет мнение отдельного респондента. Значение этого критерия можно вычислять для любых социологических опросов (не только электоральных), так как в любом опросе вопросы могут быть заданы так, что между некоторыми из них можно установить связь. Вычисление этого критерия происходит следующим образом: Т* - тема, n – число вопросов относительно темы, k – число стабильных мнений j (новые j не появляются при расширении массива опрошенных). – непротиворечивое множество логических зависимостей вида mm, где m – конъюнкция атомов J j pj, m – конъюнкция или дизъюнкция атомов J j pj, а “” – импликация двузначной логики. Существует процедура h такая, что по множеству порождается множество максимальных конъюнкций i таких, что если i , то {i} является противоречивым. Пусть – множество мнений респондентов, где || = k, тогда функция (, ) = 1 – || || есть степень непротиворечивости мнений соответствующего множества. [Михеенкова и др., 2005] 2 Прежде чем перейти к описанию процедуры h, остановимся на логике JA4 [Финн и др., 2002], так как именно она используется при формализации для представления и распознавания рациональности мнений. Она представляет собой некоторое расширение двузначной логики, это логика с четырехзначной аргументационной семантикой и с Jоператорами. Одноместные J-операторы J1, J1, J0, J определяются аналогично приведенным выше. В [Финн и др., 2002] формулируется метод аналитических таблиц для формализации натурального вывода в логике JA4. Правила вывода формулируются аналогично соответствующим правилам для метода аналитических таблиц двузначной логики. - (правила конъюнктивного типа) и -правила (правила дизъюнктивного типа) формулируются стандартным образом. -правила: tJ p , где {+, –, 0, }. J p -правила: fJ1p J 1p | J 0 p | J p , fJ 1p fJ 0 p , . J 1p | J 0 p | J p J 1p | J 1p | J p Процедура h в данной работе задается следующим образом. Строим аналитическую таблицу в логике JA4 с началом . Находим множество открытых ветвей таблицы и порождаем множество максимальных конъюнкций j (j = 1, …, 4n), представляющих мнение. Сравниваем множество максимальных конъюнкций с множеством открытых ветвей аналитической таблицы. Находим – множество “запрещенных максимальных конъюнкций”; в него попадают те максимальные конъюнкции, которых нет во множестве открытых ветвей. После этого, для каждого мнения устанавливается, противоречиво оно или нет; затем вычисляется степень непротиворечивости для социальной общности. Второй выделенный критерий – близость к идеальному мнению. Его значение определяет, насколько мнения некоторой группы респондентов совпадают с некоторым «идеальным» мнением, заданным для этой группы. Значение этого критерия проще всего вычислять для электоральных общностей, так как именно для них «идеальное мнение» задается естественным образом. Так, если вопросы строятся на основе программных положений некоторых партий, то «идеальное мнение» может быть задано, например как выбор респондентом только программных положений той партии, за которую он голосует. Последний выделенный критерий – степень согласованности мнений. С его помощью определяется, насколько близки между собой мнения некоторой группы респондентов. Значение этого критерия вычисляется только для некоторой общности (группы респондентов), однако это не обязательно должна быть электоральная общность, это может быть любая выделенная группа респондентов. Критерии и некоторые способы их вычисления описаны в [Михеенкова и др., 2008]. 3 Если пользователь проводит вычисление по одному из критериев, то, упорядочив полученные значения по убыванию, он получит отношение линейного порядка. Соответственно, чем больше значение вычисленного критерия для какой-либо группы респондентов, тем выше степень рациональности этой группы. Однако при вычислении нескольких критериев степень рациональности одной группы больше степени рациональности другой только случае, если значения всех вычисленных критериев первой группы больше или равны значениям этих же критериев для второй группы. Значит, при вычислении степени рациональности по нескольким критериям на полученном результате можно определить отношение лишь частичного порядка и породить его диаграмму. Введем формальное определение для отношения рациональности, которое, как было отмечено, является отношением частичного порядка. Пусть R1 – степень рациональности мнений одной группы респондентов, R2 – другой группы респондентов. Тогда в случае вычисления всех трех критериев R1 ≽ R2, т. е. <N1,I1,S1> ≽ <N2,I2,S2>, если N1 N2, I1 I2, S1 S2, где Ni – степень непротиворечивости мнений i-ой группы респондентов, Ii – близость к идеальному мнению i-ой группы респондентов, Si – степень согласованности мнений i-ой группы респондентов; i = 1, 2. Созданный модуль рациональности – это самостоятельная программа, которая может быть установлена на любом персональном компьютере, это система для анализа рациональности мнений групп респондентов по результатам социологического опроса. Созданное программное средство реализует вычисление значений выбранных критериев, упорядочивает результат, при необходимости строит диаграмму. Перейдем к описанию самой программной реализации модуля рациональности, а именно к реализации трех перечисленных выше критериев рациональности. Для вычисления значения близости к идеальному мнению все мнения делятся на группы по темам. Затем для каждого мнения считается количество пересечений значений каркаса с определенным заранее «идеальным мнением», после чего для каждой темы вычисляется значение этого критерия. Для вычисления значения критерия степень согласованности мнения делятся на группы по темам, для каждой группы ищем пересечения мнений, считаем значение реальных данных, затем идеальное значение и вычисляем степень согласованности. Эти два критерия являются вычислительными и их реализация не вызывает значительных затруднений. Они были реализованы в созданном модуле рациональности на объектно-ориентированном языке программирования Visual C++ 7.0, входящем в пакет Visual Studio .NET. 4 При вычислении степени непротиворечивости сначала для каждого мнения определяется, противоречиво оно или нет. Для этого осуществляется ввод данных, строится аналитическая таблица в логике JA4 [Финн и др., 2002], порождаются максимальные конъюнкции, каждая из которых сравнивается с множеством ветвей. Если она не совпадает ни с одной из ветвей, то проверяется множество мнений. Если мнение совпадает с максимальной конъюнкцией, то оно противоречиво. Затем мнения делятся на группы по темам, для каждой темы определяется число противоречивых мнений и общее число мнений. Затем для каждой группы вычисляется степень непротиворечивости мнений. Однако при таком подходе массив ветвей аналитической таблицы хранится в памяти, что не слишком удобно, так как при увеличении количества зависимостей и переменных (номера вопросов), в них входящих, количество ветвей сильно увеличивается. Алгоритм построения дерева имеет экспоненциальную сложность. В самом худшем случае ни одна из ветвей дерева не замкнется, тогда даже при относительно небольшом количестве зависимостей (например, 20) практически невозможно выделение памяти для хранения такого количества объектов. Поэтому был разработан алгоритм, несколько отличающийся от предыдущего. Для нового алгоритма не требуется выделения такого количества памяти, однако для его работы требуется больше времени. Следует отметить отличия нового алгоритма. Для каждого мнения отдельно определяется противоречиво оно или нет. Для этого строится аналитическая таблица для текущего мнения и множества зависимостей. Если полученная аналитическая таблица замкнута, то мнение противоречиво. Такое построение повторяется для каждого мнения из массива данных. Первый вариант – это некоторая идеальная схема вычисления, а второй – реальное приближение к ней, требующее меньшего объема памяти. Построение аналитической таблицы в логике JA4– это отдельный алгоритм. Выделяется первая неразобранная зависимость (или формула) в текущей ветви, определяется, что с ней делать. Если выполняется конъюнктивное -правило [Финн и др., 2002], то переписываем формулы в текущую ветвь без метки t. Если дизъюнктивное -правило [Финн и др., 2002], то с формулы снимается метка и создается две новые ветви, в каждую из трех имеющихся ветвей приписывается нужная формула без метки. Если выполняется конъюнктивное -правило [Финн и др., 2002], то добавляем две части формулы в текущую ветвь. Если дизъюнктивное -правило [Финн и др., 2002], то создается ветвь, потом в текущую ветвь добавляется одна часть -формулы, а в новую – другая часть формулы. Если после выполнения правил ветвь дерева замкнулась, то переходим к следующей, если нет, то работаем со следующей неразобранной формулой. 5 Схема построения аналитической таблицы: Множество зависимостей да Берем первую неразобранную зависимость (или формулу) в текущей ветви Формула начинается с ‘t’ или ‘f’ да да нет Неразобранные зависимости Конец (дерево построено) нет Формула вида Jp ( = 1, –1, 0, ) В зависимости есть связка &, v, > Применяем - или -правила, при необходимости заводим новые ветви нет Зависимость вида tJp или fJp ( = 1, –1, 0, ) Применяем - или -правила, при необходимости заводим новые ветви Проверяем, к какому множеству принадлежит оценка переменной: +1, –1, 0 или . Ветвь замкнулась нет да Переходим к следующей ветви При разработке и отладке программного средства для оценки рациональности мнений использовались не только искусственно созданные примеры, но и данные опроса: «Анализ и предсказание электоральных предпочтений студентов старших курсов Российского государственного гуманитарного университета накануне декабрьских (2003 г.) выборов в Государственную Думу», а также данные опроса «Политическая жизнь и студенчество», проведенного накануне декабрьских (2007 г.) выборов в Государственную Думу (опрос был проведен студентами старших курсов социологического факультета РГГУ). Первый эксперимент подробно описан в [Финн и др., 2004; Михеенкова и др., 2005]. Остановимся на некоторых пунктах, связанных с оценкой рациональности мнений. Структурирование данных в исходном массиве было реализовано по следующей схеме: описание респондента («портрет личности») 1 мнение (выбор партийных программных установок) + выбор электорального действия (конкретная партия, другие партии, неучастие в выборах). [Михеенкова и др., 2005] Качественный анализ электорального 6 поведения, рассматриваемый в эксперименте, – это анализ рациональности выбора программных установок и электорального действия. В качестве основных тем при анализе рациональности мнений рассматривались некоторые партии (КПРФ, ЕР, СПС, Яблоко, ЛДПР, Народная партия – для первого опроса; СПС, Яблоко, Гражданская сила, ЛДПР, ЕР, КПРФ, Справедливая Россия – для второго), так как для них есть возможность формирования каркаса. Каркас каждой темы (партии) – это программные установки этой партии. Множество мнений для темы – из массива мнений выбираются только те, где респондент выбрал эту тему (ответил «да» на вопрос «Будете ли Вы голосовать за … партию?»). Мнение формируется из ответов на вопросы p1, …, pn с соответствующими оценками. При этом p1, …, pn – программные установки (по проблемам «приватизация», «СМИ» и.т.п.) конкретных выделенных партий. Например, в первом опросе: р85: «Основная угроза России исходит от США» (ЛДПР). Для критерия степень непротиворечивости мнений задается – непротиворечивое множество логических зависимостей. Элементы - логические связи между относящимися к одним и тем же темам (например, отношение к СМИ и т.п.) пунктами программ различных партий [Михеенкова и др., 2005]. Например, предложенная анкета (в первом опросе) включала следующие вопросы: 57) Земля всецело должна быть в государственной собственности. 88) Необходима свободная без ограничений продажа сельскохозяйственных угодий. Тогда можно выделить зависимости (где J1 – ответ «да» на соответствующий вопрос, а J-1 – ответ «нет».): J1p57 J-1p88 J-1p57 J1p88 Для второго критерия – близость к идеальному мнению для каждой темы задается идеальное мнение. В данном случае идеальное мнение респондента конкретной партии – это согласие с программными положениями этой партии. Для третьего критерия – степень согласованности мнений – задавался каркас темы: программные положения определенной партии или всё мнение целиком. В результате вычислений на двух электоральных критериях были получены следующие значения («Всего» – число респондентов, собирающихся голосовать за данную партию): Опрос в декабре 2003 г.: Название темы Ед. Россия СПС КПРФ Яблоко ЛДПР Нар. партия Всего 21 25 5 25 5 5 КПРФ Бл. к ид. мнению 0,68027 0,57143 0,7 0,53333 0,35 0,23333 Ст.согласов. 0,625 0,59767 0,54 0,4721 0,32857 0,24 Ед. Россия СПС Яблоко ЛДПР Нар.партия 7 Опрос в декабре 2007 г.: Название темы СПС Яблоко Гражд. сила ЛДПР Ед. Россия КПРФ Справ. Россия Всего 14 17 4 8 30 8 3 СПС Бл. к ид. мнению 0,67347 0,41176 0,57143 0,5 0,40667 0,42857 0,33333 Ст.согласов. Гражд.сила 0,5597 0,44669 0,44444 0,44048 0,40607 0,35119 0,33333 Яблоко ЛДПР КПРФ Ед. Россия Справ.Росси я Значение степени непротиворечивости в этих опросах выглядит следующим образом: Опрос в декабре 2003 г.: Опрос в декабре 2007 г.: Название темы степень непротивор-ти СПС ЛДПР Яблоко Ед. Россия КПРФ Народ. Пар. 0,222 0,2 0,1851 0,0952 0 0 Название темы СПС Ед. Россия Яблоко Гражд. сила ЛДПР КПРФ Справ. Россия степень непротивор-ти 0,0714 0,0333 0 0 0 0 0 Работа выполнена при поддержке РГНФ (проект № 08-03-00145а). Список литературы [Девятко, 2003] Девятко И.Ф. Социологические теории деятельности и практической рациональности. - М.: АВАНТИ ПЛЮС, 2003. [Михеенкова и др., 2005] Михеенкова М.А., Финн В.К. Логические средства формализации закрытых опросов и проблемы распознавания рациональности мнений // Математическое моделирование социальных процессов, 2005, вып. 7, с. 127-135. [Михеенкова и др., 2008] Михеенкова М.А., Финн В.К. Интеллектуальный анализ данных для проблем когнитивной социологии // Материалы наст. Конференции [Финн, 1999] Финн В.К. Синтез познавательных процедур и проблема индукции // НТИ, сер. 2, 1999, № 1 [Финн и др., 2002] Финн В.К., Михеенкова М.А. О логических средствах концептуализации анализа мнений // НТИ, Сер. 2, 2002, № 6 [Финн и др., 2004] Финн В.К., Михеенкова М.А., Бурковская Ж.И. О логических принципах анализа электорального поведения // НТИ, Сер. 2, 2004, № 8 [Финн и др., 2005] Финн В.К., Михеенкова М.А. Логика интеллектуальных систем как средство системного анализа в социологии // Труды I Международной конференции «Системный анализ и информационные технологии», 2005, т.1. 8