Входной информацией для ЛСА является единый текст

реклама
Исследование близости политических позиций методом латентно-семантического анализа
А.П.Петров1,2, Е.Д.Корнилина1
1
Институт прикладной математики им. М.В.Келдыша РАН
2
МГУ им. М.В.Ломоносова, Социологический ф-т
petrov.alexander.p@yandex.ru, ekornilina@gmail.com
Введение.
В настоящем докладе представлена методика определения близости политических
позиций, заявленных в таких текстах, как предвыборные программы партий, выступления
политических деятелей, записи в блогах и пр.
Основой предлагаемой методики является латентно-семантический анализ (ЛСА),
разработанный группой американских ученых в 1988 году, и представляющий собой
реализуемый на современных вычислительных средствах метод анализа текстов
естественного языка (см., напр., [Landauer et al, 1998]). Основной сферой применения ЛСА
являются задачи интеллектуального поиска. Среди других приложений отметим
эпизодические исследования произведений художественной литературы [Nakov, 2001a,
2001b, 2001c].
Работы, использующие ЛСА в целях политического анализа, нам неизвестны.
В качестве примеров применения предлагаемой методики проанализированы
предвыборные программы политических партий, принимавших участие в выборах в
Государственную Думу V созыва в 2007 году, а также политические блоги некоторых
пользователей Живого Журнала. Показано, в частности, что позиции, заявленные в
программах Единой России и КПРФ близки друг к другу в большей степени, чем каждая
из них близка с позицией, заявленной в программе партии «Яблоко». При этом выявлено,
что программах некоторых партий можно выделить относительно слабо связанные части,
каждая из которых обладает высокой связностью в том смысле, что входящие в одну и ту
же часть фрагменты текста близки друг к другу, а фрагменты из разных частей
относительно далеки друг от друга.
Политические блоги являются сравнительно новым феноменом, полностью
обязанным своим появлением так называемому Web 2.0, более точно - принципу
наполнения веб-сайтов самими пользователями. Возникающие при этом коммуникации
несут определенные черты как межличностных, так и массовых коммуникаций.
Хотя доля политизированных пользователей в Интернете не очень велика, их
значение трудно переоценить. Ограничиваясь лишь самыми явными примерами, укажем
на высокую роль политических блогеров, и более широко – Интернет-пользователей в
президентской компании Б.Обамы (как в плане формирования дискуссии, так и в плане
фандрайзинга) [Асадова, 2000], и череду непрекращающихся Твиттер-революций
(начиная, вероятно, с апрельских событий 2009 года Молдавии).
Как сама политическая блогосфера, так и изучающая ее область науки находятся на
раннем этапе развития. В нашей работе предлагаемая методика применяется для
определения близости политических позиций, высказанных в записях блогеров Живого
Журнала. Показано, что, как правило, близкими (синтагматически близкими, см. далее)
друг к другу являются записи блогеров, выражающих близкие в общеупотребительном
смысле политические позиции.
Возможные применения предлагаемой методики включают в себя, в частности,
изучение такого вопроса, как изменение соотношений близости между позициями партий
с течением времени.
Описание методики.
ЛСА основан на «гипотезе о том, что между отдельными словами и обобщенным
контекстом (предложениями, абзацами и целыми текстами), в которых они встречаются,
существуют неявные (латентные) взаимосвязи, обуславливающие совокупность взаимных
ограничений» [Митрофанова, 2005].
Наше предположение состоит в том, что данные взаимосвязи являются
различными в текстах, выражающих различные политические позиции. Так, нетрудно
представить себе, что фамилия политического деятеля употребляется, как правило, в
положительном контексте его сторонниками, и в негативном – противниками. Это
относится не только к фамилиям и названиям партий, но также к отдельным
политическим событиям, проектам и т.д. Тем самым, выражающие политические позиции
тексты могут быть классифицированы путем выделения контекста, в который эти тексты
погружают
отдельные
слова.
Вероятно,
возможности
ЛСА
еще
шире
–
как
свидетельствуют наши эксперименты, не обязательно сравнивать различные тексты,
посвященные одному и тому же узкому, локализованному вопросу. Например, при
сопоставлении
партийных
программ
нет
необходимости
сравнивать
отдельно
экономические разделы программ, отдельно – армейский вопрос и т.д. Различия между
партийными программами оказываются достаточно явными и при сравнении программ «в
целом». Наш оптимизм основан на известных результатах [Nakov, 2001a, 2001b, 2001c],
свидетельствующих о том, что ЛСА способен улавливать довольно тонкие особенности
текста – например, различия между произведениями Пушкина, Гоголя и Булгакова,
различия между отдельными произведениями Гоголя и пр.
Контекст, в понимании ЛСА – это слова, близкие к данному слову по
расположению в тексте. Более конкретно: исследуемый текст в целях проведения анализа
нарезается на фрагменты, и контекст образуется всеми словами, входящими в один
фрагмент с данным. Далее, ЛСА устанавливает для каждых двух фрагментов меру их
близости, которую мы называем синтагматической близостью.
Фактически,
наша
основная
гипотеза
заключается
в
том,
что
близость
политических позиций связана с синтагматической близостью текстов (фрагментов,
образующих тексты), выражающих эти позиции.
Остановимся более подробно на технологии ЛСА, точнее его варианта,
реализованного в нашей работе.
Входной информацией для ЛСА является единый текст, скомпонованный из
последовательно расположенных анализируемых текстов, например – предвыборных
программ политических партий. В ходе предварительной обработки из этого текста
изымаются так называемые стоп-слова (местоимения, предлоги, слова «конечно»,
«возможно», и пр.), а также слова, встречающиеся в нем лишь один раз.
После предварительной обработки текст разбивается на отдельные фрагменты, и
составляется матрица «фрагмент-слово», строки которой соответствуют фрагментам,
столбцы – словам, а элемент матрицы имеет смысл количества употреблений данного
слова в данном фрагменте. Заметим, что в анализе данных ее, как правило, называют
матрицей «документ-терм» (в ранних работах, напр. [Landauer et al, 1998] – «word by
context»), однако, имея в виду политологические приложения, мы предпочитаем избегать
применения слова «документ» в смысле, отличном от «партийный документ», «закон» и
т.д.
Типичная размерность матрицы составляет, например, при попарном анализе
партийных программ, немногим более 100 строк (при разбиении на фрагменты длиной
несколько десятков слов) и несколько тысяч столбцов (количество различных слов,
встречающихся более одного раза в текстах программ двух партий, за вычетом стоп-слов).
Матрица построчно нормируется на энтропию, и затем подвергается специальной
математической процедуре, состоящей из (а) ее декомпозиции, сингулярного разложения
(singular value decomposition, SVD), (б) обнуления младших сингулярных значений, (в)
композиции, т.е. перемножения матриц – множителей. Результатом является новая
матрица, строки которой по-прежнему соответствуют фрагментам, а столбцы – словам
исходного единого текста.
Суть
данной
математической
процедуры
можно
пояснить
на
основе
информационного подхода. Содержащаяся в том или ином сигнале (например,
радиосигнале) полезная информация бывает, как правило, загрязнена шумом. Очистка
сигнала проводится на основе предположения о том, что этот шум существенно слабее
полезной информации. Проводится разложение сигнала по базису в некотором
пространстве, затем малые компоненты отождествляются с шумом и обнуляются.
Оставшиеся компоненты агрегируются в сигнал, который оказывается близким к
изначальному, но очищенным от шума.
С точки зрения данного подхода, ЛСА рассматривает матрицу «фрагмент-слово»
как сигнал, а указанную математическую процедуру – как очистку этого сигнала от шума.
Таким образом, новая матрица содержит в себе связи между различными фрагментами
текста (анализ «фрагмент-фрагмент»), между различными словами (анализ «словослово»), и между фрагментами и словами (анализ из «фрагмент-слово»), в значительной
мере очищенные от статистического шума.
Соотношение близости между фрагментами исходного текста понимается как
соотношение близости между векторами – строками этой новой матрицы; при этом будем
говорить о синтагматической близости фрагментов. В свою очередь, в качестве
синтагматического расстояния (меры близости между векторами) мы выбрали косинус
угла между ними.
Изложенная методика была реализована нами в виде программного продукта; с ее
помощью был исследован ряд конкретных текстов.
Отметим, что анализ «фрагмент-фрагмент» не исчерпывает возможностей ЛСА в
вопросе
определения
близости
высказанных
в
текстах
политических
позиций.
Представляет интерес, например, анализ «слово-слово», проведенный раздельно для
различных текстов. Можно ожидать, что слова, синтагматически близкие в одном тексте,
окажутся не близкими в другом (например, фамилия политического деятеля и слово
«коррупция» будут близки лишь в текстах, написанных оппонентами этого политика).
Результаты исследования предвыборных программ политических партий.
Одним из способов представления результатов анализа являются диаграммы, подобные
изображенным на Рис.1 и Рис.2. Каждому фрагменту соответствуют одна строка и один
столбец диаграммы. Ячейка, находящаяся на пересечении, например, 10-ой строки и 45ого столбца (так же, как ячейка 45-ой строки и 10-ого столбца) описывает степень
синтагматической близости
10-ого и 45-ого фрагментов. При этом, чем более
синтагматически близкими являются два фрагмента, тем более темным цветом закрашена
ячейка.
На Рис.1 фрагменты 1-52 принадлежат программе Единой России, фрагменты 53107 – программе партии «Яблоко». Темный квадрат, составленный из строк и столбцов 153, свидетельствует о высокой синтагматической близости этих фрагментов, и в
соответствии с нашей гипотезой – о близости высказанных в этих фрагментах
политических позиций.
Заметим, что фрагмент 53 оказался близок не к программе Яблока (которой он
принадлежит), а программе Единой России. Причина, видимо, заключается в том, что
первый абзац программы Яблока – это преамбула, в которой, в целом, признаются
достижения путинского периода. В том же время, текст остальных фрагментов программы
Яблока выдержан в
критическом духе, вследствие чего эти фрагменты оказались
синтагматически далекими от фрагментов 1-53 (и близкими друг к другу). Более
подробный анализ диаграммы, представленной на Рис.1, выходит за рамки настоящей
работы.
Рис.1
Результаты исследования записей политических блогеров.
В качестве материала для исследования были выбраны записи двух активных
пользователей Живого Журнала - блогеров Ш и Б, первый из которых известен как
либеральный публицист, колумнист сайта Грани.Ру, а второй – как активист сотрудник
аппарата Молодой гвардии Единой России. На Рис.2 подписи вида Ш1 или Б2 означают,
соответственно, первую запись блогера Ш, и вторую запись блогера Б.
Диаграмма показывает, что три рассмотренных записи блогера Ш синтагматически
достаточно близки друг к другу. Как мы полагаем, что это связано с тем, что они
выражают достаточно целостную позицию, хотя тематика этих записей была совершенно
различной (сериал «Школа», Россия и мир, российская политика в отношении Украины).
Записи блогера Б также посвящены различным вопросам (заседание Госсовета, отношения
милиции и журналистов, блоги губернаторов), и как показывает Рис.2, синтагматически
далеки друг от друга. Вероятно, они в большей степени являются «текстами на разные
темы», чем «текстами с общей платформой». При этом запись Б1 оказалась
синтагматически более близкой к записям блогера Ш, чем к другим записям блогера Б.
Вероятно, это связано с несколько ироничным стилем записи (речь идет о выступлениях
С.Митрохина, В.Жириновского и Г.Зюганова на заседании Госсовета), контрастирующей
с более серьезным стилем записей Б2 и Б3.
Рис.2
В
целом,
результаты
многочисленных
экспериментов
показывают,
что
предлагаемая методика действительно позволяет выявлять близость заявленных в текстах
политических позиций. При этом результаты являются тем более качественными, чем
более стилистически схожими являются рассматриваемые тексты.
Работа выполнена при поддержке РФФИ (проект 10-01-00332-а).
Список литературы
T. Landauer, P.W. Foltz, D. Laham. Introduction to Latent Semantic Analysis. Discourse
Processes 25: 259–284 (1998).
Nakov P. Latent Semantic Analysis for German literature investigation. // Proceedings of the 7th
Fuzzy Days'01, International Conference on Computational Intelligence. B. Reusch (Ed.): LNCS
2206. pp. 834-641. Dortmund, Germany. October 1-3, 2001a.
Nakov P. Latent Semantic Analysis for Bulgarian Literature. In Proceedings of the Spring
Conference of Bulgarian Mathematicians Union. pp. 279-284. Borovetz, Bulgaria. 2001b.
Nakov P. Latent Semantic Analysis for Russian literature investigation. In Proceedings of the
Naval Scientific Forum, vol. 4 (Mechanical Engineering and Mathematics. Information
Technology), pp. 292-299. Varna, Bulgaria. 2001c.
Асадова Н. Обама_президент.com // F5, с.8-9, №00 (02.02.09-22.02.09), 2009.
Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV
Международная филологическая конференция: Вып. 21. Прикладная и математическая
лингвистика. СПб., 2005.
Скачать