Структура тезауруса WordNet и семантическая метрика на лингвистической базе данных Кедрова Г.Е., Потемкин С. Б. МГУ им. М.В. Ломоносова, филологический факультет Abstact Methods of quantitative analysis are based on the fundamental concept of distance between entities. Application of these methods in semantics researches is possible only when the adequate metrics is imposed over the set of lexical units. An approach for defining such metrics is proposed in this paper. Lexical database is used for defining distance between Russian words. Monolingual and bilingual resources are used for words clustering and sense disambiguation in Machine Translation systems. Резюме Методы квантитативного анализа в лингвистике базируются на фундаментальном понятии расстояния между объектами. Применение этих методов для исследований в области семантики возможно только после задания адекватной метрики на множестве лексических единиц. Предлагаемый подход представляет один из возможных способов задания такой метрики. Собранная авторами лингвистическая база данных является основой для определения расстояния между словами русского языка. Предлагается подход к оценке семантического расстояния в одном языке с использованием лингвистических ресурсов этого языка и двуязычных словарей. С этой целью разработаны алгоритмы без использования аннотированных данных или выровненных параллельных корпусов. Мера семантического расстояния применяется к двум задачам: (1) семантическая кластеризация слов одного языка, и (2) разрешение лексической неоднозначности при переводе. В задаче (1), кластеризация в WordNet сравнивается с кластеризацией на основе семантического расстояния . В задаче (2) намечена возможность разрешения лексической омонимии при переводе на основе корпуса параллельных текстов. Введение WordNet в настоящее время принимается в качестве стандартного ресурса для систем обработки естественного языка [1]. Простота структуры позволяет сравнительно просто встраивать эту базу знаний в прикладные системы. Базовым структурным элементом WordNet являются синсет, синонимический ряд, кодирующий некоторое понятие. Между синсетами установлены немногочисленные ассоциативные отношения типа: гипоним, гипероним, синоним, голоним, мероним. В то же время даже для английского языка покрытие лексики в оригинальном WordNet (около 150000 синсетов) далеко неполно. Для языков, отличных от английского, имеющиеся ресурсы подобного рода значительно меньше по объему, составляя 70-20% от английского[2]. Ручное расширение национальных WordNet требует больших материальных затрат и привлечения квалифицированных специалистов. Поэтому имеется потребность в разработке методов автоматического расширения и совершенствования тезаурусов и таксономических систем [3]. В этой статье рассматриваются межъязыковые меры расстояния между понятиями, которые определяют расстояние между парой слов одного языка с использованием двуязычных словарей. Затем предлагается использовать корпус параллельных текстов для выделения семантического значения отдельных лексических единиц. Хотя русский не относится к языкам, бедным ресурсами, известно, что русский wordnet (RusNet) содержит приблизительно 100000 синсетов и менее развит, чем английский в отношении покрытия лексики языка и представленных семантических отношений. С другой стороны, имеются тщательно разработанные и существенные по объему толковые общелексические и терминологические словари на русском языке, двуязычные русско-английские словари, а также большие по объему (неразмеченные) корпуса параллельных текстов. Однако применение алгоритмов, опирающихся на семантическое расстояние для большинства языков затруднено вследствие недостатка лингвистических ресурсов. Предлагаемый метод симметричен относительно пары языков, поэтому может быть применен также к измерению расстояния между английскими словами в сравнения с существующими тезаурусами типа WordNet. 1. Семантические и дистрибутивные меры При определении семантического расстояния используются два основных класса методов. Семантические меры, основанные на существующих тезаурусах типа Роже [4], WordNet, применяются, чтобы определить расстояние между определенными в них понятиями. В обзоре семантических мер [5] приводятся подходы к определению семантических мер, применяемые для решения различных лингвистических задач. Однако высококачественные тезаурусы и тем более WordNet-подобные ресурсы, которые требуются для применения этих методов, для большинства из 3000-6000 языков, существующих на сегодня, отсутствуют, а их создание являются дорогостоящим. В то же время, для большинства языков, которые были предметом академического изучения, имеется, по крайней мере, двуязычный словарь, связывающий основную лексику этого языка с одним из мировых языков и, хотя бы небольшой, корпус в электронном или печатном виде. Дистрибутивные меры, типа нормированного скалярного произведения и асимметричного распределения вычисляются исходя из допущения, что два слова, семантически близки настолько, насколько часто они имеют сходное окружение в текстах [6]. Дистрибутивные меры основаны на сыром тексте, возможно с некоторой синтаксической обработкой (лемматизация, POS-разметка). Они не требуют никакого вторичного ресурса, и, как правило, обеспечивают большее покрытие лексики. Для измерения дистрибутивного расстояния также использовался латентный семантический анализ (ЛСА) [7], однако применение ЛСА имеет высокую вычислительную стоимость, что снижает возможность масштабирования метода на тексты большого объема. Кроме того, сокращение размерности, обеспечиваемое ЛСА, приводит к преобладанию доминирующего значения при недооценке других значений. В опубликованных экспериментах контекст целевого слова, то есть сопровождающие его слова задаются в пределах ±n позиций с обеих сторон, n = 2...5 (но без пересечения границы предложения). Корреляция целевого слова с окружающими его в контекстах обычно представляется дистрибутивным профилем (ДП) слова. Для получения ДП подсчитывается число появлений целевого слова в сопровождении других слов в тексте и как часто все эти слова встречаются индивидуально. Затем применяется подходящая статистика, чтобы определить силу ассоциации между целевым и сопровождающим словом [8]. Дистрибутивные профили двух целевых слов представляются как вектора в многомерном пространстве слов. Подходящая дистрибутивная мера (например, косинус угла между векторами в этом пространстве) дает расстояние между точками, то есть оценку семантического расстояния между целевыми словами. Дистрибутивные меры сами по себе дают недостаточную точность по сравнению с семантическими мерами, поскольку дают усредненное расстояния между всеми возможными парами значений. Скажем, если задана ассоциативно близкая целевая пара игра и актер, дистрибутивная мера даст результат, являющийся некоторым усреднением расстояний между преобладающее преобладающими значение 'развлечения', значениями. а не Существительное 'исполнение' (роли, игра имеет музыкального произведения), так что дистрибутивная мера ошибочно придаст целевой паре большую величину расстояния. 2 Межъязыковые дистрибутивные меры на основе двуязычных словарей Предлагаемый подход основан на использовании двуязычного словаря в качестве исходного корпуса, на котором определяется семантическая метрика. Ниже подход будет иллюстрироваться примерами на русском и английском языке, но сам алгоритм не зависит от используемых языков. Словарь (лексическая база данных - ЛБД) в своей основе имеет англо-русские и русско-английские словари, доступные в электронном виде и частично введенные в компьютер с бумажных носителей – всего более 30 словарей. Таким образом собрано около 1.5 млн. записей ЛБД, имеющей структуру реляционной таблицы. Каждая запись включает следующие поля: английское слово (словосочетание); POS (часть речи) английского слова; русское слово (словосочетание); грамматика русского слова (по А.А. Зализняку); лексические и стилевые пометы; список словарей, зафиксировавших данную англо-русскую пару. Представление ЛБД в виде реляционной таблицы позволяет легко проводить всевозможные сортировки, индексирование, вводить новые поля для записи производных данных и составлять программы обработки, пользуясь языками программирования БД. Расстояние между двумя русскими словами, aR и bR, связанными английскими эквивалентами можно определить как ρ(aR, bR) = 1/Σni, где сумма взята по всем английским эквивалентам, приписанных одновременно обоим русским словам, а ni - число словарей, зафиксировавших вышеуказанные эквиваленты. Другой способ задания метрики над лексической базой заключается в вычислении нормированного скалярного произведения векторов, соответствующих aR и bR в пространстве английских слов: ρ(aR, bR) = Σ nai nbi /(||aR|| ||bR||) где nai, nbi - число словарей, зафиксировавших совпадающие эквиваленты для aR, bR соответственно, а ||aR||, ||bR|| - длина векторов, соответствующих aR, bR. После задания метрики становится возможным проводить различные виды количественного анализа ЛБД, включая кластеризацию и определение иерархических отношений между словами, что, в частности, поможет в построении развитого Тезауруса русского языка и установлении его связи с тщательно разработанной семантической сетью WordNet. 3 Графическое представление семантической сети, многомерное шкалирование Семантическая сеть с наложенной метрикой может быть представлена в виде графа, вершинами которого являются отдельные слова, а ребрами – связи между этими словами через двуязычный словарь. Такой граф может быть уложен без искажений только в пространство большой размерности (равной числу слов в ЛБД). Дальнейшие примеры приводятся для английских слов, что позволить провести сравнение с WordNet. Семантическая ε-окрестность заданного слова aE включает все слова bEi, лежащие внутри многомерной сферы радиуса ε с центром в aE: ρ(aE, bEi) < ε Для визуализации окружения данного слова требуется провести многомерное шкалирование, чтобы наилучшим образом отобразить на плоскости визуализации все расстояния ρ(aE, bEi). Визуализация позволяет зрительно представить семантические расстояния между словами и в некоторых случаях выделить кластеры значений. Выбранное в качестве примера слово accolade имеет узкую семантическую область, что позволяет легко интерпретировать результаты, которые в случае большого семантического покрытия, дадут визуально нечитаемый граф. Рис. 1 Визуализация окрестности слова accolade Рис. 2 Выделение доминанты окрестности слова (акколада) Показаны связи между синонимами. acerbity(терпкость). В качестве доминанты Выделились 2 изолированных кластера. выделилось слово asperity (резкость). Синонимы, зафиксированными словарями синонимов, показаны зеленым. Выделение доминант: В синонимическом ряду, построенном в ε-окрестности данного слова, полезно выделить доминанту – если синонимический ряд представляет собой единственный кластер, или несколько доминант – если кластеров несколько. Для выделения доминант применяется метод Марковских цепей, где за вероятность перехода между состояниями принимается нормированная величина, обратная расстоянию между выделенными словами. При сходимости марковского процесса выделяются одна или несколько доминант. На рис. 2 в окрестности слова acerbity(терпкость) выделилась доминанта asperity (резкость). Можно продолжить процесс, взяв в качестве целевого слово полученную доминанту. К сожалению, этот процесс не приводит к построению таксономии, а зацикливается через 3-7 шагов. При исследовании кластеров и доминант можно варьировать некоторые параметры, включая размерность отображаемого пространства; минимальное число словарей, через которые связаны синонимы; максимальное число шагов от целевого слова до синонимов; максимальное число отображаемых слов; слово, исключенное из синонимического ряда (часто бывает полезно исключить целевое слово, поскольку оно заведомо связано со всеми окружающими его словами и, следовательно, может давать ложную доминанту). 4 Сравнение с WordNet Синсеты: Вернемся к рассмотрению слова акколада. Толкование этого слова дает 3 значения: муз. – скобка…, ист. - обряд посвящения в рыцари (расширенное значение «поощрение, награда» употребляется с 1852) стр. - архитектурное украшение. В двуязычных словарях найдено соответствие accolade = акколада ,одобрение, одобрительный отзыв, похвала . В WordNet синсет слова включает: award, accolade, honor, honour, laurels. Само слово accolade отмечено как крайне редкое по употреблению (оценка встречаемости 1). Анализ этого синсета приводится в табл. 1. Запрашивая в WordNet каждый из членов исходного синсета, получаем число значений (столбец 2 таблицы), так для слова award имеем 3 значения существительных и 2 значения глаголов. Запрашивая каждое слово синсета в ЛБД, получаем число синонимов, содержащихся в ней (столбец 3). В столбце 4 выписаны эти синонимы для слова accolade. Непосредственным гиперонимом для синсета в WordNet указан symbol -- (an arbitrary sign (written or printed) that has acquired a conventional significance). В то же время для слова commendation, которое отмечено как менее редкое (оценка 2) непосредственным гиперонимом указан синсет с accolade. Получилось, что крайне редкое слово, согласно WordNet, оказалось гиперонимом для относительно употребительного слова. С содержательной точки зрения акколада в смысле посвящения в рыцари (и, следовательно, метафорическое употребление слова), является частным случаем поощрения. Действительно, для остальных слов, входящих в синсет, гиперонимы и гипонимы, возможно, построены правильно, но слово accolade, выбивается из этого ряда, как по частоте употребления, так и по семантической общности. Если мы попытаемся разрешить омонимию употребления в тексте слова accolade в смысле «скобка» или «поощрение» по гиперонимам, мы не сможем это сделать, поскольку гиперонимом того и другого является «символ». Таблица 1 Синсет award accolade № значений по WordNet 3n+2v 1n № синонимов по ЛБД 80 8 Синонимы commendation, praise (поощрение), approbation, applause (одобрение), + honorable mention, mention, positive mention (похвальный отзыв) honor=honour 4n+3v >100 Laurels 2n 15 Этот пример далеко не единственный, и он показывает недостатки принципа формирования синсетов. Ассоциативные отношения Задача формирования отношений часть-целое, род-вид, которые установлены в WordNet, для национальных тезаурусов представляется более сложной, чем формирование синонимических рядов. Для автоматического формирования родовидовых понятий принят подход, основанный на поиске в корпусе заранее сформулированных синтаксических конструкций типа «А представляет собой В», «А есть некоторый В», «в число В входит А», и т.п., которые регулярно встречаются в текстах и часто используются при построении определений типа «genus proximum + differentia specificae» в толковых словарях. В отдельных случаях трудно отличить их от синонимических [9]. Нельзя также утверждать, что в текстах гиперонимы употребляются чаще по сравнению со своими гипонимами. Например, верхний уровень таксономии в WordNet «сущность», употребляется в 8 раз реже, чем его гипоним «вещь». Кроме того, особенностью WordNet, на которую следует обратить внимание – это принцип формирования таксономии синсетов. Лежащая в основе древовидная структура не всегда соответствует реальному соотношению значений слов в языке; значительная доля понятий может быть расклассифицирована по разным признакам, т.е. иметь более одного вышестоящего понятия. Так, слово dog, в первом значении WordNet – «домашняя собака» имеет гиперонимом canine, canid (псовые) и далее гиперонимы строятся согласно зоологичской классификации. В то же время ни слово animal, ни слово pet, являющиеся очевидными гиперонимами, оказываются никак не связанным с dog. В толковом словаре русского языка [10] дается более взвешенное определение слова: Собака - 1. Домашнее животное сем. псовых. Возможно, семантическая структура лексики естественного языка, не допускает такого упрощенного представления, как иерархическое дерево и должна представляться сетью с множеством входящих и исходящих ветвей для каждого слова и даже для каждого его значения. 5. Направления дальнейшей работы В отличие от методов разрешения омонимии на основе тезаурусов, в частности, WordNet, предлагается использовать подход, основанный частью на двуязычных словарях и частью на обработке двуязычных корпусов. В качества отдельного значения полисемичного русского слова wR используется пара (w0R, w0E), где w0R – лемма русского слова wR и w0E – лемма английского слова (как приводится в двуязычном словаре). Если у нас имеется выровненный по предложениям корпус параллельных текстов русского и английского языков, и в каждом предложении проведено оптимальное сопоставление слов русского предложения словам параллельного ему английского предложения [11], можно выделить пары (w0Ri, w0Ej). Каждый элемент такой пары сопровождается окружающим контекстом. Как в моноязыковых дистрибутивных мерах, по контекстам определяется ДП, но не для русского слова wRi, а для пары (w0Ri, w0Ej), которая и задает отдельное значение wRi. Следует отметить, что из всего состава ЛБД (порядка 1,5 млн. пар англо-русских эквивалентов) около 20% являются уникальными парами, то есть русское слово (словосочетание) имеет единственный английский эквивалент и наоборот. Для таких однозначных слов (словосочетаний) не требуется строить дистрибутивные профили. С другой стороны, часто многозначные слова в одном языке имеют для большинства значений один и тот же эквивалент в другом языке. Напр., слово с ДП слова star: star: space 0.28, movie 0.2, famous 0.13, light 0.09, rich 0.04,...будет иметь аналогичный дистрибутивный профиль в русском языке звезда: кино, эстрада, свет, небо. То есть значения согласно дистрибутивной метрике будут очень близки. Но такое смешение значений не приводит к ошибкам, скажем, при выборе эквивалента в машинном переводе. Для остального массива слов требуется построение ДП, которые могут быть приписаны каждой паре R-E эквивалентов в ЛБД. Следует отметить, что такая работа может проводиться постепенно, по мере обработки все более обширных корпусов параллельных текстов различной тематики. Заключение В статье предлагается подход к определению семантического расстояния между словами одного языка на основе многоязычных ресурсов, параллельных текстов и двуязычных словарей. Приведены результаты кластеризации и выделения доминант в метрике, наложенной на лингвистическую базу данных, составленную из двуязычных словарей. Проводится сравнение с подходами на основании тезауруса – WordNet и чисто дистрибутивным подходом на базе одноязычного корпуса. Делается вывод о несовершенстве подхода к построению тезаурусов в виде иерархических структур. Отдельное значение слова предлагается связать не с синсетом, или синонимическим рядом одного языка, а с парой слово-перевод. Дистрибутивные профили такой пары могут быть построены с использованием выровненного корпуса параллельных текстов. Литература 1. 2. Christiane Fellbaum. 1998. WordNet An Electronic Lexical Database. MIT Press, Cambridge, MA. K. Hofmann, Tjong Kim Sang, E.(2007), Automatic extension of non-english wordnets, Proceedings of SIGIR’07, Amsterdam, The Netherlands. 3. Яблонский С.А, Сухоногов А.М. Автоматизация построения англо-русского WordNet, XI Конгресс МАПРЯЛ, Варна, 17 – 23 сентября 2007, труды 4. Mario Jarmasz and Stan Szpakowicz. 2003. Roget's Thesaurus and semantic similarity. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-2003), pages 212-219. 5. A. Budanitsky, G. Hirst. 2006. Evaluating WordNet-based measures of semantic distance. Computational Linguistics, 32(1): 13—47. 6. David Yarowsky. 1992. Word-sense disambiguation using statistical models of Roget's categories trained on large corpora. In Proceedings of the 14th International Conference on Computational Linguistics (COLING92), pages 454-460, Nantes, France. 7. Thomas K. Landauer, Peter W. Foltz, and Darrell Laham. 1998. Introduction to latent semantic analysis. Discourse Processes, 25(2-3):259-284. 8. Torsten Zesch, Iryna Gurevych, and Max Miihlhauser. 2007. Comparing Wikipedia and German WordNet by evaluating semantic relatedness on multiple datasets. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL HIT 2007), pages 205-208, Rochester, New York. 9. Азарова И.В., Митрофанова О.А., Синопальникова А.А. Компьютерный тезаурус русского языка типа WordNet // Труды международной конференции Диалог'2003 "Компьютерная лингвистика и интеллектуальные технологии", (Протвино, 11-16 июня 2003 г.) М., 2003, с. 43-50. 10. Толковый словарь русского языка (под ред. С.И. Ожегова, Н.Ю. Шведовой). - М., 1997. 11. Кедрова Г.Е., Потемкин С.Б. Выравнивание неразмеченного корпуса параллельных текстов., Международная научная конференция «Современные проблемы лексикографии», Lex 2007, Гродно, Беларусь, труды