Представление знаний в системе автоматического

реклама
Представление знаний в системе автоматической обработки текстов
Лукашевич Н.В., Салий А.Д.
Решение задач автоматической обработки текстов требует такого представления
знаний о предметной области текста, которое позволило бы адекватно выделять из текста его
темы. В статье описывается Тезаурус по общественно-политической жизни России, специально
разработанный для использования в автоматических системах обработки текстов. Подробно
рассматриваются единицы Тезауруса, система отношений внутри Тезауруса, методы контроля
и тестирования Тезауруса.
Решение многих задач автоматической обработки текстов требует адекватного определения
совокупности тем, которым посвящен тот или иной текст [1,2]. Это необходимо для эффективного
автоматического индексирования и последующего информационного поиска, для процедур автоматического
рубрицирования и автоматического аннотирования текстов.
Содержание связного текста обычно имеет некоторую иерархическую структуру [3]: в таком тексте
можно выделить основные темы, которым посвящен весь текст; темы, которые обсуждаются лишь в
некоторых фрагментах текста, и те понятия и объекты, которые лишь упоминались в данном тексте.
Темы текста могут выражаться самыми разнообразными лексическими и синтаксическими средствами,
в том числе тематически близкими терминами.
Знания о возможной тематической близости терминов текста вытекают из знаний о предметной области
и о языке предметной области, в рамках которых существует текст.
Данная статья посвящена описанию Тезауруса по общественно-политической жизни России, который
специально создавался для использования в автоматических системах обработки текстов. Эти системы
ориентированы на выявление в тексте его основных тем и построение так называемого тематического
представления текста [4]. В Тезаурусе систематизированы знания о такой широкой предметной области как
сфера общественных отношений, к которой относятся многочисленные проблемы, обсуждаемые в
официальных документах и средствах массовой информации. Величина Тезауруса в настоящее время
составляет около 20 тысяч терминов и он успешно функционирует в системе автоматического
рубрицирования и индексирования официальных документов Российской Федерации и в системе
автоматического рубрицирования и аннотирования сообщений информационных агентств.
В статье развиваются принципы построения и методика разработки Тезауруса, описанные в [5].
1. Единицы тезауруса
Единицы Тезауруса — это термины, представленные словами или словосочетаниями.
Все термины Тезауруса выступают в нем либо в качестве дескриптора либо в качестве варианта
(синонима) дескриптора. В роли дескрипторов, по сложившейся практике построения тезаурусов, выступают
1
термины, обозначающие некоторые понятия предметной области и удовлетворяющие принципам
общеупотребительности, распространенности, краткости и терминологической точности. В нашем Тезаурусе
дескрипторы
представлены
отдельными
существительными
и
именными
группами.
Вариантами
(синонимами) дескрипторов считаются термины, обозначающие то же понятие, что и дескриптор. В
Тезаурусе, кроме двух упомянутых грамматических типов, синонимами также могут быть отдельные
прилагательные, глаголы и глагольные группы. Дескриптор в совокупности с его вариантами (синонимами)
представляет в тексте определенное понятие предметной области.
Основное поступление терминов в Тезаурус обеспечивается автоматизированной процедурой, которая
состоит из двух этапов. На первом этапе проводится автоматическая обработка текстов: из них выделяются
словосочетания — кандидаты в термины. При определении таких словосочетаний учитывается
их
синтаксическая структура и лексический состав. Лексический анализ словосочетаний производится с
помощью специального отрицательного словаря, содержащего около 30 тысяч лексем, в результате этого
анализа такие словосочетания, как “интересное условие”, “важное значение”, “необходимость создания” и т.п.
не считаются кандидатами в термины. Второй — ручной этап автоматизированной процедуры — это
просмотр всех новых (ранее не встречавшихся) словосочетаний и отбор из них терминов [6].
К настоящему моменту этой процедурой обработаны тексты российских официальных документов
(законы, указы и распоряжения президента РФ, постановления и распоряжения правительства РФ за период с
1991 по 1996 годы) и тексты сообщений информационных агентств — всего более 100 мегабайт текстов.
Необходимо отметить, что если первые мегабайты обрабатываемых текстов давали до 1000 новых терминов,
то сейчас очередной мегабайт текстов дает в среднем около 20 терминов, т.е. произошло значительное
насыщение пространства набранных словосочетаний по текстам данной предметной области.
Автоматизированная процедура пополнения Тезауруса позволяет быстро обнаруживать новые понятия,
появляющиеся в документах, отражающих общественную жизнь России, — они становятся терминами
Тезауруса. Например, за последнее время ими стали понятия: ВАЛЮТНЫЙ КОРИДОР, ИПОТЕЧНОЕ
КРЕДИТОВАНИЕ, НЕЗАКОННОЕ ВООРУЖЕННОЕ ФОРМИРОВАНИЕ и другие.
1.1 Типы вариантов дескрипторов Тезауруса
Фиксация вариантов дескрипторов имеет важное значение для обнаружения в текстах соответствующих
понятий. Процедура пополнения Тезауруса дает возможность обнаружить в текстах большое количество
вариантов наименования одного и того же понятия и сформировать для многих дескрипторов Тезауруса
синонимические ряды. Длина синонимических рядов для некоторых дескрипторов достигает 20 элементов.
Рассмотрим типы терминов, включенных в синонимические ряды дескрипторов.
1. Лексические синонимы (собственно синонимы) [7,8]:
а) полные синонимы (в том числе синонимы-дублеты):
аванс — предоплата,
космонавт — астронавт,
мятеж — бунт;
б) синонимы, отражающие различные языковые стили:
2
лошадь — конь,
коммунальная квартира — коммуналка;
в) синтаксические синонимы:
жилищное строительство — строительство жилья,
авария на транспорте — транспортная авария,
контроль за вооружениями — контроль над вооружениями;
г) словообразовательные синонимы:
калькуляция — калькулирование,
природоохранный — природоохранительный;
2. Общепринятые в тезаурусах условные синонимы [9,10]:
а) сокращения:
врачебно-трудовая экспертная комиссия — ВТЭК,
автозаправочная станция — АЗС;
б) сложные и сложносокращенные слова:
жилищный фонд — жилфонд,
авиационная охрана лесов — авиалесоохрана;
в) некоторые антонимы:
доверие правительству — вотум недоверия правительству,
правовое обеспечение — правовой вакуум;
г) некоторые родовидовые синонимы:
здравоохранение — укрепление здоровья,
каракулево-смушковое сырье — каракуль — каракульча — смушка;
д) существительные, обозначающие лиц мужского и женского пола:
спортсмен — спортсменка,
владелец — владелица;
3. Другие типы:
а) дериваты:
приватизация — приватизировать,
охрана природы — природоохранный;
б) образные наименования:
авианосец — плавучий аэродром,
взрывные работы — мирный взрыв,
биржевая операция — игра на бирже,
атомная энергетика — мирная ядерная деятельность,
аэропорт — воздушные ворота;
в) фрагменты толкования:
банковская тайна — тайна банковского счета,
боеголовка — головная часть индивидуального наведения;
3
г) энциклопедические синонимы, т.е. такие языковые выражения, тождественность которых вытекает из
знаний о мире (“энциклопедических знаний”):
альтернативная гражданская служба — альтернативная военная служба — альтернативная
служба,
внутренние войска — войска МВД,
внешний государственный долг — внешний долг,
космический корабль многоразового использования -- корабль многоразового использования -многоразовый корабль;
д) исторические синонимы:
правительство — Совет Народных Комиссаров,
военный билет — красноармейская книжка;
е) словосочетания с исключением внутреннего члена (как бы стягивающие его):
безналичный порядок расчета — безналичный расчет,
вечерняя форма обучения — вечернее обучение,
ж) словосочетания, представляющие собой различные реализации одного из актантов главного слова
термина:
встреча на высшем уровне — встреча в верхах,
автомобиль инвалида — автомобиль с ручным управлением,
призыв в армию — призыв на воинскую службу;
з) термины, находящиеся между собой в отношениях: причина-следствие, действие-результат, частьцелое, но настолько сильно связанные между собой, что нет смысла разделять их в отдельные дескрипторы:
(причина-следствие): ветхий дом — аварийный дом,
(сфера деятельности — основной вид деятельности в этой сфере): авиационная промышленность
— самолетостроение,
(оборудование — его назначение): аварийная сигнализация — аварийное оповещение;
и) термины, несущие в себе дополнительную модальность по отношению к основному термину:
артиллерийский обстрел — артиллерийская канонада — артиллерийская подготовка —
артиллерийский удар,
хирургическая операция — хирургическая помощь — хирургическое вмешательство;
к) термины, совпадающие в одной своей части, а в другой — состоящие из ситуационно связанных
терминов:
безопасность судоходства — безопасность кораблей — безопасность на море,
защита вкладов — защита вкладчиков;
л) термины, в которых словосочетание с неоднозначным термином становится однозначным. Например,
термин климат имеет два основных значения: 1) многолетний режим погоды в какой-либо местности и 2)
обстановка. Первому значению этого термина соответствует отдельный дескриптор КЛИМАТ. Второму
значению этого термина в Тезаурусе нет соответствующего дескриптора, однако собраны те словосочетания
со словом климат во втором значении, которые могут служить вариантами разных дескрипторов:
4
ФИНАНСЫ — финансовый климат, НАЛОГОВАЯ СИСТЕМА — налоговый климат,
СОЦИАЛЬНАЯ ОБСТАНОВКА — социальный климат, ВНЕШНЯЯ ПОЛИТИКА — внешнеполитический
климат.
Приведем примеры разных синонимических рядов:
- синонимический ряд, включающий несколько типов синонимов:
КАССАЦИОННОЕ ПРОИЗВОДСТВО
кассационная жалоба
кассационное обжалование
кассационное опротестование
кассационный порядок
кассационный протест
кассация приговора
кассация судебного решения
обжалование в кассационном порядке
опротестование судебного приговора
производство в кассационной инстанции
- синонимический ряд дескриптора ПРЕДВЫБОРНАЯ ДЕЯТЕЛЬНОСТЬ, элементы которого имеют
одинаковую простую синтаксическую структуру, и в то же время отражают различные аспекты и нюансы
данного сложного понятия:
ПРЕДВЫБОРНАЯ ДЕЯТЕЛЬНОСТЬ
предвыборная агитация
предвыборная борьба
предвыборная гонка
предвыборная кампания
предвыборная подготовка
предвыборное мероприятие.
1.2 Описание многозначных терминов
Ориентация на общественно-политическую тематику обрабатываемых потоков текстов и на разные
типы и стили текстов требует описания в Тезаурусе многозначных терминов.
Если в Тезаурус включены несколько значений одного термина, эти значения представляются
разными дескрипторами, для которых этот многозначный термин выступает в качестве синонимов, — это
один из способов фиксации неоднозначности термина. Например, синонимами для разных дескрипторов
являются слова: печать, брак, огонь, картина, бассейн и др. Если только одно значение многозначного
термина включено в Тезаурус, соответствующий тезаурусный вход (дескриптор или синоним) снабжается
пометой "М", которая означает, что возможны и другие значения этого термина. Именно с такими пометами
внесены в тезаурус слова связь, образование, партия и др.
5
В настоящее время Тезаурус содержит более 500 многозначных терминов. Метод разрешения
многозначности в процессе автоматической обработки текстов подробно рассмотрен в [11]. Наличие в
Тезаурусе средств описания многозначности позволяет по мере необходимости наращивать Тезаурус, шире
отражая конкретные понятия подобластей описываемой предметной области.
Приложением к Тезаурусу, помогающим правильно распознать в тексте многозначные термины
Тезауруса, является словарь “отрицательных” словосочетаний. В него включены фразеологизмы, в состав
которых входят термины тезауруса, например как с гуся вода, водой не разольешь и др. В этот словарь также
внесены словосочетания, в состав которых входят многозначные термины в их нетезаурусном значении, и
сами словосочетания также не соответствуют никаким дескрипторам Тезауруса:
взрыв аплодисментов, взрыв смеха, взрыв негодования;
буря восторга, буря аплодисментов и др.
Величина этого словаря составляет в настоящее время около 1500 словосочетаний.
2. Система отношений между дескрипторами Тезауруса
Тезаурусные отношения служат для нахождения тематически близких терминов, на основе которых
обычно строятся темы текста. Необходимость фиксации знаний о тематической близости терминов
определила важнейшие принципы установления связей между дескрипторами Тезауруса.
Тезаурус представляет собой связную иерархическую сеть (существование не связанных с остальным
Тезаурусом “островков” запрещается). Для описания связей между дескрипторами используется стандартный
набор тезаурусных отношений: ВЫШЕ-НИЖЕ, ЦЕЛОЕ-ЧАСТЬ, АССОЦИАЦИЯ [5]. Каждый тип связей
между дескрипторами обладает набором некоторых свойств. Связи могут быть снабжены специальными
модификаторами, которые ограничивают действие их свойств.
Рассмотрим принципы установления тезаурусных отношений и их свойства.
Связь ВЫШЕ-НИЖЕ устанавливается между дескрипторами Y и X (Y = ВЫШЕ(X)), если можно
утверждать, что X — это вид Y, например,
ГОСУДАРСТВЕННАЯ СОБСТВЕННОСТЬ = ВЫШЕ (ГОСУДАРСТВЕННОЕ ПРЕДПРИЯТИЕ).
Дескриптор может иметь более одной связи ВЫШЕ. Например, дескриптор ГОСУДАРСТВЕННОЕ
ПРЕДПРИЯТИЕ
имеет
вышестоящие
дескрипторы
ГОСУДАРСТВЕННАЯ
СОБСТВЕННОСТЬ
и
ПРЕДПРИЯТИЕ.
Отношение ВЫШЕ-НИЖЕ имеет следующие свойства:
•
оно транзитивно, т.е. ВЫШЕ(ВЫШЕ(X))=ВЫШЕ(X); НИЖЕ(НИЖЕ(X)=НИЖЕ(X);
•
нижестоящий дескриптор наследует отношения ЧАСТЬ, АССОЦИАЦИЯ вышестоящего дескриптора, т.е.
ЧАСТЬ(ВЫШЕ(X))=ЧАСТЬ(X); АСЦ(ВЫШЕ(X))=АСЦ(X).
Например, дескриптор СТРОИТЕЛЬНЫЕ МАТЕРИАЛЫ описан в Тезаурусе как ЧАСТЬ (см. ниже) для
дескриптора
СТРОИТЕЛЬСТВО.
Дескриптор
СТРОИТЕЛЬСТВО
имеет
нижестоящий
дескриптор
ГРАЖДАНСКОЕ СТРОИТЕЛЬСТВО. По свойству наследования отношения ЧАСТЬ нижестоящими
дескрипторами
следует,
что
СТРОИТЕЛЬНЫЕ
СТРОИТЕЛЬСТВО).
6
МАТЕРИАЛЫ
=
ЧАСТЬ
(ГРАЖДАНСКОЕ
Связь ЦЕЛОЕ-ЧАСТЬ (когда можно записать, что X = ЦЕЛОЕ(Y)) используется:
1) когда X — это некоторая ситуация или сфера деятельности (например, наука, военная служба,
промышленность, безработица), а Y — это соответствующие этой ситуации или деятельности процессы,
объекты и действующие лица (ученый, военнослужащий, фабрика, литейное производство). Таким образом,
тезаурусная статья дескриптора, обозначающего сферу деятельности или ситуацию, представляет собой
фрейм, описывающий эту сферу деятельности (ситуацию). Например,
НАЛОГОВАЯ
СИСТЕМА
ЧАСТЬ
НАЛОГ
ЧАСТЬ
НАЛОГООБЛАГАЕМЫЙ ДОХОД
ЧАСТЬ
НАЛОГОПЛАТЕЛЬЩИК
ЧАСТЬ
НАЛОГОВЫЙ ОРГАН
ЧАСТЬ
НАЛОГОВЫЕ ЛЬГОТЫ
ЧАСТЬ
НАЛОГОВАЯ ДИСЦИПЛИНА
ЧАСТЬ
НАЛОГОВОЕ ПРАВОНАРУШЕНИЕ
ЧАСТЬ
НАЛОГОВЫЕ САНКЦИИ;
2) когда Y — это некоторое свойство X (например, Y — ГРУЗОПОДЪЕМНОСТЬ для X — ГРУЗОВОЙ
ТРАНСПОРТ);
3) когда Y — физическая часть или элемент X (например, Y -- ПРОЦЕССОР для X -- КОМПЬЮТЕР).
Отношение ЦЕЛОЕ-ЧАСТЬ обладает следующими свойствами:
•
оно транзитивно: ЦЕЛОЕ(ЦЕЛОЕ(X))=ЦЕЛОЕ(X);
•
дескрипторы-части наследуют отношение АССОЦИАЦИЯ: АСЦ(ЦЕЛОЕ(X)=АСЦ(X);
•
отношение ЧАСТЬ наследуется видовыми дескрипторами: ЧАСТЬ(ВЫШЕ(X))=ЧАСТЬ(X);
•
отношение ВЫШЕ-НИЖЕ поглощается отношением ЦЕЛОЕ-ЧАСТЬ: ЦЕЛОЕ(ВЫШЕ(X))=ЦЕЛОЕ(X),
ВЫШЕ(ЦЕЛОЕ(X))=ЦЕЛОЕ(X).
В процессе разработки Тезауруса выяснилось, что тезаурусные связи некоторым образом различаются
по их отношению к “текстовой действительности”, т.е. к тем ситуациям, которые могут быть описаны в
текстах, содержащих связанные этими отношениями дескрипторы. Можно выделить по крайней мере три
различных “модальности” тезаурусных связей:
•
безусловная истинность данной связи, например: ИНВЕСТОР = ЧАСТЬ (ИНВЕСТИРОВАНИЕ) —
(ИНВЕСТОР перестает быть таковым, если не участвует в ситуации ИНВЕСТИРОВАНИЕ),
ГОСУДАРСТВЕННОЕ ПРЕДПРИЯТИЕ = НИЖЕ (ПРЕДПРИЯТИЕ);
•
фокусная истинность тезаурусного отношения, т.е. связь между дескрипторами верна всегда, но эта связь
отражает лишь некоторый аспект понятий, соответствующих связанным дескрипторам; в тексте могут
обсуждаться совсем другие аспекты этих понятий. Например, ПЕНСИОНЕР = ЧАСТЬ (ПЕНСИОННОЕ
ОБЕСПЕЧЕНИЕ) и, действительно, ПЕНСИОНЕР — неотъемлемый участник ситуации ПЕНСИОННОЕ
ОБЕСПЕЧЕНИЕ, однако часто это понятие используется, чтобы описать возраст, социальный статус
человека, а его связь с пенсионным обеспечением находится как бы не в фокусе текста. Другим примером
тезаурусного отношения с фокусной истинностью является связь ГОСУДАРСТВЕННОЕ ПРЕДПРИЯТИЕ
= НИЖЕ (ГОСУДАРСТВЕННАЯ СОБСТВЕННОСТЬ);
7
•
возможная истинность тезаурусного отношения — это когда связь между дескрипторами верна не всегда,
однако часто используется в текстах, в том числе и по умолчанию, без дополнительных объяснений.
Например, ОБУВЬ = НИЖЕ (ПОТРЕБИТЕЛЬСКИЕ ТОВАРЫ) — обувь не всегда, но часто является
потребительским товаром. Интересным примером тезаурусных отношений ЦЕЛОЕ-ЧАСТЬ с возможной
истинностью является описание ситуации ВЗРЫВ, который может произойти в рамках взрывных работ,
террористического акта, военных действий или аварии:
ВЗРЫВ
ЦЕЛОЕ ВЗРЫВНЫЕ РАБОТЫ
ЦЕЛОЕ ВОЕННЫЕ ДЕЙСТВИЯ
ЦЕЛОЕ ТЕРРОРИСТИЧЕСКИЙ АКТ
ЦЕЛОЕ АВАРИЯ.
Для того чтобы описать модальности тезаурусных связей были введены модификаторы “аспект” (А) и
“возможность” (В). Модификатором “аспект” помечаются тезаурусные отношения с фокусной истинностью.
Модификатор “возможность” употребляется для тезаурусных отношений с возможной истинностью.
Модификаторы
ограничивают
транзитивность
отношений
ВЫШЕ-НИЖЕ
и
ЦЕЛОЕ-ЧАСТЬ
следующим образом: если между дескрипторами X и Y существует путь, состоящий из отношений ЦЕЛОЕ,
ВЫШЕ (например, X=ВЫШЕ(ЦЕЛОЕ(ВЫШЕ(Y))), и на этом пути два отношения ВЫШЕ или ЦЕЛОЕ имели
модификатор, то X не считается вышестоящим дескриптором для Y.
Приведем пример одной из веток тезаурусной сети и рассмотрим, как модификаторы меняют свойства
отношений ВЫШЕ-НИЖЕ и ЦЕЛОЕ-ЧАСТЬ на протяжении этой ветки:
ЭКОНОМИКА
ЧАСТЬ ЭКОНОМИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ
НИЖЕ_А ПРОИЗВОДСТВО ПРОДУКЦИИ
ЧАСТЬ СЫРЬЕ
НИЖЕ СЕЛЬСКОХОЗЯЙСТВЕННОЕ СЫРЬЕ
НИЖЕ ПРОДОВОЛЬСТВЕННОЕ СЫРЬЕ
НИЖЕ_А ПЛОДООВОЩНАЯ ПРОДУКЦИЯ
НИЖЕ ОВОЩИ
НИЖЕ ПОМИДОР
Наличие двух модификаторов на пути между дескрипторами ЭКОНОМИКА и ПОМИДОР приводит к
тому, что дескрипторы ЭКОНОМИКА и ЭКОНОМИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ с одной стороны, и
дескрипторы ПЛОДООВОЩНАЯ ПРОДУКЦИЯ, ОВОЩИ, ПОМИДОР с другой стороны, считаются не
связанными между собой по Тезаурусу. При этом обе эти группы дескрипторов связаны с дескрипторами
ПРОИЗВОДСТВО ПРОДУКЦИИ, СЫРЬЕ, СЕЛЬСКОХОЗЯЙСТВЕННОЕ СЫРЬЕ, ПРОДОВОЛЬСТВЕННОЕ
СЫРЬЕ.
Главное отличие отношения АССОЦИАЦИЯ от отношений ВЫШЕ-НИЖЕ и ЦЕЛОЕ-ЧАСТЬ состоит в
том, что это отношение нетранзитивно и по нему не наследуются никакие другие отношения. Само оно
наследуется нижестоящими дескрипторами и дескрипторами-частями.
8
Отношение АССОЦИАЦИЯ, в основном, устанавливается:
1) для связи между некоторым объектом и частными ситуациями, участником которых может
выступать этот объект. В этих случаях явно ощущается несимметричность отношения АССОЦИАЦИЯ и оно
снабжается модификаторами направленности (1), (2). Например,
ПРИРОДА
АССОЦИАЦИЯ_2 ОХРАНА ПРИРОДЫ
АССОЦИАЦИЯ_2 ЗАГРЯЗНЕНИЕ ПРИРОДЫ;
2) для связи между частыми совместными участниками одной и той же ситуации, которая еще не
представлена в Тезаурусе. Например, отношением АССОЦИАЦИЯ связаны дескрипторы ХОЛОДИЛЬНОЕ
ОБОРУДОВАНИЕ и СКОРОПОРТЯЩИЕСЯ ПРОДУКТЫ, которые являются частыми совместными
участниками ситуации “хранение пищевых продуктов”, для которой в настоящее время в Тезаурусе нет
соответствующего дескриптора.
Свойства транзитивности и наследования приводят к тому, что дескриптор связан по Тезаурусу не
только с теми дескрипторами, которые непосредственно входят в его тезаурусную статью, а и с теми, к
которым можно прийти по ветвям Тезауруса, задаваемым этими свойствами. Например, для дескриптора
СЕЛЬСКОЕ ХОЗЯЙСТВО в тезаурусной статье описано 26 связей, а по свойствам тезаурусных отношений
этот дескриптор связан более чем с 300 дескрипторами (отрасли сельского хозяйства, виды
сельскохозяйственных
работ
и
угодий,
сельскохозяйственные
предприятия
и
профессии,
сельскохозяйственные животные и растения и т.д.).
Дескрипторы, которые связаны между собой по Тезаурусу, или связи между которыми выводятся на
основе свойств тезаурусных отношений, считаются тематическими близкими. Обнаруженные в тексте
тематически близкие дескрипторы обычно поддерживают некоторую тему этого текста.
3. Методы контроля и тестирования Тезауруса
Для пополнения Тезауруса и поддержания его в состоянии, необходимом для функционирования
информационной системы, понадобилось соблюдение определенных внутренних принципов построения
Тезауруса. Неотъемлемыми элементами системы ведения Тезауруса являются процедуры синтаксического
контроля описаний единиц Тезауруса и их тезаурусных связей: нельзя ввести связь, отличную от
зафиксированных; нельзя установить связь с термином, чей статус еще не установлен как статус дескриптора,
и другие.
Вместе с тем ведение такой объемной системы описания предметной области потребовало разработки
специальных автоматизированных процедур, помогающих обнаружить как случайные ошибки, так и
неточности в тезаурусных описаниях. Эти процедуры позволяют увидеть односторонность или
субъективность подхода к описанию той или иной тезаурусной единицы.
9
3.1 Элементарные процедуры контроля построения Тезауруса
Самая элементарная процедура контроля включается при вводе в Тезаурус нового термина, а именно:
вновь вводимый термин попадает в Тезаурус только тогда, когда для него установлена хотя бы одна
тезаурусная связь с каким-либо дескриптором Тезауруса — тогда он становится либо синонимом данного
дескриптора, либо новым дескриптором. Это несложное правило оказывает эффективное дисциплинирующее
воздействие. При подборе кандидатов в дескрипторы необходимо понять, какую связь приписать новому
дескриптору. Нередко оказывается, что сразу эту связь сложно сформулировать, так как необходим
дополнительный анализ контекста употребления термина. Термин на некоторое время остается среди новых
терминов и вводится в Тезаурус лишь тогда, когда его связи с другими элементами Тезауруса прояснились.
Другая несложная процедура — контроль за самыми верхними дескрипторами Тезауруса, т.е. такими
дескрипторами, которые не имеют связей ВЫШЕ или ЦЕЛОЕ. Мы не стремились свести всю систему
Тезауруса к каким-либо элементарным единицам. Так, например, мы не объединяли все сферы деятельности,
описанные в Тезаурусе, как виды гипотетического дескриптора “сферы деятельности”. Однако количество
верхних дескрипторов Тезауруса весьма невелико и колеблется в пределах 200-250 дескрипторов —
попадание в это множество нового дескриптора может свидетельствовать о недостаточном описании его
связей.
В работе над Тезаурусом участвует несколько человек — они вводят новые тезаурусные единицы,
дополняют или модифицируют связи тезауруса. Все связи, модифицированные или вновь введенные каждым
из работающих, автоматически помечаются его собственным кодом. Это дает возможность эффективно
организовать взаимодействие между специалистами — с автором описания некоторого термина можно
обсудить расхождения в его понимании и найти тот способ описания термина, который будет более
удовлетворительным для всех участников обсуждения.
По мере развития Тезауруса его текущее состояние периодически фиксируется и тем самым возникает
некоторая версия Тезауруса. Автоматическая процедура сравнения состава тезаурусных единиц текущей
версии с составом предыдущей, позволяет увидеть, какие дескрипторы или синонимы удалены, какие
появились, как изменился состав синонимов у того или иного дескриптора — все это также дает возможность
обнаружить неточности, ошибки или субъективность при работе над Тезаурусом.
3.2 Рубрикация Тезауруса как метод контроля
Важной процедурой контроля правильности установления тезаурусных связей оказалась подготовка
Тезауруса к рубрицированию текстов по некоторому рубрикатору. Рубрицирование можно производить по
любому рубрикатору, относящемуся к общественно-политической области.
Рубрикатор не является составной частью Тезауруса, однако его рубрики можно описать посредством
дескрипторов Тезауруса, и наоборот, дескрипторам Тезауруса можно поставить в соответствие рубрики
рубрикатора. Иерархическая организованность Тезауруса позволяет не собирать для каждой рубрики все ее
дескрипторы, а найти в Тезаурусе куст дескрипторов, соответствующий данной рубрике, и установить связь
10
между рубрикой и наивысшим дескриптором в иерархии дескрипторного куста. Такой дескриптор называется
опорным дескриптором рубрики. Одной рубрике может соответствовать несколько опорных дескрипторов.
После того, как все рубрики рубрикатора вручную привязаны к соответствующим опорным
дескрипторам, для всех дескрипторов Тезауруса автоматически вычисляются их рубрики по следующему
алгоритму:
Проверить, является ли данный дескриптор опорным дескриптором. Если да, то его рубрика
Шаг 1.
установлена, если нет, то перейти к шагу 2.
Шаг 2.
Пройти на один шаг по связям дескриптора ВЫШЕ, ЦЕЛОЕ, АССОЦИАЦИЯ, проверить,
являются ли соответствующие дескрипторы опорными. Если некоторые из них являются
опорными, то записать в список рубрик исходного дескриптора соответствующие рубрики. Те
дескрипторы, которые не являются опорными, и связаны с исходным дескриптором связями
ВЫШЕ или ЦЕЛОЕ, записываются в промежуточную таблицу для дальнейшего поиска рубрик.
Шаг 3.
Если промежуточная таблица непуста, то каждый ее элемент обрабатывается, как в п.2.
В результате выполнения этих шагов для каждого дескриптора создается список соответствующих ему
рубрик. Дескриптор может и не иметь рубрик.
Просмотр результатов такого рубрицирования самого Тезауруса дает возможность увидеть как ошибки
привязки опорных дескрипторов к рубрикам, так и ошибки в тезаурусных связях. Одни дескрипторы
попадают не в те рубрики, так как не очень точно описана система связей рубрикатор-Тезаурус, — тогда
модифицируется привязка рубрик к опорным дескрипторам. Для других дескрипторов появление неверной
рубрики является сигналом, указывающим на неточности связей между дескрипторами где-то на пути к
вершине куста, приведшие к неправильной рубрике, или, наоборот, не приведшие к нужной рубрике.
3.3 Анализ поискового образа документа как метод контроля правильности построения Тезауруса
И, наконец, главным критерием правильности построения Тезауруса является соответствие поисковых
образов документов, которые система создает в процессе автоматического индексирования, содержанию этих
документов. Такой контроль осуществляется посредством периодического просмотра полученных поисковых
образов.
Остановимся кратко на основных этапах получения поискового образа документа и возможностях,
которые имеются для верификации тезаурусных единиц и связей.
На первом этапе текст сопоставляется с единицами Тезауруса и создается список обнаруженных в
тексте терминов по порядку следования их в тексте.
Все варианты (синонимы) дескриптора заменяются на соответствующий дескриптор и далее не
различаются. На основании свойств транзитивности и наследования между дескрипторами текста
устанавливаются тезаурусные отношения, то есть получается тезаурусная проекция текста.
Тезаурусная проекция расчленяется на тематические узлы, которые моделируют темы, обсуждаемые в
тексте, узлы представляют собой совокупность дескрипторов, посредством которых та или иная тема
выражалась в тексте. Тематический узел состоит из главного дескриптора и связанных с ним по Тезаурусу
дескрипторов текста [9].
11
Все полученные тематические узлы делятся на основные, локальные и упоминавшиеся. В результате
все дескрипторы текста разделяются на пять категорий их важности для текста:
•
главные дескрипторы основных тематических узлов;
•
остальные дескрипторы основных тематических узлов;
•
главные дескрипторы локальных тематических узлов;
•
остальные дескрипторы локальных тематических узлов;
•
упоминавшиеся дескрипторы.
Поисковый образ документа имеет следующую структуру :
- главные дескрипторы основных тематических узлов (в своей совокупности они должны
характеризовать основное содержание документа, подобно ключевым словам, приписываемым индексаторами
в процессе ручного индексирования);
- основные тематические узлы;
- локальные тематические узлы;
- упоминавшиеся дескрипторы.
Сопоставив поисковый образ документа с текстом, можно оценить, соответствуют ли основные
тематические узлы, построенные для данного текста, основным темам текста. Существенные расхождения
могут быть связаны с неточностью описания терминов текста в тезаурусе, например:
- термин вообще не описан в Тезаурусе;
- термин описан в Тезаурусе в другом значении;
- термин включен не в тот синонимический ряд;
- в тезаурусной проекции текста соответствующий термину дескриптор имеет неверные связи с другими
дескрипторами; и другие.
Контроль правильности построения Тезауруса по поисковому образу документа имел особенно важное
значение для верификации единиц и отношений Тезауруса в самом начале функционирования Тезауруса в
процессе автоматического индексирования. Было просмотрено несколько десятков мегабайт текстов и их
поисковых образов и по результатам просмотра были внесены существенные уточнения в описания многих
терминов.
Заключение
Тезаурус продолжает постоянно пополняться, скорость его пополнения в последнее время заметно
уменьшилась, хотя количество новых обрабатываемых текстов значительно возросло. Все труднее находить
новые термины, оставаясь в рамках общественно-политической тематики.
Вместе с тем возникает настоятельная потребность автоматического индексирования, рубрицирования и
аннотирования текстов, терминология которых лишь частично входит в общественно-политический Тезаурус.
Разнообразие тематических областей, к которым относятся эти тексты, не дает возможности достраивать
Тезаурус для каждой из них. Однако наши предварительные эксперименты показали, что для новых
предметных областей существенное улучшение качества выявления основного содержания текстов можно
получить не только за счет введения в Тезаурус новых терминов, но и за счет использования знаний
12
тезаурусного типа об общезначимых словах русского языка. Поэтому в ближайшее время общественнополитический Тезаурус будет наращиваться тезаурусными описаниями таких слов.
Необходимо отметить, что тезаурусный подход к описанию слов естественного языка с целью
применения таких описаний в системах автоматической обработки текстов получил широкое распространение
в последнее время. Так, значительную известность получил словарь-тезаурус английского языка WordNet [12].
Разворачивается проект тезаурусного описания нескольких европейских языков EuroWordNet, основой для
которого служит словарь WordNet.
Список литературы
1. Salton G., Singhai A. Automatic Text Theme Generation and the Analysis of Text Structure. Technical
Report 94-1438. Cornell University, Ithaca University, 1994.
2. Hearst M. A. and Plaunt C. Subtopic Structuring for Full-Length Document Access. In Proceedings of the
Sixteenth Annual International ACM SIGIR Conference on Research and Developement in Information Retrieval,
1993, pp. 59-68.
3. van Dijk T. News as discourse, Erlbaum, 1988.
4. Лукашевич Н.В. Автоматическое рубрицирование потоков текстов по общественно-политической
тематике // НТИ. Сер.2. - 1996. - N 10. - C.22-30.
5. Лукашевич Н.В., Салий А.Д. Тезаурус для автоматического рубрицирования и индексирования:
разработка, структура, ведение // НТИ. Сер.2. - 1996. - N 1. - С.1-6.
6. Лукашевич Н.В. Автоматизированное формирование информационно-поискового тезауруса по
общественно-политической жизни России // НТИ. Сер.2. - 1995. - N 3. - C.21-24.
7. Словарь синонимов русского языка в двух томах. - Ленинград: Наука, 1970.
8. Апресян Ю.Д. Лексическая семантика. Синонимические средства языка. - М.: Наука, 1974. – 369 с.
9. Шемякин Ю. И. Тезаурус в автоматизированных системах управления и информации. - М: Военное
изд-во министерства обороны СССР, 1974. - 192 с.
10. Список нормализованной лексики по экономике и демографии. -- Ч. 1. -- 169 с.
11. Лукашевич Н.В. Разрешение многозначности терминов в процессе автоматического индексирования
// Тр. международного семинара Диалог'96. - Москва, 1996. - C.142-146.
12. Miller G., Beckwith R., Fellbaum C.,Gross D. and Miller K. 1990. Five papers on WordNet. CSL Report
43. Cognitive Science Laboratory, Princeton University.
13
Скачать