СЛОЖНЫЕ ЗАДАЧИ АВТОМАТИЧЕСКОЙ РУБРИКАЦИИ ТЕКСТОВ М.С. Агеев, Б.В. Добров, Н.В. Лукашевич Научно-исследовательский вычислительный центр МГУ им. М.В. Ломоносова; АНО Центр информационных исследований, г.Москва Рубрикация документов, то есть описание содержания документа через элементы некоторого замкнутого списка тем – рубрикатора, является распространенной технологией упорядочивания информации. В больших информационных коллекциях имеет смысл говорить только об автоматической рубрикации. В настоящее время можно наблюдать всплеск научных работ, посвященных описанию, применению и оценкам методов машинного обучения для автоматической рубрикации текстов. Приводятся высокие оценки результатов работы таких методов. Однако при ближайшем рассмотрении оказывается, что практически все такие методы тестируются на одной и той же текстовой коллекции – это коллекция финансовых сообщений информационного агентства Рейтер [1], которая была специально создана для тестирования методов автоматической рубрикации текстов. Коллекция характеризуется следующими основными чертами: 1) рубрикатор, включающий 135 рубрик, относительно прост, без иерархии; 2) небольшие по величине тексты принадлежат достаточно узкой области финансовых новостей; 3) для обучения представляется более 15 тысяч отрубрицированных вручную документов. Эти особенности коллекции значительно упрощают решение задачи машинного обучения автоматической рубрикации текстов. Реальные задачи рубрикации текстов в значительной мере отличаются от задачи классификации сообщений на тестовой коллекции агентства Рейтер. На практике, если перед достаточно большой компанией встает задача автоматической рубрикации текстов, то обычно используются автоматизированные технологии, основанные на ручном подборе лексики под каждую рубрику рубрикатора с последующим контролем результатов рубрицирования [2, 3]. В работе мы рассмотрим сложные задачи автоматической рубрикации текстов, которые нам приходилось решать, и используемые методы решения. 1. Примеры сложных задач автоматической рубрикации текстов. 1.1. Массив заранее отрубрицированных текстов отсутствует и не может быть создан вручную за короткое время. Для создающегося Архива социологических данных, предназначенного объединить результаты опросов различных социологических служб, Всероссийский центр изучения общественного мнения (www.wciom.ru) разработал рубрикатор, включающий более 300 рубрик и 4 уровнями иерархии. Отсутствует набор отрубрицированных по этому рубрикатору документов и нет ни соответствующих специалистов, ни финансовых возможностей создать набор социологических опросов, достаточный для автоматического обучения по более чем 300 рубрикам. 1.2. Массив отрубрицированных документов есть, но документы отрубрицированы пользователями. Международное научное сообщество RePEc/СоциоНет поддерживает архив научных публикаций по экономической и социологической тематике (www.socionet.ru). Автор публикации сам помещает свою публикацию в архив и может снабдить ее рубриками классификатора JEL [4], включающего более 700 рубрик по экономической тематике. Для улучшения качества сервиса важно автоматизировать работу по рубрикации публикаций, например, автоматически предлагая автору набор возможных рубрик. Однако по уже отрубрицированным публикациям обучаться невозможно из-за значительной непоследовательности приписанных рубрик. Авторы не обязаны помнить весь рубрикатор, иметь согласованный взгляд на содержание его рубрик. Отсутствие конкретной рубрики в списке рубрик текста не означает, что ее там не должно быть, автор мог про нее просто забыть. 1.3. Массив отрубрицированных документов есть, но достаточен ли он… Чтобы упорядочить хранение нормативной базы российского законодательства был разработан Классификатор правовых актов [5], насчитывающий более 1100 рубрик и 3-4 уровня иерархии. Все документы федерального уровня рубрицируются по этому рубрикатору специалистами Главного государственно-правового управления Президента РФ и хранятся в эталонной коллекции нормативных документов НТЦ "Система" ФАПСИ РФ. Анализ рубрик текстов этой коллекции показал, что для некоторых рубрик используются очень простые и ясные правила отнесения текста к рубрике. Для большинства же рубрик найти четкую и объективную границу отнесения к ним текстов очень непросто. Как, например, разделять рубрики "Автомобильный транспорт" и "Автомобильная промышленность", к какой рубрике (или к обеим) относятся тексты, обсуждающие ввозные пошлины на автомобили иностранного производства. Особенностью данной коллекции является то, что в ней имеется достаточно много практически одинаковых документов, отличающихся друг от друга несколькими, несущественными для рубрикации словами. Анализ 3 таких текстов показал, что многие из них имеют различные наборы приписанных рубрик. Таким образом, фактор субъективности приписывания рубрик, усложненный величиной рубрикатора, не позволяет в достаточной мере оценить качество работы любой системы автоматического рубрицирования, поскольку любая система показывает относительно низкую эффективность относительно тестового множества текстов. 1.4. Обучиться нужно на одной коллекции текстов, а рубрицировать другую коллекцию. В России имеется 89 субъектов федерации, каждый из которых имеет свою законодательную базу, что в совокупности составляет сотни тысяч документов. Вручную качественно отрубрицировать такое количество документов невозможно, учитывая сравнительно небольшое количество подготовленных соответствующим образом специалистов. Прямое применение лучших методов [6] автоматической рубрикации, основанных на машинном обучении по результатам ручного рубрицирования документов федерального уровня (10 тысяч документов) не решает задачу, так как много региональных документов не получает ни одной рубрики, в среднем значительно падает количество рубрик на один документ. При сравнительно небольшой вариативности лексики федеральных и региональных документов к тем рубрикам, где в федеральной коллекции было приписано менее 0.5% документов, программа [6] не относит ни одного документа. 2. Автоматическая рубрикация текстов, основанная на тезаурусных знаниях. Другими подходами к автоматической рубрикации являются подходы, основанные на знаниях. Под этим обычно понимается процесс создания лексико-терминологической базы знаний и правил вывода рубрик для каждого конкретного рубрикатора и типа текстов. Если учесть величину рубрикаторов и разнообразие текстов, легко видеть насколько трудозатратной является такая работа (в LexisNexis [3] описание одной рубрики может занимать 8 часов работы специалиста). Анализируя содержание рубрикаторов, типы текстов, которые необходимо рубрицировать, можно видеть, что и рубрикаторы и тексты близки по одному существенному параметру – они относятся к широкой области социальных и экономических отношений современного общества, его проблем, развития. Все перечисленные рубрикаторы с большей или меньшей степенью полноты затрагивают вопросы государственной власти, экономики, законодательства, общественного развития, социальных проблем и т.п. Знания, на которые они опираются, в значительной мере пересекаются. С 1994 года мы создаем Общественно-политический тезаурус для автоматической обработки текстов именно как лингвистический ресурс в такой широкой области общественных отношений [7] (Сейчас тезаурус насчитывает 64 тысячи терминов, объединенных в 27 тысяч синонимических групп – понятий). Это позволяет нам не строить новые базы знаний для каждого рубрикатора, а описывать рубрику каждого очередного рубрикатора посредством подструктур этого тезауруса [8]. Для каждой рубрики, приписанной к документу, выводится список терминов, по которым она была выведена, и частотность употребления термина в тексте. Это создает дополнительные возможности для человекомашинного взаимодействия при решении всех перечисленных задач. Заключение Мы представили ряд сложных задач автоматической рубрикации текстов, сложность которых обусловлена величиной рубрикаторов, разнообразием обрабатываемых текстов, отсутствием качественной отрубрицированной коллекции как основы для машинного обучения. Представляется, что более важно автоматизировать работу самих экспертов с целью снижения субъективности и фактора усталости. Система рубрицирования должна содержать соглашения между экспертами о границах рубрик, обосновывать процесс автоматической рубрикации понятными для человека терминами. Подобного рода задачи мы решаем с помощью знаний, описанных в Общественно-политическом тезаурусе – лингвистико-терминологическом ресурсе по широкой сфере общественно-политических отношений. ЛИТЕРАТУРА: 1. 2. 3. 4. 5. 6. 1.Reuters-21578 (www.daviddlewis.com/resources/testcollections/reuters21578/). Попов И.В., Руссова Н.В., Скотников А.П., Фролкина Н.А., Автоматизированная рубрикация энциклопедических статей // Компьютерная лингвистика и интеллектуальные технологии. Труды Межд. Семинара Диалог'2002 / Под ред. А.С.Нариньяни – М.: Н., 2002. Wasson M., Classification Technology at LexisNexis // SIGIR 2001 Workshop on Operational Text Classification. Journal of Economic Literature Classification System (www.aeaweb.org/journal.html). "О классификаторе правовых актов" – Указ Президента РФ №511 от 15 марта 2000г. Joachims T., Text Categorization with Support Vector Machines: Learning with Many Relevant Features // Proceedings of ECML-98, 10th European Conference on Machine Learning, 1998. 4 7. 8. Лукашевич Н.В., Салий А.Д. Представление знаний в системе автоматической обработки текстов // НТИ. Сер.2. – 1997 – N3. Лукашевич Н.В., Автоматическое рубрицирование потоков текстов по общественно-политической тематике // НТИ. Сер.2. – 1996. – N 10. – C.22-30. 5