Онтологии и автоматическая обработка текстов

реклама
8.2. WordNet: Приложения
Информационный поиск:
векторная модель (vector-space model)
• Ранжирование документов по мере их соответствия
запросу
• Каждому документу ставится в соответствие вектор
со значениями весов [0,1], призванными отразить
значимость термина в документе
• Наиболее общепринятый способ вычисления веса
термина - tf • idf
idf – частотность термина в коллекции
tf
– частотность термина в документа
• Наиболее частая функция вычисления сравнения
векторов документа и запроса – скалярное
произведение – косинус угла между векторами
Векторная модель:
основные этапы
• Удаление стоп-слов (и, или, но…),
которые заданы списком
• Приведение к нормальной морфологической
форме
• Построение вектора терминов документа
• Сравнение вектора запроса с векторами
документов
• Выдаются документы, функция подобия
которых превышает некоторый порог
Text Retrieval Conference (TReC)
• Первая конференция – 1992
• Основная цель – оценка методов информационного
поиска на больших текстовых коллекциях
• Основной эксперимент: ad hoc запросы
–
–
–
–
–
2 Гб документов на CD-ROMe
В основном публикации газет и журналов
Различные по длине от 300 слов до сотен страниц
Заданы темы
Нужно прислать 1000 документов наиболее релевантных
документов по каждой теме
• Другие эксперименты:
– Эксперименты по фильтрации документов
– Многоязычный информационный поиск
– Поиск ответов на вопросы
Традиционные методы оценки
эффективности поиска
• Полнота (recall)
– Отношение количества найденных
релевантных документов к количеству всех
документов, релевантных запросу
Recall = RR / RA
• Точность (precision)
– Отношение количества найденных
релевантных документов к общему
количеству найденных документов
Precision = RR / RS
Пословные модели (bag of words): проблемы
• Синонимы
• Многозначность слов
• Существование смысловых связей между
словами
• Слова запроса употреблены в тексте,
но не связаны между собой.
– Ищем «Охрана труда»
– Получаем текст об оплате труда
работников вневедомственной охраны
Альтернатива:
концептуальное индексирование
Индекс по понятиям текста
– Все синонимы, варианты эквивалентны
– Возможно организовать задать отношения между
понятиями, организовать расширение запроса
Но:
- Требуется создавать лингвистические ресурсы,
тезаурусы, онтологии для разных ПО
- Разрешение многозначности
- Как использовать отношения для более
эффективного поиска
Концептуальное индексирование:
эффективность на текущий момент
Мнение в сообществе:
– не удается показать, что затраты на
разработку ресурса и разрешение
многозначности окупаются
увеличением эффективности поиска
– статистические модели и так
учитывают максимум возможного
Using WordNet for Text Retrieval
Ellen M. Vorhees
Разрешение многозначности
• Hood – область в сети WordNet, где слово
однозначно – наибольший подграф,
включающий S (синсет для одного из
значений), и не включащий другие
синсеты с S
Board: значения и иерархия
• Board – committee, commission…- group, grouping
• (Board, control panel) – electrical device
• (circuit_board, board) –( circuit, closed circuit) - electrical
device
• (board, plank) – (lumber, timber) – (building material) –
(material, stuff) – (substance, material)
• (board, mess, ration) – (food, nutrient) – (substance,
material)
• (dining table, board) - table – furniture – article of
commence
Процедура разрешения многозначности
• Первый проход: просматриваются все
тексты, для каждого слова добавляется 1в
счетчики для синсетов и для всех
вышестоящих
• Проход для индивидуального текста
• Для каждой вершины hood вычисляется
относительная разница между числом
отметки вершины в данном тексте и в
массиве
• Выбирается значение с максимальной
разницей
Коллекция
• 3204 документов по компьютерным
исследованиям – 50 запросов
• 1460 документов информационным
исследованиям – 35 запросов
• 1400 документов по инженерии – 225
запросов
• 1033 документов по медицине – 30
запросов
• 423 документов из журнала Тайм – 83
запроса
Эксперимент
• Для текста и коллекции строятся вектора
(текстовая единица, вес):
• - стандартный по словам
• - концептуальный вектор, состоящий из
трех подвекторов (слова, которых не было в
WordNet или не удалось разрешить
многозначность), номера выбранных
синсетов, многозначные слова – как
контрольная группы
Вектор значений: модификации
1) 110 – равные веса первому подвектору и
вектору значений, подвектор многозначных
сущ. не учитывается
2) 211 –
3) 101
Падение средней точности по коллекциям
для 110 – от 12.3% до 42.3%, для 211 – от
6.2 до 23.2
Основная проблема при разрешении
многозначности в контексте
информационного поиска
• В запросе происходит такой выбор
значения, которого нет нигде в текстах.
• Запрос: separation anxiety in infants and
preschool children
• 8 значений слова separation
• Всего 8 релевантных документов, но
находится только 1.
Nail, hummer, carpenter -board
•
•
•
•
Board – lumber
НО:
Nail – fastener – device=>board (control panel)
Hummer – tool – article of commence => board
(dining table)
• Carpenter – worker – person =>0
Расширение запроса
1. Расширение запроса с ручным
разрешением многозначности
2. Расширение запроса с автоматическим
разрешением многозначности
50 Запросов из конференции TREC
TREС:
пример запроса
Domain:
Science and Technology
Topic:
Aftermath of Chernobyl
Description: document cites measures taken by European
countries to record and contain the results
of the Chernobyl accident.
Narrative: a document will cite an action undertaken
by a European government such as testing
food supplies, testing water, measuring
fallout, banning new reactor construction …
Concepts:
1. Chernobyl, nuclear accident, radiation, contamination
2. Consequences, evacuation, health fears, cancer
3. Banning foodstuffs, propaganda campaign, testing soil…
Эксперименты с ручным
разрешением многозначности
• Расширение
–
–
–
–
только синонимами
синонимы + все нижестоящие по иерархии
синонимы + все нижестоящие + «родители»
Синонимы+В любую сторону на один шаг
Результат расширения запроса
• Полная формулировка темы (Narrative)
– Никакое расширение не дало улучшения
больше 2% по сравнению с пословным
методом
• Укороченная формулировка темы
(Description)
– Расширение на один шаг во все стороны дало
прибавление эффективности поиска 35
процентов, но меньше чем для полной формуки
Автоматическое расширение
запроса
• Запросы TREC: description
• Слишком частотные слова в коллекции
не расширяются (freq<N)
• Для остальных берутся все понятиясоседи (шаг 1, 2)
• Если есть пересечение синсетов от
разных слов запроса, то элементы
синсета добавляются к запросу
Результаты автоматического расширения
запроса
• Оценивались различные N – 5%, 10%
коллекции
• Различные веса на расширение 0.3, 0.5,
0.8.
• Максимальное улучшение 0.7%
• Этот результат не является
статистически значимым
Заключение статьи
• The inability to automatically resolve word
senses prevented any improvements from
being realized.
• The experiments above suggest that the
paradigmatic relations contained within
WordNet together with the text to be
disambiguated do not supply the the
information required for this sense resolution
task… Syntagmatic information is needed
Вопросно-ответные системы
Поиск ответов на вопросы
Постановка задачи:
• 60-е годы: поиск в специальных базах знаний
• Сейчас: поиск в громадных текстовых
массивах
Примеры вопросов TREC:
• What does the Peugeot company manufacture?
• How long did the Charles Manson Murder trial last?
• Who is the first American in space?
Вопросно-ответные системы в TREC: Методы
оценки
• Рассылается массив (несколько Гбайт)
и порядка 200 вопросов
• Нужно прислать текстовые фрагменты 50 и 250 байт
• Ответы упорядочены, засчитываются первые три
• За правильный ответ на первом месте --- 1,
на втором месте --- 0.5, на третьем --- 0.25
• Вычисление среднего по всему множеству вопросов
Вопросно-ответные системы:
что можно отбросить из вопроса
• Кто из великих целителей прошлого написал трактат
"О медицине“?
• ЦЕЛЬС (Celsus) Авл Корнелий (I в. до н. э.),
древнеримский автор энциклопедических трудов
«Artes» (сохранился трактат "О медицине",
книги 1 - 8, с ценными сведениями по гигиене,
хирургии, дерматологии).
•
А.Е. Ферсман приводит отрывок из трактата
"Сокровищница лекарств",
написанного арабским целителем около тысячи лет
назад: "Ношение бирюзы, ….
Вопросно-ответные системы:
нужно найти конкретный ответ,
зависящий от вопроса
• Где находится Море космонавтов?
• Ответ: Главная база Советской антарктической экспедиции
находится в западной части Земли Эндерби, на южном
берегу залива Алашеева моря Космонавтов.
• Какая организация разработала браузер MOSAIC?
• Ответ: Компания Spyglass сообщила, что Sony будет
использовать ее встроенный Web-браузер и другое
программное обеспечение в телевизионных компьютерных
приставках. Spyglass разработала браузер Mosaic - один из
первых Web-браузеров, однако в последние годы она перенесла
свое внимание на рынок устройств доступа к Сети.
Вопросно-ответные системы:
лексические замены
• Как умер Сократ?
• Сократ был отравлен
• Почему электрические батареи быстрее
разряжаются на холоде?
• Батарейки быстрее садятся на
морозе, потому что ….
Вопросно-ответные системы:
сложные случаи
• Глубокий семантический анализ предложения
• Кто был первым лауреатом Нобелевской премии по
физике
Он стал первым после Михаила Горбачева российским
лауреатом Нобелевской премии с 1990 года и первым
россиянином, заслужившим Нобелевку по физике,
после академика Капицы, который получил ее в 1978
году.
• Ответ содержится в нескольких разных текстах.
– Для создания ответа необходимо уметь выполнять
автоматическое аннотирование по многим
документам (Multidocument summarization)
– DUC
The Informative Role of WordNet in
Open-Domain Question Answering
Marius Pasca and Sanda Harabagiu
Основные этапы поиска ответа
на вопрос
• Обработка вопроса – определение типа
ответа, формирование поискового запроса
• Выполнение запроса к информационной
системе, формирование упорядоченного
списка документов или абзацев
• Подробный анализ документов: проверка,
содержат ли абзацы предполагаемый тип
ответа, близость слов ответа и запроса
Упорядочение ответов
• Вопрос: Name the first private citizen to fly
in space.
• Ответ:
• Among them was Christa McAuliffe, the first
private citizen to fly in space. Karen Allen,
best known for her starring role in “Raiders of
the Lost Ark” plays McAuliffe. Brian Kerwin
is featured as shuttle pilot Mike Smith.
WordNet и распознавание типа
вопроса
• Типы вопросов – Who, How long, What
Company
• Типы ответов на каждый тип вопроса
получены из иерархии WordNet
• What flowers did Van Gogh paint?
• WordNet 470 гипонимов цветов
Иерархия типов вопросов и части
речи
• Разные части речи могут определять
один тип вопроса:
• Money:
• How much could you rent a Volkswagen
bug for in 1966?
• What was the monetary value of the Nobel
Prize in 1989?
Классификация типов ответов
• Trec8 – 200 вопросов
• 11 основных типов:
• Время, дата, продукция, организация,
деньги, место, язык, человек
• Релевантные синсеты группируются под
своим типом ответа
• Dimension: distance.3->wingspan,
distance.1, tall
Answer Type Taxonomy
(example)
Проведение дополнительных связей
What is the political belief of president X?
Возможные ответы – демократы,
республиканцы, марксисты. – относятся к
political leader - leader
Нет связи между belief – leader
Производят дополнение необходимой
связью!?
Таксономия ответов: текущее
состояние
•
•
•
•
8707 синсетов
20 верхних типов
129 добавленных связей
Правильная идентификация типа ответа
для 75 процентов из 893 вопросов TREC
Определение типа ответа
• Основная процедура:
– По словам вопроса – определение типа ответа
(одного из двадцати).
– Использование всех синсетов, отнесенных к
данному типу для определения ответа
• Динамически формируемый тип ответа:
• - вопрос об известных подвидах: какой цветок,
страна, кактус
– What is the largest variety of cactus?
– Of all the 5000 varieties of cactuses, the one that
comes to mind the very word is the saguaro,
Cereus giganteus, the giant of the desert.
Обработка вопросов типа
«что такое»
• Используются шаблоны вопроса и ответа:
– What <be-verb > a <PhraseToDefine>?
– Who <be-verb> <HumanEntity>
– Шаблоны ответов
–
–
–
–
–
<PhraseToDefine>, the <AnswerDefinitionPhrase>
<PhraseToDefine>( a <AnswerDefinitionPhrase>)
Всего 12 типов ответов
Вопрос: What is anorexia nervosa?
Ответ: cause of anorexia nervosa, an eating disorder
Поиск абзацев: какие слова
отбросить
• Понятие специфичности – берется информация
из WordNet
• Biochemist – нельзя отбросить, а город (city)
можно
• Оценка специфичности – подсчет гипонимов, не
считая конкретные имена и гипонимы с тем же
главным словом
• Если число меньше порога (10), то считается
специфичным и не отбрасывается (в city – это
значение 0???)
Поиск абзацев: лексические и
семантические замены
• Лексические замены:
– Who is the Queen of Holland?
– Princess Margritt, sister of Queen Beatrix of the
Netherlands, was also present.
• Семантические замены:
– What is the highest mountain in the world?
– … first African country to send an expedition to
Mount Everest, the world’s highest peak
Заключение
• Вопросно-ответная система действительно
лучшая в течение нескольких лет
• Произведена серьезная настройка на
возможные типы вопросов
• На базе WordNet создан специальный
ресурс
– Снижение многозначности
– Добавление отношений (!?)
– Информационный поиск ???
Вопросы к лекции
• Какие проблемы использования
онтологии в информационном поиске?
• Основные этапы работы вопросноответной системы
• Как можно использовать онтологию в
вопросно-ответной системе?
Скачать