Метод интерактивного разрешения омонимии в системах

реклама
О методе интерактивного
разрешения неоднозначности в
системах машинного перевода
А. Бердичевский (ОТиПЛ МГУ)
alexberd1983@mail.ru
Семинар «Некоторые применения математических методов в языкознании»
под руководством В. А. Успенского
9 октября 2004 г.
1
ЭТАП-3 :
результат примерно двадцатилетней работы Лаборатории
компьютерной лингвистики Института проблем передачи
информации РАН
Ю. Д. Апресян
И. М. Богуславский
Л. Л. Иомдин
А. В. Лазурский
Л. Г. Митюшин
Н. В. Перцов
В. З. Санников.
Л. Л. Цинман
и др.
2
Четыре части доклада:
«Информационная»:
а) о проблеме неоднозначности в системах МП.
б) об ЭТАПе.
в) о других системах МП.
«Отчетная»:
о проделанной работе по разрешению лексической неоднозначности.
«Прикладная»:
новые предложения по разрешению синтаксической неоднозначности
«Теоретическая»:
некоторые выводы и наблюдения, сделанные в процессе работы.
3
Постановка проблемы
Неоднозначность – неотъемлемое свойство человеческого
языка (и мышления)
Обычно не представляет проблемы для носителей языка:
адресанту неведома, адресатом разрешается за счет
прагматических данных.
В большинстве случаев высказывание даже не подвергается
сознательному анализу, т.к. человек сразу выделяет верный
вариант.
4
Постановка проблемы
Слабость машины:
• Отсутствие возможности обратиться к прагматике.
• «Беспристрастность»:
обнаружение
всех
допустимых
вариантов перевода.
• Отсутствие холистического восприятия.
• А кроме того…
5
Постановка проблемы
В проблемных случаях адресат использует метаязыковую операцию:
обращается к адресанту с вопросом.
— Мы, управление дома, — с ненавистью заговорил
Швондер, — пришли к вам после общего собрания жильцов
нашего дома, на котором стоял вопрос об уплотнении
квартир дома...
— Кто на ком стоял? — Крикнул Филипп Филиппович, —
потрудитесь излагать ваши мысли яснее.
М. А. Булгаков, «Собачье сердце».
6
Постановка проблемы
Система МП вопросов не задает.
Идея МИРН – научить ее это делать.
Задача: разработать язык формулирования
запросов, понятный машине и доступный
пользователю.
Дан ряд ограничений характеристик «пользователя».
Прикладная и теоретическая проблема.
7
Кратко об ЭТАПе:
ЭлектроТехнический Автоматический Перевод
Теоретическая база: МСТ И. А. Мельчука, также теория
интегрального описания языка и принципы системной
лексикографии Ю. Д. Апресяна.
Существенные для доклада характеристики:
•Поуровневое представления языковых данных
•Использование деревьев зависимостей и ПСО.
•Использование лексических функций
•Отсутствие работы со сверхфразовыми единствами
8
АРН в ЭТАПе: краткий обзор
Разрешение по ближайшему линейному
контексту:
He laughs too loudly
The laughs of the audience became too loud
9
АРН в ЭТАПе: краткий обзор
Разрешение с помощью механизмов фильтрации:
•Древесные условия формирования бинарных поддеревьев.
•Механизм установления окончательных синтаксических связей.
•Фильтр древесности
•Фильтр повторимости-неповторимости ПСО
•Фильтр проективности
10
АРН в ЭТАПе: краткий обзор
Разрешение с помощью правил предпочтения: система
приоритетов.
Разрешение перебором альтернатив: окончательная проверка
уцелевших гипотез.
Все механизмы работают в цикле.
Достоинство интерфейса: пользователю
несколько вариантов перевода.
предлагается
11
АРН в ЭТАПе: краткий обзор
Разрешение с использованием нетривиальных правил
перевода.
НПП обеспечивают компенсацию расхождения входного и
выходного языков.
Например, лексические функции:
The heavers loaded the ship
Грузчики загрузили корабль.
The soldier loaded the gun
Солдат зарядил ружье.
Gun: в статье КС есть запись _PREPAR:LOAD2(/AIM2 )
Ружье: в статье КС есть запись _PREPAR:ЗАРЯЖАТЬ
12
АРН в ЭТАПе: краткий обзор
Разрешение с использованием синтаксически
размеченного корпуса (И. С. Чардин).
Совмещение эвристической и статистической
стратегии.
Все вышеописанные алгоритмы недостаточно
мощны, особенно если речь идет о выборе лучшей
структуры из нескольких возможных.
13
Пределы возможностей
Джон предупреждал о трудностях пути
John has warned of a difficulty of the way
John has warned of a hardship of the way
John has warned about a difficulty of the way
John has warned about a hardship of the way
John has warned of a difficulty the ways
John has warned of a hardship the ways
John has warned about a difficulty the ways
John has warned about a hardship the ways
14
Пределы возможностей
The wolf ran from behind a pine:
Волк выполнил из зада сосну.
15
Пределы возможностей
Выпей коньяка!
Drink cognac!
The bitterns of cognac!
16
Пределы возможностей
Он вправе определять время начала и окончания рабочего дня
•He has a right to define the time of the beginning and a completion of a
working day
•He has a right to define the time of the beginning and the completions of a
working day
•He has a right to define the time of the beginning and a working completion
of a day
•He has a right to define the time of the beginning and a completion of a
worker of a day
•He has a right to define the time of the beginning and the worker's completion
of day
•He has a right to define the time of the beginning and a completion of the
worker of a day
•He has a right to define the time of the beginning and the completions of a
worker of a day
17
Способы решения:
*Сохранять неоднозначность при переводе
*Knowledge-Based Machine Translation
*Example-Based Machine Translation
*Накопители переводов
*Статистические методы
*Редактирование:
*Пред- : controlled languages
*Пост- : обычный Rule-Based Machine Translation
*Интер-: Dialogue-Based Machine Translation
18
Лексическая неоднозначность
Составление двуязычных словарей омонимов:
комментарий+пример.
Огромная подготовительная работа.
Желательность (и отсутствие) специальной
лексикографической теории.
19
Fair-haired
Fan1
Adjective; of usual
speech style
Светловолосый
Adjective; of high
speech style
Белокурый
Noun; machine using an
electric motor in order to
move air, as for cooling
Electric fan
Вентилятор
Noun; collapsible device
made of a light material
such as silk or paper
Ladies often used
fans in XIX century
Веер
Fan2
Verb; direct a current of To fan oneself
air upon, usually in order
to cool
Обмахивать
Fan3
Noun; fancier, enthusiast
Football fan
Фанат
Durability
Noun; capability to
withstand wear and tear
Steel is known for its
high durability
Износоустойчивость
Noun; longevity
The durability symbol Долговечность
are the Pyramids of
Egypt
Noun; zealousness
Work with eagerness
Рвение
Noun; ambition
Lifelong eagerness
Стремление
Eagerness
20
*Чем тоньше семантическое различие, тем длиннее
комментарий
*Далеко не всегда возможно подобрать для каждого слова
контексты, исключающие возможность употребления его
омонима/полисеманта
Л
А
Й
О
Н
З
Чем длиннее языковой знак, тем менее он омонимичен.
Контекст определяет лексическую единицу вероятностно,
а не абсолютно.
21
Выучившему
английский
в
гарантировано трудоустройство.
детском
саду
To the one that has taught English in a kindergarten recruiting is
guaranteed.
To the one that has learned English in a kindergarten recruiting is
guaranteed.
To a garden that has taught English in the childish recruiting is
guaranteed.
To a garden that has learned English in the childish recruiting is
guaranteed.
Дескрипторы: тонкий метод vs. универсальная дубина.
22
Морфологическая неоднозначность
Что следует разрешать сначала: морфологическую или
синтаксическую неоднозначность?
Вопросы «в лоб»: уточнить форму слова, используя
школьную терминологию. Следует выделить их в отдельный
блок, подключаемый пользователем по желанию.
Для русского возможностей будет больше, чем для
английского:
больше
поверхностно
выраженных
грамматических категорий. Это упрощает МП.
Возможно ли измерить степень омонимичности языка?
23
Синтаксическая неоднозначность
Fat soup admirer
Откормите любителя супа
Любитель жирного супа
Жирный любитель супа
Любитель супа жира
24
Преобразования, уменьшающие
неоднозначность
•The given sentence is ambiguous. What should be
understood?
•
(Fat soup) admirer
•
Fat (soup admirer)
ИЛИ
•The given sentence is ambiguous. What does the word
fat refer to?
•
Fat soup
•
Fat admirer
25
Не researches hums and whistles.
Он исследует жужжание и свист.
Он исследует жужжание и свистит.
Можно разрешить лексически. С другой стороны,
если
можно
использовать
синтаксические
алгоритмы, это эффективней: меньше словарей.
26
27
28
• The given sentence is ambiguous. What should be understood?
researches whistles
He whistles
• The given sentence is ambiguous. What should be understood?
He researches whistles
He whistles
• The given sentence is ambiguous. What should be understood?
researches and whistles
Hums and whistles
• The given sentence is ambiguous. What should be understood?
He researches (hums and whistles)
He (researches hums) and whistles
29
Гренобльская группа
Нervé Blanchon, Laurel Fais, Christian Boitet et al.
В сотрудничестве с японскими лабораториями.
DBMT как отдельная парадигма. Метод работы:
составление корпуса примеров -> выделение
частотных типов неоднозначности -> эксперименты
с пользователями -> реализация «лингвера» ->
реализация программного механизма
30
31
32
33
Дальнейшие перспективы:
*Разработка синтаксических алгоритмов
*Настройка интерактивного блока:
*Пользовательская настройка
*Обоймы вопросов
*Сбор статистических данных
*Самообучение
34
Выводы:
Для того, чтобы верно задать вопрос, нужно
знать большую часть ответа.
При хорошем автоматическом анализаторе
интерактивный блок может сослужить очень
хорошую службу, помогая выбрать лучшую
альтернативу.
35
Скачать