Формирование нечетких мер валентностей

реклама
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
Формирование нечетких мер
валентностей
русскоязычных глаголов
Павел В. Толпегин
Вычислительный центр
им. А.А. Дородницына
Российской академии наук (ВЦ РАН)
_____
г. Переславль-Залесский
2007 год
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
Задача разрешения местоименной анафоры
• Подзадача: выбор признаков
– > выбор источника данных для
формирования признаков
• Актуальна проблема признака
одушевленности [R.Mitkov, 2002] и др.
– > Машаi купила машинуj. Онаi еёj любит.
– > Hobbs’s naïve approach тестировался
автором вручную.
RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
Значение и влияние мер
Федор развел аспирин в стакане и
(он) выпил его.
НЕОД(выпил, его, OBJ) = 0.96
[R. Mitkov. Anaphora Resolution. 2002]
Маша купила машину. Она её
любит.
[В.Ф. Хорошевский. В разговоре. 2005]
Если человек думает, что все, что
он видит вокруг себя, весь
бесконечный мир, точно таков,
каким он его видит, то он очень
ошибается.
НЕОД(любит, она, SUB) = 0.30
НЕОД(любит, её, CONTEN) = 0.61
НЕОД(видит, он, SUB) = 0.33
НЕОД(видит, его, CONTEN) = 0.73
НЕОД(ошибается, он, SUB) = 0.13
[Л.Н. Толстой. Путь жизни. 1910]
RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
Коротко об алгоритме
получения нечетких мер валентностей глаголов р.я.
• Анализатором Диалинг «начитывались»
ЕЯ-тексты и декомпозировались в виде
• слово1 – валентность – слово2
он – SUB - видит
RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
Внутреннее содержимое
(1)
(2)
Входные данные
Ответ программы
Запись в базе данных
(РОДИТЬ, SUB, жр, ед)
P(неод)=0.29
РОДИТЬ,SUB,жр,ед,19,45
(РОДИТЬ, SUB, жр, мн)
P(неод)=0.5
РОДИТЬ,SUB,жр,мн,1,1
(РОДИТЬ, SUB, мр, ед)
P(неод)=0.52
РОДИТЬ,SUB,мр,ед,10,9
(РОДИТЬ, SUB, мр, мн)
P(неод)=0.25
РОДИТЬ,SUB,мр,мн,1,3
(РОДИТЬ, SUB, ср, ед)
P(неод)=1
РОДИТЬ,SUB,ср,ед,3,0
(РОДИТЬ, SUB, ср, мн)
P(неод)=1
РОДИТЬ,SUB,ср,мн,3,0
(РОДИТЬ, SUB, мн)
NULL
–“– запись отсутствует –”–
(РОДИТЬ, SUB)
P(неод)=0.42
РОДИТЬ,SUB,42,58
RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
Со-подчиненность и меры
ГОРЫ
С1 видит Машу
x
С2 видит лес

(неод.)
Зная, что в со-подчиненной валентности находится неодушевленное
существительное горы, мы можем провести выборку из начитанной БД
с ограничением на подбор значений.
В итоге, число найденный прецедентов (объектов выборки),
соответствующих условию «с ограничением» будет меньше, но общий
результат (P(неод)) будет «чище».
RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
теперь о главном…
• Одушевленность бывает …
– грамматическая (определяется по словарю
или по падежам);
– семантическая (толпа, народ, партия,
мэрия, тусовка, хартия, профсоюз,
компания «Яндекс», дума, съезд и др. )
• В словаре Ожегова есть пометы:
– кто (что), что (кто), что, кто, кто-что…
RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
Эффективность мер
Эффективность, %
Признаки
класс реферирующих класс нереферирующих
пар
пар
анафор + антецедент анафор + антецедент
Мера 1
27.1
20.8
Мера 2
16.8
16.7
Мера 3
17.7
8.9
Числа являются показателем:
1. начального приближения метода машинного обучения;
2. число (%) случаев, в которых одушевленность играет решающую
роль.
RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.
Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru)
Благодарю за внимание!
• Вопросы?
• Ответы!
• Конакты
– pavel@tolpegin.ru
http://company.yandex.ru/grant/report2007.xml
http://yandex-grant.tolpegin.ru/
RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.
Скачать