Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) Формирование нечетких мер валентностей русскоязычных глаголов Павел В. Толпегин Вычислительный центр им. А.А. Дородницына Российской академии наук (ВЦ РАН) _____ г. Переславль-Залесский 2007 год Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) Задача разрешения местоименной анафоры • Подзадача: выбор признаков – > выбор источника данных для формирования признаков • Актуальна проблема признака одушевленности [R.Mitkov, 2002] и др. – > Машаi купила машинуj. Онаi еёj любит. – > Hobbs’s naïve approach тестировался автором вручную. RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г. Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) Значение и влияние мер Федор развел аспирин в стакане и (он) выпил его. НЕОД(выпил, его, OBJ) = 0.96 [R. Mitkov. Anaphora Resolution. 2002] Маша купила машину. Она её любит. [В.Ф. Хорошевский. В разговоре. 2005] Если человек думает, что все, что он видит вокруг себя, весь бесконечный мир, точно таков, каким он его видит, то он очень ошибается. НЕОД(любит, она, SUB) = 0.30 НЕОД(любит, её, CONTEN) = 0.61 НЕОД(видит, он, SUB) = 0.33 НЕОД(видит, его, CONTEN) = 0.73 НЕОД(ошибается, он, SUB) = 0.13 [Л.Н. Толстой. Путь жизни. 1910] RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г. Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) Коротко об алгоритме получения нечетких мер валентностей глаголов р.я. • Анализатором Диалинг «начитывались» ЕЯ-тексты и декомпозировались в виде • слово1 – валентность – слово2 он – SUB - видит RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г. Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) Внутреннее содержимое (1) (2) Входные данные Ответ программы Запись в базе данных (РОДИТЬ, SUB, жр, ед) P(неод)=0.29 РОДИТЬ,SUB,жр,ед,19,45 (РОДИТЬ, SUB, жр, мн) P(неод)=0.5 РОДИТЬ,SUB,жр,мн,1,1 (РОДИТЬ, SUB, мр, ед) P(неод)=0.52 РОДИТЬ,SUB,мр,ед,10,9 (РОДИТЬ, SUB, мр, мн) P(неод)=0.25 РОДИТЬ,SUB,мр,мн,1,3 (РОДИТЬ, SUB, ср, ед) P(неод)=1 РОДИТЬ,SUB,ср,ед,3,0 (РОДИТЬ, SUB, ср, мн) P(неод)=1 РОДИТЬ,SUB,ср,мн,3,0 (РОДИТЬ, SUB, мн) NULL –“– запись отсутствует –”– (РОДИТЬ, SUB) P(неод)=0.42 РОДИТЬ,SUB,42,58 RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г. Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) Со-подчиненность и меры ГОРЫ С1 видит Машу x С2 видит лес (неод.) Зная, что в со-подчиненной валентности находится неодушевленное существительное горы, мы можем провести выборку из начитанной БД с ограничением на подбор значений. В итоге, число найденный прецедентов (объектов выборки), соответствующих условию «с ограничением» будет меньше, но общий результат (P(неод)) будет «чище». RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г. Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) теперь о главном… • Одушевленность бывает … – грамматическая (определяется по словарю или по падежам); – семантическая (толпа, народ, партия, мэрия, тусовка, хартия, профсоюз, компания «Яндекс», дума, съезд и др. ) • В словаре Ожегова есть пометы: – кто (что), что (кто), что, кто, кто-что… RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г. Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) Эффективность мер Эффективность, % Признаки класс реферирующих класс нереферирующих пар пар анафор + антецедент анафор + антецедент Мера 1 27.1 20.8 Мера 2 16.8 16.7 Мера 3 17.7 8.9 Числа являются показателем: 1. начального приближения метода машинного обучения; 2. число (%) случаев, в которых одушевленность играет решающую роль. RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г. Проект выполнен при поддержке ООО «Яндекс» (www.yandex.ru) Благодарю за внимание! • Вопросы? • Ответы! • Конакты – pavel@tolpegin.ru http://company.yandex.ru/grant/report2007.xml http://yandex-grant.tolpegin.ru/ RCDL-2007, Переславль-Залесский, 15-18 октября 2007 г.