Курсовая работа Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования Выполнил: Варламов Максим Игоревич группа 427 Научный руководитель: Майоров Владимир Дмитриевич Задача реферирования • Реферирование - составление краткого изложения материала одного или нескольких информационных источников • В данной работе – источники и реферат – текстовые документы – только один источник – рассматриваются общие рефераты • не имеют специализированного назначения • в равной степени покрывают содержание исходных документов Риторическая структура • • • • Rhetorical Structure Theory (Mann, Thompson, 1988) Текст – иерархия риторических отношений В листьях обычно клаузы Два вида отношений: – симметричные (многоядерные) – асимметричные (ядро – спутник) • Ядро имеет смысл без спутника, обратное неверно => ядровые сегменты предпочтительнее для включения в реферат Пример Система автоматического реферирования отдела Информационных систем ИСП РАН • Синтаксический анализатор – ABBYY Compreno • Подсистема взвешивания – алгоритм из статьи W. Bosma • Свой эвристический алгоритм построения риторического дерева. В основе: – Кореферентность – Сигнальные фразы – Ключевые слова Система автоматического реферирования отдела Информационных систем ИСП РАН • Демонстрирует неудовлетворительное качество рефератов Baseline – по первому предложению с каждого абзаца Цель работы разработка и реализация алгоритма построения риторического дерева текста на основе машинного обучения Постановка задачи • Исследовать известные подходы к построению риторических деревьев, в том числе на основе машинного обучения • Реализовать подход к построению RST-деревьев на основе машинного обучения в исходной системе – должен обрабатывать текст за линейное от его длины время • Сравнить качество работы ML-подхода с текущим алгоритмом – Качество деревьев (PARSEVAL) – Качество рефератов (ROUGE) Алгоритм построения RST-дерева • Основан на работе duVerle и Predinger (2009) • Пусть S – множество сегментов текста – Сегмент – непрерывная последовательность клауз – Характеризуется своим RST-поддеревом • Два классификатора: – Оценивает вероятность наличия риторической связи между двумя сегментами – Определяет тип отношения между сегментами • Для реализации классификаторов использованы линейные SVM Алгоритм построения RST-дерева Признаки • Длины сегментов • Сигнальные фразы – присутствие/отсутствие в первых/последних 3 словах сегмента • Синтаксические признаки – части речи, синтаксические функции, … – первые/последние 3 слова сегмента, верхние 5 слов при обходе в ширину синтаксического дерева • Лексические классы • Риторическая структура – Типы верхних отношений в сегментах – Все предыдущие признаки для наиболее важных клауз сегментов Обучение и тестирование • Риторическая структура – Discourse Relation Reference Corpus • 65 текстов, аннотированных экспертами в соответствии с RST • Распространяется свободно через сайт RST – Оценка качества - PARSEVAL • Рефераты – Материалы конференции DUC-2001 • 311 статей с abstract-аннотациями (~100 слов) • 147 статей с extract-аннотациями (~160 слов) – Оценка качества – ROUGE • ROUGE-1,2 • ROUGE-L • ROUGE-W Feature Selection • Необходимо отсеять неинформативные признаки – Ранжирование признаков с помощью статистики хи-квадрат – Подбор оптимального порога посредством кросс-валидации • Размерность признакового пространства после бинаризации – 19 325 признаков • Было отобрано 465 признаков для первого классификатора и 72 для второго • Наиболее информативные признаки связаны с лексическими классами Тестирование • Качество деревьев Тестирование • Качество рефератов Тестирование • Время работы Заключение • Исследованы существующие подходы к построению риторических деревьев на основе машинного обучения • Реализован и встроен в исходную систему алгоритм построения RST-деревьев на основе SVM-классификации – Показывает линейное время работы по результатам тестов • Проведено тестирование алгоритма – Улучшилось как качество построения риторических деревьев, так и качество рефератов Заключение • Тем не менее, новый подход – Слабо справляется с определением типов риторических отношений – В половине случаев работает хуже baseline-алгоритма реферирования Спасибо за внимание! Вопросы? Классификаторы • Линейные SVM – – – – Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle) Возможность оценки вероятности принадлежности объекта классу Возможность мультиклассовой классификации Хорошо справляются с большим количеством взаимосвязанных признаков при малой размерности обучающей выборки – Линейное время классификации PARSEVAL • Пусть P – множество составляющих (узлов) сгенерированного дерева, Q – экспертного. Тогда Хи-квадрат • Для данных признака f и класса c – – – – – где A – число примеров класса c, где f =1; B – число примеров, не принадлежащих c, где f =1; C – число примеров класса c, где f =0; D – число примеров, не принадлежащих c, где f =0; m = A+B+C+D – общее число примеров • Оценка признака f относительно всех классов