Магистрант: Бименова Жанат Батырбековна Научный руководитель: к.ф.-м.н. Сидорова Елена Анатольевна Разработка методов и средств автоматизации построения тезаурусов предметных областей 1 Цели работы • Разработка методов и средств построения тезаурусов • Автоматизация извлечения терминов и тезаурусных отношений из корпуса текстов. 2 Введение Отношение Термин Предметная область «Информатика» 3 Введение • Тезаурус (от греч. θησαυρός — сокровище), в общем смысле — специальная терминология, более строго и предметно — словарь, собрание сведений, корпус или свод, полномерно охватывающие понятия, определения и термины специальной области знаний или сферы деятельности, что должно способствовать правильной лексической, корпоративной коммуникации, в которых указаны семантические отношения (смежду лексическими единицами. 4 Актуальность • Снижение трудоемкости создания тезаурусов. Ручное создание тезаурусов Автоматизированное создание тезауруса 5 Актуальность • Широкое применение тезаурусов (автоматизированное индексирование документов и запросов, информационный поиск, автоматическая обработка текста, анализ терминологического состава той или иной отрасли знания и т.д.) • Количество научных публикаций за последние 10 лет по тематике извлечения знаний из массива текстовых данных (Text Mining) свидетельствуют об актуальности данной области. 6 Задачи • • • • • Исследование методов построения тезаурусов Анализ методов автоматизации построения тезаурусов Разработка структуры тезауруса предметных областей Разработка методов извлечения терминов из корпуса текстов; Разработка методов извлечения семантических отношений из корпуса текстов; • Разработка архитектуры и функциональной схемы системы для построения тезаурусов предметных областей; • Создание программного средства, поддерживающего процесс создания тезауруса согласно созданным методам • Апробация созданных методов и средств 7 Подходы к построению тезаурусов 8 Характеристики тезаурусов Тезаурус Место раз работки Базовая единица Знаменательные части речи Автоматизиро ванное извлечение терминов Автоматизиро ванное извлечение отношений Англо-русский WordNet ПГУПС Синонимичный ряд (синсет) существительные, глаголы, прилагательные и наречия + -/+ RussNet СПбГУ Синонимичный ряд (синсет) существительные, глаголы, прилагательные и наречия - - РуТез МГУ Понятие ГОСТ + - Русскоанглийский тезаурус по компьютерной лингвистике ИСИ СО РАН Дескрипторы и аскрипторы ГОСТ 7.25-2001. + - 9 Методы автоматизации построения тезаурусов Статистические методы: Лингвистические методы: • TF-IDF • На основе шаблонов •Индикаторы связи •На основе Вики-ресурсов • на основе анализа коллокаций • t-тест • χ2-тест • на основе отношений функций правдоподобия 10 Тезаурус Совокупность текстов, объединённых какимто общим признаком Источники знаний – корпуса текстов предметной области Единицы тезауруса - термины (дескрипторы и аскрипторы) Типы лексических единиц – ГОСТ 7.25-2001 Словарная статья – пятерка <A, B, C, D, E > Набор отношений - неограничен Основные термины На первом этапе используем традиционный набор 11 Структура словарной статьи термина T= <A, B, C, D, E >, где А – символьное имя термина, соответствующее названию представляемого им понятия предметной области, B – определение термина, С – релятор, который представляет собой помету, введенную для различения омонимичных терминов, D -рубрика - тематический раздел, к которому относится термин; E – множество бинарных связей термина, включая иерархичные, ассоциативные отношения и отношения синонимии, 12 Набор отношений • Отношение «Класс-Подкласс» в зависимости от терминологических традиций в области использования ресурса может носить разное название: таксономическое отношение, родовидовое отношение, IS-a. Отношение, отношение гипонимии и гиперонимии. Оно устанавливается, если объем одного понятия входит в объем другого понятия. •Отношение «Часть-Целое» устанавливается в тех случаях, когда одно понятие включено в другое понятие независимо от контекста •Отношение «Синоним» устанавливается между дескрипторами и аскрипторами • Отношение «Ассоциация» устанавливается между понятиями, которые находятся в связях отличных от синонимии и иерархических отношений … 13 Архитектура системы построения тезауруса 14 Разметка текста • Семантическая разметка корпуса текстов: – Терминологическая разметка; – Разметка отношений. Инструмент: Mark System 15 Автоматизация извлечения терминов Текст Графематический анализ Разбиение на слова Морфологический анализ Определение нормальной формы Синтаксический анализ Статистический анализ Сборка словосочетаний Словарь терминов Отсев по частоте встречаемости 16 Автоматизация извлечения отношений 17 Разработка лексических шаблонов Этап 1: Разметка связанных терминов В тексте ищутся предложения, содержащие термины, связанные семантически ми отношениями 18 Пример: Этап 1. Гипероним • «Основной характеристикой процессора является производительность» Гипоним 19 Разработка лексических шаблонов Этап 2: Фиксируется окружение пар связанных терминов. Найденные контексты анализируются и помечаются наиболее часто встречающиеся фразы из контекстов «Индикаторы» связи 20 Пример: Этап 2. Гипероним • «Основной характеристикой процессора является производительность» Индикатор связи Гипоним 21 Автоматизация извлечения отношений Разработка шаблонов: Этап 3. Запись конструкций на языке Diglex DSL Графический интерфейс системы Diglex 22 Пример: Этап 3. • «Основной характеристикой процессора является производительность» Дистантный контекст • [квантор-2] <- [являться] ->[знак1] Ссылки на шаблоны 23 Фильтрация извлеченных фрагментов текста [квантор-2] <- [являться] ->[знак1] • Извлеченный фрагмент: «Основной характеристикой модема является обеспечиваемая им скорость передачи данных». • Подаем извлеченный фрагмент на вход системы Klan: «данные», «модем», «скорость», «передача», «скорость», «характеристика», «основная характеристика», «основная характеристика модема», «передача данных», «скорость передачи», «скорость передачи данных» и «характеристики модема». 24 Фильтрация извлеченных фрагментов текста • Отсеиваем индикаторы связи и слова, содержащиеся в шаблоне: «данные», «модем», «скорость», «передача», «скорость», «характеристика», «передача данных», «скорость передачи», «скорость передачи данных» и «характеристика модема». • Оставляем лишь максимальные по включению шаблоны: «скорость передачи данных» и «характеристика модема». • Правые и левые шаблоны [квантор-2] <- [являться] ->[знак1] – левый шаблон «характеристика модема» – Гипероним «скорость передачи данных» - Гипоним 25 Схема извлечения отношений между терминами Словарь гипонимических конструкций Множество вхождений шаблонов 26 Графический интерфейс редактора тезауруса 27 Задание атрибутов терминов и отношений 28 Результаты обработки текста 29 Апробация • Тезаурус предметной области «Информатика» Извлечено: Термины - 6489 Полнота: 84 %, Точность: 44 %. Отношения - 2751 полнота: 65 %, Точность: 37%. 30 Результаты • Произведены терминологическая и семантическая разметки текстов предметной области «Информатика» на русском и казахском языках; • Разработан набор лексических шаблонов для поиска и извлечения отношения «Выше-Ниже» для русского и казахского языков; • Разработан набор лексических шаблонов для поиска и извлечения отношения «Часть-Целое»; • Разработана структура тезауруса; • Разработаны методы извлечения терминов из корпуса текстов; • Разработана архитектура и функциональная схема системы для построения тезаурусов предметных областей; • Разработано и реализовано ядро системы, позволяющей автоматизировать построение тезаурусов; • Разработан редактор системы для построения тезаурусов предметных областей; • Апробация созданного подхода к разработке на текстах предметной области «Информатика». 31 Публикации • Бименова Ж.Б., Разработка методов автоматического извлечения тезаурусных отношений из текста на основе лексических шаблонов //Материалы 50-й юбилейной международной научной студенческой конференции / Новосибирск, 2012 г. – С .191. • Бименова Ж.Б., Джумамуратов Р.А., Сидорова Е.А. «Подход к построению русско-казахского тезауруса по информатике» // Вестник БГУ, выпуск 9 / Улан-Удэ, 2013 32 Выражаю благодарность: • • • • Сидоровой Е. А. Загорулько Ю.А. Федотову А.М. … 33 • Спасибо за внимание! 34