КМАТ 04 Структура — Извлечение сущностей Компьютерные методы анализа текста Кирилл Александрович Маслинский НИУ ВШЭ Санкт-Петербург 23.09.2015 / 05 КМАТ 04 Основная статья David K Elson, Nicholas Dames и Kathleen R McKeown. “Extracting social networks from literary fiction”. в: Proceedings of the 48th annual meeting of the association for computational linguistics. Association for Computational Linguistics. 2010, с. 138—147 КМАТ 04 План Извлечение информации Задачи Information Extraction Распознавание именованных сущностей Правила и словари Машинное обучение CRF Практический подход characters (assumed to be named entities) План Извлечение информации Задачи Information Extraction КМАТ 04 Извлечение информации Задачи Information Extraction Information extraction Information extraction: I I текст −→ структурированные данные (БД) комбинирование методов анализа текста: I I I вероятностные языковые модели конечные автоматы частичный синтаксический анализ extracted noun phrases that were categorized as persons or organizations КМАТ 04 Извлечение информации Задачи Information Extraction Извлечение и классификация именованных сущностей Named entity recognition and classification На [LOC площадь Восстания ] могут вернуть конный памятник императору [PERS Александру III ], который стоял там до 1937, а сейчас расположен во дворе Мраморного дворца. Письмо с просьбой обсудить целесообразность или нецелесообразность возвращения памятника на одну из городских площадей написал в [ORG ЗакС ] вице-губернатор [PERS Василий Кичеджи ]. We then clustered the noun phrases into coreferents for the same entity (person or organization) КМАТ 04 Извлечение информации Задачи Information Extraction Кластеризация именованных сущностей Reference resolution [LOC У берегов Камчатки ] произошло землетрясение, магнитуда подземных толчков составила 5. Об этом сообщил «Интерфаксу-Дальний Восток» представитель камчатского филиала Геофизической службы РАН. Колебания земной коры зафиксированы в [LOC Тихом океане ] в [LOC 340 км юго-восточнее Петропавловска-Камчатского ] на глубине 49 км. По данным МЧС, в населённых пунктах региона землетрясение не ощущалось, разрушений нет, угроза цунами не объявлялась. КМАТ 04 Извлечение информации Задачи Information Extraction Извлечение и классификация отношений Relation detection and classification Компания [ORG Thomson Reuters ] уволила заместителя редактора социальных сетей портала reuters.com [PERS Мэттью Киза ] ([PERS Matthew Keys ]), обвиненного в сотрудничестве с группой хакеров [ORG Anonymous ]. быть сотрудником PERS → ORG Бинарные отношения сотрудничать с PERS → ORG КМАТ 04 Извлечение информации Задачи Information Extraction Извлечение событий Event detection and classification Компания [ORG Thomson Reuters ] [EVENT уволила ] заместителя редактора социальных сетей портала reuters.com [PERS Мэттью Киза ] ([PERS Matthew Keys ]), обвиненного в сотрудничестве с группой хакеров [ORG Anonymous ]. КМАТ 04 Извлечение информации Задачи Information Extraction Анализ дат Temporal expression detection and Temporal analysis Мамонтенка Женю, найденного на Таймыре, привезут в петербургский Зоологический институт Российской академии наук (РАН) в [DATE понедельник ], сообщил в [DATE воскресенье ] РИА Новости заместитель директора Зоологического института Алексей Тихонов. Останки Сопкаргинского мамонта нашел в [DATE конце августа 2012 года ] на Таймыре одиннадцатилетний Евгений Салиндер. Столь крупных и с хорошо сохранившимися тканями находок не было с [DATE 1901 года ]. КМАТ 04 Извлечение информации Задачи Information Extraction Извлечение данных по шаблону Template-filling По последним данным, число жертв [DISEASE «птичьего гриппа» H7N9 ], впервые выявленного у человека в [LOC Китае ] в [DATE конце марта ], достигло [VICTIMS 20 ]. По обобщенным сведениям, число заболевших вирусом [DISEASE «птичьего гриппа» ] в [LOC Китае ] составило [VICTIMS 101 ]. Из них, по меньшей мере, [VICTIMS четыре человека ] находятся в критическом состоянии. Случаи заболевания гриппом птиц [DISEASE H7N9 ] зарегистрированы среди граждан, проживающих в провинциях [LOC Цзянсу ], [LOC Чжэцзян ], [LOC Аньхой ] и [LOC Хэнань ], а также в [LOC Шанхае ] и [LOC Пекине ]. КМАТ 04 Извлечение информации Задачи Information Extraction Извлечение данных по шаблону Сообщение об эпидемической вспышке: Заболевание «птичий грипп», H7N9 Число жертв 20, 101, 4 Локализация случаев Китай, Цзянсу, Чжэцзян, Аньхой, Хэнань, Шанхай, Пекин План Распознавание именованных сущностей Правила и словари Машинное обучение CRF Практический подход КМАТ 04 Распознавание именованных сущностей Правила и словари Способы определения имен собственных I Специфические для языка и жанра текстовые сигналы: I I I I орфографическая форма слова (большие буквы) слова-маркеры г-н, прибыл в, характерные суффиксы/префиксы Формальные грамматики: I I I Регулярные выражения Контекстно-свободные грамматики (Tomita-парсер) Списки имен собственных: I I Gazetteers (словари географических названий) Списки имен и фамилий (по данным переписей) КМАТ 04 Распознавание именованных сущностей Правила и словари Орфографическая форма слова строчные с заглавной заглавные смешанный регистр инициал с точкой оканчивается на цифру и т.п. камчатский филиал Интерфакс МЧС ЗакС П. С7 План Распознавание именованных сущностей Правила и словари Машинное обучение CRF Практический подход КМАТ 04 Распознавание именованных сущностей Машинное обучение Статистический подход к распознаванию именованных сущностей I рассмотрим задачу распознавания именованных сущностей как расстановку тегов к словам I ArgmaxP(Tags|Words) I задача аналогична POS tagging (расстановке частей речи)! by “chunking” names (such as Mr. Holmes) from the text КМАТ 04 Распознавание именованных сущностей Машинное обучение Схема аннотации IOB Слово Компания Thomson Reuters уволила заместителя ... Тег O BORG IORG O O B Begin — первое слово именованной сущности I Inside — слово внутри именованной сущности O Outside — слово, не входящее ни в одну именованную сущность КМАТ 04 Распознавание именованных сущностей Машинное обучение Интеграция дополнительных признаков для классификации Слово Компания Thomson Reuters уволила заместителя ... Тег O BORG IORG O O PoS N N N V N chunk BNP INP INP BVP BNP орф. форма cap cap cap low low КМАТ 04 Распознавание именованных сущностей Машинное обучение Sequence labeling При наличии обучающей выборки с размеченными именованными сущностями: I оптимизация с использованием цепей Маркова: I I I I HMM, Hidden Markov Model MEMM, maximum-entropy Markov Model CRF, Conditional Random Fields (state-of-the-art метод) классификация токена с использованием скользящего окна: I I I I Naive Bayes decision trees Maximum Entropy classifier SVM КМАТ 04 Распознавание именованных сущностей Машинное обучение Цепь Маркова I система с конечным числом состояний I следующее состояние зависит только от N предыдущих Применительно к тексту: Следующее слово зависит только от предыдущего (N предыдущих) План Распознавание именованных сущностей Правила и словари Машинное обучение CRF Практический подход КМАТ 04 Распознавание именованных сущностей CRF Structured prediction I Обычный классификатор — решение (метка) не зависит от решений по другим (соседним) меткам I CRF — решение (метка) учитывает решения по соседним токенам. −→ Предсказывает последовательность меток для последовательности токенов. КМАТ 04 Распознавание именованных сущностей CRF Graphical model Определяет условную вероятность p(Y|x), где x — последовательность слов, а Y — все возможные последовательности меток (тегов) для этих слов. КМАТ 04 Распознавание именованных сущностей CRF Выбор последовательности тегов 1. Для каждой позиции во входной последовательности слов: 1.1 Для каждой feature function: 1.1.1 Рассчитать значение функции Fi 1.1.2 Умножить его на весовой коэффициент 𝜆 1.2 Вычислить сумму всех 𝜆i fi — взвешенных feature functions для данной позиции 2. Вычислить общую сумму взвешенных FF для всех позиций КМАТ 04 Распознавание именованных сущностей CRF Feature functions fi (zn−1 , zn , x1:N , n) n — номер позиции во входной последовательности слов zn−1 — тег предыдущего слова zn — тег текущего слова x1:N — вся входная последовательность слов КМАТ 04 Распознавание именованных сущностей CRF Пример функции {︃ 1 если zn = PERSON и xn = Раскольников f1 = 0 в противном случае (1) ⎧ ⎪ ⎨𝜆1 > 0 предпочитаем тег PERSON для слова Раскольников 𝜆1 < 0 избегаем тега PERSON для слова Раскольников ⎪ ⎩ 𝜆1 = 0 игнорируем фичу (2) КМАТ 04 Распознавание именованных сущностей CRF Пример функции 2 {︃ 1 если zn = PERSON и xn = Раскольников f1 = (3) 0 в противном случае {︃ 1 если zn = PERSON, xn+1 = убить xn+2 = старушка f2 = 0 в противном случае (4) overlapping features Раскольников убил старушку. z1 = PERSON → 𝜆1 + 𝜆2 КМАТ 04 Распознавание именованных сущностей CRF Пример функции 3 {︃ 0, 25 если zn−1 = PERSON и zn = ГЛАГОЛ f3 = 0 в противном случае (5) План Распознавание именованных сущностей Правила и словари Машинное обучение CRF Практический подход КМАТ 04 Распознавание именованных сущностей Практический подход Практический подход 1. Выделить однозначные упоминания именованных сущностей с помощью регулярных выражений (высокая точность, низкая полнота). 2. Искать строки, близкие к выделенным в пункте (1) сущностям. 3. Поискать сущности из специализированных словарей имен. 4. Применить вероятностные алгоритмы классификации последовательностей, используя теги, полученные на предыдущих этапах.