Автоматическая обработка текста Лекция 5 Автоматический морфологический анализ Часть 1 Автматический морфологический анализ Введение Примеры Проблемы и задачи Основные этапы и модули Основные методы Морфологическая разметка: проблемы и задачи Запрос: Анализ новостного потока Ответ поисковой системы: Анализ методов кластеризации новостного потока © Кондратьев Михаил Е. Санкт-Петербургский Государственный Университет Mikhail.Kondratyev@sun.com. Аннотация В работе анализируется ряд алгоритмов кластеризации новостной коллекции и приводится.. Эффективный анализ новостных информационных потоков в Интернет Программа интернет-трейдинга для работы на FOREX. Включает систему торговли, технический анализ и новостной поток агентства Dow Jones. Запрос: Съемки фотографий в условиях города. Фотография, съемка, фотографическая, съемок Даже простой поиск в Интернете не может обойтись без морфологического анализа, тем более, поиск в корпусе: Морфологическая разметка Введение Проблемы и задачи Основные этапы Основные методы Морфологическая разметка: проблемы и задачи Аннотация: каждой единице соответствующего лингвистического уровня приписывается тег (набор характеристик) Бывают ли единицы без тэгов? Пример 1. Поезд ИР-276 движется со скоростью 180 км/ч по 3-ему пути Морфологическая разметка: проблемы и задачи Морфологическая разметка: каждому словоупотрблению – морфологический тег что считать одним словоупотрбелнием? Пример 2. Найти предложения, которые начинаются с конструкции ‘глагол + сущ. в им. п. типа Посадил дед репку Пример в выдаче: Т.е. письмо отправлено накануне Морфологическая разметка: проблемы и задачи Поиск по корпусу. Пример 3. Как употребляется в русском языке глагол стать? 1) ПРИЧЕМ, что важно, доходы стали больше у всех. 2) Поэтому 5% бедных сумели преодолеть черту бедности и перешли в разряд низкообеспеченных, которых теперь стало 29%. 3) Он стал "толще" на 3%. А всего середняков — 22%. 4) Завод должен будет производить до 4,4 млн тонн стали в год. 5) Он будет состоять из двух доменных печей, сталелитейного завода с двумя конверторами и двумя установками непрерывной разливки стали. Морфологическая разметка: проблемы и задачи Пример 4. Поиск по корпусу кратких прилагательных Первые результаты, выданные по запросу, из корпуса с неснятой омонимией: 1) Подлесова Ирина. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", 2002.07.14] 2) В воскресенье рабочие, которых несколько суток безуспешно разыскивали спасатели МЧС, самостоятельно вышли к одному из населенных пунктов на севере Омской области. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", 2002.07.14] 3) Рабочие-вахтовики Анатолий Кисин и Азот Сариснудян исчезли со своей буровой еще 9 июля. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", 2002.07.14] 4) — Об исчезновении людей стало известно сразу, — рассказал "Известиям" оперативный дежурный управления по ГО и ЧС по Омской области Павел Горобец. — На поиски были направлены 6 спасателей из Омской поисково-спасательной службы, подключили местных жителей. Морфологическая разметка: проблемы и задачи Поиск по корпусу. Пример 5. Как употребляется в русском языке вопросительное местоимение что? 1) Он мне ничего не ответил, потому что не знал 2) Что он ничего не отвечает 3) Откуда я знаю , что он говорит? 4) Я с детства знаю, что жалость унижает человека, но сейчас я с этим не согласен. Морфологическая разметка: проблемы и задачи Поиск по корпусу. Пример 6. Выяснить, различается ли семантика глагола знать в разных временах? 1) Он об этом не будет знать 2) Будем знать Основные типы морфологической обработки нормализация словоформ (лемматизация), т.е. сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме); стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "псевдооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательное фотографический и существительное фотография могут быть приведены к одной основе, так как пользовательскому запросу будут удовлетворять и документы, содержащие словосочетание фотографический портрет, и документы, содержащие словосочетание портретная фотография) частеречная аннотация (pos-tagging), т.е. указание части речи для каждой словоформы в тексте) полный морфологический анализ - приписывание грамматических характеристик словоформе (например, в цепочке словоформ по берегу реки словоформе берегу будут приписаны следующие грамматические характеристики: сущ., неодушевленное, мужского р., единственного числа, дательного падежа) дизамбигуация - разрешение морфологической омонимии Основные проблемы, связанные с любым типом морфологического анализа - это морфологическая омонимия (ср. предложение Эти типы стали есть в цехе, где стали может быть формой глагола стать и формой существительного сталь) «предсказатель»: анализ новых, редких слов или окказионализмов. Морфологическая разметка: проблемы и задачи Для точности и полноты поиска необходима лемматизация (нормализация) морфологическая разметка снятие лексической омонимии (ср. уж – Уж свернулся кольцом – Уж небо осенью дышало) снятие морфологической омонимии (бившим в лицо) Сложные конструкции и аналитические формы (потому что, будет писать, не только …, но и) Морфологическая разметка: проблемы и задачи Задача: дать возможность пользователю работать с корпусом со снятой морфологической омонимией Проблемы: ручная разметка очень трудоемка (на снятие омонимии в корпусе объемом 5 млн словоупотреблений ушло несколько лет), а объем корпуса больше 100 млн при автоматическом алгоритмическом снятии омонимии относительно высокий процент ошибок неизбежен Морфологическая разметка Введение Примеры Проблемы и задачи Основные этапы Основные методы Морфологическая разметка: основные шаги токени зация с помощью дисперсионного анализа ( ANOVA) Фридмана помощью с дисперсионного с_ Снятие омон. Идиома тизация ANOVA словарь Лемматизация Первич н морф анализ анализа ПРЕД помощь С,жр,но= Ед,тв ПРЕД С,жр,но= Ед,тв дисперси онный П=мр,ед,рд| П=ср,ед,рд анализ С,мр,но= ед,рд П=мр,ед,рд| {??|anova? Програм С=мр/жр/ср?,мн ма ,ед,им,рд,дт,вн,т в,пр,од/но? С,мр,но= ед,рд <ob>c помощью{с_помощью=ПРЕД}</ob> Разме тчик Результат морфологической разметки <gr type="ПГ" mw="4"><ob> с помощью{с_помощью=ПРЕД}</ob> <gr type="П+С"mw="8"> рангового{ранговый=П=мр,ед,рд} дисперсионного{дисперсионный=П=мр,ед,рд} анализа{анализ=С,мр,но=ед,рд} </gr> </gr> (ANOVA) Фридмана{Фридман=С,фам,мр,од=ед,рд} Морфологическая разметка: предварительный анализ примера Пример: Следующий его пример основан на данных, представленных Siegel (1956, стр.233), и анализируется также с помощью предварительного тэгинга. Морфологическая разметка: проблемы и задачи Токенизация Слова с дефисом: 1) по-моему, по-пушкински, 2) Петербургу-Петрограду-Ленинграду, 3) бело-желтым, штабс-капитана, удовлетворенносмущенное, штабс-капитан Числа, "шаблоны": 1945г., тел. 555-33-22 сокращения: г., вв. и т.п. ст. особенности расстановки стилей: разрядка: Д О Л Г О дополнительные "внутрисловные" знаки: м-е-е-е-дленно, о'key, he's знаки препинания вкрапления другого алфавита Проблемы морфологической разметки Лемматизация Запрос: Организации, выдающие документы Ответы: Предприятия, учреждения и организации могут выдавать копии имеющихся у них документов, исходящих от других предприятий, учреждений и организаций Давайте посмотрим, какие документы должны быть выданы подотчетному лицу, оплачивающему товары (работы, услуги) от имени организации-покупателя по доверенности. Документы выдаются организациями, … Проблемы морфологической разметки Лемматизация Какая лемма у следующих словоформ: вице-президента Моряки-подводники начлага данные Управляемого Давайте-ка Тыс. Прибывали Строю Скока (разг. от сколько) Проблемы морфологической разметки Лемматизация Морфонологические чередования (внутренняя флексия): лечь / лягу; лев / льва Супплетивизм я - мне; хороший - лучше; быть - есть К какой исходной основе мы будем приводить данную словоформу Например: пары глаголов исходная форма и страдательный залог на –ся (строить – строиться), подписать - подписывать причастия – как отдельная лемма или вместе с глаголом отглагольные прилагательные Проблемы морфологической разметки Незнакомые слова имена собственные (Лаврушинском, из нас Ай-Петри , а кто Чатыр-Даг, Кыргызстан) сложные слова (авиабомбами, многочленистая) Сокращения (ДДТ, ПО) построение гипотез: {??|anova? =мр/жр/ср?,мн,ед,им,рд,дт,вн,тв,пр,од/но} Морфологическая разметка: проблемы и задачи Омонимия Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов …. (Ю. Трифонов) см. На 25 словоформ – 15 омонимичны, из них только 5 имеют по 2 возможных аннотации, у остальных больше 2-х Проблемы морфологической разметки Омонимия Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе на юг. (Ю. Трифонов) {\s}Я{я=S,сред,неод=им,ед|я=S,сред,неод=им,мн|я=S,сред,неод=род,ед|я=S,сред, неод=род,мн|я=S,сред,неод=дат,ед|я=S,сред,неод=дат,мн|я=S,сред,неод=вин,е д|я=S,сред,неод=вин,мн|я=S,сред,неод=твор,ед|я=S,сред,неод=твор,мн|я=S,ср ед,неод=пр,ед|я=S,сред,неод=пр,мн|я=S,ед,од=им,жен|я=S,ед,од=им,муж} сидел{сидеть=V,несов=прош,ед,изъяв,муж} на{на=PART=|на=PR=} барском{барский=A=пр,ед,муж|барский=A=пр,ед,сред} сиденье{сиденье=S,сред,неод=им,ед|сиденье=S,сред,неод=вин,ед|сиденье=S,с ред,неод=пр,ед}, дышал{дышать=V,несов=прош,ед,изъяв,муж} горячим{горячий=A=дат,мн|горячий=A=твор,ед,муж|горячий=A=твор,ед,сре д|горячее=S,ед,сред,неод=твор|горячить=V,несов=непрош,ед,прич,кр,муж,стра д|горячить=V,несов=непрош,мн,изъяв,1-л} ветром{ветер=S,муж,неод=твор,ед}, бившим{бить=V,несов=прош,дат,мн,прич|бить=V,несов=прош,твор,ед,прич, муж|бить=V,несов=прош,твор,ед,прич,сред} в{в=PR=} лицо{лицо=S,сред,неод=им,ед|лицо=S,сред,неод=вин,ед|лицо=S,сред,од=им,е д|лицо=S,сред,од=вин,ед}, ощущая{ощущать=V=непрош,деепр,несов} в{в=PR=} то{то=CONJ=|тот=A=им,ед,сред|тот=A=вин,ед,сред|то=S,ед,сред,неод=им|т о=S,ед,сред,неод=вин} же{же=PART=|же=S,сред,неод=им,ед|же=S,сред,неод=им,мн|же=S,сред,неод =род,ед|же=S,сред,неод=род,мн|же=S,сред,неод=дат,ед|же=S,сред,неод=дат,м н|же=S,сред,неод=вин,ед|же=S,сред,неод=вин,мн|же=S,сред,неод=твор,ед|же =S,сред,неод=твор,мн|же=S,сред,неод=пр,ед|же=S,сред,неод=пр,мн|же=CONJ =} время{время=S,сред,неод=им,ед|время=S,сред,неод=вин,ед} не{не=PART=} истребимую{истребимый=A=вин,ед,жен} никакими{никакой=A=твор,мн} сквозняками{сквозняк=S,муж,неод=твор,мн} пыль{пыль=S,ед,жен,неод=им|пыль=S,ед,жен,неод=вин} и{и=PART=|и=S,сред,неод=им,ед|и=S,сред,неод=им,мн|и=S,сред,неод=род,е д|и=S,сред,неод=род,мн|и=S,сред,неод=дат,ед|и=S,сред,неод=дат,мн|и=S,сре д,неод=вин,ед|и=S,сред,неод=вин,мн|и=S,сред,неод=твор,ед|и=S,сред,неод=т вор,мн|и=S,сред,неод=пр,ед|и=S,сред,неод=пр,мн|и=INTJ=|и=CONJ=} легкий{легкий=A=им,ед,муж|легкий=A=вин,ед,муж,неод} запах{запах=S,муж,неод=им,ед|запах=S,муж,неод=вин,ед|запах=S,муж,неод=и м,ед|запах=S,муж,неод=вин,ед|запахнуть=V,сов=прош,ед,изъяв,муж} духов{духов=A=им,ед,муж|духов=A=вин,ед,муж,неод|дух=S,муж,неод=род,мн |дух=S,муж,од=род,мн|дух=S,муж,од=вин,мн|духи=S,мн,муж,неод=род} Проблемы морфологической разметки Системная омонимия: омоформы стандартные «утомляющие» типы омонимии, не снимаемые без синтаксического анализа, но очень легко снимаемые вручную, например, им. и вин. сущ., прилагательные глаг. и прилаг, неизменяемые сущ. Более сложные случаи омонимии наречия (местоимения) vs. союзы случаи неразрешимой омонимии: род и вин. м.р. при отрицании «сложные случаи»: наречия vs. частицы, наречия vs. вводные слова Проблемы морфологической разметки Идиоматизация (сборка оборотов) Аналитические формы буду писать Сложные союзы, предлоги и т.п. как бы, потому что, в случае, с помощью, по крайней мере сокращения и т.п. Терминологические словосочетания железная дорога Разрывные союзы не только, но и Основные этапы морфологической разметки в BNC A. B. C. D. E. F. Tokenization Initial tag assignment Tag selection (disambiguation) Idiomtagging Template Tagger Postprocessing: including Ambiguity tagging Краткий обзор основных методов разметки SUPERVISED UNSUPERVISED selection of tagset/tagged corpus induction of tagset using untagged training data creation of dictionaries using tagged corpus induction of dictionary using training data calculation of disambiguation tools. may include: induction of disambiguation tools. may include: word frequencies word frequencies affix frequencies affix frequencies tag sequence probabilities tag sequence probabilities "formulaic" expressions tagging of test data using dictionary information tagging of test data using induced dictionaries disambiguation using statistical, hybrid or rule based approaches disambiguation using statistical, hybrid or rule based approaches calculation of tagger accuracy calculation of tagger accuracy Морфологическая разметка Введение Примеры Проблемы и задачи Основные этапы Основные методы Морфологическая разметка Пример 1. Spoken English Corpus Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1NP0; shouting&VVG; that&CJT; she&PNP; better&AV0; dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF; clean&AJ0; breeches&NN2; and&CJC; polish&VVB; her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP; 'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0; match&NN1; that&DT0; afternoon&NN Список используемых морфологических тэгов AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun NP0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO0: infintive to VBI: be VM0: modal auxiliary VVB: base form of lexical verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb VVN: past participle form of lexical verb Морфологическая разметка Пример 2. Тюбингенский корпус русского языка шофер/substantiv_masc_sg_nom_bel бегал/verb_finit_prt_0_sg_masc_nref_ipf куда-то/adverb ремонтировать/verb_infinitiv_nref_ipf тягу/substantiv_fem_sg_akk_unb ,/satzzeichen_komma а/konj_koor чекист/substantiv_masc_sg_nom_bel Морфологическая разметка Пример 3. Национальный корпус русского языка <s>Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин} духов{духи=S,муж,неод,мн=род} Морфологическая разметка Пример 3. Национальный корпус русского языка <w><ana lex="по" gr="PR"/>По</w> <w><ana lex="сад" gr="S m inan sg at"/>с`аду</w> <w><ana lex="можно” gr="PRAEDIC"/> м`ожно</w> <w><ana lex="гулять" gr="V ipf intr act inf act"/>гул`ять</w> <w><ana lex="час" gr="S m inan pl ins"/>час`ами</w>