Lect_morph1

реклама
Автоматическая обработка
текста
Лекция 5
Автоматический
морфологический анализ
Часть 1
Автматический морфологический
анализ





Введение
Примеры
Проблемы и задачи
Основные этапы и модули
Основные методы
Морфологическая разметка:
проблемы и задачи
Запрос:

Анализ новостного потока
Ответ поисковой системы:
Анализ методов кластеризации новостного потока © Кондратьев Михаил Е.
Санкт-Петербургский Государственный Университет Mikhail.Kondratyev@sun.com.
Аннотация В работе анализируется ряд алгоритмов кластеризации новостной
коллекции и приводится..
Эффективный анализ новостных информационных потоков в Интернет
Программа интернет-трейдинга для работы на FOREX. Включает систему
торговли, технический анализ и новостной поток агентства Dow Jones.
Запрос:
Съемки фотографий в условиях города.
Фотография, съемка, фотографическая, съемок
Даже простой поиск в Интернете не может обойтись без
морфологического анализа, тем более, поиск в корпусе:
Морфологическая разметка
 Введение
 Проблемы
и задачи
 Основные этапы
 Основные методы
Морфологическая разметка:
проблемы и задачи

Аннотация: каждой единице
соответствующего лингвистического уровня
приписывается тег (набор характеристик)
 Бывают ли единицы без тэгов?
Пример 1.
Поезд ИР-276 движется со скоростью 180 км/ч по 3-ему
пути
Морфологическая разметка:
проблемы и задачи

Морфологическая разметка: каждому
словоупотрблению – морфологический тег

что считать одним словоупотрбелнием?
Пример 2. Найти предложения, которые начинаются с
конструкции ‘глагол + сущ. в им. п. типа Посадил дед репку
Пример в выдаче:
Т.е. письмо отправлено накануне
Морфологическая разметка:
проблемы и задачи
Поиск по корпусу. Пример 3.
Как употребляется в русском языке глагол стать?
1) ПРИЧЕМ, что важно, доходы стали больше у всех.
2) Поэтому 5% бедных сумели преодолеть черту бедности и
перешли в разряд низкообеспеченных, которых теперь стало 29%.
3) Он стал "толще" на 3%. А всего середняков — 22%.
4) Завод должен будет производить до 4,4 млн тонн стали в год.
5) Он будет состоять из двух доменных печей, сталелитейного
завода с двумя конверторами и двумя установками непрерывной
разливки стали.
Морфологическая разметка:
проблемы и задачи
Пример 4. Поиск по корпусу кратких прилагательных
Первые результаты, выданные по запросу, из корпуса с неснятой омонимией:
1) Подлесова Ирина. [Ирина Подлесова. Рабочих удерживали на буровой насильно
// "Известия", 2002.07.14]
2) В воскресенье рабочие, которых несколько суток безуспешно разыскивали
спасатели МЧС, самостоятельно вышли к одному из населенных пунктов на
севере Омской области. [Ирина Подлесова. Рабочих удерживали на буровой насильно
// "Известия", 2002.07.14]
3) Рабочие-вахтовики Анатолий Кисин и Азот Сариснудян исчезли со своей
буровой еще 9 июля. [Ирина Подлесова. Рабочих удерживали на буровой насильно //
"Известия", 2002.07.14]
4) — Об исчезновении людей стало известно сразу, — рассказал "Известиям"
оперативный дежурный управления по ГО и ЧС по Омской области Павел Горобец.
— На поиски были направлены 6 спасателей из Омской поисково-спасательной
службы, подключили местных жителей.
Морфологическая разметка:
проблемы и задачи
Поиск по корпусу. Пример 5.
Как употребляется в русском языке
вопросительное местоимение что?
1) Он мне ничего не ответил, потому что не знал
2) Что он ничего не отвечает
3) Откуда я знаю , что он говорит?
4) Я с детства знаю, что жалость унижает человека, но
сейчас я с этим не согласен.
Морфологическая разметка:
проблемы и задачи
Поиск по корпусу. Пример 6.
Выяснить, различается ли семантика глагола знать
в разных временах?
1) Он об этом не будет знать
2) Будем знать
Основные типы
морфологической обработки


нормализация словоформ (лемматизация), т.е. сведение различных
словоформ к некоторому единому представлению - к исходной форме,
или лемме);
стемминг - другой вид нормализации, когда разные словоформы
приводятся к одной основе, точнее "псевдооснове" (для некоторых
задач, включая поиск в интернете, достаточно приведения к одной
основе различных дериватов; например, прилагательное фотографический
и существительное фотография могут быть приведены к одной основе,
так как пользовательскому запросу будут удовлетворять и документы,
содержащие словосочетание фотографический портрет, и документы,
содержащие словосочетание портретная фотография)

частеречная аннотация (pos-tagging), т.е. указание части речи для
каждой словоформы в тексте)




полный морфологический анализ - приписывание грамматических
характеристик словоформе (например, в цепочке словоформ по берегу
реки словоформе берегу будут приписаны следующие грамматические
характеристики: сущ., неодушевленное, мужского р., единственного
числа, дательного падежа)
дизамбигуация - разрешение морфологической омонимии
Основные проблемы, связанные с любым типом морфологического
анализа - это морфологическая омонимия (ср. предложение Эти типы
стали есть в цехе, где стали может быть формой глагола стать и формой
существительного сталь)
«предсказатель»: анализ новых, редких слов или окказионализмов.
Морфологическая разметка:
проблемы и задачи
Для точности и полноты поиска необходима
лемматизация (нормализация)
 морфологическая разметка
 снятие лексической омонимии (ср. уж – Уж
свернулся кольцом – Уж небо осенью дышало)
 снятие морфологической омонимии (бившим в
лицо)
 Сложные конструкции и аналитические формы
(потому что, будет писать, не только …, но и)

Морфологическая разметка: проблемы и задачи

Задача:


дать возможность пользователю работать с
корпусом со снятой морфологической омонимией
Проблемы:
ручная разметка очень трудоемка (на снятие
омонимии в корпусе объемом 5 млн
словоупотреблений ушло несколько лет), а объем
корпуса больше 100 млн
 при автоматическом алгоритмическом снятии
омонимии относительно высокий процент ошибок
неизбежен

Морфологическая разметка
 Введение
 Примеры
 Проблемы
и задачи
 Основные этапы
 Основные методы
Морфологическая разметка: основные шаги
токени
зация
с помощью дисперсионного анализа ( ANOVA) Фридмана
помощью
с
дисперсионного
с_
Снятие
омон.
Идиома
тизация
ANOVA
словарь
Лемматизация
Первич
н морф
анализ
анализа
ПРЕД
помощь
С,жр,но=
Ед,тв
ПРЕД
С,жр,но=
Ед,тв
дисперси
онный
П=мр,ед,рд|
П=ср,ед,рд
анализ
С,мр,но=
ед,рд
П=мр,ед,рд|
{??|anova?
Програм
С=мр/жр/ср?,мн
ма
,ед,им,рд,дт,вн,т
в,пр,од/но?
С,мр,но=
ед,рд
<ob>c помощью{с_помощью=ПРЕД}</ob>
Разме
тчик
Результат морфологической разметки
<gr type="ПГ" mw="4"><ob>
с помощью{с_помощью=ПРЕД}</ob>
<gr type="П+С"mw="8">
рангового{ранговый=П=мр,ед,рд}
дисперсионного{дисперсионный=П=мр,ед,рд}
анализа{анализ=С,мр,но=ед,рд}
</gr>
</gr>
(ANOVA) Фридмана{Фридман=С,фам,мр,од=ед,рд}
Морфологическая разметка:
предварительный анализ примера

Пример: Следующий его пример основан на данных,
представленных Siegel (1956, стр.233), и
анализируется также с помощью предварительного
тэгинга.
Морфологическая разметка: проблемы и задачи
Токенизация
Слова с дефисом:
1) по-моему, по-пушкински,
2) Петербургу-Петрограду-Ленинграду,
3) бело-желтым, штабс-капитана, удовлетворенносмущенное, штабс-капитан
Числа, "шаблоны": 1945г., тел. 555-33-22
сокращения: г., вв. и т.п. ст.
особенности расстановки стилей:
разрядка: Д О Л Г О
дополнительные "внутрисловные" знаки:
м-е-е-е-дленно, о'key, he's
знаки препинания
вкрапления другого алфавита
Проблемы морфологической разметки
Лемматизация
Запрос:
Организации, выдающие документы
Ответы:
Предприятия, учреждения и организации могут выдавать копии
имеющихся у них документов, исходящих от других предприятий,
учреждений и организаций
Давайте посмотрим, какие документы должны быть выданы
подотчетному лицу, оплачивающему товары (работы, услуги) от имени
организации-покупателя по доверенности.
Документы выдаются организациями, …
Проблемы морфологической разметки
Лемматизация

Какая лемма у следующих словоформ:
вице-президента
 Моряки-подводники
 начлага
 данные
 Управляемого
 Давайте-ка
 Тыс.
 Прибывали
 Строю
 Скока (разг. от сколько)

Проблемы морфологической разметки
Лемматизация





Морфонологические чередования (внутренняя флексия):
лечь / лягу; лев / льва
Супплетивизм
я - мне; хороший - лучше; быть - есть
К какой исходной основе мы будем приводить данную
словоформу
Например: пары глаголов
исходная форма и страдательный залог на –ся
(строить – строиться),
подписать - подписывать
причастия – как отдельная лемма или вместе с глаголом
отглагольные прилагательные
Проблемы морфологической разметки
Незнакомые слова
имена собственные (Лаврушинском, из нас
Ай-Петри , а кто Чатыр-Даг, Кыргызстан)
 сложные слова (авиабомбами, многочленистая)
 Сокращения (ДДТ, ПО)

построение гипотез:
{??|anova?
=мр/жр/ср?,мн,ед,им,рд,дт,вн,тв,пр,од/но}

Морфологическая разметка: проблемы и задачи
Омонимия
Я сидел на барском сиденье, дышал горячим
ветром, бившим в лицо, ощущая в то же время
не истребимую никакими сквозняками пыль и
легкий запах духов …. (Ю. Трифонов) см.
На 25
словоформ –
15 омонимичны,
из них только 5 имеют по 2 возможных аннотации,
у остальных больше 2-х
Проблемы морфологической разметки
Омонимия
Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая
в то же время не истребимую никакими сквозняками пыль и легкий запах
духов -- катафалк с хорошей скоростью мчался по шоссе на юг.
(Ю. Трифонов)
{\s}Я{я=S,сред,неод=им,ед|я=S,сред,неод=им,мн|я=S,сред,неод=род,ед|я=S,сред,
неод=род,мн|я=S,сред,неод=дат,ед|я=S,сред,неод=дат,мн|я=S,сред,неод=вин,е
д|я=S,сред,неод=вин,мн|я=S,сред,неод=твор,ед|я=S,сред,неод=твор,мн|я=S,ср
ед,неод=пр,ед|я=S,сред,неод=пр,мн|я=S,ед,од=им,жен|я=S,ед,од=им,муж}
сидел{сидеть=V,несов=прош,ед,изъяв,муж} на{на=PART=|на=PR=}
барском{барский=A=пр,ед,муж|барский=A=пр,ед,сред}
сиденье{сиденье=S,сред,неод=им,ед|сиденье=S,сред,неод=вин,ед|сиденье=S,с
ред,неод=пр,ед}, дышал{дышать=V,несов=прош,ед,изъяв,муж}
горячим{горячий=A=дат,мн|горячий=A=твор,ед,муж|горячий=A=твор,ед,сре
д|горячее=S,ед,сред,неод=твор|горячить=V,несов=непрош,ед,прич,кр,муж,стра
д|горячить=V,несов=непрош,мн,изъяв,1-л}
ветром{ветер=S,муж,неод=твор,ед},
бившим{бить=V,несов=прош,дат,мн,прич|бить=V,несов=прош,твор,ед,прич,
муж|бить=V,несов=прош,твор,ед,прич,сред} в{в=PR=}
лицо{лицо=S,сред,неод=им,ед|лицо=S,сред,неод=вин,ед|лицо=S,сред,од=им,е
д|лицо=S,сред,од=вин,ед},
ощущая{ощущать=V=непрош,деепр,несов} в{в=PR=}
то{то=CONJ=|тот=A=им,ед,сред|тот=A=вин,ед,сред|то=S,ед,сред,неод=им|т
о=S,ед,сред,неод=вин}
же{же=PART=|же=S,сред,неод=им,ед|же=S,сред,неод=им,мн|же=S,сред,неод
=род,ед|же=S,сред,неод=род,мн|же=S,сред,неод=дат,ед|же=S,сред,неод=дат,м
н|же=S,сред,неод=вин,ед|же=S,сред,неод=вин,мн|же=S,сред,неод=твор,ед|же
=S,сред,неод=твор,мн|же=S,сред,неод=пр,ед|же=S,сред,неод=пр,мн|же=CONJ
=} время{время=S,сред,неод=им,ед|время=S,сред,неод=вин,ед}
не{не=PART=} истребимую{истребимый=A=вин,ед,жен}
никакими{никакой=A=твор,мн} сквозняками{сквозняк=S,муж,неод=твор,мн}
пыль{пыль=S,ед,жен,неод=им|пыль=S,ед,жен,неод=вин}
и{и=PART=|и=S,сред,неод=им,ед|и=S,сред,неод=им,мн|и=S,сред,неод=род,е
д|и=S,сред,неод=род,мн|и=S,сред,неод=дат,ед|и=S,сред,неод=дат,мн|и=S,сре
д,неод=вин,ед|и=S,сред,неод=вин,мн|и=S,сред,неод=твор,ед|и=S,сред,неод=т
вор,мн|и=S,сред,неод=пр,ед|и=S,сред,неод=пр,мн|и=INTJ=|и=CONJ=}
легкий{легкий=A=им,ед,муж|легкий=A=вин,ед,муж,неод}
запах{запах=S,муж,неод=им,ед|запах=S,муж,неод=вин,ед|запах=S,муж,неод=и
м,ед|запах=S,муж,неод=вин,ед|запахнуть=V,сов=прош,ед,изъяв,муж}
духов{духов=A=им,ед,муж|духов=A=вин,ед,муж,неод|дух=S,муж,неод=род,мн
|дух=S,муж,од=род,мн|дух=S,муж,од=вин,мн|духи=S,мн,муж,неод=род}
Проблемы морфологической разметки
Системная омонимия: омоформы

стандартные «утомляющие» типы омонимии,
не снимаемые без синтаксического анализа,
но очень легко снимаемые вручную, например,




им. и вин. сущ., прилагательные
глаг. и прилаг,
неизменяемые сущ.
Более сложные случаи омонимии
 наречия


(местоимения) vs. союзы
случаи неразрешимой омонимии: род и вин. м.р.
при отрицании
«сложные случаи»: наречия vs. частицы, наречия
vs. вводные слова
Проблемы морфологической разметки
Идиоматизация (сборка оборотов)





Аналитические формы
буду писать
Сложные союзы, предлоги и т.п.
как бы, потому что, в случае, с помощью,
по крайней
мере
сокращения и т.п.
Терминологические словосочетания
железная дорога
Разрывные союзы
не только, но и
Основные этапы
морфологической разметки в BNC
A.
B.
C.
D.
E.
F.
Tokenization
Initial tag assignment
Tag selection (disambiguation)
Idiomtagging
Template Tagger
Postprocessing: including Ambiguity tagging
Краткий обзор основных методов
разметки
SUPERVISED
UNSUPERVISED
selection of tagset/tagged corpus
induction of tagset using untagged
training data
creation of dictionaries using tagged
corpus
induction of dictionary using training
data
calculation of disambiguation tools.
may include:
induction of disambiguation tools.
may include:
word frequencies
word frequencies
affix frequencies
affix frequencies
tag sequence probabilities
tag sequence probabilities
"formulaic" expressions
tagging of test data using dictionary
information
tagging of test data using induced
dictionaries
disambiguation using statistical,
hybrid or rule based approaches
disambiguation using statistical,
hybrid or rule based approaches
calculation of tagger accuracy
calculation of tagger accuracy
Морфологическая разметка
 Введение
 Примеры
 Проблемы
и задачи
 Основные этапы
 Основные методы
Морфологическая разметка
Пример 1. Spoken English Corpus
Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0;
bottom&NN1; of&PRF; the&AT0; lorries&NN2;
with&PRP; straw&NN1; to&TO0; protect&VVI;
the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN;
suddenly&AV0; heard&VVD-VVN; Alejandro&NN1NP0; shouting&VVG; that&CJT; she&PNP; better&AV0;
dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF;
clean&AJ0; breeches&NN2; and&CJC; polish&VVB;
her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP;
'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0;
match&NN1; that&DT0; afternoon&NN
Список используемых морфологических тэгов
AJ0: general adjective
AT0: article, neutral for number
AV0: general adverb
AVP: prepositional adverb
CJC: co-ordinating conjunction
CJS: subordinating conjunction
CJT: that conjunction
DPS: possessive determiner
DT0: singular determiner
NN0: common noun, neutral for
number
NN1: singular common noun
NN2: plural common noun
NP0: proper noun
POS: genitive marker
PNP: pronoun PRF: of
PRP: prepostition
PUN: punctuation
TO0: infintive to
VBI: be
VM0: modal auxiliary
VVB: base form of lexical verb
VVD: past tense form of lexical
verb
VVG: -ing form of lexical verb
VVI: infinitive form of lexical verb
VVN: past participle form of
lexical verb
Морфологическая разметка
Пример 2. Тюбингенский корпус русского языка
шофер/substantiv_masc_sg_nom_bel
бегал/verb_finit_prt_0_sg_masc_nref_ipf
куда-то/adverb
ремонтировать/verb_infinitiv_nref_ipf
тягу/substantiv_fem_sg_akk_unb
,/satzzeichen_komma
а/konj_koor
чекист/substantiv_masc_sg_nom_bel
Морфологическая разметка
Пример 3. Национальный корпус русского языка
<s>Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж}
на{на=PR} барском{барский=A=ед,сред,пр}
сиденье{сиденье=S,сред,неод=ед,пр},
дышал{дышать=V,несов=изъяв,прош,ед,муж}
горячим{горячий=A=ед,муж,твор}
ветром{ветер=S,муж,неод=ед,твор},
бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR}
лицо{лицо=S,сред,неод=ед,вин},
ощущая{ощущать=V=несов,деепр,непрош} в{в=PR}
то{тот=A=ед,сред,вин} же{же=PART}
время{время=S,сред,неод=ед,вин} не{не=PART}
истребимую{истребимый=A=ед,жен,вин}
никакими{никакой=A=мн,твор}
сквозняками{сквозняк=S,муж,неод=мн,твор}
пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ}
легкий{легкий=A=ед,муж,вин,неод}
запах{запах=S,муж,неод=ед,вин} духов{духи=S,муж,неод,мн=род}
Морфологическая разметка
Пример 3. Национальный корпус русского языка
<w><ana lex="по" gr="PR"/>По</w>
<w><ana lex="сад" gr="S m inan sg at"/>с`аду</w>
<w><ana lex="можно” gr="PRAEDIC"/> м`ожно</w>
<w><ana lex="гулять" gr="V ipf intr act inf
act"/>гул`ять</w>
<w><ana lex="час" gr="S m inan pl ins"/>час`ами</w>
Скачать