Слово Лексемы, словоформы, леммы 1

реклама
Слово
Лексемы, словоформы,
леммы
1
Проблема слова «слово»
Что называется словом в естественном
языке? Самые разные вещи:
 «В этом стихотворении ровно сто слов»
 «До реформы орфографии это слово
писалось с ером»
 «Это слово мне незнакомо»
 «Лексический минимум первого года
обучения – тысяча слов»
2
Словоупотребление – единица
(письменного) текста
«В этом стихотворении ровно сто слов»
Словоупотребление: последовательности
символов в тексте, отделенные друг от друга
пробелами и знаками препинания (и другими
разделителями)

3
Также (word) token, единица измерения
корпусов
Словоупотребление



4
Чем больше количество
словоупотреблений, тем
представительнее корпус
Word per million, occurences per million,
incidence per million – частотная
характеристика исследуемого феномена в
корпусе
Также – например, измерение скорости
речи
Словоформа
5
«До реформы орфографии это слово
писалось с ером на конце»
«Второго слова в пятой строчке
стихотворения Катулла я
проанализировать не смог – вот оно же в
шестой»
 Wordform, word form, форма слова
 В простом случае – последовательность
«символов»
Но где? Не в тексте, а «в голове»
Словоформа


6
Последовательность фонем или «звуков»
или звукотипов (ментальных символов
хранения словесных артикуляций) – в
зависимости от теории
Также, например, единица измерения
словника (например, пока неизвестного)
языка: конкорданса, симфонии
Словоформа

Словоформа: абстрактная единица, по
отношению к которой конкретные
идентичные словоупотребления
являются контекстными реализациями
NB: каждой словоформе можно
сопоставить исходную форму слова +
набор грамматических категорий
7
Лексема
«Лексический минимум первого года обучения
– тысяча слов»

8
Топор, топора, топору... топоры, топоров,
топорам... – что можно сказать про
значение этих «слов»
эти «слова» имеют одинаковое лексическое
значение, различаясь лишь
грамматическими значениями
Лексическое и грамматическое
значение

Топор, топорик, топорный – что можно
сказать про значения этих «слов»
- эти слова имеют разное лексическое
значение
(при этом два первых слова имеют
одинаковое грамматическое значение)
9
Лексема
Лексема: абстрактная единица,
соответствующая множеству всех
морфологически связанных друг с
другом (принадлежащих одной
парадигме) словоформ с
одинаковым лексическим значением
10
Summary



11
Словоупотребление – единица текста
Словоформа – единица грамматики,
абстрактная совокупность
(~тождественных) словоупотреблений
Лексема – единица словаря, абстрактная
совокупность ~родственных словоформ
Лексема – единица словаря
«Лексический минимум первого года
обучения – тысяча слов»
 Lexical item, словарный вход
 Хаспельмат: пользователь словаря не
ожидает найти в словаре слово sleeps, но
ожидает найти там слово sleep
 Однако определение через словарь для
нелингвиста (дан словарь)
12
Лексема – единица словаря




13
Оно также зависит от структуры словаря –
sleeplessly отдельная лексема, но в словаре в
статье sleepless
Что попадает в словаре в разные статьи, а что в
одну?
Отчасти типографский вопрос (связано также с
лексикографической традицией: ср. арабские
словари)
Также коррелирует с вопросом о структуре
ментального лексикона (как слова хранятся в мозге)
Лексическое значение


14
Различие между грамматическим и
лексическим значениями кажется интуитивно
ясным
Топор, топора, топору... топоры, топоров,
топорам...
Топор, топорик, топорный
Однако мы уже знаем, что набор
грамматических значений изменяется от
языка к языку
Грамматическое значение (preview)
Значит, для каждого языка определение того, что
в нем является грамматическим, должно
осуществляться заново
 Якобсон (о Боасе): грамматическое – это
то, что говорящий на языке не может не
выразить. В русском языке у существительных
грамматическое значение –
число, падеж
лексическое значение –
уменьшительность

15
Как это связано со словоизменением
и словообразованием?


16
Словоизменение – остаемся в пределах
одной лексемы
Словообразование – связь между
лексемами
Традиционно – разные части речи не могут
принадлежать одной лексеме, однако...
... проблема абсолютно продуктивных
дериваций (например, причастия)
Обязательность как критерий
грамматического


Основная проблема – грамматологический
подход (обязательность) vs. многие другие
подходы, в том числе экспериментальный
(продуктивность)
Все обязательное продуктивно, но не все
продуктивное обязательно
Одно из возможных решений – развести
грамматическое и словоизменительное
(последнее может быть шире)
17
Парадигма

Парадигма (в узком смысле) – определенным
образом упорядоченный набор словоформ,
объединенных общим лексическим значением
(т.е. принадлежащих одной лексеме).
[Впрочем, иногда говорят и о слообразовательной
парадигме определенной лексемы, например:
приставочная парадигма глагольной основы (с какими
приставками основа сочетается)]
18
Лексема ~ словоформа


19
В этом смысле утверждение Хаспельмата:
словоформа эквивалентна паре лексема +
набор грамматических значений
«Простейшие» задачи автоматического
анализа текста) – по словоформе
получить лексему и набор грамматических
значений; по лексеме и набору
грамматических значений построить
лексему
Лемма



20
Лексема – это не начальная форма. Она
соответствует не словарному входу, а
словарной статье в целом
Словарная статья – описывает лексему и
лексическое значение
Начальная форма (лемма) – называет ее
Лемма
Также: начальная форма, исходная форма
Чтобы назвать лексему, неудобно перечислять
все входящие в нее словоформы
 Вместо этого чаще всего используется одна из
словоформ. Какая?
у существительных? у глаголов?
 Выбор в значительной степени произволен
 Теоретически может использоваться и не
словоформа, а основа – но это менее удобно
нелингвисту

21
Лемма vs. Начальная форма



22
Термин «лемма» в лингвистике имеет легкий
компьютерный привкус (лемматизация и т.д)
Под начальными или исходными формами
иногда также понимают опорные формы –
набор форм, однозначно задающих
словоизменительный тип данной лексемы
В этом случае понятия исходной (начальной)
формы и леммы могут оказываться
различными
Family metaphor




23

Представим себе фотоальбом. Будем
считать, что семья – семейство людей – это
лексема. Тогда:
Конкретные изображения людей на
фотографиях ~ словоупотребление
Люди, принадлежащие одной семье ~
словоформы одной лексемы
Лемма – это фамилия
Омофоны – полные тезки
Парадигма – генеалогическое древо
Семинар и чтение



24
Зализняк: РИС, Глава 1
Обсуждение определения Хаспельмата и
его проблем
Подсчет словоупотреблений, словоформ,
лексем
«Почему не говорят?»


25
Сложная загадка: почему не говорят, что
словоформа – последовательность символов,
которые могут встретиться между пробелами?
(=зачем нужно определение Хаспельмата)
Очень сложная загадка (contra Хаспельмат):
почему не следует говорить, что словоформа –
это лексема плюс (полный) набор
грамматических значений?
WPM


26
Один исследователь изучал историю
лексемы L на материале НКРЯ. Для этого
он посчитал количество вхождений всех
словоформ L в тексты 18-го, 19-го и 20-го
веков – получилось n1, n2 и n3,
соответственно, причем n1 < n2 < n3
Исследователь сделал вывод, что
частотность L со временем растет.
Прокомментируйте этот вывод.
Скачать