Слово Лексемы, словоформы, леммы 1 Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов» «До реформы орфографии это слово писалось с ером» «Это слово мне незнакомо» «Лексический минимум первого года обучения – тысяча слов» 2 Словоупотребление – единица (письменного) текста «В этом стихотворении ровно сто слов» Словоупотребление: последовательности символов в тексте, отделенные друг от друга пробелами и знаками препинания (и другими разделителями) 3 Также (word) token, единица измерения корпусов Словоупотребление 4 Чем больше количество словоупотреблений, тем представительнее корпус Word per million, occurences per million, incidence per million – частотная характеристика исследуемого феномена в корпусе Также – например, измерение скорости речи Словоформа «До реформы орфографии это слово писалось с ером на конце» «Второго слова в пятой строчке стихотворения Катулла я разобрать не смог – вот оно же в шестой» Wordform, word form, форма слова В простом случае – последовательность букв Но где? Не в тексте, а «в голове» 5 Словоформа 6 В более сложном случае – последовательность фонем или «звуков» или звукотипов (ментальных символов хранения словесных артикуляций по СВК) Также, например, единица измерения словника (например, пока неизвестного) языка: конкорданса, симфонии Словоформа Словоформа: абстрактная единица, по отношению к которой конкретные идентичные словоупотребления являются контекстными реализациями NB: каждой словоформе можно сопоставить исходную форму слова + набор грамматических категорий 7 Лексема «Лексический минимум первого года обучения – тысяча слов» 8 Топор, топора, топору... топоры, топоров, топорам... – что можно сказать про значение этих «слов» эти «слова» имеют одинаковое лексическое значение, различаясь лишь грамматическими значениями Лексическое и грамматическое значение Топор, топорик, топорный – что можно сказать про значения этих «слов» - эти слова имеют разное лексическое значение (при этом два первых слова имеют одинаковое грамматическое значение) 9 Лексема Лексема: абстрактная единица, соответствующая множеству всех морфологически связанных друг с другом (принадлежащих одной парадигме) словоформ с одинаковым лексическим значением 10 Summary 11 Словоупотребление – единица текста Словоформа – единица грамматики, абстрактная совокупность (~тождественных) словоупотреблений Лексема – единица словаря, абстрактная совокупность ~родственных словоформ Лексема – единица словаря «Лексический минимум первого года обучения – тысяча слов» Lexical item, словарный вход Хаспельмат: пользователь словаря не ожидает найти в словаре слово sleeps, но ожидает найти там слово sleep Однако определение через словарь для нелингвиста (дан словарь) 12 Лексема – единица словаря 13 Оно также зависит от структуры словаря – sleeplessly отдельная лексема, но в словаре в статье sleepless Что попадает в словаре в разные статьи, а что в одну? Отчасти типографский вопрос (связано также с лексикографической традицией: ср. арабские словари) Также коррелирует с вопросом о структуре ментального лексикона (как слова хранятся в мозге) Лексическое значение 14 Различие между грамматическим и лексическим значениями кажется интуитивно ясным Топор, топора, топору... топоры, топоров, топорам... Топор, топорик, топорный Однако мы уже знаем, что набор грамматических значений изменяется от языка к языку Грамматическое значение (preview) Значит, для каждого языка определение того, что в нем является грамматическим, должно осуществляться заново Якобсон (о Боасе): грамматическое – это то, что говорящий на языке не может не выразить. В русском языке у существительных грамматическое значение – число, падеж лексическое значение – уменьшительность 15 Как это связано со словоизменением и словообразованием? 16 Словоизменение – остаемся в пределах одной лексемы Словообразование – связь между лексемами Традиционно – разные части речи не могут принадлежать одной лексеме, однако... ... проблема абсолютно продуктивных дериваций (например, причастия) Обязательность как критерий грамматического Основная проблема – грамматологический подход (обязательность) vs. многие другие подходы, в том числе экспериментальный (продуктивность) Все обязательное продуктивно, но не все продуктивное обязательно Одно из возможных решений – развести грамматическое и словоизменительное (последнее может быть шире) 17 Парадигма Парадигма (в узком смысле) – определенным образом упорядоченный набор словоформ, объединенных общим лексическим значением (т.е. принадлежащих одной лексеме). [Впрочем, иногда говорят и о слообразовательной парадигме определенной лексемы, например: приставочная парадигма глагольной основы (с какими приставками основа сочетается)] 18 Лексема ~ словоформа 19 В этом смысле утверждение Хаспельмата: словоформа эквивалентна паре лексема + набор грамматических значений «Простейшая» задача автоматического анализа текста) – по словоформе получить лексему и набор грамматических значений; по лексеме и набору грамматических значений построить лексему Лемма 20 Лексема – это не начальная форма. Она соответствует не словарному входу, а словарной статье Словарная статья – описывает лексему Начальная форма (лемма) – называет ее Лемма Также: начальная форма, исходная форма Чтобы назвать лексему, неудобно перечислять все входящие в нее словоформы Вместо этого чаще всего используется одна из словоформ. Какая? у существительных? у глаголов? Выбор в значительной степени произволен Теоретически может использоваться и не словоформа, а основа – но это менее удобно нелингвисту 21 Лемма vs. Начальная форма 22 Термин «лемма» в лингвистике имеет легкий компьютерный привкус (лемматизация и т.д) Под начальными или исходными формами иногда также понимают опорные формы – набор форм, однозначно задающих словоизменительный тип данной лексемы В этом случае понятия исходной (начальной) формы и леммы могут оказываться различными Family metaphor 23 Представим себе фотоальбом Конкретные изображения людей на фотографиях ~ словоупотребление Люди, принадлежащие одной семье ~ «родственные» словоформы Лексема – это семья Лемма – это фамилия Омофоны – полные тезки Парадигма – генеалогическое древо Семинар и чтение 24 Зализняк: РИС, Глава 1 Обсуждение определения Хаспельмата и его проблем Подсчет словоупотреблений, словоформ, лексем «Почему не говорят?» 25 Сложная загадка: почему не говорят, что словоформа – последовательность символов, которые могут встретиться между пробелами? (=зачем нужно определение Хаспельмата) Очень сложная загадка (contra Хаспельмат): почему не говорят, что словоформа – это лексема плюс (полный) набор грамматических значений? WPM 26 Один исследователь изучал историю лексемы L на материале НКРЯ. Для этого он посчитал количество вхождений всех словоформ L в тексты 18-го, 19-го и 20-го веков – получилось n1, n2 и n3, соответственно, причем n1 < n2 < n3 Исследователь сделал вывод, что частотность L со временем растет. Прокомментируйте этот вывод.