Модели дистрибутивной семантики в лексической типологии Даша Рыжова Маша Кюсева 23.01.2015 Лексическая типология: Фреймовый подход Идеология • Значение через призму сочетаемости • Восходит к традициям МСШ (Апресян 1974) Значение = сочетаемость: Глубокий колодец Глубокая симпатия Глубокая река Глубокое впечатление Глубокая тарелка Глубокое горе глубокий + ‘контейнер’ => размер глубокий + ‘эмоция’ => интенсификация Расширение в типологию: списки словосочетаний (окно +1) English Deep well Russian Глубокий колодец Deep river Deep sympathy Deep grief Deep blue Глубокая река Глубокая симпатия Глубокое горе - *глубокий синий Deep red - *deep old age - *deep autumn - *глубокий красный Глубокая старость Глубокая осень … … Типологическая анкета Situations ‘deep well’ ‘deep river’ ‘deep sympathy’ ‘deep grief ’ ‘deep blue’ ‘deep red’ ‘extreme old age’ ‘late autumn’ … English deep deep deep deep deep deep -deep -deep Russian глубокий глубокий глубокий глубокий -глубокий -глубокий глубокий глубокий French profond profond profond profond profond profond profond -profond Типологическая анкета: ‘острый’ ‘острый нож’ ‘острый меч’ ‘острая сабля’ ‘острая иголка’ ‘острая стрела’ ‘острый нос’ ‘острый локоть’ ‘острый клюв’ ‘колючий куст’ ‘колючая борода’ ‘колючее одеяло’ русский острый 1 1 1 1 1 1 1 1 0 0 0 китайский венгерский jianrui szuros 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 1 французский pointu tranchant 0 1 0 1 0 1 1 0 1 0 1 0 1 0 1 0 0 0 0 0 0 0 сербский oštar 1 1 1 1 1 1 1 1 1 1 1 Фреймы ‘острый нож’ ‘острый меч’ ‘острая сабля’ ‘острая иголка’ ‘острая стрела’ ‘острый нос’ ‘острый локоть’ ‘острый клюв’ ‘колючий куст’ ‘колючая борода’ ‘колючее одеяло’ русский острый 1 1 1 1 1 1 1 1 0 0 0 китайский венгерский jianrui szuros 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 1 французский pointu tranchant 0 1 0 1 0 1 1 0 1 0 1 0 1 0 1 0 0 0 0 0 0 0 сербский oštar 1 1 1 1 1 1 1 1 1 1 1 Фреймы: база для сравнения Режущие инструменты (‘нож’, ‘меч’, ‘бритва’) oštar Serbian tranchant Колющие инструменты (‘игла’, ‘стрела’) aigu Острая форма (‘нос’, ‘локоть’) pointu Колючие поверхности (‘куст’, ‘борода’, ‘одеяло’) piquant French Гипотеза Фреймы универсальны Фреймовая структура поля должна как-то проявляться в каждом языке Словосочетания из одного фрейма должны появляться в более близких (похожих) контекстах, чем словосочетания из разных фреймов Векторные модели • Хороший способ проверки гипотезы • Если будут хорошо себя вести, их можно будет использовать для автоматизации тех или иных этапов лексико-типологического исследования Что сделано в магистратуре: • Показано, что векторные модели ведут себя неплохо • Предпринята попытка с их помощью частично автоматизировать процесс составления анкеты Что сделано (и делается) сейчас: • Верификация результатов на другом типологическом материале • Подбор оптимальных для наших задач параметров векторных моделей Векторные модели (= модели дистрибутивной семантики = DSModels) в лексической типологии Суть экспериментов: • Два типа данных: • Типологические (собраны вручную, «Золотой стандарт») • Векторные модели (считаются автоматически) • Между двумя наборами данных – коэффициент корреляции Пирсона Золотой стандарт: Типологически ориентированная база данных признаковой лексики • Коллекция типологических анкет (~ для 20 признаковых полей) • Анкеты заполнены материалами разных языков (5-25 языков на каждую анкету) • Для каждой строки анкеты дополнительно указывается: • К какому семантическому полю относится • Какой фрейм иллюстрирует (+ прямой vs. переносный) Золотой стандарт: данные • • • • • 15 языков, 33 лексемы • 150 строк в анкете • 34 фрейма (из них 4 прямых) • Поле ‘острый’ Поле ‘гладкий’ 9 языков, 32 лексемы 89 строк в анкете 22 фрейма (из них 11 прямых) Метрика типологической близости ‘острый нож’ ‘острый меч’ ‘острая сабля’ ‘острая иголка’ ‘острая стрела’ ‘острый нос’ ‘острый локоть’ ‘острый клюв’ ‘колючий куст’ ‘колючая борода’ ‘колючее одеяло’ русский острый 1 1 1 1 1 1 1 1 0 0 0 китайский венгерский jianrui szuros 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 1 Мера близости - косинус французский pointu tranchant 0 1 0 1 0 1 1 0 1 0 1 0 1 0 1 0 0 0 0 0 0 0 сербский oštar 1 1 1 1 1 1 1 1 1 1 1 Метрика типологической близости ‘острый нож’ ‘острый меч’ ‘острая сабля’ ‘острая иголка’ ‘острая стрела’ ‘острый нос’ ‘острый локоть’ ‘острый клюв’ ‘колючий куст’ ‘колючая борода’ ‘колючее одеяло’ русский острый 1 1 1 1 1 1 1 1 0 0 0 китайский венгерский jianrui szuros 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 1 Мера близости – косинус французский pointu tranchant 0 1 0 1 0 1 1 0 1 0 1 0 1 0 1 0 0 0 0 0 0 0 сербский oštar 1 1 1 1 1 1 1 1 1 1 1 Золотой стандарт (типологическая близость) Строка анкеты 1 Строка анкеты 2 Метрика близости ‘острый нож’ ‘острый меч’ 1 ‘острый нож’ ‘острая сабля’ 1 ‘острый нож’ ‘острая игла’ 0,42 ‘острый нож’ ‘острое копьё’ 0,53 ‘острый нож’ ‘острый нос’ 0,4 ‘острый нож’ ‘острый локоть’ 0,5 ‘острый нож’ ‘острый клюв’ 0,45 ‘острый нож’ ‘острый соус’ 0,4 ‘острый нож’ ‘острый перец’ 0,4 Векторные модели • Только русский материал • Словосочетания, соответствующие строкам анкеты, и их векторные представления Микрофрейм Словосочетание ‘острый нож’ острый нож ‘острая игла’ острая игла ‘колючий куст’ колючий куст Векторные модели: неизменяемые параметры • Окно: ±5 знаменательных слов • Измерения: 10 000 самых частотных знаменательных слов • Значения измерений: частота совместной встречаемости • Мера близости: косинус Векторные модели: переменные параметры • Объём (и жанровая характеристика) корпуса • Тип вектора: наблюдаемый vs. скомпонированный • Модель взвешивания • Фреймы прямых vs. переносных значений Сравнение данных (оценка параметров векторной модели) • Корреляция Пирсона: • Типологические вектора (косинусы) • Вектора сочетаемости (косинусы) типология Вектора сочетаемости ‘острый нож’ ‘острый меч’ острый нож острый меч ‘острый нож’ ‘острый меч’ 1 0,99 Объём и жанр текстов корпуса объём жанр корреляция Пирсона ‘острый' ‘гладкий' 0.057 -0.04 200 mln публиц. (газ. НКРЯ) 220 mln сбаланс. (осн. НКРЯ) 0.086 0.079 440 mln осн. + газ. НКРЯ 0.086 0.061 1 mlrd интернет-тексты (РУВАК) 0.087 0.052 1,2 mlrd газ. НКРЯ + РУВАК 0.089 0.052 1,22 mlrd осн. НКРЯ + РУВАК 0.088 0.074 1,44 mlrd все вместе 0.09 0.073 Тип вектора: наблюдаемый vs. компонированный ‘гладкий’ ‘острый’ observed 0.079 0.086 WeightedAdditive 0.346 0.319 Multiplicative 0.357 0.238 Dilation WeightedAdditive with training 0.296 0.207 0.589 0.443 0.296 0.207 осн.НКРЯ Dilation with training Взвешивание ‘гладкий’ ‘острый’ - 0.589 0.443 plog 0.477 0.387 epmi 0.59 0.462 Weighted ppmi Additive with thraining plmi 0.604 0.42 0.603 0.443 Прямые vs. переносные значения ‘гладкий’ plmi ppmi epmi все фреймы только прямые все фреймы только прямые все фреймы только прямые все фреймы только прямые ‘острый’ 0.589 0.849 0.603 0.791 0.604 0.905 0.59 0.865 0.443 0.754 0.443 0.762 0.42 0.764 0.462 0.763 Выводы • Лучший набор параметров: • Основной подкорпус НКРЯ • Композиция: сумма с тренировкой • Модель взвешивания: ppmi • Векторные модели лучше «берут» прямые значения • Для двух различных семантических полей – одни и те же закономерности Планы на ближайшее будущее • Другие части речи (для начала – одноместные глаголы)