Синтаксическая разметка в ХАНКО: проблемы и решения Михаил Копотев Отделение славистики и балтистики Хельсинский университет Mihail.Kopotev@helsinki.fi М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная лингвистика в России. 2003. С. 33-37. Копотев М.В. Гурин Г.Б. Принципы синтаксической разметки Хельсинкского аннотированного корпуса русских текстов ХАНКО // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции Диалог–2006, Москва: изд-во РГГУ, 2006, с. 280–284. М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Три типа разметки • грамматика зависимостей (И. А. Мельчук, И. М. Богуславский, Л. Л. Иомдин и др.); • грамматика структурных схем (Н. Ю. Шведова, В. А. Белошапкова и др.); • традиционные синтаксические учения (А. А. Шахматов, В. В. Виноградов, Н. С. Валгина и др.). М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco ХАНКО: • грамматика зависимостей и • традиционный синтаксис (по членам предложения). Плюсы • подробное описание и узлов, и связей синтаксических структур; • Обе целевые группы: преподаватели русского языка, и профессиональные лингвисты; • Возможность представлять результаты альтернативных разметок как независимо, так и совместно. М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Грамматика зависимостей А.С. Старостин, М.Г. Мальковский. Модель синтаксиса в системе морфосинтаксического анализа «Treeton» // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции Диалог–2006, Москва: изд-во РГГУ, 2006, с. 481-492. М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Грамматика зависимостей • • Тринотации (treenotation=tree+annotation) Агрегаты М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Грамматика зависимостей Штрафы: Переборный алгоритм • • • • штрафы на повторение Он играл эту симфонию всю ночь штрафы на зацепление штрафы на расщепление Непроективностость штрафы на применение правил человек умный VS умный человек М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО Плюсы • • общеизвестность и простота; возможность косвенным образом искать материал для исследований, даже опирающихся на другие синтаксические подходы (прежде всего, структурные схемы). М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО Минусы • несоответствие современным представлениям о природе синтаксических структур; • описание синтаксических узлов и игнорирование синтаксических связей; • невозможность разбиения массива данных на дискретные классы (напр., нечеткое разграничение разных типов второстепенных членов); М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco ТРАДИЦИОННЫЙ СИНТАКСИС В ХАНКО • большое количество синтаксически слабо мотивированных решений (отсутствие предложных групп, вопрос о границах главных и второстепенных членов предложения, разграничение главного и второстепенного компонента в аппозитивных конструкциях и т.д.); • сложность автоматической обработки. М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: проблемы применения 1. Нечеткость критериев выделения определенного члена предложения Косвенное дополнение / несогласованное определение. С мостов через Сену посрывало гирлянды иллюминации. Косвенное дополнение / разные виды обстоятельства. У дешевых дубленок шкуры могут быть плохо подобраны по цвету и плотности, непрокрашены, и тогда они будут линять при влажной погоде (косвенное дополнение / обстоятельство условия). М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: проблемы применения 1. Нечеткость критериев выделения определенного члена предложения Разные виды обстоятельств Ничьей закончились и выборы в Сенат, который партии разделили ровно пополам (обстоятельство образа действия / меры и степени). ..жестоко избивали хозяев при попытках возражать или жаловаться... (обстоятельство времени / обстоятельство условия). Нечеткость разделения прямого объекта и части сказуемого. Российский лидер соблюдает приличия… М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: проблемы применения 2. существенно больший список форм выражения разных членов предложения Подлежащее и главный член односоставного предложения. В стотысячной натовской группировке на Балканах уже выявилось почти два десятка смертельных случаев и до 50 заболевших. ...на покупателя, даже просто пришедшего взглянуть на дубленки, тотчас накидывались сразу с десяток продавцов. Стать матросом было его мечтой. М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: проблемы применения 3. Проблема вложенных членов предложения Обстоятельства и определения Холдинг NETBRIDGE заявил о $ 6 млн., потраченных на проекты List.ru <...>, и это не считая собственных проектов... Вводные единицы и обращения, Капиталисты всех стран, соединяйтесь! По признанию менеджеров, кофейни - дело выгодное, быстро окупаемое и перспективное. М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: проблемы применения 3. Проблема вложенных членов предложения Вводные предложения и вводные слова, Известно, что он хороший парень (главная часть сложноподчиненного предложения). Известно, он хороший парень (вводное предложение) Он, известно, хороший парень (вводное слово) …и вообще работать на комбинате - почти такое же везение, как жить в Москве. М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: проблемы применения 4. Разметка составного сказуемого Они выводят из строя оптику. Они выводят из тени неизвестных артистов. 6. Единицы «малого» синтаксиса И работы Минкульту и Михаилу Швыдкому хватит еще надолго. Но все чаще и чаще президент проговаривается, обнаруживая истинные свои воззрения. М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: этапы работы В начале марта в Москве прошла конференция "Лоббизм в России - 10 лет теории и практики". АОТ (www.aot.ru) ПГ(В начале -> марта; "рд,") ПГ(в -> Москве; "пр,") ПГ(в -> России; "пр,") ЧИСЛ_СУЩ(лет -> 10; "вн,рд,им,мн,") ГЕНИТ_ИГ(лет -> теории; "вн,рд,им,мн,") ОДНОР_ИГ(и -> теории; "им,мн,") ОДНОР_ИГ(и -> практики; "им,мн,") ПОДЛ(прошла -> конференция; "") М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco Традиционный синтаксис в ХАНКО: этапы работы В начале марта в Москве прошла конференция "Лоббизм в России - 10 лет теории и практики". АОТ В начале марта |дополнение или обстоятельство|пг в Москве |дополнение или обстоятельство|пг 10 лет |подлежащее или сказуемое | числительное - определение|числ_сущ теории и практики Однор_иг прошла – сказуемое Конференция – подлежащее М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco М. Копотев Синтаксическая разметка в ХАНКО www.slav.helsinki.fi/hanco