avtoreferat_badmarinchinova_2015

реклама
ПРАВИТЕЛЬСТВО РОСССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ФАКУЛЬТЕТ ИСКУССТВ
Кафедра информационных систем в искусстве и гуманитарных науках
Автореферат
магистерской диссертации
Основная образовательная программа
«Инженерия гуманитарных знаний»
Направление 230700 «Прикладная информатика»
Уровень Магистратура
На тему
ИССЛЕДОВАНИЕ И ОЦЕНКА СИСТЕМЫ СТАТИСТИЧЕСКОГО
МАШИННОГО ПЕРЕВОДА С ИТАЛЬЯНСКОГО НА РУССКИЙ ЯЗЫК
Студента Бадмаринчинова Аюна Сергеевна
Руководитель к. ф. н., доцент кафедры математической лингвистики, СПБГУ
Митренина Ольга Владимировна
Рецензент к.ф.н.,доцент кафедры математической лингвистики, СПбГУ, Захаров
Виктор Павлович
Санкт-Петербург
2015
Статистический машинный перевод в настоящее время является одним
из наиболее активно развивающихся направлений обработки естественного
языка. Развитие этой области обусловлено стремлением снизить затраты на
перевод, поскольку разработчику статистического машинного переводчика не
требуется владение иностранными языками и лингвистические знания.
Интерес к данной теме также обусловлен возможностью поиска необходимой
информации в текстах на иностранных языках.
В настоящее время существует несколько статистических машинных
переводчиков с итальянского на русский язык. Они нацелены на перевод всех
типов текста: официальных, художественных, технических и др. Такой
подход, с одной стороны, позволяет увеличить параллельный корпус. С
другой стороны, возникает большое количество возможностей перевода из-за
различного употребления фраз в разных типах дискурса. Число ошибочных
переводов возрастает также из-за того, что большинство статистических
переводчиков для пары итальянский-русский используют промежуточный
язык. Т.е. тексты с итальянского языка сначала переводятся на английский,
затем с английского языка на русский.
Таким образом, требуется сконцентрировать внимание на конкретной
языковой паре и обучить SMT систему на определенных типах текста.
Цель данной выпускной квалификационной работы - разработка и
оценка системы статистического машинного перевода с итальянского на
русский язык на основе корпусов официальных и художественных текстов.
Для достижения цели необходимо было выполнить следующие задачи:

выполнить выравнивание по предложениям на корпусе официальных и
художественных итальянско-русских параллельных текстов с помощью
программы LF Aligner;

изучить инструменты для разработки системы статистического
машинного перевода;

проанализировать существующие программные решения для
выполнения статистического машинного перевода;

провести эксперименты по созданию системы машинного перевода с
итальянского на русский язык с помощью программы Moses;

оценить и проанализировать переведенные тексты.
Результатом выпускной квалификационной работы является система
статистического машинного перевода с итальянского на русский, с помощью
которой были проведены эксперименты по переводу официальных и
художественных текстов. Также была проведена автоматическая и ручная
оценка результатов.
Актуальность исследования по разработке системы статистического
машинного перевода несомненна, т.к. дисциплина машинного перевода
является одной из наиболее активно развивающихся областей обработки
естественного языка.
В частности, результаты экспериментов могут быть использованы:

для построения системы статистического машинного перевода для
других пар естественных языков;

для построения приложений, использующих статистический
машинного перевод;

для поиска информации на иностранном языке;

и др.
Объектом исследования в данной работе является настройка системы
статистического машинного перевода и оценка качества переводённых
текстов из официальной и художественной доменных областей.
Предметом исследования в данной работе выступают выравненные
слова и фразы, извлеченные из корпусов текстов разных доменных областей.
В ходе работы были изучены различные модели перевода,
проанализирована функциональность различных инструментов создания
системы статистического машинного перевода. В рамках выпускной
квалификационной работы был предложен вариант построения системы
статистического машинного перевода с последующей оценкой результатов.
Методика исследования
Методика разработки системы статистического машинного перевода
включает в себя вычислительные методы, сравнительный анализ и
эксперименты с оценкой результатов.
Структура работы
Структура выпускной квалификационной работы представлена
введением, четырьмя главами и заключением.
Во введении излагается актуальность выбранной темы.
Первая глава “Статистический машинный перевод как задача
прикладной лингвистики” содержит описание существующих подходов к
формализации естественного языка. Основными задачами первой главы
были обзор направлений машинного перевода, рассмотрение основных
принципов статистического машинного перевода, а также примеров моделей
перевода.
Во второй главе, которая называется “Средства создания систем
статистического машинного перевода” раскрывается проблема выбора
инструментов для разработки системы статистического машинного перевода.
Мы рассматриваем программы для подготовки выравненного по фразам и
словам корпуса и платформу Moses для создания системы статистического
машинного перевода.
В третьей главе подробно рассказывается об экспериментах,
проведённых с помощью системы статистического машинного перевода. В
данной главе рассматриваются особенности выравнивания для официальной
и художественной доменных областей. Представлено исчерпывающее
описание работы программы.
В четвёртой главе представлены результаты оценки текстов,
переведённых с помощью системы статистического машинного перевода,
разработанной в рамках выпускной квалификационной работы.
В заключении подводятся общие итоги, рассматривается вопрос о
соответствии результатов поставленным целям и задачам.
Скачать