Корпусная лингвистика и проблемы перевода Л. Н. Беляева (С.-Петербург) Belyaev@mail.wplus.net Belyaev@mail.spbnit.ru PARALLEL CORPORA PARALLEL TEXT CORPORA (parallel text) corpora parallel (text corpora) • Корпус параллельных текстов • Параллельный корпус текстов Véronis, J. From the rosetta stone to the information society: A survey of parallel text processing. In: J. Véronis (Ed.), Parallel Text Processing, pp.1-25, Kluwer, 2000 Параллельный корпус текстов совокупность документов, переведенных на два или более языков, выровненных по предложениям и размеченных, написанных на одну тему и на одном языке авторами с разными родными языками Использование параллельных текстов в двуязычной и многоязычной лексикографии, а также в теории и практике перевода Решение практических задач • обогащение набора переводов, вводимых в словарь, за счет выбора устойчивых словосочетаний, используемых в исходных текстах; • уточнение употребительности и значений конкретных слов и словосочетаний в текстах определенной предметной области для введения в словари частотных слов и/или частотных конструкций; • верификация значений лексических единиц, уже зафиксированных в двуязычных словарях, особенно в том, что касается идиом и терминологических выражений; • выделение устойчивых словосочетаний и идиом, которые целесообразно вводить в автоматические словари и глоссарии; На основе полнотекстовых баз параллельных выровненных текстов возможно выделение устойчивых пар слов типа “исходное слово – перевод” Использование параллельных текстов в двуязычной и многоязычной лексикографии, а также в теории и практике перевода Решение исследовательских задач • установление интерференции родных языков авторов на лексические и грамматические особенности текстов • выявление особенностей перевода на базе исследований исходных и переводных текстов • определение адекватности перевода текстов Создание параллельных корпусов текстов требует их выравнивания Выравнивание текстов по предложениям представляет собой сложную задачу, часто с множественными решениями, возникающими в результате: • неоднозначности решения задачи сегментации текста на предложения; • несовпадения деления входного и выходного текстов на предложения, такое несовпадение возникает при ручном переводе текстов. Выравнивание текстов осуществляется на основе предположения о существовании только шести возможных соответствий между переводными моделями Соответствие/несоответствие формальное: • одно предложение переводится одним предложением; • два предложения переводятся одним предложением; • одно предложение переводится двумя предложениями; Соответствие/несоответствие неформальное: • два предложения переводятся двумя предложениями, но внутренние границы не совпадают; • предложение исходного текста не переводится; • предложение в тексте перевода не имеет эквивалента в оригинале и вводится переводчиком. При автоматизации процедуры выравнивания на основе совпадения параграфов текста выделяются пары, соответствующие этим моделям. Создание многоязычных учебных конкордансов на основе корпусов параллельных текстов • Многоязычный параллельный конкорданс (центр разработки в Бирмингеме) создается как международный проект, в котором участвуют 6 университетов из 6 стран Европы. King P. Trialling a Multilingual Parallel Concordancer // Second Intern. Conf. on Current Trends in Studies of Translation and Interpreting. Abstracts. Hungary, 1996. Pp.49–50. Группа COBUILD (Collins Birmingham University International Language Database) параллельный конкорданс для • датского, • английского, • французского, • немецкого, • греческого и • итальянского языков на базе корпуса текстов, включающего как произведения художественной литературы, так и технические тексты Отношение оригинал – перевод в параллельном корпусе текстов • Оригиналу соответствует аутентичный перевод (перевод официального документа, имеющий одинаковую силу с оригиналом) Корпус текстов, который сразу создавался как параллельный Корпус Hansard – отчеты о дебатах в канадской Палате общин за три года, которые включают 21,6 миллиона английских словоупотреблений и 24,1 миллиона французских словоупотреблений Langlois L. Bilingual Concordances: A New Tool for Bilingual Lexicographers. // Expanding MT Horizons. Proc. of the Sec.Conf. of the Assoc. for MT in the Americas. Montreal, Quebec, Canada, 1996. Pp. 34–42. 2.87 миллионов параллельных предложений Отношение оригинал – перевод в параллельном корпусе текстов • Оригиналу соответствует аутентичный перевод, возможность использования для создания нормативных словарей • Оригиналу соответствует авторский перевод – перевод художественных текстов возможность лексикографического описания перевода реалий, ксенонимов, просторечных элементов – перевод научной и научно-технической литературы - возможность использования для создания специализированных словарей Отношение оригинал – перевод в параллельном корпусе текстов • Оригиналу соответствует аутентичный перевод • Оригиналу соответствует авторский перевод • Оригиналу соответствует машинный перевод - возможность использования для модификаци автоматических словарей и глоссариев Отношение оригинал – перевод в параллельном корпусе текстов • Оригиналу соответствует аутентичный перевод • Оригиналу соответствует авторский перевод • Оригиналу соответствует машинный перевод • Оригиналу соответствует не перевод, а сопоставимый по содержанию текст на другом языке - возможность использования для уточнения перевода новых терминологических словосочетаний и создания словарей новых термино Для решения вопроса о возможности использования корпуса текстов в конкретных целях уточнение отношения оригинал – перевод определяет лексикографический потенциал параллельного корпуса текстов.