РАЗРАБОТКА КАЗАХСКО-РУССКОГО СЛОВАРЯ С АВТОМАТИЗИРОВАННЫМ АНАЛИЗОМ КАЗАХСКИХ СЛОВ Сержанов Азат, гр:7205 Научный руководитель: Сидорова Елена Анатольевна, к.ф.-м.н., ИСИ СО РАН. Введение Казахский язык – является одним из самых трудных тюркских языков, в котором осуществление морфологический разбора и определение части речи довольно трудоемкий процесс. Язык характеризуется большим числом словоформ для каждого слова, образованных путем добавления к его концу суффиксов и окончаний. Актуальность Морфологический словарь казахского языка – один из самых востребованных словарей в изучении казахского языка. Разработка морфологического казахского словаря - одна из актуальнейших задач для развития казахской компьютерной лингвистики в целом. Слова в этом словаре разделены на значимые части – морфемы, то есть разобраны по составу. В сложных случаях преподаватели и школьники могут проверять по Словарю результаты проведенного ими самими морфемного анализа. Наличие русского перевода слов позволит в дальнейшем использовать словарь для разработки методов автоматического перевода казахских текстов на русский язык. Цель и задачи работы Основной целью диссертационной работы является создание информационной системы "Казахско-русский словарь", обеспечивающей перевод и автоматизированный морфологический разбор казахских слов. Программа должна предоставлять возможность перевода слов, соблюдая при этом правила грамматики и морфологии. Цель и задачи работы Для решения поставленной задачи требуется выполнить следующее: провести анализ существующих электронных казахско-русских словарей; провести анализ строение казахских слов; изучить модели казахского языка; принципы организации и использования работы электронного казахскорусского словаря; разработать базу слов; разработать и заполнить электронную базу данных; разработать алгоритм морфологического анализа казахского текста (определение части речи слова, поиск морфем слова); Цель и задачи работы Для решения поставленной задачи требуется выполнить следующее: построить декомпозицию проекта; разработать модуль, обеспечивающий работу со словарем; разработать модуль морфологического анализа казахских текстов; разработать пользовательский интерфейс. Обзор современного состояния разработки электронных словарей Электронный словарь «IZET Тілмаш» Одним из главных недостатков электронного словаря «Тілмаш» является ограничение по переводу слов, находящихся в различных склонениях и падежах. То есть, дается перевод слов только в именительном падеже. Он-лайн словарь sozdik.kz На сайте очень много рекламных банеров, что отвлекает и мешает работе со словарем. Так же есть ограничение по переводу слов, находящихся в различных склонениях и падежах. Перевод слов осуществляется только в именительном падеже. Электронный словарь Soylem.kz Soylem не оправдывает своего названия. Фактически предложения переводятся только частично, так как склоненные слова непереводимы. Мало того, несмотря на заявленный объем словаря, к сожалению, для многих слов отсутствуют варианты перевода Модель казахского языка Часть речи В казахском языке существует девять частей речи. Каждый из них делиться на несколько типов подчастей. Каждый из подчастей имеют свои окончания, с помощью которого можно определить принадлежность слова к этой подчасти речи Морфемный состав слова Общая морфологическая форма определения состава выглядит вот так: Түбір (корень) + қосымша(окончание) + жұрнақ(суффикс) + жалғау(окончание). Алгоритм морфологического анализа казахского текста Основной алгоритм Шаг 1. На вход подается текстовый файл. Файл должен быть в формате UTF-8, так как остальные форматы не поддерживают казахских шрифтов. Шаг 2. Текст считывается пословно. При считывании ищем совпадения слов. При нахождении совпадающих слов, оставляем только одно. Шаг 3. Для каждого слова ищем его корень в базе казахских слов. Если корень существует в базе и совпадает с корнем, то Шаг 5. Если корня не существует, то Шаг 6. Если в базе два несколько подходящих корня, то выбираем самый длинный корень Основной алгоритм Шаг 4. Для каждого слова осуществляется поиск суффиксов и окончаний с конца слова. Для решения проблемы неоднозначности используется приоритет групп аффиксов, характеризующих различные типы морфологических свойств (определяемый строгим порядком следования аффиксов в составе слова). Порядок убывания приоритета следующий: 1) падеж 2) множественное число 3) Окончания формы принадлежности 4) личные окончания 5) Имя существительное 5) Имя прилагательное 6) Имя числительное 7) Глагол 8) Наречие 9) Подражательные слова. Шаг 5. В соответствии с найденным составом слова определяются часть речи и морфемный состав слова. Выводим список корней, перевод корня, часть речи и морфемы каждого слова. Основной алгоритм Шаг 6. Если перевода не существует, то пользователь может самостоятельно ввести корень с переводом. Существует два варианта, если корня не было в базе данных, то он его добавляет вместе с переводом, если корень уже был (на каз. яз.), то он обновляет его перевод (т.е. русскую часть). Шаг 7. Формирует вывод информации о слове. Выводится следующая информация: часть и подчасть речи, а также морфологические признаки (число, падеж и т.п.). Система анализа казахских текстов Декомпозиция проекта Декомпозиция позволит увидеть оптимальный алгоритм для определения частей речи наглядно. Реализация модуля морфологического анализа Алгоритм и интерфейс написан на языке С# (VS 2012) Суффиксы храняться в *xml файле База казахско-русских слов храниться в *mdb файле Эксперимент: сравнение с ABBYY Lingvo x5 ABBY Lingvo x5 Не правильно определяет: типы глаголов, типов множественного числа, прилогательное, числительное и многое другое. Заключение Разработан алгоритм определения части речи и морфем слова; Описаны 80 подчастей речи, составлена база 1292 аффиксов (окончаний и суффиксов); Разработана система "Казахско-русский словарь"; Данная программа была апробирована в средней общеобразовательной школе №67 Алмалинского района г. Алматы; Опубликована статья в вестнике ЮКГУ. Спасибо за внимание!