ОПРЕДЕЛЕНИЕ ЧАСТЕЙ РЕЧИ ПРИ ПОМОЩИ НЕЙРОННОЙ СЕТИ Ерёмин Н. С. 2014 ПОСТАНОВКА ЗАДАЧИ • Изучение и реализация алгоритмов машинного морфологического анализа. • Обучение нейронной сети реализованному алгоритму морфологического анализа. * ОПРЕДЕЛЕНИЕ ЧАСТИ РЕЧИ • Как это делает человек: Знает это слово. Проводит аналогию с известными ему словами. Опираясь на предыдущее слово в предложении. * ОПРЕДЕЛЕНИЕ ЧАСТИ РЕЧИ • Как это может делать машина: Опираясь на словарь основ сформированный и обновляемый вручную. ИЛИ Опираясь на обучающую выборку сформировать алгоритм определения частей речи. * НЕЙРОННАЯ СЕТЬ * МЕТОД ОБУЧЕНИЯ SVM Это наиболее быстрый метод нахождения решающих функций. Находит разделяющую полосу максимальной ширины, что позволяет в дальнейшем осуществлять более уверенную классификацию. ЗАДЕЙСТВОВАННЫЙ ИНСТРУМЕНТАРИЙ • Библиотека LIBLINEAR. • Национальный корпус русского языка. * РАЗРАБОТКА АНАЛИЗАТОРА 1. Формирование выборки из ресурсов Национального корпуса русского языка. Размеченное предложение: <se> <w><ana lex="вот" gr="PART"></ana>Вот</w> <w><ana lex="так" gr="ADV-PRO"></ana>так</w>, <w><ana lex="за" gr="PR"></ana>з`а</w> <w><ana lex="пять" gr="NUM=acc"></ana>пять</w> <w><ana lex="минута" gr="S,f,inan=pl,gen"></ana>мин`ут</w> <w><ana lex="до" gr="PR"></ana>до</w> <w><ana lex="съемка" gr="S,f,inan=pl,gen"></ana>съёмок</w> <w><ana lex="родиться" gr="V,pf,intr,med=m,sg,praet,indic"></ana>род`илс`я</w> <w><ana lex="новый" gr="A=m,sg,nom,plen"></ana>н`овый</w> <w><ana lex="персонаж" gr="S,m,anim=sg,nom"></ana>персон`аж</w> </se> * РАЗРАБОТКА АНАЛИЗАТОРА 2. Создание нейронной сети. 3. Обучение сети средствами LIBLINEAR. ФУНКЦИОНИРОВАНИЕ АНАЛИЗАТОРА * РАЗВИТИЕ ИДЕИ • Расширение возможностей анализатора. • Использование анализатора в составе более сложных приложений. * ЗАКЛЮЧЕНИЕ • Изучены методы морфологического анализа • Реализован алгоритм частеречной разметки *