Компьютерная лингвистика и обработка естественных языков Выполнила: Ахметгалеева Д.Ф. Компьютерная лингвистика Компьютерная лингвистика - это междисциплинарная область, занимающаяся компьютерным моделированием естественного языка, а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. Направления компьютерной лингвистики • Обработка естественного языка; • Оптическое распознавание символов; • Автоматическое распознавание речи; • Автоматический синтез речи. Обработка естественного языка Обработка естественного языка (Natural Language Processing, NLP) — пересечение машинного обучения и математической лингвистики, направленное на изучение методов анализа и синтеза естественного языка. Сегодня NLP применяется во многих сферах, в том числе в голосовых помощниках, автоматических переводах текста и фильтрации текста. Основными тремя направлениями являются: распознавание речи (Speech Recognition), понимание естественного языка (Natural Language Understanding) и генерация естественного языка (Natural Language Generation). Задачи NLP • Уровень сигнала: распознавание текста, речи, синтез речи; • Уровень слова: морфологический анализ, канонизация, исправление ошибок; • Уровень словосочетаний: определение части речи, распознавание именованных сущностей, выделение слов; • Уровень предложений: синтаксический разбор, устранение двусмысленности; • Уровень абзацев: извлечение отношений, определение языка, анализ эмоциональной окраски; • Уровень документа: аннотация документа, перевод, анализ тематики; • Уровень корпуса: дедубликация, информационный поиск. Основные подходы • • • • • • • Предобработка текста; Стемминг; Лемматизация; Векторизация; Дедубликация; Семантический анализ; Распознавание именованных сущностей и извлечение отношений; • N-граммы; • Частеречная разметка.