Курсовая работа Нормализация коротких сообщений пользователей социальных сетей Выполнил: Александров Никита 328 группа Научный руководитель: Коршунов Антон Викторович Проблема нормализации • Нормализация – приведение ошибочных слов к словарной форме • В рассматриваемой области проблема усложняется большим количеством ошибок: 1. Количество символов (Twitter – 140) 2. Неформальный стиль 3. Обильное использование сленга Постановка задачи 1. Исследовать существующие методы нормализации коротких сообщений 2. Разработать и реализовать алгоритм нормализации 3. Произвести экспериментальную оценку качества результатов реализованного метода Общая схема существующих алгоритмов • Выделение из сообщений несловарных конструкций • Для каждого выделенного слова, построить множество слов, которые могут быть его словарной формой • Отбор самого подходящего кандидата (на основе каких-то критериев) из множества, полученного на предыдущем шаге, который будет являться результатом нормализации данного слова Существующие методы • TENOR (TExt NORmalisation) Aspell -> Phonetic Similarity -> Lexical Similarity -> Trigram Language Model • Kaufmann Preprocessing (Orthographic Normalization, Syntactic Disambiguation) -> Machine Translation • NICTA Victoria Research Laboratory Aspell -> Phonetic Similarity , Lexical Similarity , Trigram Language Model -> SVM(words dependencies) • F. Liu, F. Weng Letter Transformations: Web based Data Collection -> Letter-level Alignment > Sequence Labeling Model Разработанный метод За основу взят подход TENOR Схема работы: 1. Выделить из сообщения OOV-слова, которые необходимо привести к нормальной форме (GNU Aspell) 2. Для каждого OOV-cлова построить список слов, которые могут являться его нормальной формой 2.1. Определение часто употребляющихся простых трансформаций слов 2.2. Фильтрация списка слов по фонетической близости (Double Metaphone) 2.3. Фильтрация списка слов по лексической близости (Gestalt Pattern Matching) 3. Выбор самого подходящего кандидата (Trigram Language Model) Пример работы Source tweet new pix comming tomoroe Possible variants new*IV~pictures*OOV~cumming*gumming*comings*commi ngle*cummings*cameoing*gaming*coming*comming*OOV~ tumor*tumour*tomoroe*OOV~ Normalized tweet new pictures coming tumor Анализ результатов OOV IV Точность: P = A / (A+B) Найден A B Полнота: R = A / (A+C) Не найден C D F1: F=2PR / (P+R) Нормализация: Точность, % Полнота, % F1, % 89.4 97.5 93.3 Обнаружение OOV: Немодифицированный корпус. Использование словаря исключений Немодифицированный корпус. Без использования словаря исключений Модифицированный корпус. Использование словаря исключений Точность, % 80.0 Полнота, % 48.5 F1, % 60.4 53.4 37.8 44.3 90.7 65.3 76.0 Результаты 1. Исследованы существующие алгоритмы нормализации коротких сообщений 2. Разработан метод нормализации коротких сообщений, основанный на сравнении слов по фонетической и лексикологической близости 3. Создан прототип системы нормализации, подтверждающий работоспособность данного метода 4. Произведена экспериментальная оценка качества результатов разработанного метода Спасибо за внимание!