Меламуд Александр Евгеньевич 445 гр. Научный руководитель: к.т.н. Булашевич Александр Евгеньевич HMM (Hidden Markov Model) – на данный момент - основной способ для распознавания речи Алгоритмы, основанные на HMM решают задачу распознавания лабораторной речи – причина популярности Необходим достаточно длинный участок речи Необходимо обучение на большой выборке (более 10 часов размеченной вручную речи) На реальной речевом сигнале (например телефонный сигнал) метод работает плохо (всего-лишь 30-35% правильно распознанных фонем) Производить предварительную сегментацию сигнала с целью: ◦ Параметризация сигнала, согласованная с границами фонем Один из вариантов: предварительная сегментация по виду первичного возбуждения: ◦ «подсказка» HMM ограниченного набора фонем заданного артикуляционного класса. Попытки решать задачу сегментации методами спектрального анализа, обычно по оценке модуля градиента спектрограммы. Неудачно: мало разрешение по времени Подход к сегментации на основе признаков, имеющих физический смысл. Перспективен. С начала 90-х в связи с активным внедрением HMM метод заброшен Задача: сегментация речевого потока на основании источника первичного возбуждения в двух вариантах постановки: на жесткой сетке кадров и с определением границ точных сегментов Артикуляционные классы: голос, шум, пауза/смычка, взрыв Группы фонем: гласные, звонкие согласные, глухие согласные и смычные 2 фонемы 1-го класса – редкость => прицел на решение общей задачи сегментации Спектральные методы не применить: в одной из постановок задач нужна точность до 1 мс Вероятностные не применить из-за желания «подсказывать» HMM Временные статистики. Сложность: ответа на вопрос, какую статистику где применять, что ей подавать на вход в случае зашумленного сигнала, нет. Это предмет моего исследования Общая энергия: голос/не голос, пауза/шум Количество переходов через ноль: шумные/смычные, вокализованные участки/звонкие щели Анализ локальных экстремумов: шум/голос, вокализованные участки/звонкие щели Отношение вышеназванных статистик при фильтрации в разных частотных полосах: звонкая смычка/все остальное, шум/глухая смычка Точность автоматической сегментации ≈70% (Точность HMM при алфавите в 5 фонем ≈70% ) Основные ошибки в гласных и звонких согласных, глухих смычных и шумных согласных Доработка методов обработки статистик Адаптивная настройка порогов статистик – ожидается существенное повышение точности Привлечение данных об основном тоне для уточнения границ