Л. А. Николенко ( г Красноярск Сибирский федеральный университет)

реклама
ФОРМИРОВАНИЕ ПРИЗНАКОВ ДЛЯ ДИКТОРОНЕЗАВИСИМОГО РАСПОЗНАВАНИЯ
ФОНЕМ РУССКОГО ЯЗЫКА
Л. А. Николенко
( г Красноярск Сибирский федеральный университет)
В статье содержится аналитический обзор методов цифровой обработки сигналов,
используемых в современных системах речь-текст. Освещаются методики и алгоритми их
применения для обеспечения дикторонезависимости при распознавании. Приводятся
результаты экспериментов по разработке распознавателей русской речи. Цель данной
работы – формирование признаков речевых сигналов для классификации речевых
фрагментов на фонемы русского языка, независимо от диктора, определение
характеристик, являющихся общими для каждого класса фонем, произнесенных разыми
дикторами.
Проблема выбора признаков при реализации фонемного подхода к распознаванию
речи является первостепенной. От ее решения зависит результирующее качество работы
системы речь-текст.
При анализе речи разных дикторов решение этой задачи усложняется, ввиду
разнообразия характеристик речеобразующих трактов дикторов. При сопоставлении
параметров речевых сигналов одного диктора, собранных в течение длительного
календарного периода, наблюдается высокая вариативность реализации одной и той же
фонемы.
Цель работы – анализ подходов к формированию признаков речевых сигналов для
классификации речевых фрагментов на фонемы русского языка, независимо от диктора.
Признаковый вектор должен однозначно характеризовать фонему. Необходимо
определить, какие характеристики являются общими для каждого класса фонем,
произнесенных разыми дикторами.
Акустические параметры речевых трактов дикторов могут варьироваться в широких
пределах. Резонансные частоты речевого тракта, отвечающие за формантный состав
речевого сигнала и за тембр, также не коррелируют внутри одной фонемы.
Исследования механизмов речеобразования [1] показывают, что каждая фонема
характеризуется определенным состоянием речевого тракта. Классификация звуков русской
речи приведена на рис 1.
Звуки речи
Гласные (а,
о, у, и т.д.)
Полугласные
(й)
Согласные
Комбинированные
Щелевые
(в, ф и др.)
Носовые
(м, н и др.)
Взрывные
(д, к и др.)
Рис 1 . Классификация звуков русской речи
Гласные – образуются посредством возбуждения голосового тракта колебаниями
голосовых связок. Излучение звука происходит только через ротовую полость. Тип фонемы
зависит только от высоты поднятия языка.
Согласные – характеризуются более узкой артикуляционной щелью. Отличаются от
гласных либо источником возбуждения либо способом излучения – или и тем и другим.
Согласные бывают щелевыми (фрикативными), носовыми – излучение происходит только
через ноздри, взрывными – их образование обусловлено динамикой речевого тракта:
смыкание – внезапное размыкание, воздух внезапно освобождается, шум взрыва и
придыхания позволяет различать взрывные согласные.
Комбинированные звуки – дифтонги (переход типа гласная-гласная) и аффрикаты.
Также фонемы делятся на вокализованные и невокализованные – по признаку участия
голосовых связок в процессе возбуждения голосового тракта.
Результаты подобных исследований механизмов речеобразования [3] широко
используются при решении задач синтеза речи. Голосовой тракт рассматривается как
акустическая система, основные составляющие которой:
1.
Генератор частоты основного тона (используется при синтезе вокализованных
фонем);
2.
Генераторы формантных частот (используется при синтезе вокализованных и
гласных фонем);
3.
Импульсный генератор (используется при синтезе взрывных согласных);
4.
Генератор шума (используется при синтезе щелевых согласных).
При анализе синтезированной речи все перечисленные составляющие, участвующие в
образовании звука могут быть выделены из сигнала с помощью набора цифровых фильтров
[2]. По составу фонемы можно сделать вывод о ее принадлежности к группе фонем,
имеющих сходные механизмы речеобразования. Далее при более детальном анализе можно
сделать вывод и о принадлежности речевого фрагмента к конкретной фонеме.
При обработке речи необходимо применять те методы цифровой обработки сигналов,
которые несут информацию о состоянии речевого тракта диктора. В настоящие время
используются различные подходы к формированию признакового множества речевых
сигналов:
1.
Сбор характеристик на основе спектрального состава речевого сигнала;
2.
Сбор характеристик на основе частотно-временного представления сигнала
(оконное преобразование Фурье, вейвлет-преобразование сигнала);
3.
Сбор характеристик на основе коэффициентов линейного предсказания;
4.
Сбор характеристик на основе кепстрального представления (гомоморфная
обработка речи).
Почти все перечисленные методы основаны на представлении сигнала в различных
базисах функций. Наиболее удобным базисом для анализа каждой группы сигналов является
такой базис, где форма базисных функций близка по форме к сигналу. В этом случае
полученные коэффициенты разложения будут иметь большую амплитуду, чем
коэффициенты разложения сигнала, не похожего по форме на базисную функцию. По
описанному принципу необходимо сделать подбор базисной функции для каждой фонемы.
Преобразование Фурье (1) позволяет анализировать спектральный состав сигнала, но
имеет недостаток – сворачивает в точку временной отрезок и не содержит информацию о
поведении частотного состава сигнала во времени. Используется для изучения формантного
состава сигнала и оценки частоты основного тона.

1
F( f ) 
f (t )e 2ift dt
(1)

2 
Результаты исследований речевых характеристик людей разных возрастных и половых
категорий в (2) показывают, что не существует однозначного соответствия между
определенным набором частот и фонемой, произносимой разными дикторами. Поэтому
частотный подход к формированию признаков для классификации фонем оказывается
несостоятелен. В (2) сделан вывод, что гласные звуки могут идентифицироваться
определенным соотношением энергии спектральных полос, а также выдвинута гипотеза о
том, что «первичной целью в формировании речевого сигнала скорее является общая форма
спектра. Форманты же служат способом его реализации и являются продуктом
акустического механизма процесса речеобразования».
Вейвлет-анализ (2) – позволяет анализировать поведение сигнала во временной
области (рис 2), также хорошо подходит для анализа взрывных согласных, т.к. базисные
функции - вейвлеты представляют собой «всплески», очень похожие на импульсы.

C (k , t )  k
 f ( y) (k ( y  t ))dy
(2)

где С(k,t) – коэффициенты вейвлет – разложения сигнала f(y); Ψ – базисная вейвлет –
функция.
Фонема «А»
Базис
Добеши
2,
женский
голос
Фонема «О»
Фонема «И»
Исходный
сигнал
Дискретное
ВП
Непрерывное
ВП
Базис
Добеши
2,
мужской
голос
С(а,t)
T
С(а,t)
T
C(a,t)
T
С(а,t)
T
T
С(а,t)
T
Исходный
сигнал
Дискретное
ВП
Непрерывное
ВП
С(а,t)
Рис 2. Вейвлет-спектрограммы непрерывного и дискретного ВП фонем мужского
(снизу) и женского (сверху) голосов, в базисе вейвлета Добеши 2
Оконное преобразование Фурье (3) – позволяет анализировать поведение
спектрального состава сигнала во времени. Хорошо подходит для анализа гласных фонем,
т.к. базисные функции – тригонометрические периодические функции, а гласные звуки
представляют собой почти-периодичные сигналы.

1
F (t , w) 
f ( )W (  t )e iw d
(3)

2 
Кепстральный анализ (4) – основан на гомоморфной обработке речи, выделяет в
речевом сигнале генераторную и фильтровую части. Используется для анализа частоты
основного тона и выделения признаков вокализации речевого фрагмента.

1
f ( ) ln( S ( w)) 2 e iwq dw , где S (w)  спектр сигнала.
(4)
2 
Коэффициенты линейного предсказания – методика кодирования сигнала, основанная
на вычислении коэффициентов автокорреляционного фильтра-предсказателя и сигнала
возбуждения данного фильтра. Выделяет индивидуальные особенности диктора и
используется для идентификации диктора и сжатия речевых сигналов.
Кроме описанных распространенных базисов, можно использовать индивидуально
подобранные базисы для каждого класса фонем. Условие ортогональности базиса в задаче
классификации не является обязательным, поскольку выполнять обратное преобразование не
требуется.
Алгоритм принятия решения. Процесс распознавания включает в себя этапы:
1.
Первичная классификация фонемы – определить фонетическую категорию, к
которой она относится.
В работе [4] представлены доказательства того, что человек не использует
инвариантное к диктору описание сигнала, обеспечивающее идентификацию всего алфавита
фонем, а, скорее всего, использует описание, которое позволяет уверенно различать лишь
группы неразличимых фонем. Таким образом, если и существует пространство, в котором
априорное распределение признаков для классов не зависит от диктора, то этими классами
являются не отдельны фонемы, а группы неразличимых фонем.
Можно предположить, что этими группами нераспознаваемых фонем являются
основные классификационные категории звуков русского фонетического алфавита: гласные
звуки ([а], [и], [о], [у], [ы], [э]); согласные звуки: глухие ([ф],[с] и др.), звонкие ([з][ж] и др.);
шипящие ([ш],[щ] и др.). На начальном этапе необходимо определить к какой из этих
категорий относится фонема.
2.
Оценка долей вероятности, с которыми речевой сегмент относится к каждой
фонеме из выбранной категории [2]. Полученные значения составляют начальное
представление о распознаваемом слове.
Необходимо отнести фонему к конкретному классу. Форму спектра речевого сигнала
можно оценить с помощью метода вейвлет-преобразования (ВП). На рис 1 приведены
дискретные и непрерывные вейвлет-спектрограммы фонем, произнесенных разными
дикторами, видны характерные схожие тенденции в спектрограммах – их можно
использовать как признак при классификации фонем. Вейвлетный подход в последнее время
часто используется при формировании признаков для классификации речевых фрагментов.
Но для систем дикторонезависимого распознавания в явном виде ВП проблематично
использовать [5]. Требуется разработка алгоритмов нормализации полученных
спектрограмм.
Из всего множества групп фонем наиболее вариативными являются гласные фонемы.
Для выделения признаков гласных фонем в качестве базисных функций могут применяться
искусственно синтезированные эталонные модели гласных звуков [6]. Разложение в базис
эталонов целесообразно проводить после перехода в частотно-временную плоскость.
Используя для перехода вейвлет-разложение, как наиболее предпочтительный базис,
выделяющий локальные особенности сигналов, имеем вейвлет-спектрограммы исходного
сигнала и эталона. Т.к. получившиеся функции – двумерные, представление характеристик
исходного сигнала в эталонном базисе должно проводиться по правилам приближения
функций многих переменных. При разложении речевого фрагмента в таком базисе,
становится несущественной проблема нормализации сигнала по частоте основного тона.
Полученная характеристика может быть использована как обучающий вектор для
классификатора.
Выполнив разложение в каждый базис из группы фонем, оценив амплитуду
коэффициентов разложения сигнала в каждом базисе, необходимо выбрать наиболее
«контрастный» результат разложения и принять решение о принадлежности фонемы к этому
классу.
C s (q) 
Также необходимы более детальные исследования на предмет возможности
применения вейвлет-преобразования для формирования признаков для дикторонезависимого
распознавания речи.
Необходимо оценить качество работы классификатора фонем, используя результаты
ВП речевого фрагмента как множество признаков. Очевидно, что классификатор должен
быть инвариантным по отношению к сдвигу и растяжению, к масштабированию, обладать
способностью к обобщению, т.к. голоса разных людей имеют индивидуальную частоту
основного тона – вследствие этого амплитудно-частотные характеристики «сжимаются» или
«растягиваются». Сдвиг обусловлен случайностью времени попадания фонемы в «кадр»
классификатора. При помощи методов нормализации признакового множества можно
оптимизировать и повысить информативность данных.
Используя статистические данные о частоте следования в русском языке одних
фонем после других (с учетом контекста), получить вероятностное распределение перехода
из одного состояния фонемы в другие. Добавить эти числовые эквиваленты к найденным
предполагаемым классам фонем. Получить граф, состоящий из списка вершин – фонем, и
ребер
– соединительных линий между всеми возможными вариантами фонем по
направлению от первой к последней. Веса вершин принять в соответствии с вероятностью
соответствия фонемы классам, найденным в п.2.
3.
Поиск результата распознавания из имеющегося словаря. В качестве
фонемного образа слова выступает наибольший путь из графа. Если такое слово отсутствует
в словаре - за образ берется следующий по убыванию путь графа и т.д. Порог
устанавливается по усмотрению.
Возможный вариант результирующего графа изображен на рис 3. Видно, что
максимальный путь графа соответствует слову «звук».
Вероятность
присутствия указанной
фонемы
4
5
С
З
3
3
М
3
3
3
3
В
У
1
4
О
2
К
1
4
2
Г
2
Т
T0
T0+1n
T0+2n
T0+3n
T0+4n
Рис 3. Фонемный образ слова «звук».
Возможно введение в искомый образ слова из словаря дополнительных
коэффициентов, характеризующих, например, различные варианты ошибок при
произношении, когда вместо одного звука слышится другой и т.п. Также возможно
применение правил, при которых можно соединять ребрами не только соседние найденные
фонемы, но и следующие «через одну» - в случаях, когда фонема не распознана или ее
принадлежность какому-либо классу близка к нулю.
Заключение. Перспективы решения задачи дикторонезависимого распознавания речи
лежат в совершенствовании математической модели образа слова, а также в исследованиях
психофизиологического механизма восприятия речи человеком - с целью повысить качество
признаков для классификации звуковых сегментов. Дальнейшее направление исследований –
оценить качество работы распознавателя по описанному выше алгоритму.
ЛИТЕРАТУРА
1. Фланаган Дж. Л. Анализ, синтез, и восприятие речи. Москва. 1968.
2. Сергиенко А. Б. Цифровая обработка сигналов. СПб. 2003.
3. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. – М.: Радио и
связь, 1987. – 168 с.
4. Кельманов А.В. О некоторых проблемах построения систем распознавания
инвариантных к диктору. // Тезисы АРСО-15, Таллинн, ИК АН ЭССР, 1989, с. 103-104.
5. Куляс А.И. Пути создания многодикторных кооперативных систем
распознавания речи // Распознавание и синтез звуковых сигналов: Сборник научных
трудов, Киев, ИК АН УССР, 1987. – с. 16-24.
6. Дубровский В.В., Егоров А.И, О проблеме дикторонезависимости при
распознавании речи на фонемном уровне. Институт динамики систем и теории
управления СО РАН Россия, Иркутск, Лермонтова, 134.
Скачать