М.В. КАЛЮЖНЫЙ, Н.Н. ФИЛАТОВА Тверской государственный технический университет ПРОГРАММА ДЛЯ РАСЧЁТА ПАРАМЕТРОВ СЕГМЕНТАРНОЙ МОДЕЛИ РЕЧЕВОГО СИГНАЛА Рассмотрена программная разработка, позволяющая производить анализ и модификацию речевых сигналов на основе сегментарной модели. В Тверском государственном техническом университете а кафедре «Автоматизация технологических процессов» разработана и реализована сегментарная модель[1] представления вокализованных участков речевого сигнала (РС). На ее основе осуществляется разработка модуля эмоциональной коррекции для синтезаторов русской речи систем реабилитации незрячих и слабовидящих. Модель позволяет описывать РС как последовательность периодов основного тона (ПОТ), состоящих из множества сегментов с параметрами: длительность L, высота H и коэффициент формы k. В связи с этим требовалось решить задачи автоматического нахождения сегментов и вычисления их параметров, а также модификации РС в соответствии с заданными параметрами сегментов. Для решения указанных задач разработано приложение Sound, реализующее следующие функции: создание, открытие, редактирование и сохранение файлов wav; запись и воспроизведение звука в формате PCM (wav); отображение осциллограммы звука в окне документа; сегментация выделенного фрагмента wavфайла, расчёт параметров сегментов и вывод в окно редактирования, сохранение в файл, загрузка из файла параметров сегментов; модификация звукового файла в соответствии заданными параметрами сегментов. Программа разработана в среде MS Visual C++ и является MDI- приложением для ОС Windows. За основу взято демонстрационное приложение, описанное в [2]. Типовой алгоритм работы с приложением следующий: 1. Пользователь, открыв и прослушав wav-файл, выделяет нужный фрагмент осциллограммы и выбирает в меню Операции -> Сегментация. 2. Процедура сегментации включает выделение периодов основного тона (ПОТ), их разбивку на сегменты, вычисление параметров сегментов и вывод результатов в специальное окно. Границей первого ПОТ признается локальный максимум, ближайший к левой границе выделенной области. Длительность всех ПОТ рассчитывается по максимальному значению автокорреляционной функции в интервале, задаваемом отношением частоты дискретизации сигнала к частоте основного тона. Найденное по АКФ значение ПОТ корректируется сдвигом границы ПОТ в точку ближайшего локального максимума. Далее каждый ПОТ разделяется на сегменты и вычисляются их параметры. Границами сегментов являются локальные экстремумы осциллограммы. Длительность L каждого сегмента вычисляется как разность между номерами отсчётов его границ, высота H – как разность значений этих отсчётов. Коэффициент формы k вычисляется перебором значений в интервале [0;5] с шагом 0,1. Из данного интервала выбирается значение, при котором сумма квадратов разностей действительных значений сигнала и значений, рассчитанных по модели, минимальна. Все вычисленные параметры фиксируются в соответствующих переменных, являющихся элементами двумерных массивов, первый индекс которых соответствует номеру ПОТ, второй – номеру сегмента. Результат вычислений выводится в виде таблицы в окно. 3. Сохранение таблицы параметров сегментов в файл формата xls, txt, seg. Возможно копирование в буфер, а также редактирование в окне. 4. Анализ либо модификация параметров сегментов в других приложениях (Excel, Matlab и т.п.) и сохранение результата в файл (или буфер). 5. Загрузка модифицированных параметров сегментов в окно сегментации. Выполняется нажатием кнопки «Загрузить» в окне «Сегментация» и выбором нужного файла. Возможна вставка данных из буфера. 6. Модификация РС в соответствии с загруженными параметрами сегментов. Процедура выполняется при нажатии кнопки «Применить» в окне «Сегментация» и включает коррекцию (при необходимости) длины wav файла, последовательный расчёт новых значений отсчётов сигнала в соответствии с загруженными параметрами сегментов и вставку рассчитанных значений в выделенную область. 7. Воспроизведение получившегося речевого сигнала. 8. Сохранение изменённого РС в wav-файл. Разработка позволила автоматизировать процесс обработки экспериментальных данных и верификации разрабатываемых алгоритмов коррекции эмоционального окраса РС. Список литературы 1. Калюжный М.В., Филалова Н.Н. Параметрическое описание речевого сигнала в модели эмоционально окрашенной речи. //Электроника и информатика - 2005. V Международная научно-техническая конференция: Материалы конференции. Часть 2. - М.: МИЭТ, 2005. - 208 с. ISBN 5-7256-0407-1. С. 11-12. 2. Секунов Н.Ю. Обработка звука на PC. - СПб.: БХВ-Петербург, 2001.