УДК 004(06) Информационные технологии В.Л. РОЗАЛИЕВ Волгоградский государственный технический университет АВТОМАТИЗИРОВАННОЕ ОПРЕДЕЛЕНИЕ ЭМОЦИЙ В РЕЧИ ЧЕЛОВЕКА Данная работа направлена на рассмотрение одного из видов невербальной коммуникации - передачи эмоций в речи, и связь ее с акустическими и лингвистическими характеристиками. Воспринимая слухом речь, мы получаем информацию, как о смысле речи, так и об ее эмоциональном содержании из анализа акустических характеристик, а иногда только из одних акустических характеристик, например, при прослушивании звукозаписей или речи по телефону [7]. Следовательно, эмоции кодируются определенными акустическими параметрами в речевом сигнале. Понимание этих особенностей акустического кодирования эмоций необходимо для определения механизма восприятия эмоций, их выражения. Исследование различных видов и способов передачи невербальной информации имеет огромное значение для понимания процессов человеческого общения и общения в системе "человек-ЭВМ", для автоматического распознавания речи, определения личности по голосу [3]. Наконец, это принципиально важная проблема для всех видов искусства, особенно создаваемого с помощью современных технических средств: кино, радио, звукозаписи, телевидения [4]. Несмотря на очевидные успехи в области распознавания речи, и многообразия программных и аппаратных продуктов, можно сказать, что у современной науки весьма неясные представления о глубинных процессах, отвечающих за распознавание речи в нашем мозгу. Хотя при распознавании используются элементы синтаксического и семантического анализа, нужно признать, что машины из того, что мы им говорим, ничего не понимают [1]. Формализованная модель эмоций в речи представима в следующем виде: Model = <Prichina, Proavlenie, Emotion, F: Proavlenie → Emotion>, где Prichina – это причина эмоционального состояния (примем за причину время появления изменений в текущем эмоциональном состоянии, сохраняя, таким образом, пользователю право на окончательное решение); Proavlenie – это множество параметров, характеризующих звуковой сигнал речи человека, т.е. все множество акустических, лингвистических параметров: Proavlenie = {AcusticParam, LingvisticParam}, где AcusticParam – ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11 1 УДК 004(06) Информационные технологии это акустические параметры [2]; LingvisticParam – это лингвистические параметры [6]; Emotion – множество эмоциональных состояний [4]; F – функциональные зависимости Emotion от Proavlenie [5]. Последовательность определения эмоционального состояния человека по речи будет следующей. После квантования и фильтрации гребенкой из 24 фильтров, речевой сигнал представляется в виде последовательности значений кратковременных энергетических спектров, измеренных в моменты времени j=1,2,…,J каждые 5,7 мс. Значение 5,7 мс выбрано экспериментально. Таким образом, речевой сигнал представим в виде: {x(0,j), … , x(i,j), …, x(23,j)}, j = 1,2…J, где х(i,j) – значение сигнала на выходе i–го полосового фильтра в j-м кратковременном энергетическом спектре; J – общее количество спектральных срезов на анализируемом отрезке. После разделения на полосы некоторые из них отбраковываются. После этого находятся параметры, характеризующие речевой поток, и по функциональной зависимости находится соответствующая параметрам эмоция. Список литературы 1. Заболеева-Зотова А.В. Естественный язык в автоматизированных системах. Семантический анализ текстов. Волгоград: ВолгГТУ, 2002. 228 с. 2. Радзишевский А.Ю. Основы аналогового и цифрового звука. М.: Издательский дом «Вильямс», 2006. 288 с. 3. Рамашвили Г.С. Автоматическое опознавание говорящего по голосу. М., 1981. 416 с. 4. Розалиев В.Л. Моделирование эмоционального состояния пользователя // Открытое образование: прилож. к журн.: по матер. XXXIV междунар. конф. и дискусс. науч. клуба, Ялта-Гурзуф, 20-30.05.07: Инф. технол. в науке, образ., телеком. и бизнесе (IT+SE’07). – 2007. - [Б/н]. – С.172-173. 5. Связь акустических параметров с эмоциональной выразительностью речи и пения. – [Электронный ресурс]. – [2003]. – Режим доступа: http://rus.625-net.ru/audioproducer/2003/02/ aldo.htm 6. Noguerias A. Speech emotion Recognition Using Hidden Markov Models. Paris: Eurospeech, 2001. 245 p. 7. Morozov V.P. Emotional expressiveness of the Singing Voice: the role of macrostructural and microstructural modifications of spectra // Scand Journ. Log. Phon. MS. № 150, 1996. P. 1–11. ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11 2