АКУСТИЧЕСКАЯ ТЕОРИЯ РЕЧЕОБРАЗОВАНИЯ И СИСТЕМА ФОНЕТИЧЕСКИХ ПРИЗНАКОВ В.И.Галунов1 , В.И.Гарбарук2 1 С.Петербургский Государственный Университет 2 С.Петербургский НИИ уха, горла, носа и речи Развитие фонетики самым не поcредственным образом связано с целым рядом естественных наук. Это и информатика, и психофизиология, и психофизика и др. направления тем или инsм образом связанные с изучением речи. Хотелось бы вернуться к некоторым аспектам наиболее старого естественно-научного направления, пытающегося объяснить строение речевого сигнала на фонетическом уровне. Это акустическая теория речеобразования. Следует вероятно упомянуть, что одна из первых акустических моделей строения речевых звуков была предложена Кратценштейном в 1779году на конкурс С.Петербургской Императорской Академии Наук[1]. Однако истинно научное оформление акустическая теория речеобразования получила в работе Гельмгольца в 1870г.[2]. Основная идеология этой работы осталась без изменения до настоящего времени и в явном или неявном виде принимается большинством речевиков. При этом учитывается, конечно, целый ряд математических и методико-технологических усовершенствований, введенных начиная от забытой по естественным причинам работы Чибо и Каджияма[3] и кончая классическим трудом Фанта [4] и последними работами [5,6]. Вероятно следует указать две основные особенности модели Гельмгольца. 1. Процесс речеобразования состоит из двух независимых компонент: возбуждения как такового звука и формирования фонетического качества звука за счет возбуждения резонансных частот артикуляционного тракта (у Гельмгольца) или фильтрации (в современном рассмотрении). 2. Фонетическое качество звука определяется так называемыми формантами, которые определяются как резонансные частоты артикуляционного тракта ( или же полюса передаточной функции артикуляционного фильтра) или как максимумы спектра речевого сигнала [7]. Указанные особенности в явном виде не подвергаются пересмотру, хотя, как всем очевидно, и не соответствуют действительности. Связано это с тем, что не видно, к каким научным последствиям такой пересмотр должен привести. Коснемся прежде всего независимости источника звука и артикуляционного фильтра. В работе [8] было показано, что фонетическое качество гласных в значительной степени сформировано уже в гортани при исключении влияния артикуляционного фильтра. Более того, в классической литературе хорошо известно, что голосовой источник обладает своими полюсами и нулями, что в явном виде сказывается на качестве формируемого речевого сигнала. Это всё заставляет принять предположение о том, что если существуют определяющие фонетическое качество форманты, то они являются максимумами в спектре, а не требующими операции деконволюции полюсами передаточной функции, как предполагает классическая теория. Теперь об определяющем значении формант (т.е. максимумов в спектре звуков) для определения фонетического качества звуков речи. То, что с помощью таких формант можно добиться определенного качества звучания, не вызывает сомнения. Но определяют ли именно эти максимумы спектра это качество? Первые сомнения были внесены еще в 30-х годах после создания полосного вокодера [9]. В начале 60-х годов была сформирована на основе большого экспериментального материала теория расчета разборчивости речи, принявшая за основу полосное представление речевого сигнала [10,11], исключавшая из рассмотрения форманты (при этом следует отметить, что в русскоязычной версии этой теории за основным расчетным параметром сохранялось название "формантная разборчивость"). Все это заставило российских исследователей Варшавского Л.А. и Литвака И.М. ввести гипотезу о том, что фонетическое качество звуков определяется определенным уровнем соотношений мощности в спектральных полосах, а форманты (т.е. максимумы в спектре) являются лишь доступным для речеобразующего аппарата способом достижения необходимых полосных соотношений. Опираясь на изложенную выше двойную идеологию принципов формирования акустического облика речевых звуков на фонетическом уровне, авторы настоящего доклада хотели бы предложить вниманию два экспериментальных исследования. Оба они выполнены в одном методическом ключе с использованием методов декорреляции. Прежде, чем перейти к описанию самих исследований и анализу их результатов, авторы считают долгом отметить, что они сами не убеждены, что значения формант или соотношения уровней спектральных полос являются единственными определяющими признаками для различения фонем. Более того, они склонны считать, что существует несколько параллельно функционирующих систем звукоразличительных признаков. Именно за счет существования нескольких систем признаков различного типа обеспечивается устойчивость речи как коммуникативной системы по отношению к воздействию в довольно широком диапазоне помех, шумов и искажений. Первое исследование: формантные максимумы в спектре гласных. Известно расположение формант для русских гласных, произносимых в изолированной позиции или в слогах. Каких либо заметных отклонений от результатов, полученных еще в классическом труде Г.Фанта [4] практически нет. Однако известно, что в реальном речевом сигнале "формантная" картина заметно изменяется. Наблюдается появление лишних максимумов, расщепление максимумов на месте расположения форманты в идеальном варианте, исчезновение классических формантных максимумов. Указанные ненормативные отклонения могут проявляться в результате влияния по крайней мере 3-х факторов: - индивидуальные особенности говорящего, - контекстуальное окружение, - ситуационные особенности (психо-физиологическое состояние диктора, манера произношения в данной аудитории и т.п.). Если принять гипотезу о том, что артикуляторный аппарат обладает конечными акустическими резонансными и фильтровыми возможностями, но при этом человек при формировании речевых звуков стремится к определенной структуре различительных признаков, одним из которых является определенным образом организованная система формант, то несмотря на все перечисленные выше возможности искажения "правильной" формантной структуры на гистограммах вероятности распределения спектральных максимумов будут выделяться зоны упомянутых "правильных" формантных структур. Исследованию был подвергнут следующий речевой материал. Русские ударные гласные во фразах после б, б', c, c', а так же все гласные в слогах СГ после всех согласных. Весь речевой материал наговаривался 30 дикторами мужчинами и 30 дикторами женщинами. Для всех гласных в низкочастотной части спектра на распределении вероятностей появления максимумов наблюдается три четко выраженных максимума, соответствующих трем первым формантам. В промежутках и в высокочастотной области распределение вероятности появление максимума имеет практически равномерный характер и выделение формантных областей невозможно. Указанные формантные зоны при этом соответствуют принятым в научном обиходе положениям 3-х первых формант русских гласных. Единственно следует указать, что в слитной речи для мужских голосов часто появляется дополнительный спектральный максимум между 2-ой и 3-ей формантой. Для женских же голосов часто происходит исчезновение 2-ой форманты. (Это явление еще более характерно для детских голосов). Применение описанной процедуры построения гистограмм появления максимумов спектра для отдельных дикторов показывает, что помимо максимумов в истинно формантных зонах появляются дополнительные максимумы на гистограмме в высокочастотной части и в указанной области между 2-ой и 3-ей формантой. Таким образом каждый из дикторов, генерируя звук с фиксированным положением первых трех спектральных максимумов, не контролирует структуру высокочастотной части спектра. Резонансные свойства сформированного в процессе речеобразования артикуляционного тракта дают сигнал не только с фиксированными фонеморазличительными 3-мя низкочастотными формантами, но и с некоторым количеством дополнительных индивидуальных формант. Принципиальной особенностью полученных распределений вероятностей появления спектральных максимумов является то, что для отдельных звуков формантные зоны не расщепляются на подзоны в зависимости от контекста. Распределения имеют достаточно компактный колоколообразный вид. Это говорит об отсутствии контекстуальных вариантов гласных фонем. То есть, после какого бы согласного не произносился данный гласный, говорящий всегда стремится реализовать звук с одной и той же целевой формантной структурой. Обнаруживаемые при анализе восприятия различимые на слух контекстуальные варианты гласных должны быть связаны не с различениями в формантной структуре, а со способностью отличать на слух некоторые варианты отклонений от средних значений формант или с различением контекстуальных вариантов каких-либо не формантных параметров. Значительный интерес представляет вариативность формантной структуры речи отдельных дикторов относительно средних положений формант. Для анализа такой вариативности имеет смысл использование факторного анализа. Для того, чтобы понять физический смысл такого подхода, рассмотрим несколько возможных способов появления сдвига формант относительно средних (целевых) значений в процессе формирования речевого акустического сигнала за счет индивидуальных особенностей артикуляционного тракта. Допустим, как это часто и предполагается, что положение формант зависит от длины артикуляционного тракта, то есть функция площади для данного звука, нормированная по длине тракта, имеет одинаковый вид для всех дикторов. В этом случае сдвиг формант при переходе от одного диктора к другому будет происходить пропорционально изменению длины артикуляционного тракта. В этом случае корреляция между положениями формант звуков у разных дикторов дает единичное значение и матрица корреляций будет состоять из одних единиц. Применение факторного анализа к такой матрице дает вычленение только одного фактора, участвующего в формировании индивидуальной вариативности формантных структур. Рассуждение можно продолжить. Допустим, что помимо длины тракта дикторы различаются объемом полости рта при одинаковых объемах других частей артикуляционного тракта, одинаковом способе смещения языка в ротовой полости. Скорее всего изменение объема ротовой полости будет влиять только на изменение частоты второй форманты. Матрица корреляции между формантными структурами будет состоять не только из единичных элементов. К единице будут приближаться только коэффициенты корреляции между дикторами с примерно равным объемом ротовой полости. Факторный анализ в применении к такой матрице дает выделение двух значимых для формирования индивидуальных формантных структур факторов. Аналогичное рассмотрение может быть продолжено вплоть до того случая, когда каждый диктор формирует структуру формант сугубо индивидуальным, лишь ему присущим способом. В этом случае мы будем иметь дело с корреляционной матрицей, имеющей все недиагональные элементы, равные нулю. Применение факторного анализа дает количество формирующих формантную структуры факторов, равное количеству дикторов. В результате применения факторного анализа к гласным, произносимым дикторами мужчинами во фразах после согласных б и б' выделяется пять факторов, после с и с' – четыре фактора. Из этого следует два важных вывода. Во-первых, индивидуальные особенности произношения проявляются не только в высокочастотных или других не фонемообразующих формантах, но и в сдвиге относительно средних значений низкочастотных фонетически значимых формант. Во-вторых, индивидуальные вариации системы частот формант определяются не только индивидуальными особенностями уклада артикуляционного тракта, соответствующего данному типу звука, но и контекстуальной динамикой формирования этого уклада в процессе речепроизводства, характерной для данного диктора. Исследование второе: полосная структура речевых сигналов. Очевидно, что из-за чисто физических ограничений человек в процессе речеобразования не может управлять большим числом спектральных составляющих. Это следует из физических ограничений возможностей артикуляционного тракта [12]. Если мы в данный момент измерили даже большое количество спектральных составляющих, то во времени они смогут изменяться только коррелированно. Независимые спектральные составляющие могут быть обнаружены путем анализа матриц корреляции временных огибающих составляющих спектра. Естественно предположить, что получаемые таким образом независимые составляющие и являются именно теми существенными переменными, которые определяют качество сигнала. Последнее предположение, конечно, является уже довольно жестким и требует дополнительной верификации. В качестве исходного речевого материала была использована речь 3-х дикторов мужчин. Общая длительность звучания – 2мин. Факторный анализ матриц корреляции спектральных составляющих для всего речевого материала дал следующие приблизительно независимые спектральные полосы: 80-400,400-750, 7501350, 1350-1750, 1750-2200, 2200-2900, 2900-5000Гц. Выделенные составляющие хорошо совпадают с границами формантных диапазонов (интересно, что выделяется полоса 1350-1750Гц, не соответствующая каким-либо формантам для русских гласных, но дающая часто ложную форманту для мужских голосов – см. предыдущий раздел). Полученные результаты заставляют предположить, что в полученные факторы (полосы частот) основной вклад вносят гласные, имеющие большую интенсивность, чем согласные. Дополнительный факторный анализ был проведен только для участков речевого сигнала, соответствующих гласным. При этом была получена та же система полос. Это казалось бы подтверждало предположение о формантном происхождении независимых спектральных полос. Однако отдельный анализ низкочастотных и высокочастотных гласных, имеющих различную формантную структуру, дал опятьтаки прежнюю и одинаковую для обеих групп систему независимых составляющих спектра. Для того, чтобы учесть роль участков сигнала, соответствующих согласным, все срезы речевого сигнала были нормированы по мощности. Факторный анализ нормированного сигнала был проведен для всего исходного речевого материала, отдельно для гласных, отдельно для согласных. Для всех случаев получена практически одна и та же система факторов – спектральных полос. Это говорит о том, что первичной целью в формировании речевого сигнала скорее является общая форма спектра. Форманты же служат способом его реализации и являются продуктом акустического механизма процесса речеобразования. При этом следует помнить, что конечное число признаков, определяющих фонетико-акустическую структуру речевого сигнала определяется прежде всего конечными возможностями изменений формы артикуляторного тракта. Сказанное не исключает фонетико-различительной роли формант, а заставляет вернуться к уже высказанному предположению о параллельной системе признаков, которые могут быть реализованы в рамках допустимой для речеобразующего аппарата человека акустической теории речеобразования. Здесь может быть не лишне напомнить о забытой, но в общем недоисследованной теории каскадной модуляции[13]. 1. Ch.G.Kkratzenstein,1779. 2. Helmholtz H., Die Lehre von der Tonempfindungen als physiologische Graudlage fur die Theorie der Musik, Brounschweig,1870. 3. Chiba T., Kajiama M., The vowel, its nature and structure.,Tokyo,1941. 4. Г.Фант. Акустическая теория речеобразования.-М., Наука, 1964. 5. R.D.Kent at al.(Eds) Papers in Speech Communication: Speech production, Ac.Soc.of America,1991. 6. В.Н.Сорокин. Теория речеобразования.-М., Радио и связь,1985. 7. Дж.Л.Фланаган. Анализ, синтез и восприятие речи.-Связь.,М.,1968. 8. В.И.Галунов, Б.С.Крылов, С.А.Станкевич, Р.Г.Хантемиров. Исследование аэродинамических процессов в гортани.-IIIсъезд отоларингологов РСФСР, 1972. 9. H.Dudley The Vocoder, Bell Labs. Record 17, 122-126, 1939. 10. K.D.Kryter Methods for the calculation and use of the articulation index.JASA 34,1689-1697(1962). 11. Н.Б.Покровский Расчет и измерение разборчивости речи.- Связьиздат, 1962. 12. В.И.Галунов Исследование вариативности речевого поведения человека, докт.дисс.,1975. 13. P.C.Ganeshsudaram Cascade modulation Theory of Speech Formants.J.Phonetic 10, H1<1957<1-7/