На правах рукописи Зулкарнеев Михаил Юрьевич РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И АЛГОРИТМОВ ПОИСКА КЛЮЧЕВЫХ СЛОВ В АУДИО-СООБЩЕНИЯХ Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук РОСТОВ-НА-ДОНУ 2006 г. Работа выполнена в Южно-Российском региональном центре информатизации Ростовского государственного университета (ЮГИНФО РГУ) Научный руководитель: кандидат технических наук, старший научный сотрудник ЛЕДНОВ Дмитрий Анатольевич Официальные оппоненты: доктор физико-математических наук, профессор ПОТЕТЮНКО Эдуард Николаевич кандидат физико-математических наук, доцент РАШИДОВА Елена Викторовна Ведущая организация: Федеральное государственное унитарное предприятие «Научно-исследовательский институт «Квант», г. Москва Защита диссертации состоится " заседании диссертационного техническим наукам в совета Ростовском " ________ 2006 г. в 11 часов на К.212.208.04 по Государственном физико-математическим Университете по и адресу: 344090, г. Ростов-на-Дону, пр. Стачки 200/1, корпус 2, ЮГИНФО РГУ, к. 206. С диссертацией можно ознакомиться в научной библиотеке РГУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148. Автореферат разослан "____" ________________ 2006 г. Ученый секретарь диссертационного совета, кандидат физико-математических наук Муратова Г. В. Общая характеристика работы Актуальность темы. Развитие компьютерной техники, компьютерных технологий и интернета, приводит к росту объема информации, с которым приходится сталкиваться современному человеку. В связи с этим актуальной является проблема автоматической обработки информации, включая сортировку, хранение и быстрый поиск. В этом смысле, не остается в стороне и задача автоматической обработки речевых данных, целью которой является выявление содержания речевых сообщений для сокращения их объема. Для решения этой задачи используются технологии распознавания речи, которые бурно развиваются последние четыре десятилетия, и к настоящему времени в этой области достигнуты значительные успехи. Так, преобразование речи, записанной из программ радиовещания, в текст выполняется с точностью распознавания слов 83-87%, спонтанной речи, записанной из стандартного телефонного канала – с точностью 71-75%. Технологии распознавания речи в настоящее время используются в целом ряде практических приложений таких как: Поиск и классификация речевых сообщений в больших массивах речевых данных по их содержанию; Диалоговые системы «Человек - компьютер», «Человек - автоматическая справочная система» и т.д.; Управление промышленными, бытовыми и другими устройствами с использованием естественного языка; Автоматические системы перевода. Однако не всегда требуется полное преобразование речи в текст, в некоторых приложениях может оказаться достаточной возможность определить наличие в сообщении лишь некоторых слов, или фраз. Эту задачу решают системы поиска ключевых слов в аудио-сообщениях. В настоящее время наиболее перспективными из них считаются системы поиска ключевых слов, основанные на полном распознавании речи, от которых они отличаются размером словаря – размер словаря системы поиска ключевых слов намного меньше (порядка 1000 слов), чем размер словаря системы распознавания речи (десятки тысяч слов и более). Несмотря на достигнутые успехи, существует ряд практических задач, для которых точность поиска ключевых слов остается все еще не достаточной для практического 3 использования. К таким задачам относится поиск ключевых слов в речевых сообщениях, записанных с сотовых телефонов или в условиях низкого отношения сигнал/шум (менее 10дБ). Точность поиска ключевых слов для таких систем может не превышать 40-50% в зависимости от уровня шума. В связи с этим актуальной является задача разработки новых моделей и методов поиска ключевых слов, которые позволили бы повысить точность поиска ключевых слов. Цель и задачи работы. Цель данной работы является разработка математических моделей и алгоритмов, позволяющих повысить точность поиска ключевых слов в аудиосообщениях за счет: создания более точных акустических моделей ключевых слов и оптимизации словаря заполнения. В соответствии с этими целями сформулирован и решен ряд задач: Введено понятие длинноконтекстных акустических моделей фонем, предназначенных для создания акустических моделей ключевых слов; Введено понятие показателя влияния контекста на параметры акустических моделей фонем, основанное на близости акустических моделей фонем, разработан метод и алгоритм его расчета; Разработан метод аппроксимации длинноконтекстных акустических моделей фонем, оптимальный с точки зрения показателя влияния контекста на параметры моделей; Поставлена задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества, для которой в качестве критерия взят критерий минимума средней ошибки распознавания и записана соответствующая целевая функция; Доказана лемма, на основании которой целевая функция процедуры разбиения слов языка на непересекающиеся подмножества может быть заменена функцией языковых вероятностей и перекрестной энтропии СММ; Разработан метод и алгоритм расчета перекрестной энтропии СММ; Предложен алгоритм кластеризации, который может быть использован для разбиения слов языка на непересекающиеся подмножества с использованием полученной целевой функции; Разработана программная реализация и выполнены экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения. 4 Создана программная реализация системы, предназначенной для оценки параметров длинноконтекстных акустических экспериментальные исследования моделей фонем, предлагаемого а также метода проведены аппроксимации длинноконтекстных акустических моделей фонем; Методы исследования. В работе использованы методы распознавания естественной речи, основанные на скрытых Марковских моделях, в том числе теория цифровой обработки сигналов, теория распознавания образов и элементы теории вероятностей и математической статистики. Научная новизна. Предложен новый подход к созданию акустических моделей ключевых слов с использованием длинноконтекстных акустических моделей фонем, отличающихся от известных контекстнозависимых моделей переменной длиной учитываемого контекста. Впервые поставлена и решена задача формирования словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Выполнен ряд экспериментов, подтверждающих эффективность предлагаемых методов. Достоверность. Представленные в диссертации леммы и теоремы имеют строгое математическое обоснование, предложенные методы исследованы теоретически и проверены экспериментально. Практическая значимость. Предложен метод и алгоритм создания акустических моделей ключевых слов с использованием длинноконтекстных моделей фонем. Предложен метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания, который позволяет повысить точность поиска ключевых слов. Результаты диссертации были применены при выполнении следующих работ: НИР "Ключ", НИР "Живец-1 СВА", ОКР "Творение-2А", заказчик – ФГУП "18 ЦНИИ" МО РФ; НИР "Беседа", НИР "Хоровод", НИР "Хор-Р", заказчик – ФГУП "НИИ "КВАНТ"; НИР "Речь-О", заказчик – ФГНУ НИИ "Спецвузавтоматика". Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на седьмой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2006" (Кацивели, Украина, 2006), на XVI сессии Российского акустического общества (Москва, 2005), на международной конференции Speech and Computer "Specom-2004" 5 (Санкт-Петербург, 2004), на международной научной конференции Speech and Computer "Specom-2005" (Patras, Greece, 2005), на шестой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2005" (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2005). Публикации. По теме диссертации опубликовано 25 печатных работ. Из них 10 статей в научных журналах, 13 тезисов докладов и два свидетельства об официальной регистрации программ для ЭВМ. Личный вклад автора. Вклад автора в совместные работы заключается: в формировании постановки проблемы [4,5,6,7,8,9,13,14,16,17,21,24,25], теоретическом обосновании [5,6,7,8,21,22], совместном теоретическом обосновании [2,9,10,13,14,15,24], постановке и анализе численных экспериментов [1,3,6,13,19,24,25]. Структура и объем диссертации. Диссертация состоит из введения, трех глав и списка литературы. Общий объем диссертации – 124 страницы, в том числе 31 рисунок, 6 таблиц. Список литературы содержит 101 наименование. Содержание работы Во введении раскрывается актуальность темы диссертации, изложены основные цели и задачи диссертации, показана их практическая значимость, представлена структура диссертации и сформированы основные положения, выносимые на защиту. В первой главе рассматриваются существующие методы и алгоритмы поиска ключевых слов в аудио-сообщениях, основанные на скрытых Марковских моделях1. В первом разделе первой главы описывается статистический подход к решению задачи распознавания речи, основанный на Байесовской теории принятия решений. Особенности этого подхода состоят в следующем: 1. Речевое сообщение, представленное в виде звукового файла, преобразуется в последовательность векторов признаков O o1 ,.., oT . 2. Решение о содержании речевого сообщения W w1 ,.., wN принимается на основании Байесовского критерия минимума средних потерь, который в случае матрицы 1 Рабинер Л.Б. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР, т.77, № 2, февраль 1989 – с. 86-120. 6 потерь lij 1 ij , где ij – символ Кронекера, преобразуется в критерий максимума апостериорной вероятности: W arg max P W | O arg max W W P O, W P O arg max P O, W arg max P W P O | W W , (1) W где P O | W – вероятность того, что последовательность слов W может быть представлена последовательностью векторов признаков O ; P W – вероятность последовательности слов W . 3. Для расчета вероятности P O | W используется акустическая модель. 4. Для расчета вероятности P W используется модель языка. Во втором разделе первой главы описывается этап преобразования речевого сигнала в последовательность векторов признаков. Выдвигаются требования, которым должна удовлетворять результирующая последовательность O , чтобы обеспечить наиболее качественный и в то же время эффективный процесс распознавания. Эти требования связаны с предположениями, выдвигаемыми акустической моделью по отношению к процессу речеобразования. Далее во втором разделе описывается PLP -преобразование речевого сигнала, которое в настоящий момент дает наилучшее качество распознавания речи для систем, основанных на скрытых Марковских моделях, при этом указывается, что при выборе преобразования руководствуются результатами психоакустических экспериментальных исследований. В третьем разделе первой главы описываются скрытые Марковские модели (СММ), которые в настоящее время широко используются для моделирования акустического сигнала при распознавании речи. Определение 1 Скрытая Марковская модель – это система с конечным числом состояний, которая каждый момент времени t переходит из состояния в состояние в соответствии с вероятностью перехода aij P st j | st 1 i и генерирует вектор признаков ot в соответствии с выходной вероятностью bj o , характерной для текущего состояния. Параметры a i , j , bi o обладают свойствами, которые являются следствием их вероятностной природы: 7 a i , j 0 , i, j 1,..., N , S a j 1 i, j 1 , i 1,..., N , b o 1 , i 1,..., N , oO i где N – количество состояний СММ-модели. a22 s1 a12 o1 a33 a23 s2 s3 o2 o3 b2 o1 b2 o2 b3 o3 a44 a34 s4 o4 a45 s 5 o5 b4 o4 b4 o5 Рисунок 1 – Пример СММ-модели В третьем разделе первой главы описываются СММ-модели, которые используются в системах распознавания речи для моделирования акустического сигнала. Это так называемые СММ-модели типа «слева-направо» (см. рисунок 1). Множество состояний этих моделей является упорядоченным, и при этом переход из некоторого состояния возможен либо в это состояние, либо в следующее. Для удобства вводятся начальное и конечное состояния, в которых система находится перед началом и после завершения процесса генерации. Эти состояния не соответствуют реальным векторам признаков из последовательности векторов признаков O . Также в диссертации конкретизируется вид bi o : в качестве bi o используется смесь нормальных распределений M bi o m 1 wi ,m 2 d 2 i , m 1 2 e # 1 o i ,m i,1m o i ,m 2 , (2) где M – количество элементов смеси; 8 wi ,m , i ,m , i , m – соответственно вес, среднее вектор и корреляционная матрица m -й компоненты состояния s i ; # – знак транспонирования. Параметры смеси обладают следующими свойствами: wi ,m 0 , i 2,..., N 1 , m 1,..., M , M w m 1 i ,m 1 , i 2,..., N 1 , x#i,1m x 0 x 0 , i 2,..., N 1 , m 1,..., M . Таким образом, акустическая модель M W гипотезы W характеризуется множеством параметров M W ai , j : i, j 1,..., N W ; wi ,m , i ,m , i ,m : i 2,..., N 1, m 1,..., M , где N W – количество состояний модели M W . По аналогии для обозначения множества параметров всех СММ-моделей системы распознавания речи в диссертации используется символ : M W : W любая возможная последовательность слов . Далее в третьем разделе последовательности слов W . описывается способ построения СММ-модели Существуют два разных подхода к моделированию акустического сигнала при распознавании речи: 1) Минимальными структурными элементами языка являются слова. В этом случае модель последовательности слов строится конкатенацией моделей слов, из которых она состоит. 2) Минимальными структурными элементами языка являются составные элементы слов (слоги, фонемы и т.д.), в этом случае модель слова строится конкатенацией моделей структурных элементов, из которых оно состоит, а модель последовательности слов строится конкатенацией моделей слов, из которых эта последовательность состоит. Первый подход используется при распознавании речи с ограниченным словарем. Второй подход является более предпочтительным для больших словарей. В настоящей диссертационной работе используется второй подход, в котором в качестве структурных элементов выступают фонемы, при этом фонема моделируется тремя состояниями, из 9 которых первое моделирует часть фонемы, подверженную влиянию предшествующей фонемы, последнее – часть фонемы подверженную влиянию последующей фонемы, а центральное состояние моделирует «чистую» часть фонемы. На рисунке 1 показана СММ фонемы, а также сгенерированная моделью последовательность векторов признаков O o1 ,.., o5 . Также на рисунке показаны начальное и конечное состояния модели, в которых система находится перед началом и после завершения процесса. В третьем разделе первой главы описывается способ вычисления вероятности P O | W при помощи СММ: P O | M P O, X | M (3) X где M – СММ последовательности слов W , суммирование ведется по всем последовательностям состояний X x1 ,..., xT модели M . Вероятность P O, X | M рассчитывается по формуле: T T P O, X | M P X | M P O | X , M a1x1 axt1xt axT N bxt ot , t 1 t 2 где T P X | M a1x1 axt 1xt axT N , t 2 T P O | X , M bxt ot , t 1 где T – длина последовательности O , N – количество состояний модели M . В четвертом разделе первой главы описываются основные подходы к оценке параметров СММ-моделей. Процедура обучения в общем случае сводится к нахождению таких параметров СММ-моделей , которые бы максимизировали некоторую целевую функцию F : ˆ arg max F (4) Наиболее распространенным для обучения СММ является метод максимального правдоподобия, в котором в качестве целевой функции выступает величина правдоподобия: FMLE log P O | M W , (5) 10 где P O | M рассчитывается по формуле (3), O – обучающая последовательность векторов признаков, а W – последовательность слов, соответствующая этой последовательности. Однако непосредственное использование выражения (5) для нахождения параметров СММ является весьма трудной задачей, поэтому для нахождения оптимальных параметров используется вспомогательная функция Q , ˆ , которая зависит от двух наборов параметров СММ-моделей и ̂ , и связана с функцией FMLE следующими соотношениями: QMLE , ˆ QMLE , FMLE ˆ FMLE , QMLE , ˆ ˆ ˆ FMLE . Из этих выражений следует, что QMLE , ˆ возрастает одновременно с FMLE , а с другой стороны они одновременно достигают экстремума. Непосредственная оптимизация вспомогательной функции QMLE , ˆ по параметрам ̂ приводит к итерационным формулам для расчета параметров СММ-моделей. В пятом разделе первой главы описывается n -граммная модель языка2, которая используется для моделирования языка. Название объясняется тем, что основным рассматриваемым в данной методике объектом являются грамматики ( n -граммы) – последовательности слов длиной n . Модель языка предназначена для расчета вероятности P W : NW PW Pwi | wi n 1 ,..., wi 1 , i 1 где для оценки вероятностей используется формула 2 Moore G.L. Adaptive Statistical Class-based Language Modelling // Ph.D thesis, Cambridge University, 2001. 11 wi n 1 ,..., wi 1 P wi | wi n 2 ,..., wi 1 : C wi n 1 ,..., wi 0 C wi n 1 ,..., wi P wi | wi n 1 ,..., wi 1 d wi n 1 ,..., wi :1 C wi n 1 ,..., wi k , C wi n 1 ,..., wi 1 C w ,..., w i n 1 i : C wi n 1 ,..., wi k C wi n 1 ,..., wi 1 где wi n1 ,..., wi 1 wi n1 ,..., wi 1 wi : C wi n 1 ,..., wi 1 , P w | w ,..., w i i n 2 i 1 0 wi n1 ,..., wi 1 w : C w i da am , m a i n 1 ,...,wi 1 wi | win1 ,..., wi1 , P 0 c1 . aca a где C wi n1 ,..., wi – количество встреч грамматики wi n1 ,..., wi обучающем тексте. Основной особенностью этой модели является так называемый метод отхода, позволяющий рассчитывать вероятности последовательностей слов, которые не встречались в обучающем тексте. В шестом разделе первой главы описывается декодер, выполняющий поиск оптимальной гипотезы в соответствии с (1). В диссертации описывается Витерби-декодер, который в настоящее время используется в системах распознавания речи, основанных на СММ-моделях. В качестве практической реализации Витерби-декодера описывается алгоритм перемещающегося маркера, который может быть использован для решения различных задач распознавания речи. В заключение первой главы рассматриваются недостатки существующих методов, основным из которых является низкая точность поиска ключевых слов в каналах с повышенным уровнем шума, и предлагаются направления их разрешения, а также выполняется постановка задачи исследования. Во второй главе предлагается понятие, а также метод обучения длинноконтекстных акустических моделях фонем, которые используются для создания более точных СММмоделей ключевых слов. Пусть w – некоторое ключевое слово и PH w ph1 ,.., phN ph w – его фонетическая транскрипция, где phi , 1 i N ph w , – i -я фонема транскрипции. Акустическая модель 12 ключевого слова w строится конкатенацией акустических моделей фонем. В диссертации для создания акустических моделей ключевых слов предлагаются так называемые длинноконтекстные модели фонем: Определение 2 длинноконтекстной моделью (ДК-моделью) фонемы phi называется модель, зависящая от всей последовательности LCi w ph1 ,.., phi 1 , фонем предшествующих данной фонеме в фонетической транскрипции слова, и всей последовательности фонем RCi w phi 1 ,.., phN ph w , следующих за данной фонемой в фонетической транскрипции слова. LCi w и RCi w называются соответственно левым и правым контекстом данной длинноконтекстной модели. Тройка элементов d LCi w , phi , RCi w называется описателем данной длинноконтекстной модели (ДК- описателем). Определение 3 Между двумя описателями d1 и d 2 существует отношение включенности d1 d2 , если описатель d1 полностью содержится в описателе d 2 , когда совмещаются их центральные фонемы. Во второй главе предлагается следующий метод обучения ДК-моделей. Когда количество речевых участков, соответствующих ДК-модели меньше некоторого минимального значения N d Nmin ДК-модель аппроксимируется моделью M d : M d M d , (6) которая имеет достаточное количество обучения N d N min , (7) и при этом описатели моделей находятся в отношении включенности d d. Поскольку существует множество описателей d , которые могут находиться в отношении включенности с описателем d , стоит проблема выбора наиболее подходящего в некотором смысле описателя d . В диссертации предлагается выбирать описатель d , который получается из описателя d отбрасыванием контекста c d \ d , и при контекст минимальным образом влияет на параметры модели M d . Для оценки величины влияния контекста на параметры модели во второй главе вводится понятие показателя влияния контекста на параметры модели: 13 Определение 4 Пусть заданы две акустические модели – M и M . Их критерием близости называется величина s M , M EPO|M P O | M sT M , M , T 1 sT M , M P O | M P O | M dO , где EPO|M означает математическое ожидание по плотности распределения вероятностей P O | M , интеграл берется по многомерной величине dO do1 do2 ... doT . Определение 5 Пусть имеются две ДК-модели с описателями, находящимися в отношении включенности d d . Контекст c d \ d отличает модель M d от модели M d . Показателем влияния контекста c на параметры модели M d называется величина CIF d , c s d , d s d , d . s d , d Таким образом, для аппроксимации модели M d в соответствии с (6) выбирается модель M d с описателем d arg min CIF d , d \ d , (8) d D и при этом для описателя d выполняется условие (7), D – множество описателей, находящихся в отношении включенности с описателем d . Таким образом, для аппроксимации ДК-модели с описателем d предлагается использовать модель, удовлетворяющую условию (8). Однако для расчета величины CIF d , d \ d требуется модель M d , параметры которой неизвестны. В связи с этим в диссертации величину CIF d , d \ d в выражении (8) предлагается заменить величиной CIF d 1 CIF d , d \ d , N D d D (9) которая называется средним показателем влияния контекста на параметры модели M d . Множество D – множество всех описателей, находящихся в отношении включенности с описателем d . В заключение второй главы приводится описание программной реализации системы поиска ключевых слов, использующей ДК-модели. Программная реализация создана для 14 проверки возможностей предлагаемых ДК-моделей и методов их обучения. Она состоит из двух экспериментальных стендов: стенд обучения ДК-моделей; стенд тестирования с использованием ДК-моделей. Стенды представляют собой консольные приложения, являющиеся набором Perl-скриптов, которые управляют последовательностью вызовов утилит для работы с СММ-моделями, словарями, и др., написанные на языке С. В таблице 1 представлены результаты экспериментальных исследований системы поиска ключевых слов, использующей ДК-модели фонем. В таблице указаны две величины: вероятность правильного распознавания в процентах и количество ложных вызовов. Таблица 1 – Результаты экспериментов для системы поиска ключевых слов, использующей ДК-модели встречаемость длина уч. контекста 2 3 4 50 100 82.07 254 76.37 186 73.42 162 82.70 396 81.43 361 80.38 353 Сравнение полученных результатов с результатами экспериментов со стандартной системой поиска ключевых слов показывает, что использование ДК-моделей дает увеличение вероятности правильного распознавания на 3.8 % при максимальной длине учитываемого контекста, равной 2 и Nmin 100 (стандартная система дает вероятность распознавания P 78.9 %, количество ложных вызовов 244). При увеличении максимальной длины учитываемого контекста происходит падение вероятности правильного распознавания, особенно для случая N min 50 . Причиной этого является так называемый эффект переобучения, который состоит в том, что при оценке параметров СММ-моделей они становятся слишком настроены под данные, на которых они обучались и в меньшей степени начинают моделировать данные, которые не присутствовали в обучающей выборке. Фактически, переобучение проявляется в 15 заниженных значениях дисперсий компонент смесей, моделирующих состояния СММмоделей. В третьей главе предлагается метод формирования словаря заполнения системы распознавания ключевых слов, оптимальный с точки зрения минимума средней ошибки распознавания, а также разрабатывается алгоритм для его реализации. Для постановки задачи формирования словаря заполнения вводится понятие модели распознавания: Определение 6 Пусть C множество возможных последовательностей c C слов языка и U – множество возможных последовательностей u U элементов словаря V . Моделью распознавания называется отображение множества C на множество U : u : C U . (10) В диссертации используется частный случай модели распознавания (10), которая задает способ распознавания отдельных слов языка: v :Y V , где Y – множество слов языка, V – словарь заполнения. Поскольку слов языка гораздо больше, чем слов в словаре заполнения, одному слову vk словаря заполнения в модели распознавания будет соответствовать целое множество Yk слов языка: v y vk , y Yk , vk V , (11) Yl , то есть множества Yk являются попарно при этом предполагается, что Yk непересекающимися. Таким образом, модель распознавания (11) разбивает множество слов языка на попарно непересекающиеся подмножества Yk и задача нахождения словаря заполнения сводится и нахождению этого разбиения и соответствующих каждому множеству Yk элементов словаря заполнения vk , такому, что оптимизируется некоторая целевая функция F v : v arg max F v , (12) v В диссертации в качестве целевой функции используется статистика, которая используется в решающем правиле (1): R R r 1 r 1 F v log P v Wr | Or log P Or , v Wr log P Or . 16 (13) Вид целевой функции предполагает, что для ее расчета требуется обучающая выборка речевых сообщений U r rR1 , R – их количество с соответствующими словесными транскрипциями R Wr r 1 . Обучающая выборка представлена в виде множества последовательностей наблюдений Or rR1 . v Wr – транскрипция, получаемая преобразованием v каждого слова эталонной транскрипции Wr . Необходимо отметить, что второе слагаемое в (13) не влияет на решение задачи (12), потому что не зависит от v . Поэтому вместо целевой функции (13) можно рассматривать целевую функцию R F v log P Or , v Wr . (14) r 1 Выбор целевой функции (13) определяется тем, что в этом случае решение задачи нахождения модели распознавания (12) становится Байесовским. Использование Байесовского критерия в данном случае имеет два преимущества: Байесовский критерий принятия решений минимизирует средние потери, что в случае систем распознавания речи означает минимизацию средней ошибки распознавания; При распознавании (решающее правило (1)), используется та же статистика, это означает, что модель распознавания v является оптимальной в том смысле, что при распознавании вероятность реализации этой модели максимальна. В третье главе доказывается лемма, которая позволяет рассчитать значение целевой функции (14) без использования реальных данных. При этом источником акустической и языковой информации являются СММ-модели и модель языка: Лемма 1: Целевая функция (14) R F log P Or , v Wr r 1 является состоятельной оценкой величины F N S1 S2 N p c, y log p v y | v c p y a y, v y , yY yY cC (15) где N – количество слов в обучающей выборке, – языковой множитель, C – множество различных последовательностей слов y Y длиной n 1 , где n – размер грамматик используемой модели языка, v c – последовательность слов, которая получается 17 преобразованием v над последовательностью слов c , a y, v y – среднее значение величины log P o | v y по плотности распределения вероятностей Py O : a y, v y M Py O log P O | v y , O – последовательность наблюдений, соответствующих реализации слова y , а Py O – ее плотность распределения вероятностей. В третьей главе предлагается метод и алгоритм расчета величины a y1 , y2 , y1 , y2 Y , в случае, когда для аппроксимации плотности распределения вероятностей Py1 O используется акустическая вероятность P O | M y1 СММ-модели слова y1 : Py1 O P O | M y1 . В этом случае a y1 , y2 становится перекрестной энтропией для скрытых Марковских моделей. Основным результатом доказанной в третьей главе леммы является факт, что целевая функция (14) R F log P Or , v Wr r 1 является состоятельной оценкой функции (15) F N S1 S2 N p c, y log p v y | v c p y a y, v y yY yY cC (16). Это означает, что при неограниченном возрастании размера обучающей выборки N целевая функция стремится к функции F в вероятностном смысле: P | F F | 1 , N . Откуда следует, что при неограниченном возрастании размера обучающей выборки можно заменить целевую функцию F функцией F , поскольку для расчета функции F не требуется реальная речевая база, и размер вымышленной базы может быть каким угодно, в том числе неограниченно большим. Далее в третьей главе показывается, что если в языковых вероятностях в (16) пренебречь зависимостью от предшествующей последовательности слов p y | c p y , то функция F примет вид F d y, v y , yY 18 где d y, v y p y log p v y a y, v y (17) характерный для целевой функции метода кластеризации К-средних3. Однако метод Ксредних не может быть использован непосредственно, поскольку он разработан для евклидового пространства, а в задаче разбиения слов это не так, как это видно из выражения (17). В связи с этим в третьей главе предлагается модифицированный алгоритм Ксредних, в котором изменен шаг, связанный с нахождением центров кластеров, поскольку на этом шаге алгоритма используется евклидовость данных. Для нахождения центров кластеров в третьей главе предлагается использовать перебор всех возможных претендентов: vi arg max d y, y , для всех vi V . yY yYi В третьей главе описывается программная реализация системы распознавания ключевых слов, использующей оптимальный словарь заполнения, которая состоит из двух стендов: стенд формирования оптимального словаря заполнения; стенд тестирования. Программная реализация представляет собой консольные приложения, реализованные в виде набора Perl-скриптов, которые осуществляют вызов утилит, выполняющих основные расчеты. Утилиты представляют собой консольные приложения и написаны на языке С. Таблица 2 – Результаты поиска ключевых слов с использованием оптимального словаря lf 1 5 10 15 17.5 20 22.5 25 30 Ph 76.37 75.74 79.11 79.11 78.06 80.17 77.64 78.69 78.06 FA 309 292 311 278 267 297 264 269 261 заключение третьей главы В описываются результаты экспериментальных исследований, выполненных при помощи созданной программной реализации. В 3 Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир, 1976. – 511 с. 19 результате исследований был проведен ряд экспериментов, в ходе которых менялся языковой множитель . Зависимости вероятности правильного распознавания и количества ложных вызовов от языкового множителя приведены в таблице 2. Сравнение полученных результатов с результатами тестирования стандартной системы показывает, что использование процедуры оптимизации словаря заполнения приводит к повышению точности системы выделения ключевых слов в случае, когда 10 , 15 , на 0.21% и в случае, когда 20 , на 1.27%. К защите представлены следующие результаты: Разработан метод и алгоритм обучения длинноконтекстных моделей фонем Разработан метод формирования словаря заполнения, основанный на разбиении слов языка на непересекающиеся подмножества, оптимальные с точки зрения критерия минимума средней ошибки распознавания Доказана лемма о целевой функции процедуры разбиения слов языка на непересекающиеся подмножества Создана программная реализация и проведены экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем Создана программная реализация и проведены экспериментальные исследования системы поиска слов, использующей оптимальный словарь заполнения Основные результаты диссертации опубликованы в следующих работах: 1. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Двухслойная модель распознавания слитной речи // Интеллектуальные и многопроцессорные системы-2001, Материалы второй международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2001, с. 36-39. 2. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Организация иерархической модели распознавания слитной речи // Научно-теоретический международный журнал "Искусственный интеллект", № 3, 2001, Донецк: Изд. НАН Украины, с. 17–22. 3. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Сборник трудов XI сессии 20 РАО, 19-23 ноября 2001, Т3, Акустика речи. Медицинская и биологическая акустика, Москва: Изд. ГЕОС, 2001, с.38-41. 4. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Поэлементный метод распознавания слов // Материалы второй всероссийской конференции ''Теория и практика речевых исследований'' (АРСО-2001), Москва, 2001, с. 39-41. 5. Аграновский А.В., Леднов Д.А., Сулима П.М, Зулкарнеев М.Ю. Формантное представление речевого сигнала для решения задач обработки речи // Известия ТРТУ, Тематический выпуск: Материалы всероссийской научно-технической конференции с международным участием "компьютерные технологии в инженерной и управленческой деятельности", № 2 (25), Таганрог: ТРТУ, 2002, с. 92-95. 6. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Применение скрытых Марковских моделей в распознавании отдельных слов // Акустика речи и прикладная лингвистика, Ежегодник Российского акустического общества, Выпуск 3, Москва, 2002, с. 31-34. 7. Аграновский А.В., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Автоматическая идентификация языка // Научно-теоретический журнал "Искусственный интеллект", № 4, 2002, Донецк: Изд. НАН Украины, с. 142-150. 8. Аграновский А.В., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Метод идентификации языка, основанный на фонетическом содержании сообщения // Интеллектуальные и многопроцессорные системы-2002, Материалы третьей международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2002, с. 29-31. 9. Agranovsky A.V., Lednov D.A., Zulkarneyev M.Y. Statistical Approach to Creating Phonetic Transcription // Proc of Int. Workshop "Speech&Computer", "Specom-2002", St.Petersburg, Russia, 2-5 september 2002, pp.99-101. 10. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Акустический журнал, т.48, 4, с.560-562. 11. Аграновский А.В., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Экспериментальный стенд для тестирования системы поиска ключевых слов в непрерывном потоке русской речи// Свидетельство об официальной регистрации программы для ЭВМ №2003611308. 21 12. Аграновский А.В., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Классификатор аудио-файлов по языкам // Свидетельство об официальной регистрации программы для ЭВМ №2003611311. 13. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Моделирование вариативности произношения для распознавания русской речи // Научно-теоретический международный журнал «Искусственный интеллект», №3, 2003, Донецк: дон ГИИИ, с. 388-393. 14. Аграновский А.В., Свирепо О.А., Леднов Д.А., Зулкарнеев М.Ю. Эксперименты по моделированию вариативности произношения // Интеллектуальные многопроцессорные системы-2003, Материалы четвертой международной научнопрактической конференции, Таганрог: Изд. ТРТУ, 2003, с. 170-172. 15. Свирепо О.А., Зулкарнеев классификации произношения М.Ю. фонетических (на Исследование ошибок материале в русского возможности моделировании языка) // применения вариативности Интеллектуальные и многопроцессорные системы-2003, Материалы четвертой международной научнопрактической конференции, Таганрог: Изд. ТРТУ, 2003, с. 173-175. 16. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 1. Схемы, не использующие верификацию результатов распознавания // Телекоммуникации, № 4, 2004 г., с. 8-13. 17. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 2. Схемы, использующие верификацию результатов распознавания // Телекоммуникации, № 5, 2004 г., с. 16-23. 18. Зулкарнеев М.Ю. Учет корреляции в последовательности векторов признаков, характеризующей системы-2005, высказывание Материалы // Интеллектуальные шестой международной и многопроцессорные научно-практической конференции, т.3, Таганрог: Изд. ТРТУ, с. 291-294. 19. Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Влияние глубины учета динамики на точность идентификации дикторов // Сборник трудов XIV международной научной конференции "Информатизация и информационная безопасность правоохранительных органов". Москва: Академия управления МВД России, 2005. с. 359-361. 22 20. Зулкарнеев М.Ю. Использование автоматической фонетической разметки речевой базы для обучения системы распознавания непрерывной речи // Сборник трудов XVI сессии РАО, Т.III, Москва: ГЕОС, 2005, с. 40-44. 21. Ivanov V.D., Potapova R.K., Zulkarneyev M.Y. A heuristic method of grapheme-tophoneme conversion // Proceedings of 10th International Conference on SPEECH and COMPUTER "Specom2005", v. I, pp.263-264. 22. Зулкарнеев М.Ю. Представление СММ с линейными предсказателями в виде базовых СММ для задач распознавания речи // Обозрение прикладной и промышленной математики том 12, выпуск 4, с. 972-973. 23. Zulkarneyev M.Y. An approach to compensation for language modeling errors in the keyspotting systems // Proceedings of 9th International Conference of SPEECH and COMPUTER "Specom2004", pp. 348-350. 24. Иванов В.Д., Зулкарнеев М.Ю. Оптимальный метод формирования словаря заполнения для задачи распознавания ключевых слов в аудио-сообщениях // Научно-теоретический международный журнал "Искусственный интеллект", №3, 2006, Донецк: дон ГИИИ, 2006, с. 510-520. 25. Сатуновский П.С., Зулкарнеев М.Ю. Метод построения фонетической транскрипции слов // Интеллектуальные и многопроцессорные системы-2006, Материалы седьмой международной научно-практической конференции, Т.2. Таганрог: Изд. ТРТУ, 2006, с.390-393. Тип. ООО «ФЕНИКС» Заказ № 892 от 10.11.2006 г. Тираж 100 экз.