Информационно-инновационные технологии: интеграция науки, образования и бизнеса: Труды II Международной научно-практической конференции. - 2011. - Том 2. - С. 309-312 ОЦЕНКА МНОГОМЕРНОЙ ЭНТРОПИИ НА КОРОТКИХ ПОСЛЕДОВАТЕЛЬНОСТЯХ БИОМЕТРИЧЕСКИХ КОДОВ 1 С ЗАВИСИМЫМИ РАЗРЯДАМИ Ахметов Б.С., Волчихин В.И., Иванов А.И., Фунтиков В.А. Казахский национальный технический университет, г.Алматы, Казахстан, b_akhmetov@ntu.kz Пензенский государственный университет, г.Пенза, Россия, pniei@penza.ru Введение. В случае, когда коды в некоторой последовательности оказываются независимыми, оценка их энтропии оказывается тривиальной. Для кодов с независимыми разрядами (для белого шума) энтропия точно совпадает с длиной двоичного кода. Задача существенно усложняется, если разряды кодов исследуемой последовательности оказываются зависимыми (коррелированными). В данной работе ставится задача оценки энтропии кодов разной длины с зависимыми разрядами. Имеется в виду зависимость (коррелированность) как состояний кода в пределах его длины, так и коррелированность (зависимость) состояний одинаковых разрядов разных кодов, исследуемой последовательности. Задача оценки энтропии кодов с зависимыми разрядами возникает при исследовании языков (искусственных и естественных [1]), а так же при тестировании биометрических кодов, получаемых на выходе нейросетевых преобразователей биометрия-код [2]. Так, если мы исследуем энтропию появления в текстах восьмиразрядных кодов одиночных букв русского или казахского языка, мы сталкиваемся с зависимостью разрядов последовательности восьмиразрядных кодов. Аналогичная зависимость разрядов возникает при исследовании 16-ти битных кодов пар букв, 32-битных кодов четверок букв,…., 256-ти битных кодировок групп из 32 букв текста на русском или казахском языках. Заметим, что попытки вычислить энтропию кодов естественного языка классическим способом (через оценку вероятности появления того или иного кода) является задачей с экспоненциально растущей сложностью. Так для оценки энтропии кодов одиночных букв достаточно текста из 500 букв. Для оценки энтропии кодов пар букв необходим текст длиной 50 000 букв. Для оценки энтропии кодов последовательности из 32 букв необходим текст огромной длины в 1042 букв. Ни российская, ни казахская национальные библиотеки не содержат столь значительных объемов оцифрованных текстов. В связи с этим возникает актуальная задача найти обходной метод вычисления энтропии зависимых последовательностей кодов большой длины на последовательностях кодов приемлемого размера. Особенно важной эта задача становится для тестирования нейросетевых преобразователей биометрии человека в код его личного ключа длиной 256 бит. Показатель усредненной зависимости (коррелированности) разрядов исследуемой последовательности кодов. Очевидно, что для оцифрованного «белого шума» данные соответствующие одному конкретному разряду последовательности кодов, а также двум разным разрядам последовательности кодов оказываются независимыми (некоррелированными), то есть: r(хi,k,xi,k+j) ≡0.0 для любых i,j,k (1а), а так же r(хik,xjk) ≡0.0 при i≠j (1б), 1 Статья подготовлена в рамках выполнения комплексного проекта «Разработка и подготовка производства телекоммуникационного оборудования, разработка программного сетевого, прикладного и специального обеспечения для создания цифровых сетей связи с персонализированным доступом» в соответствии с Постановлением Правительства № 218 от 09.04.2010 г. где k-номер кода в анализируемой последовательности; i,j – номера разрядов исследуемых кодов. xi,k – состояние i-го разряда k-го кода анализируемой последовательности. Заметим, что положение резко меняется, когда разряды кодов оказываются зависимыми. В этом случае подавляющее большинство коэффициентов парной корреляции оказывается зависимыми: r(хi,k,xi,k+j) ≠0.0 для любых i,j,k (2а), а так же r(хik,xjk) ≠0.0 при i≠j (2б). Обычно распределение коэффициентов парной корреляции для биометрических кодов симметрично относительно значения r(xi,xj)= 0.0 и близко к нормальному. Для кодов групп букв того или иного естественного языка это не выполняется, но возможно центрирование соответствующего распределения значений парных коэффициентов корреляции. Для биометрических выходных кодов, правильно обученного нейросетевого преобразователя, всегда выполняются условие симметричности распределения значений коэффициентов парной корреляции: E(r(xi,xj))= 0.0 (3), где E(.) – операция вычисления математического ожидания. Выражение (3) нельзя использовать как показатель, описывающий действующее значение коэффициентов парной корреляции в той или иной выборке кодов. Если осуществлять простое усреднение значений коэффициентов парной корреляции (3), то мы не можем оценить «усредненную» степень зависимости данных. По этой причине ГОСТ Р 52633.0-2006 требует переходить к контролю среднего значения модулей коэффициентов парной корреляции. Усредненный модуль коэффициентов парной корреляции оказывается нулевым для оцифрованного «белого шума»: E(r(xi,xj)) = 0.0 (4) и существенно больше нуля для кодов с зависимыми разрядами: E(r(xi,xj)) > 0.0 (5). Более того, ГОСТ Р 52633.0-2006 запрещает преобразователям биометрия-код иметь среднее значение модулей корреляции более 0.15. Это означает, что показатель усредненного модуля парных коэффициентов корреляции разрядов кодов вполне подходит на роль некоторого показателя среднего (действующего) значения коэффициентов парной корреляции. Связь среднего модуля коэффициентов парной корреляции с высокоразмерной энтропией кодов. Как было показано выше, вычислить энтропию последовательности коротких кодов достаточно просто, а вот вычислить энтропию длинных кодов технически сложно. Иначе обстоит дело с вычислением среднего значения коэффициентов парной корреляции. Практика показала, что сложность вычисления этого параметра не зависит от длины кода. Для кодов длиной 256 для достоверной оценки этого параметра достаточно 10 000 кодов, по которым оценивается порядка 10 000 модулей коэффициентов корреляции (пары разрядов при вычислении коэффициентов корреляции выбираются случайно). Интуитивно понятно, что полное отсутствие корреляции E(r)≡0.0 (оцифровка «белого шума») дает коды с предельно высоким значением энтропии. Если же мы имеем дело с предельно высоким значение коэффициентов парной корреляции E(r)≡1.0, то энтропия случайных кодов любой длины имеет значение 1 бит. Наблюдается кажущаяся случайность кодов, но все их разряды зависимы. То есть можно средствами имитационного моделирования [2] построить номограмму, связывающую энтропию кодов размерности n=1, 2, 3, 4,…., 256 выходов с одинаковым значением коэффициента коррелированности разрядов кода [2]. То есть, для оценки энтропии длинных кодов достаточно вычислить энтропию одного разряда – H(x1) и определить E(r). Далее многомерная энтропия может быть оценена следующим образом: H( x1 , x 2 ,.....x n ) ((n, E( r ) 1) H(x1 ) (6). В выражение (6) входит функция двух переменных (n, E ( r ) , для которой построена номограмма (рисунок 1). Рисунок 1. Номограмма двухмерной почти мультипликативной функции связи энтропии одного разряда и n разрядов кода с усредненным модулем коэффициентов парной корреляции Заключение. Таким образом, энтропию длинных кодов вполне можно вычислить через расчет среднего модуля коэффициентов парных корреляций. Для этого вполне достаточно выборки из 104 кодов длинной 256 бит. Если идти по классическому пути вычисления энтропии [3] через оценку вероятностей появления длинных кодов, то потребуется выборка из 1042 кодов, которую получить и обработать практически невозможно. Использование номограммы, приведенной на рисунке 1, позволяет при оценке энтропии кодов длиной 256 бит снизить размеры представительной выборки на 38 порядков и сделать задачу вычислительно простой. «Пензенский государственный университет» и «Казахский национальный технический университет» ставят перед собой задачу разработку исполняемых модулей с открытыми кодами, осуществляющих вычисление многомерных преобразований вида (6). Из номограммы рисунка 1 видно, что требования к независимости (некоррелированности) данных существенно изменяются с ростом размерности задачи. При низком числе выходов до 16 входов, требования к независимости (некоррелированности) низки. С ростом числа выходов преобразователя биометрия-код все меняется. Для преобразователей биометрия-код с большим числом выходов n= 128, 256, 512, 1024 необходимо предъявлять очень жесткие требования по независимости (некоррелированности) разрядов выходных кодов. Именно по этой причине ГОСТ Р 52633.02006 требует добиваться среднего значения модулей коэффициентов корреляции менее 0.15. ЛИТЕРАТУРА 1. Иванов А.И., Фунтиков В.А., Майоров А.В., Надеев Д.Н. Моделирование кодовых последовательностей с энтропией естественных и искусственных биометрических языков// Инфокоммуникационные технологии, № 4, 2010. – С. 75-79. 2. Малыгин А.Ю., Волчихин В.И., Иванов А.И., Фунтиков В.А. Быстрые алгоритмы тестирования нейросетевых механизмов биометрико-криптографической защиты информации: монография. – Пенза: Изд-во Пенз.гос.ун-та., 2006. – 161 с. 3. Яглом А.М., Яглом И.М. Вероятность и информация. – М.: Дом Книги, 2007. – 512с. 4. ГОСТ Р 52633.0-2006 «Защита информации. Техника защиты информации. Требования к средствам высоконадежной биометрической аутентификации».