( ) ( ) { ( )s ( ) s ( ) 0 ( ) - НИИ прикладных проблем математики и

ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИЕ СВОЙСТВА ЦЕПЕЙ МАРКОВА ПЕРЕМЕННОГО ПОРЯДКА 1 ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИЕ СВОЙСТВА ЦЕПЕЙ МАРКОВА ПЕРЕМЕННОГО ПОРЯДКА М.В. Мальцев Учреждение Белорусского государственного университета «НИИ прикладных проблем математики и информатики», НИЛ математических методов защиты информации Минск, Республика Беларусь телефон: +(37529)2785526; e-mail: maltsew@mail.ru последовательность 1 АННОТАЦИЯ Рассматривается цепь Маркова переменного порядка (ЦМПП). Построены статистические оценки параметров модели, найдены необходимые и достаточные условия эргодичности. Разработан тест на основе частотных статистик ЦМПП для выявления зависимости в выходной последовательности криптографического генератора. 2 ВВЕДЕНИЕ Важной задачей в защите информации является выявление зависимостей в выходных последовательностях криптографических генераторов [1]. Похожие задачи статистического анализа временных рядов часто встречаются в кибернетике [2], генетике [3], экономике [4], социологии, медицине и во многих других областях научной и практической деятельности. Для моделирования дискретных временных рядов применяются цепи Маркова. Наиболее общей моделью является цепь Маркова s -го порядка [5]. Однако число параметров D  ( N  1) N данной модели возрастает экспоненциально при увеличении порядка. Для статистического оценивания параметров требуется иметь реализацию не всегда доступной на практике длительности. Поэтому построен ряд «малопараметрических» моделей цепи Маркова высокого порядка [6-8], одной из которых является цепь Маркова переменного порядка. s 3 ЦМПП(S) И ЕЕ ВЕРОЯТНОСТНЫЕ СВОЙСТВА Пусть A  0, 1, , N  1 – пространство состояний мощности 2  N   , x1k  ( x1 ,, xk ), x1k  Ak – (строка) из k с числом элементов | xij | j  i  1, 1  i, j  k , i  j , uw  (u1 , u2 ,, u u , w1 , w2 ,, w w ) строк u, w ,  X t  AtZ – конкатенация – однородная цепь Маркова s- го порядка, заданная на вероятностном пространстве , F ,  , с матрицей вероятностей одношаговых переходов P  ( p x s , x ) , s 1 1 Ключевые слова контекстная функция, равномерно распределенная случайная последовательность, цепь Маркова переменного порядка, частотные статистики. символов элементов, xij  ( xi , xi 1 ,, x j ) – фрагмент строки x1k pxs , x 1 s1  P{X t 1  xs 1 X t  xs ,, X t  s 1  x1} , где x1s 1  As 1 . Определение 1 [6]. Цепь  X t tZ Маркова называется цепью Маркова переменного порядка ЦМПП( s ), если еѐ вероятности одношаговых переходов p x s 1 имеют вид: 1 p xs , x 1 0  qxs   s l 1 , xs 1 s 1  q xs s l 1 , xs 1 , (1)    1, l  l x1s , x1s 1  As 1 , l  0, 1,, s, l x1s  mink : P{X t 1  xs 1 X t  xs , X t s 1  x1}   P{X t 1  xs1 X t  xs ,, X t k 1  xsk 1}. Соотношение (1) означает, что вероятность перехода в состояние x s 1 зависит не от всех s предыдущих   состояний. Помимо l  контекстная функция cx   x состояний, а лишь от l x1s s 1 в s s l 1 , [6] определена которая цепочке предыдущих состояний ставит в соответствие цепочку из l значимых состояний –   контекст [6]. Если l x1s  s , то получаем полносвязную   цепь Маркова s-го порядка; если x1s  As , l x1s  0 , то имеем последовательность независимых случайных величин. Через τ обозначим множество значений функции c . Функция l  обладает следующим свойством: если   l x1s  l0 , l0  1,2,, s, y1s l0 1  As l0 1 . то   l y1s l0 1 xssl0  2  l0 , ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИЕ СВОЙСТВА ЦЕПЕЙ МАРКОВА ПЕРЕМЕННОГО ПОРЯДКА Доказательство.  Предположим, l ( y1s l0 1 xssl0  2 ) y1s l0 1  As l0 1 ,  l1  l0 . определения контекстной функции имеем:   PX что  Из P X s 1  xs 1 X s  xs ,, X s l0 1  0    s 1   xs 1 X s  xs ,, X s l0 1  N  1 ,   что противоречит тому, что l x1s  l 0 . Контекстную функцию c и функцию l  удобно представлять в виде корневого дерева, которое называется контекстным деревом. У каждой вершины в таком дереве может быть не более N потомков, поскольку каждому узлу (кроме корня) соответствует элемент из пространства состояний A . Каждому значению контекстной функции соответствует ветвь контекстного дерева. Заметим, что если у каждой вершины контекстного дерева, не являющейся листом, имеется ровно N потомков, то такое контекстное дерево соответствует полносвязной цепи Маркова s-го порядка. Такое контекстное дерево называется максимальным контекстным деревом. Пример 1. Пространство состояний A  0, 1, порядок s  3 , контекстная функция c и соответствующее ей контекстное дерево имеют вид: 0, x3  0, x2 , x1  A;  0, 1, x3  1, x2  0, x1  A; c( x13 )   0, 1, 1, x3  1, x2  1, x1  0; 1, 1, 1, x3  1, x2  1, x1  1. Xt 0 x3 1 0 x2 1 с расширенным пространством состояний и используя необходимое и достаточное условие эргодичности для цепи Маркова первого порядка X (t ,s ) [9], приходим к требуемому результату. Обозначим  x s  PX 1  x1 ,, X s  xs , x1s  A s , – 1 начальное s -мерное распределение вероятностей ЦМПП( s ). Лемма 1. Распределение вероятностей реализации X   X 1 , X n  ЦМПП s  имеет вид: PX 1  x1 ,, X n  xn    x s  1 x1 1 Рис.1. Контекстное дерево Найдем условия, при которых ЦМПП s  эргодической. Теорема 1. Цепь Маркова переменного ЦМПП s  с контекстной функцией c эргодической тогда и только тогда, когда такое m  s, m  N , что m min m s x1s , xm1 As   pc ( x xsm1Ams i 1 i  s 1 ), xi s i 0. Доказательство. Переходя от ЦМПП s  к цепи Маркова первого порядка X (t , s )   X t ,, X t  s 1 , t  Z , i 1 is . i 4 ОЦЕНИВАНИЕ ПАРАМЕТРОВ МОДЕЛИ Оценки для переходных вероятностей ЦМПП s  , предложенные в [6], имеют вид: qˆ x s s  l 1 , xs 1  ν x s 1 (n) s  l 1 ν xs s  l 1 ν x b ( n)  где ( n) , (2) n b  a δ X a i 1 ЦМПП s  , δ x k , y k  1 1 – частотные статистики i b  a b , xa i k δ x ,y , δ x ,y i i 1 i i i – символ Кронекера. Покажем, что приведенные оценки являются условными оценками максимального правдоподобия. Теорема 2. Если для реализации X   X 1 , X n  ЦМПП s  , определяемой (1), длительности n  s с выполнено условие c (n)  0 , то оценки (2) являются условными известной ν xs функцией оценками максимального правдоподобия. Доказательство. Используя результат леммы 1, построим логарифмическую функцию правдоподобия:   ln X , qω,u ωτ,uA  ln  x s  является порядка является найдется n  qcx ,x i  s 1 Доказательство. Используя формулу умножения вероятностей и марковское свойство, приходим к требуемому результату. s l 1 0 2  ln  x s  1 1 n  ln qcx , x i  s 1 i 1 i s  i  ωu nln qω,u . uA, ωτ Экстремальная задача для нахождения оценок максимального правдоподобия имеет вид: l n X , qω,u   ln  x s   ωu n  ln qω,u  max, ωτ ,uA 1  qω,u uA,  uA,ωτ ωτ   qω,u  1, ω  τ. uA     ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИЕ СВОЙСТВА ЦЕПЕЙ МАРКОВА ПЕРЕМЕННОГО ПОРЯДКА Используя метод множителей Лагранжа для решения данной задачи, приходим к оценкам (2). Рассмотрим стационарную цепь Маркова переменного порядка. Тогда оценки (2) являются несмещенными и состоятельными. Пусть  X t  AtZ – ЦМПП (s ) , определяемая (1), 2  l  s , – ветвь контекстного дерева. Построим алгоритм оценивания контекстного дерева для ЦМПП (s ) , основанный на проверке следующих вспомогательных гипотез о значимости символов: H 0 x1l , – первый символ x1 в цепочке x1l не является значимым, то есть PX l 1  xl 1 X l  xl ,, X 1  x1   PX l 1  xl 1 X l  xl , , X 2  x 2 ; H 1 – вся цепочка x1 5 ПРОВЕРКА ГИПОТЕЗ О ЗНАЧЕНИИ ПАРАМЕТРОВ ЦМПП  1 l 1 1 1 l 1 Теорема 3. Если справедлива гипотеза H 0 , то при n   распределение статистики γ(n) сходится к χ 2 распределению с N  1 степенью свободы. Доказательство. Воспользовавшись тестом для проверки гипотезы о порядке цепи Маркова [10], получаем требуемый результат. Теорема 3 позволяет построить тест, основанный на статистике γn  : – ЦМПП (s ) , определяемая (1). Построим тест для проверки гипотез: H 0 :  X t  AtZ – равномерно распределенная случайная последовательность [1], то есть случайная последовательность, элементы которой независимы в совокупности и имеют равномерное распределение вероятностей q x s , x  1 / N ; H1 :  X t  AtZ – цепь s l 1 s 1 Маркова переменного порядка с переходными вероятностями одношаговых переходов q xs s l 1 , xs 1   q xs s l 1 , xs 1 n  1  ω xssl11 n   1  0, где ω x s1 n  n  ω x s1 ,  s l 1 s l 1 N  n   причем xs 1A  ω x s 1  0, s l 1 xssl11Al (5) ω x s 1  0. s l 1 Асимптотическое соотношение (5) означает, что рассматривается контигуальное семейство альтернатив. Введем в рассмотрение следующие случайные величины: ν (n)  n / N l 1 , i  i1l 1  Al 1 , ξ i ( n)  i l 1 n/ N 2  H 0 : γ ( n )  Δ,   H 1 : γ ( n )  Δ, (4) ρ( n)  N   ξ (i ,,i 2 1 k, ilk 1 1 (i1 ,,ilk )τ где Δ – порог, определяемый из заданного уровня значимости α . Следствие 1. Пусть α  0, 1 и Δ 1 α квантиль уровня  X t  AtZ Пусть l является значимой. Введем в рассмотрение статистику: ( ν x l 1 (n)  ν x l (n) pˆ x l , x ) 2 1 1 1 l 1 γ ( n)  . ˆ ν ( n ) p x , x A xl xl , x 3  GN11 1  α – стандартного χ  распределения с N  1 степенью свободы. Тогда при n   размер теста равен α . Доказательство. Найдем порог  , при заданном уровне значимости α : α  PH 1 H 0   Pγ̂(n)   H 0   1  Pγ̂(n)   H 0   2 1  G N 1 () ,   GN11 (1   ) , откуда и следует требуемый результат. Численные результаты, полученные в результате компьютерного моделирования, показывают, что алгоритм оценивания контекстного дерева, основанный на проверке вспомогательных гипотез о значимости символов является более точным, чем контекстный алгоритм, предложенный в [6] при малых длинах n n  10000 реализации ЦМПП. lk 1 )  ( n)  k, (i1 ,,ilk  N    . ξ ( n ) (i1 ,,ilk 1 )   ilk 1 1   )τ  Теорема 4. Если справедлива гипотеза H 0 , то при n   распределение вероятностей статистики ρ(n) сходится к χ 2 -распределению M  τ ( N  1) с степенями свободы. Если справедлива гипотеза H1 , то при n   распределение статистики ρ(n) сходится к нецентральному χ 2 -распределению с M степенями свободы и параметром нецентральности определяемому следующей формулой: 2 1 a2   ω x1xlk ,xlk 1 . Nτ k,  a2 ,  ( x1 ,xlk )τ Доказательство. Воспользовавшись теоремой 2 из [11] и применив линейное преобразование статистики ρn  , получаем требуемый результат. С помощью теоремы 4 построим тест, основанный на статистике ρn  : ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКИЕ СВОЙСТВА ЦЕПЕЙ МАРКОВА ПЕРЕМЕННОГО ПОРЯДКА  H 0 : ρ ( n )  Δ,   H 1 : ρ ( n )  Δ, где Δ – порог, определяемый из заданного уровня значимости α . Следствие 2. Пусть α  0, 1 и   GN1τ 1  α  – квантиль уровня χ  распределения 2 с стандартного 1 α степенями U  N  1 τ свободы. Тогда при n   размер теста равен α . Доказательство аналогично следствию 1. Следствие 3. Мощность теста w при n   удовлетворяет следующему асимптотическому соотношению: w  1  GU ,a GU1 1    , n  где GU ,a  – функция  нецентрального 2- распределения с U степенями свободы и параметром нецентральности a . Доказательство. Используя определение мощности и результат следствия 2 имеем: w  1  PH 0 H1  1  P n   H1n      1  GU ,a    1  GU ,a GU1 1    . n Результаты компьютерных экспериментов показывают, что значение мощности построенного теста w и его оценки превышают соответствующие значения для аналогичного теста из [11], что свидетельствует о более высокой эффективности теста, построенного на основе статистики  n  . Отметим, что при увеличении длины реализации ЦМПП не наблюдается сходимости мощности теста к единице, поскольку рассматривается контигуальное семейство альтернатив, то есть при увеличении длительности n наблюдаемой последовательности, гипотеза сближается с гипотезой H0 H1 : H 1   H 0 . n ЛИТЕРАТУРА [1] Математические и компьютерные основы криптологии / Ю.С. Харин [и др.]. – Минск. : Новое знание, 2003. – 381 с. [2] Медведев, Г.А. Вероятностные методы исследования экстремальных систем / Г.А. Медведев. – М. : Наука, 1967. – 380 с. [3] Уотермен, М.С. Математические методы для анализа последовательностей ДНК / М.С. Уотермен. – М. : Мир, 1999. – 350 с. [4] Ching, W. K. High-order Markov chain models for categorical data sequences / W. K. Ching, E. S. Fung, K. N. Michael // Wiley Periodicals. Inc. Naval Research Logistics. – 2004. – Vol. 51. – P. 557 – 574. 4 [5] Кемени, Дж. Конечные цепи Маркова / Дж. Кемени, Дж. Снелл. – М. : Наука, 1970. – 272 с. [6] Buhlmann, P. Variable length Markov chains / P. Buhlmann, A. Wyner // The Annals of Statistics. – 1999. – Vol. 27, № 2. – P. 480-513. [7] Харин, Ю.С. Цепь Маркова с частичными связями ЦМ( s, r ) и статистические выводы о ее параметрах / Ю.С. Харин, А.И. Петлицкий // Дискретная математика. – 2007. – Т. 19, № 2. – С. 109-130. [8] Raftery, A.E. A model for High-Order Markov Chains / A. E. Raftery // J. Royal Statistical Society. – 1985. – Vol. B-47, № 3. – P. 528–539. [9] Дуб, Дж. Вероятностные процессы / Дж. Дуб. – М., 1956. – 605 с. [10] Basawa, I.V. Statistical inference for stochastic processes / I. V. Basawa. – AP, 1980. – 435 p. [11] Тихомирова, М. И. О двух статистиках типа хиквадрат, построенных по частотам цепочек состояний сложной цепи Маркова / М. И. Тихомирова, В. П. Чистяков // Дискретная математика. – 2003. – Т. 15, №2. – С. 149 – 159.

( ) ( ) { ( )s ( ) s ( ) 0 ( ) - НИИ прикладных проблем математики и

Похожие документы

Разделы

Поддержка

( ) ( ) { ( )s ( ) s ( ) 0 ( ) - НИИ прикладных проблем математики и

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib