Ю. С. Харин, Н. М. Зуев, Е. Е. Жук ТЕОРИЯ ВЕРОЯТНОСТЕЙ, МАТЕМАТИЧЕСКАЯ И ПРИКЛАДНАЯ СТАТИСТИКА Утверждено Министерством образования Республики Беларусь в качестве учебника для студентов учреждений высшего образования по специальностям «Прикладная математика», «Информатика», «Экономическая кибернетика», «Актуарная математика», «Компьютерная безопасность», «Статистика» Минск БГУ 2011 УДК ББК Х Р е ц е н з е н т: кафедра экономической кибернетики и теории вероятностей Гомельского государственного университета им. Ф. Скорины (зав. кафедрой доктор физико-математических наук, профессор Ю. В. Малинковский) Х Харин Ю. С. Теория вероятностей, математическая и прикладная статистика : учебник / Ю. С. Харин, Н. М. Зуев, Е. Е. Жук. – Минск: БГУ, 2011. – 464 с. – (Классическое университетское издание) ISBN 985-485-440-. Учебник содержит лекционный материал и упражнения по всем разделам теории вероятностей, теории случайных процессов, математической и прикладной статистики. Для студентов высших учебных заведений по математическим специальностям. УДК 519.2(075.8) ББК c Харин Ю. С., ° Зуев Н. М., Жук Е. Е., c БГУ, 2011 ° ПРЕДИСЛОВИЕ Математическое моделирование разнообразных явлений окружающей действительности невозможно без учета случайных (стохастических) факторов. Теория вероятностей и математическая статистика – единственная математическая дисциплина, разрабатывающая и использующая методы математического моделирования случайных явлений. В связи с этим в вузовские учебные планы большинства современных учебных специальностей неизбежно входит дисциплина «Теория вероятностей и математическая статистика», содержание которой зависит от типа вуза, специальности и объема учебных часов. В современных классических и профильных университетах этот курс включает три приблизительно равновеликих (по объему учебного материала) модуля, иногда выделяемых в самостоятельные учебные дисциплины: «Теория вероятностей», «Математическая статистика» и «Теория случайных процессов». Учебник содержит лекционный материал и упражнения по всем разделам этих модулей и предназначен для студентов, обучающихся по специальностям «Прикладная математика», «Информатика», «Экономическая кибернетика», «Актуарная математика», «Компьютерная безопасность», «Статистика», а также может быть полезен студентам других математических и статистических специальностей вузов. Учебник состоит из 21 главы, которые сгруппированы в 5 частей. В части 1, включающей пять глав, изложены базовые понятия по теории вероятностей и необходимый учебный материал по случайным событиям и их вероятностям, случайным величинам и их распределениям вероятностей, случайным последовательностям и предельным теоремам. В части 2 рассматриваются основы теории случайных процессов, включая общие свойства случайных функций, стационарные процессы, случайные процессы с независимыми приращениями, марковские процессы и мартингалы. В части 3 представлен учебный материал по теоретическим основам математической статистики. Части 4, 5 содержат дополнительные главы по математической статистике. В учебном процессе материал данного учебника рекомендуется использовать следующим образом. Части 1–3 изучаются как трехсеместровый базовый курс. Части 4, 5 следует использовать при организации спецкурса «Прикладная статистика» для студентов старших курсов либо как лекционный курс «Дополнительные главы математической и прикладной статистики» в магистратуре. В конце глав приводятся упражнения, позволяющие студенту работать самостоятельно и оценить степень усвоения лекционного курса. Расширенный перечень задач, упражнений и тестовых заданий опубликован в [31]. В приложении представлены справочная информация по двадцати основным распределениям вероятностей одномерных и многомерных случайных величин, а также краткое описание «Электронного учебно-методического комплекса по теории вероятностей и математической статистике». Следует отметить особенности, выделяющие данный учебник среди существующей отечественной учебной литературы по теории вероятностей и математической статистике: • использование зарубежных литературных источников для подготовки упражнений; 8 ПРЕДИСЛОВИЕ • наличие «Электронного учебно-методического комплекса», подготовленного в БГУ (под руководством Ю. С. Харина), который представлен в приложении и предназначен для интенсивной самостоятельной работы студентов; • включение в учебник разделов по прикладной статистике, что необходимо при практическом использовании методов теории вероятностей и математической статистики. Содержание учебника полностью охватывает университетскую программу учебной дисциплины «Теория вероятностей и математическая статистика». Книга написана на основе 25-летнего опыта преподавания курса «Теория вероятностей и математическая статистика» на факультете прикладной математики и информатики Белорусского государственного университета. Авторство в учебнике распределено следующим образом: Ю. С. Харин – главы 1–16, 18–21; Н. М. Зуев – главы 1–10; Е. Е. Жук – главы 13–21. Авторы признательны рецензентам: доктору физико-математических наук профессору Ю. В. Малинковскому, доктору физико-математических наук профессору А. Д. Егорову за замечания и рекомендации по улучшению книги. Слова благодарности авторы адресуют доктору физико-математических наук профессору Г. А. Медведеву – основателю кафедры теории вероятностей и математической статистики БГУ за поддержку и методические советы при подготовке учебника, а также О. Г. Кадуриной и О. А. Куцепаловой за техническую помощь в оформлении рукописи в издательской системе LATEX. Предложения и замечания просьба направлять авторам по адресу: факультет прикладной математики и информатики, Белорусский государственный университет, пр. Независимости, 4, Минск, 220050, Республика Беларусь; тел. +375 17 2095530; е-mail: kharin@bsu.by. ВВЕДЕНИЕ В истории развития теории вероятностей и математической статистики можно выделить три этапа. Этап I. Возникновение теории вероятностей Возникновение теории вероятностей как науки принято относить к середине XVII в. и связывать с именами Паскаля, Ферма, Гюйгенса. На этом этапе сформировался некоторый класс задач подсчета шансов в азартных играх, исходы которых к началу игры не могут быть достоверно вычислены. Методика решения таких необычных для математики задач с неопределенностью, случайностью была наиболее полно изложена Гюйгенсом в 1657 г. в книге «О расчетах в азартной игре». Этап II. Применение аналитических методов в теории вероятностей Опубликованная переписка Паскаля и Ферма по комбинаторным вычислениям шансов, а также указанная выше книга Гюйгенса привлекли внимание математиков. Началась разработка математических моделей, аналитических методов для решения новых задач о случайности. Наибольший вклад в создание «аналитики» теории вероятностей в этот период внесли: Я. Бернулли, который развил теорию схемы независимых испытаний; Лаплас, давший объяснение «чуду Лапласа» (стремление к нормальному закону распределения вероятностей суммы независимых, равномерно малых случайных слагаемых); Гаусс и Пуассон, получившие асимптотические распределения сумм случайных слагаемых. На этом этапе значительный вклад в развитие теории вероятностей внесла русская математическая школа: П. Л. Чебышев, А. А. Марков, А. М. Ляпунов, создавшие аппарат асимптотического анализа сумм случайных величин. Этап III. Развитие теории вероятностей на аксиоматической основе В 1933 г. академик А. Н. Колмогоров в книге «Основные понятия теории вероятностей» предложил аксиоматику, которая теперь носит его имя и которая не только систематизировала все ранее полученные результаты, но и явилась основой для развития теории случайных процессов, случайных полей, случайных множеств, а также математической статистики. С этого момента теория вероятностей и математическая статистика становятся математической наукой. Математическая статистика занимается задачами, обратными задачам теории вероятностей: если в теории вероятностей для заданной вероятностной модели вычисляются вероятности некоторых событий, то в математической статистике на основе результатов наблюдения за некоторыми событиями необходимо принять решение (осуществить статистический вывод) о вероятностной модели исследуемого явления. Приведем пример Ж. Бертрана [16], показывающий, что хотя математическая статистика и является молодой математической наукой, но имеет глубокие исторические корни: «Однажды в Неаполе преподобный Галиани увидел человека из Базиликаты, который, встряхивая 3 игральные кости в чашке, держал пари, что выбросит 3 шестерки... Конечно, такая удача возможна. Однако человеку из Базиликаты это удалось и во второй раз, и пари повторилось. Он клал кости назад в чашку 3, 4, 5 раз и каждый раз выбрасывал 3 шестерки. “Черт возьми, – вскричал преподобный, – кости налиты свинцом!” И так оно и было». Это типичный пример статистического вывода, т. е. вывода, основанного на наблюдениях. Если бы кости были симметричны и не были бы «налиты свинцом», то наблюдаемое событие «5 раз подряд выпали шестерки на трех костях» имело бы ни- 10 ВВЕДЕНИЕ 3 5 чтожно малую вероятность ((1/6) ) = 6−15 ≈ 4, 7·10−11 . Поскольку это событие все-таки наступило, преподобный сделал вывод, что модель симметричной кости не верна. Математическая статистика наиболее интенсивно начала развиваться начиная с 30-х гг. XX в. Наибольший вклад в ее развитие внесли: Р. Фишер, К. Пирсон, Г. Крамер, А. Вальд, Э. Леман, С. Рао, М. Кендалл, А. Стьюарт, С. Уилкс, А. Н. Колмогоров, Б. В. Гнеденко, Н. В. Смирнов, Л. Н. Большев, Ю. В. Прохоров. В настоящее время математическая наука «Теория вероятностей и математическая статистика» интенсивно развивается в следующих направлениях: случайные множества, случайные поля, стохастический анализ, случайные операторы, байесовская статистика, робастная статистика, непараметрическая статистика, квантовая статистика, статистический анализ данных, последовательный статистический анализ, анализ изображений. В наши дни теория вероятностей и математическая статистика, являясь математической основой моделирования объектов и явлений внешнего мира при наличии неопределенных и стохастических факторов, находит многочисленные и весьма плодотворные применения в технике, информатике, экономике и финансах, биологии и генетике, медицине, физике и химии, социальных науках и других областях. Издается более 300 научных журналов по теории вероятностей и математической статистике, ежегодно проводятся сотни международных конференций, во многих странах мира созданы статистические ассоциации. В нашей стране организатором Белорусской статистической ассоциации в 1998 г. явился Белорусский государственный университет. ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ Множества и пространства N – Z – R – Rn – Q – C – {x1 , x2 , . . .} – {x : x ∈ A} – ∅ – ∩ – ∪ – \ – ⊂ – Ω = {ω} – A – P – S – D – L{ξ} – F – (Ω, F) – (Ω, F, P ) – ∞ ∞ [ \ An – limAn = k=1 n=k limAn = ∞ \ ∞ [ An – k=1 n=k B = B(R) – Bm = B(Rm ) – (R, B, Pξ ) – множество натуральных чисел множество целых чисел множество действительных чисел n-мерное евклидово пространство множество рациональных чисел множество комплексных чисел множество, состоящее из элементов x1 , x2 , . . . множество элементов x, удовлетворяющих условию A пустое множество знак пересечения множеств знак объединения множеств знак разности множеств знак включения пространство элементарных событий алгебра событий семейство распределений алфавит классов множество решающих правил закон распределения вероятностей ξ алгебра или σ-алгебра событий измеримое пространство вероятностное пространство верхний предел последовательности случайных событий (наступает бесконечно много событий среди {An }) нижний предел последовательности случайных событий (наступают все {An }, за исключением их конечного числа) борелевская σ-алгебра подмножеств числовой прямой борелевская σ-алгебра подмножеств Rm вероятностное пространство, порожденное случайной величиной ξ 12 ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ Функции Cnm = m! – n! , 0⩽m⩽n – m!(n − m)! |A| – δij – 11A (x) – µ(A) = mesm (A) – P{A} – P{A|B} – ξ = ξ(ω) – Pξ (B) – Fξ (x) = P{ξ < x} – L{ξ} – d pξ (x) = Fξ0 (x) = Fξ (x) – dx Fξ (x|C) – Fξ|η (x|y) – pξ1 ∗ pξ2 – E{ξ} – E{ξ; ξ ∈ B} – E{ξ|B} – E{ξ|η = y} – E{ξ|η} – E{ξ|F} – ◦ факториал числа m ∈ N, 0! = 1 биномиальный коэффициент модуль числа A, или длина вектора A, или определитель матрицы A, или мощность множества A символ Кронекера (δij = {1, i = j; 0, i 6= j}) индикаторная функция множества A (11A (x) = {1, x ∈ A; 0, x ∈ / A}) мера Лебега в Rm (A ⊆ Rm ) вероятность случайного события A, вероятностная мера условная вероятность события A при условии события B случайная величина (F-измеримое отображение Ω → → R) распределение вероятностей случайной величины ξ функция распределения случайной величины ξ закон распределения случайной величины ξ плотность распределения вероятностей ξ условная функция распределения ξ при условии события C условная функция распределения случайной величины ξ при условии η = y свертка плотностей распределения вероятностей ξ1 , ξ2 математическое ожидание случайной величины ξ усеченное математическое ожидание условное математическое ожидание ξ при условии B условное математическое ожидание ξ при условии η=y условное математическое ожидание ξ относительно η условное математическое ожидание ξ относительно σ-алгебры F ξ= ξ − E{ξ} © kª – νk = E ½ ξ¾ – центрированная случайная величина начальный момент k-го порядка µk = E центральный момент k-го порядка ◦k ξ – D{ξ} = p σ2ξ = µ2 – σξ = ½ D{ξ} ¾ – ◦ ◦ cov{ξi , ξj } = σij = E ξi ξj – ½ ¾ ◦ ◦T Σ = cov{ξ, ξ} = E ξ ξ – √ corr{ξi , ξj } = σij / σii σij – H{ξ} – дисперсия случайной величины среднеквадратичное (стандартное) отклонение ковариация случайных величин ковариационная матрица случайного вектора ξ = (ξi ) коэффициент корреляции случайных величин энтропия случайной величины ξ ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ I{ξ, η} – M – m – Fξ−1 (p) – fξ (t) = E{eitξ } – ψξ (z) = E{z ξ } – φξ (t) = ln fξ (t) – P ξn → ξ – п. н. ξn −→ ξ – L ξn →r ξ – ср. кв. ξn → ξ(l.i.m.ξn = ξ) – D ξn → ξ – Fn (·) ⇒ F (·) – w(t) – F (λ) – f (λ) – R(t, u) – r(t, u) – NN (µ, Σ) – nN (x|µ, Σ) – Φ(·), Φ−1 (·) – φ(·) – χ2m −1 Fχ2m (·), Fχ2 (·) m – – tm – Ftm (·), Ft−1 m (·) – Fm,n – −1 (·) – Fm,n (·), Fm,n WN (Σ, m) – O(·), o(·) – 13 количество информации по Шеннону, содержащейся вηоξ мода распределения вероятностей медиана распределения вероятностей квантиль уровня p для случайной величины ξ характеристическая функция случайной величины ξ производящая функция случайной величины ξ кумулянтная функция случайной величины ξ сходимость по вероятности сходимость почти наверное сходимость в среднем порядка r (Lr -сходимость) сходимость в среднеквадратическом (L2 ) сходимость по распределению слабая сходимость последовательности функций распределения стандартный винеровский процесс спектральная функция случайного процесса спектральная плотность случайного процесса корреляционная функция случайного процесса ковариационная функция случайного процесса N -мерный нормальный (гауссовский) закон распределения вероятностей с вектором математического ожидания µ ∈ RN и ковариационной (N × N )матрицей Σ плотность N -мерного нормального распределения NN (µ, Σ), вычисленная в точке x ∈ RN : 1 T −1 nN (x|µ, Σ) = √ 1 N e− 2 (x−µ) Σ (x−µ) (2π) |Σ| функция и квантиль распределения вероятностей стандартного нормального (гауссовского) закона N1 (0, 1) плотность распределения вероятностей стандартного нормального закона: φ(z) = (2π)−1/2 exp(−z 2 /2), z∈R закон χ2 -распределения с m степенями свободы функция и квантиль χ2 -распределения с m степенями свободы закон распределения Стьюдента с m степенями свободы функция и квантиль t-распределения Стьюдента с m степенями свободы закон распределения Фишера с m и n степенями свободы функция и квантиль F -распределения Фишера с m и n степенями свободы закон распределения Уишарта с параметрами: (N ×N )-матрицей Σ (|Σ| 6= 0) и m ⩾ 1 символы Ландау 14 ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ Матрицы In = (δij ) – 1M – 0M , 0M ×m – BT – tr(B) – rank(B) – B −1 – единичная матрица порядка n M -вектор, все компоненты которого равны 1 нулевые M -вектор и (M × m)-матрица транспонированная матрица B след матрицы B ранг матрицы B обращение квадратной матрицы B Сокращения АР(p) – АРПСС(p,d,q) – АРСС(p,q) – БРП – ВП – ВР – ДСВ – ЗБЧ – КОП – ММП – МНК – н. о. р. – ОМК – ОММ – ОМП – ПРВ – РВ – РИ – РП – СВ – СЛАУ – СП – СС(q) – УЗБЧ – ФР – ЦДИ – ЦПТ – ¤ – авторегрессия порядка p авторегрессия и проинтегрированное скользящее среднее порядков p, d и q авторегрессия и скользящее среднее порядков p и q байесовское решающее правило винеровский процесс временной ряд дискретная случайная величина закон больших чисел критерий отношения правдоподобия метод максимального правдоподобия метод наименьших квадратов независимые одинаково распределенные оценка минимального контраста (МК-оценка) оценка по методу моментов оценка максимального правдоподобия (МП-оценка) плотность распределения вероятностей распределение вероятностей равномерная интегрируемость решающее правило случайная величина система линейных алгебраических уравнений случайный процесс последовательность скользящего среднего порядка q усиленный закон больших чисел функция распределения центральный доверительный интервал центральная предельная теорема конец доказательства ЧАСТЬ 1 ТЕОРИЯ ВЕРОЯТНОСТЕЙ Глава 1 СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ 1.1. ПРЕДМЕТ ТЕОРИИ ВЕРОЯТНОСТЕЙ Определение 1.1. Теория вероятностей – математическая наука, изучающая математические модели случайных экспериментов. Любой эксперимент S характеризуется двумя факторами: 1) U (комплекс условий, при котором S происходит); 2) результаты эксперимента, т. е. некоторые события A1 , A2 , . . ., наступление или ненаступление которых регистрируется в ходе проведения S с помощью некоторых приборов. Для любого эксперимента комплекс условий U влияет на результат: U → Ai . В зависимости от типа этого влияния существует следующая классификация типов экспериментов. Всевозможные эксперименты делятся на детерминированные и недетерминированные, среди последних, в свою очередь, различают случайные эксперименты и прочие. Определение 1.2. Эксперимент S называется детерминированным, если комплекс условий U однозначно определяет результат (исход) эксперимента. В противном случае эксперимент называется недетерминированным. Приведем примеры S1 –S5 и дадим их классификацию. S1 : U = {дистиллированная вода, объем 1 л, p = 760 мм рт. ст., T = 20 ◦ C}, A1 = {вода в жидком состоянии}, A2 = {вода в твердом состоянии}, A3 = {вода в газообразном состоянии}. Очевидно: U → A1 , A2 , A3 – однозначно. Таким образом, S1 – детерминированный эксперимент. Определение 1.3. Событие A, которое при данном комплексе условий U неизбежно наступает, называется достоверным событием. Событие B, которое неизбежно не наступает, называется невозможным событием. События A2 , A3 (в данном примере) – невозможные события, а событие A1 – достоверное. В детерминированных экспериментах события либо достоверны, либо невозможны. Приведем теперь примеры недетерминированных экспериментов. S2 : U = {экзаменатор перемешивает 40 экзаменационных билетов, студент наудачу извлекает 1 билет}, A = {номер извлеченного билета четный}. U → A или A; S3 : U = {над плоской поверхностью наудачу бросают симметричную монету hгерб – решеткаi}, A = {выпал герб}. U → A или A; S4 : U = {рассматривается рабочий день филиала акционерного коммерческого банка «Prior»}, A = {число посетителей = k}, где k – некоторое целое число. U → A или A; S5 : U = {аудитория 513 главного корпуса БГУ, 2056 г., 7 февраля, 9.00 утра}, A = {в аудитории находится 10 студенток}. U → A или A. Определение 1.4. Недетерминированный эксперимент S называется случайным экспериментом, если выполняются следующие два свойства: 1) он допускает массовое, n-кратное (n → ∞) повторение; 2) выполняется свойство статистической устойчивости частот. 18 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ Свойства статистической устойчивости частот Пусть эксперимент S осуществлен n-кратно (серия из n независимых экспериментов). Обозначим: mn (A) – число наступлений события A в эксперименте (абсолютная частота A); mn (A) νn (A) = – относительная частота A, 0 ⩽ νn (A) ⩽ 1. n Свойство статистической устойчивости состоит в том, что для любого события A при возрастании n последовательность относительных частот сходится к некоторому пределу: νn (A) → P = P(A), где P(A) ∈ [0, 1] – вероятность случайного события A. Для экспериментов S2 , S3 , S4 свойство n-кратного повторения выполняется, а для S5 – нет, поэтому S5 не является случайным экспериментом. Проверим свойство статистической устойчивости для S2 , S3 , S4 . S2 : νn (A) → 1/2 (т. е. приблизительно в половине случаев выпадает четный номер билета). S3 : νn (A) → 1/2. S4 : νn (A) → P(A) = (λk e−λ )/k!, λ > 0, k ∈ N, где λ – некоторый параметр, который характеризует определенный филиал данного банка. Это установлено статистической обработкой архивных наблюдений. В случайном эксперименте приходится иметь дело не только с достоверными и невозможными событиями, но и со случайными событиями. Задание 1.1. Прочитать историю возникновения и развития теории вероятностей [13, 26], Введение в данном учебнике. Задание 1.2. Проверить свойства статистической устойчивости частот в следующем компьютерном эксперименте: наудачу бросается точка в отрезок [0; 1]. A = = {точка попала на [0; 0,5]}. Вычислить νn (A), задав n, и построить график зависимости νn от n. Использовать компьютерные датчики случайных чисел. 1.2. СЛУЧАЙНЫЕ СОБЫТИЯ И СООТНОШЕНИЯ МЕЖДУ НИМИ Существует конструктивная идея для построения математической модели случайных событий: определить некоторый полный набор всевозможных простейших (элементарных) исходов случайных экспериментов S и построить интересующее нас событие из этих элементарных исходов. Определение 1.5. События, составляющие множество {ω} простейших исходов случайного эксперимента S, называются элементарными событиями (ЭС), если: 1) все эти элементарные события различны; 2) наступление одного из исходов исключает наступление всех остальных; 3) в ходе эксперимента одно из элементарных событий неизбежно наступает. При этом множество Ω = {ω}, составленное из всех этих элементарных событий, называется пространством элементарных событий. Определение 1.6. Объединение A некоторых элементарных событий из Ω называется случайным событием. Иначе говоря, случайное событие – подмножество пространства элементарных событий: A ⊆ Ω. При этом A = Ω – достоверное событие (включает все элементарные события); A = ∅ – невозможное событие (не содержит ни одного случайного события). Замечание 1.1. A наступает всякий раз, когда наступает некоторое элементарное событие ω0 ∈ A. Если ω0 ∈ A, то говорят, что элементарное событие (исход) ω0 благоприятствует наступлению случайного события A. 1.2. СЛУЧАЙНЫЕ СОБЫТИЯ И СООТНОШЕНИЯ МЕЖДУ НИМИ 19 Замечание 1.2. Элементарные события и пространство элементарных событий строятся неоднозначно. Примеры пространств элементарных событий 1. Бросание наудачу одной монеты (см. с. 17, пример S3 ): ω1 = {Γ} = {монета выпала гербом кверху}, ω2 = {P } = {монета выпала решеткой кверху}, Ω = {ω1 , ω2 }, |Ω| = = 2. 2. Бросание наудачу двух монет: ω1 = {(Γ, Γ)}, ω2 = {(Γ, P )}, ω3 = {(P, Γ)}, ω4 = = {(P, P )}, Ω = {ω1 , ω2 , ω3 , ω4 }, |Ω| = 4. 3. Экзаменатор – студент – 2N билетов (см. с. 17, пример S2 ): ωi = {номер извлеченного билета = i}, i = 1, . . . , 2N , Ω = {ω1 , ω2 , . . . , ω2N }, A = {ω2 , ω4 , . . . , ω2N } ⊂ Ω, |A| = N . 4. АКБ «Prior» (см. с. 17, пример S2 ): ωi = {число посетителей = i}, i = 0, 1, 2, . . ., Ω = {ω0 , ω1 , . . .} – счетное множество, A = {число посетителей больше k} = = {ωk+1 , ωk+2 , . . .} – счетное подмножество. 5. Имеется некоторая производственная коммерческая фирма. Нас интересует ее ежедневный доход: ωx = {доход за один день составил величину x}, где x ∈ R, Ω = {ωx : x ∈ R}; A = {доход меньше числа z} = {ωx : x < z}. Зададим соотношение между событиями с помощью табл. 1.1, используя язык теории множеств. Пусть A, B, C ⊆ Ω. Таблица 1.1 Обозначение B⊂C B=C A=B A=B∩C Название Событие B влечет C События B и C эквивалентны: B⊂C иC⊂B A есть событие, противоположное B A есть произведение событий BиC B∩C =∅ B и C несовместны A=B∪C A есть сумма B и C A = B\C = B ∩ C A есть разность событий B минус C A=BMC A есть симметричная разность B и C Пояснение C наступает всякий раз, когда наступает B B наступает тогда и только тогда, когда наступает C A наступает тогда и только тогда, когда не наступает B A наступает тогда и только тогда, когда B и C наступают вместе Совместное наступление B и C невозможно A наступает тогда и только тогда, когда наступает B или C или оба вместе A наступает тогда и только тогда, когда наступает B и не наступает событие C A наступает тогда и только тогда, когда наступает только одно из событий: либо B, либо C Правило де Моргана Пусть событие A есть результат применения к событиям B, C, D, . . . действий: ∩, ∪, ⊂. Тогда, чтобы получить A, достаточно все события поменять на противоположные: B, C, D, . . ., а действия поменять по схеме ∪ → ∩, ∩ → ∪, ⊂ → ⊃. 20 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ 1.3. ПОНЯТИЕ ВЕРОЯТНОСТИ. ПРОСТЕЙШИЕ ВЕРОЯТНОСТНЫЕ МОДЕЛИ Рассмотрим три типа простейших вероятностных моделей: классическую, дискретную, геометрическую. Классическая вероятностная модель – это математическая модель простейших случайных экспериментов. Пример 1.1. Экзаменатор – студент – N билетов: Ω = {ω1 , . . . , ωN }, ωi = {номер извлеченного билета = i}, i = 1, . . . , N . Свойства классической вероятностной модели 1. Число элементарных событий конечно: N < ∞. 2. Предположим, данный эксперимент осуществлен n-кратно и каждый раз регистрировалось наступление или ненаступление события A ⊆ Ω, следовательно, для любого события A ⊆ Ω мы можем поставить в соответствие число νn = νn (A) = mn (A)/n – относительная частота наступления события A в этой серии экспериментов. Заметим, что νn (∅) = 0, νn (Ω) = 1, 0 ⩽ νn (A) ⩽ 1, νn (A) → P = P(A). 3. Для любых несовместных случайных событий A, B ⊆ Ω (A ∩ B = ∅) функция νn (A) аддитивна, т. е. mn (A ∪ B) mn (A) + mn (B) = = νn (A) + νn (B). n n 4. Все N элементарных событий равновозможны, т. е. νn (ωi ) → 1/N, i = 1, . . . , N . Эти четыре свойства лежат в основе определения классической вероятностной модели, задаваемой следующими четырьмя аксиомами. А 1. Пространство элементарных событий конечно: Ω = {ω1 , . . . , ωN }, N < ∞. А 2. Каждому случайному событию A ∈ Ω поставлено в соответствие такое число P, что P = P(A), 0 ⩽ P(A) ⩽ 1, P(∅) = 0, P(Ω) = 1. νn (A ∪ B) = При этом число P называется вероятностью события A, а функция P(·), заданная на подмножествах Ω, – вероятностной функцией. А 3 (аксиома конечной аддитивности). Для любых несовместных случайных событий A, B ∈ Ω (A ∩ B = ∅) вероятность суммы событий равна сумме вероятностей этих событий: P(A ∪ B) = P(A) + P(B). А 4 (аксиома равновероятности). Все N элементарных событий имеют равную вероятность: P(ω1 ) = P(ω2 ) = . . . = P(ωN ) = const = p, при этом число p ∈ (0; 1) называется элементарной вероятностью. Замечание 1.3. P = P(A) – функция, заданная на подмножествах A ⊆ Ω. Покажем, что данная система аксиом является полной и однозначно определяет вероятностную функцию P = P(A). Теорема 1.1. Для классической вероятностной модели, определяемой аксиомами A1–A4, p = 1/N и для любого случайного события A ⊆ Ω вероятность определяется соотношением |A| M P = P(A) = = , (1.1) |Ω| N где N = |Ω| – полное число элементарных событий; M = |A| – число элементарных событий, благоприятствующих наступлению A. 1.3. ПРОСТЕЙШИЕ ВЕРОЯТНОСТНЫЕ МОДЕЛИ 21 Доказательство. Выберем произвольное случайное событие A ⊆ Ω, состоящее из M элементарных событий (0 ⩽ M ⩽ N ): A = {ωi1 , ωi2 , . . . , ωiM } = M [ ωi j , (1.2) j=1 где 1 ⩽ i1 < i2 < . . . < iM ⩽ N – номера элементарных событий, образующих A. M [ Рассмотрим ωij как сумму одноточечных множеств. Применим к (1.2) аксиомы j=1 A3, A4: P(A) = P ÃM [ ! ωi j j=1 = M X P(ωij ) = M p. (1.3) j=1 Положим в (1.3) A = Ω, тогда в силу (1.2) M = N, P(Ω) = N p = 1 ⇒ p = 1/N . Подставляя полученный результат в (1.3), получим соотношение (1.1). ¤ Следствие 1.1. Вероятность события A в классической вероятностной модели равна отношению числа M элементарных событий, благоприятствующих наступлению события A, к общему числу N элементарных событий. Замечание 1.4. Для вычислений |A|, |Ω| в формуле (1.1) целесообразно использовать правила комбинаторики. Пример 1.2 (гипергеометрическое распределение). В одном непрозрачном сосуде тщательно перемешано K однотипных шаров, среди которых k (k ⩽ K) красных и (K − k) белых. Наудачу извлекается комплект из L шаров (без учета порядка извлечения). Вычислить вероятность события Al = {среди L извлеченных шаров имеется l красных} для l = 0, 1, 2, . . . . Шаг 1. Построим пространство элементарных событий Ω и вероятностную меру. Мысленно пронумеруем все шары: ωi = {i-й вариант извлечения комплекта шаров из L K имеющихся без учета порядка извлечения}, i = 1, . . . , N, N = CK . Очевидно, что аксиомы A1–A3 выполняются. Учитывая постановку задачи, все исходы равновозможны, значит, выполняется А4. Поскольку все аксиомы выполняются, то используем классическую вероятностную модель. Шаг 2. Вычислим, согласно (1.1), Pl = P(Al ) = |Al |/N = Ml /N = Ml /N, где Ml = L−l = Ckl CK−k ; 0 ⩽ l ⩽ min{k, L}; l > min{k, L} ⇒ Al = ∅ ⇒ Ml = 0. Получаем l L−l P(A ) = Ck CK−k , l = 0, 1, . . . , min{k, L}, l L (1.4) Pl = CK 0, l > min{k, L}. Определение 1.7. Набор вероятностей {Pl }, определенный формулой (1.4), называется гипергеометрическим распределением вероятностей. Задание 1.3. Показать, что min{k,L} X Pl = 1. l=0 Пример 1.3. Студент ФПМИ заполнил карточку спортлото 6 из 49. Вычислить вероятности угадывания l номеров в очередном тираже: K = 49, L = 6, k = 6, l = = 0, 1, 2, . . . , 6. Задание 1.4. По формуле (1.4) вычислить шансы студента в примере 1.3. 22 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ Задание 1.5. Рассмотреть обобщение предыдущего упражнения на случай, когда для одного и того же тиража заполнено несколько карточек. Вычислить искомые вероятности методом имитационного моделирования при заполнении нескольких карточек. Дискретная вероятностная модель есть обобщение классической вероятностной модели для случаев, когда пространство элементарных событий счетно или элементарные события не равновероятны. Дискретная вероятностная модель определяется следующей системой трех аксиом (штрих обозначает обобщение аксиомы): А 10 . Ω – дискретное множество: Ω = {ω1 , . . . , ωN }, N ⩽ ∞. А 2. Без изменений. А30 (аксиома счетной аддитивности). Для любой последовательности A1 , A2 , ... ⊆ Ω попарно несовместных случайных событий (Ai ∩Aj = ∅, i 6= j) выполняется соотношение Ã∞ ! ∞ [ X P Ai = P(Ai ). i=1 i=1 Заметим, что аксиома А4 здесь снимается, так как при N = ∞ она не имеет смысла: p = 0. Вероятность i-го события – P(ωi ) = pi (i = 1, . . . , N ) – называется i-й элементарной вероятностью. Теорема 1.2. В рамках дискретной вероятностной модели, определяемой аксиомами A10 , A2, A30 , вероятность случайного события A равна сумме ряда, составленного из тех элементарных вероятностей, которые соответствуют элементарным событиям, входящим в A (благоприятствующим A): X P = P(A) = pk , A ⊆ Ω. (1.5) k:ωk ∈A Доказательство. Выберем произвольное случайное событие A ⊆ Ω, состоящее из M элементарных событий, M ⩽ ∞: A = {ωi1 , . . . , ωiM } = M [ ωij . j=1 Пользуясь аксиомой A3 0 , имеем P(A) = M X P(ωij ) = j=1 M X j=1 pij = X pk , k:ωk ∈A что совпадает с (1.5). ¤ Следствие 1.2. Набор всех элементарных вероятностей удовлетворяет условию нормировки: N X pk = 1. k=1 Доказательство. Положим в соотношении (1.5) A = Ω : P(Ω) = N X k=1 pk = 1. ¤ Пример 1.4. (Продолжение примера S4 из п. 1.1.) Эта модель согласуется со следующей моделью Пуассона: pk = P(ωk ) = где λ > 0 – среднее число посетителей. λe−λ , k! k = 0, 1, 2, . . . , 23 1.4. АЛГЕБРА, σ-АЛГЕБРА И ИХ СВОЙСТВА Задание 1.6. Вычислить набор вероятностей {pk } при λ = 10 и проверить условие нормировки. Геометрическая вероятностная модель – это обобщение классической вероятностной модели на случай, когда пространство элементарных событий Ω есть ограниченное подмножество m-мерного евклидова пространства Rm , m = 1, 2, . . . . Здесь также предполагается, что все ω ∈ Ω равновозможны. Но воспользоваться формулой (1.1) нельзя, так как нет возможности сосчитать, сколько точек на отрезке (m = 1) или на плоской фигуре (m = 2) и т. д., т. е. нельзя вычислить мощность A ⊂ Ω. Конструктивная идея: вместо понятия |A| ввести в этой ситуации меру множества A: |A| = µ(A). Определение 1.8. Числовая функция µ = µ(A), определенная на подмножествах A ⊆ Ω, называется мерой, если выполняются следующие свойства: 1) неотрицательность: µ(A) ⩾ 0; 2) ограниченность: µ(Ω) < ∞; 3) счетная аддитивность: µ(.) удовлетворяет свойству, аналогичному A3 0 . При m = 1 µ(A) – длина отрезка A, при m = 2 µ(A) – площадь плоской фигуры A, при m = 3 µ(A) – объем тела A и т. д. В Rm будем использовать меру Лебега: µ(A) = mesm (A). В рамках геометрической вероятностной модели вероятность случайного события A ⊆ Ω определяется следующим соотношением: µ(A) . (1.6) P(A) = µ(Ω) Замечание 1.5. Не для всех подмножеств A существует понятие длины, площади, объема и т. д. Здесь требуется, чтобы A ⊆ Ω было измеримо по Лебегу. Пример 1.5 (жребий в игре «Что? Где? Когда?»). Отсчитываем угловое положение остановившейся стрелки – ω; Ω = [0; 2π). Случайное событие A = {стрелка остановилась в круговом секторе [ψ1 , ψ2 )} = [ψ1 , ψ2 ). Это иллюстрирует рис. 1.1. При этом согласно формуле (1.6) ψ2 − ψ1 P(A) = . 2π ? A ψ ψ ω 0 1 2 - 2π ω Рис. 1.1. Пример геометрической вероятностной модели 1.4. АЛГЕБРА, σ-АЛГЕБРА И ИХ СВОЙСТВА. ИЗМЕРИМОЕ ПРОСТРАНСТВО Определение 1.9. Пусть Ω – произвольное пространство элементарных событий, тогда некоторая система F подмножеств из Ω называется алгеброй случайных событий, если выполняются следующие свойства: 1) Ω ∈ F; 2) A ∈ F ⇒ A ∈ F; 3) A, B ∈ F ⇒ A ∪ B ∈ F. Очевидно, справедливы еще два свойства: 4) ∅ ∈ F; 5) A, B ∈ F ⇒ A ∩ B ∈ F. 24 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ Доказательство. По правилу де Моргана: противоположность произведению – сумма, а она принадлежит F. ¤ Следствие 1.3. Алгебра замкнута относительно конечного числа операций ∩, ∪, − . Доказательство. Из определения 1.9 и следствия 1.3: эти операции не выведут нас за пределы F. ¤ Пусть теперь Ω – бесконечное множество. Определение 1.10. Алгебра F подмножеств из Ω называется σ-алгеброй, если свойства 3) и 5) выполняются в обобщенном виде для счетного множества событий: ∀A1 , A2 , ... ∈ F ⇒ ∞ [ Ai ∈ F, i=1 ∞ \ Ai ∈ F. i=1 Следствие 1.4. σ-Алгебра замкнута относительно счетного множества операций ∩, ∪, − . Определение 1.11. Измеримым пространством называется пара математических объектов (Ω, F), где Ω – пространство элементарных событий, F – алгебра или σ-алгебра подмножеств из Ω. Приведем примеры измеримых пространств в порядке возрастания их сложности. 1. Измеримое пространство (Ω, 2Ω ). Здесь Ω – дискретное множество (конечное либо счетное), F = 2Ω – множество всех подмножеств из Ω. В частности, если |Ω| = N < ∞, то |F| = 2N . Отсюда и происходит обозначение этого измеримого пространства. 2. Измеримое пространство (R, B). Здесь Ω = R – числовая прямая. Для построения σ-алгебры на числовой прямой выберем ∀x ∈ R и обозначим полуограниченный числовой промежуток: Ax = (−∞, x) ⊂ Ω. Определение 1.12. Назовем базовой системой множеств на числовой прямой следующую бесконечную систему интервалов: F0 = {∅, Ax = (−∞, x) : x ∈ R}. Заметим: F0 не является даже алгеброй, так как не выполняется свойство 2 алгебры событий: Ax = [x, +∞) ∈ / F0 . Определение 1.13. σ-Алгеброй σ(F0 ), порожденной некоторой системой множеств F0 , называется наименьшая σ-алгебра, содержащая F0 : \ σ(F0 ) = F(α) , α (α) где F – σ-алгебра, содержащая F0 . Определение 1.14. Борелевской (в честь французского математика Э. Бореля) σ-алгеброй на числовой прямой называется σ-алгебра, порожденная системой интервалов F0 = {∅, (−∞, x): x ∈ R}: B = σ(F0 ). Подмножества числовой прямой, которые принадлежат борелевской σ-алгебре B, называются борелевскими множествами. Свойства борелевской σ-алгебры B C1. Для ∀x ∈ R одноточечное множество {x} является борелевским множеством: {x} ∈ B. Доказательство. Представим множество {x} следующим образом: ¶ \ ∞ · ∞ ³ ∞ ³ ´ \ \ \ ´ 1 {x} = x, x + Ax . = Ax+ 1 \Ax = Ax+ 1 n n n n=1 n=1 n=1 По построению полученное выражение принадлежит B. ¤ 1.5. АКСИОМЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ 25 C2. Борелевскими множествами являются произвольные числовые промежутки вида (a, b), [a, b), (a, b], [a, b], где a, b ∈ R, a < b. C3. Множество рациональных чисел является борелевским: Q ∈ B. ∞ [ Доказательство. Q = {qn } – счетная сумма одноточечных множеств, следоn=1 вательно, Q ∈ B. ¤ C4. Множество иррациональных чисел – борелевское: Q ∈ B. Доказательство. Множество иррациональных чисел принадлежит B как дополнение к Q. ¤ C5. В выборе базовой системы F0 имеется произвол: B = σ((a, b) : a, b ∈ R) = σ([a, b) : a, b ∈ R) = = σ((a, b] : a, b ∈ R) = σ([a, b] : a, b ∈ R). Таким образом, борелевская σ-алгебра достаточно богата, хотя беднее множества всех подмножеств числовой прямой. Замечание 1.6. Существует обобщение измеримого пространства (R, B) на многомерный случай: измеримое пространство (Rm , Bm ), т. е. в m-мерном пространстве строится своя борелевская σ-алгебра Bm . Строится она по аналогичной схеме, в качестве базовой системы F0 берется система параллелепипедов в Rm : x1 F0 = {∅, Ax = Ax1 × Ax2 × . . . × Axm : x = ... ∈ Rm }. xm 1.5. АКСИОМЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ. ВЕРОЯТНОСТНОЕ ПРОСТРАНСТВО Определение 1.15 (определение А. Н. Колмогорова). Пусть Ω – любое пространство элементарных событий, F – ∀ система подмножеств из Ω. Числовая функция P = P(A) : F → R называется вероятностной мерой, любое подмножество A ∈ F называется случайным событием, а число P = P(A) – вероятностью случайного события A, если выполняются следующие аксиомы Колмогорова. А 1. F есть алгебра подмножеств из Ω. А 2. 0 ⩽ P(A) ⩽ 1, A ∈ F. А 3 (аксиома нормировки). P(Ω) = 1. А 4 (аксиома конечной аддитивности). Для любых несовместных случайных событий A, B (A ∩ B = ∅) выполняется P(A ∪ B) = P(A) + P(B). При этом если Ω – бесконечное множество, то аксиомы A1, A4 расширяются (обобщаются) следующим образом: А 10 . F – σ-алгебра подмножеств из Ω. А 40 (аксиома счетной аддитивности). Для любой последовательности попарно несовместных случайных событий A1 , A2 , . . . ∈ F (Ai ∩ Aj = ∅, i 6= j) справедливо равенство Ã∞ ! ∞ X [ P P(Ai ). Ai = i=1 i=1 Определение 1.16. Вероятностным пространством называется тройка математических объектов (Ω, F, P ) : Ω – пространство элементарных событий; 26 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ F – алгебра или σ-алгебра подмножеств из Ω; P – вероятностная мера, определенная на F. В теории вероятностей есть еще один вариант расширения (обобщения) аксиом на случай бесконечного пространства элементарных событий Ω. Для определения этого варианта введем понятия последовательностей случайных событий и их пределов. Определение 1.17. Пусть на измеримом пространстве (Ω, F) определена произвольная последовательность случайных событий A1 , A2 , . . . ∈ F. Тогда случайные события ∞ [ ∞ \ A+ = lim An ::= An ∈ F, n→∞ − A = lim An ::= n→∞ k=1 n=k ∞ \ ∞ [ (1.7) An ∈ F k=1 n=k называются соответственно верхним и нижним пределами последовательности случайных событий. Выясним содержательный смысл событий (1.7) на языке «наступление – ненаступление». Проведем рассуждения для A+ , для A− они проводятся аналогично. Имеем: A+ ∞ [ наступает ⇔ для ∀k ∈ N наступает Bk = An ⇔ для ∀k = 1, 2, ... ∃ хотя бы один n=k номер nk ⩾ k, что наступает Ank ⇔ {наступает бесконечно много случайных событий среди A1 , A2 , ...}. Упражнение 1.1. Провести аналогичные рассуждения для A− самостоятельно. Итак, из (1.7) следует: A+ = {наступает бесконечно много случайных событий среди {An }}; A− = {наступают все случайные события {An }, за исключением лишь их конечного числа}. Из (1.8) очевидно: A− ⊆ A+ . − (1.8) (1.9) + Определение 1.18. Если в (1.9) A = A = A ∈ F, то случайное событие A называется пределом последовательности случайных событий {An }: A = lim An . n→∞ Определение 1.19. Последовательность случайных событий An ∈ F, n = 1, 2, . . . , называется монотонно убывающей и обозначается An ↓, если A1 ⊃ A2 ⊃ . . . . Последовательность случайных событий An ∈ F, n = 1, 2, . . . , называется монотонно возрастающей и обозначается An ↑, если A1 ⊂ A2 ⊂ . . . . Теорема 1.3. Любая монотонная последовательность случайных событий An ∈ F, n = 1, 2, . . ., имеет предел при n → ∞, который равен ∞ \ An , если An ↓, n=1 A = lim An = ∞ [ n→∞ An , если An ↑. n=1 Доказательство. Вычислим нижний и верхний пределы и сравним их. 27 1.6. СВОЙСТВА ВЕРОЯТНОСТНОЙ МЕРЫ(ВЕРОЯТНОСТИ) По формулам (1.7) c учетом монотонности An ↓ имеем ! ! Ã∞ Ã∞ ∞ ∞ ∞ \ ∞ ∞ ∞ \ [ \ [ \ [ \ + − A = An ≡ Ak , A = An ≡ An = An , k=1 так как ∞ [ n=k n=k An ≡ Ak и k=1 ∞ [ An ≡ n=k k=1 ∞ [ n=1 An = ∞ [ n=k k=1 n=1 n=1 An . n=1 Значит, A− = A+ = A. Аналогично исследуется случай An ↑. ¤ Итак, наряду с вариантом расширения аксиом Колмогорова K={A1 0 , A2, A3, A4 0 } 0 e существует еще один вариант: K={A1 , A2, A3, A4, A5}, где A5 – это дополнительная аксиома. А 5 (аксиома непрерывности меры). Для любой монотонно убывающей последо∞ \ вательности случайных событий Bn ↓, имеющей по теореме 1.3 предел lim Bn = Bn , допускается предельный переход под знаком вероятностной меры: ³ ´ lim P(Bn ) = P lim Bn = P(B). n→∞ n=1 n→∞ Теорема 1.4. Если справедливы A1 0 , A2, A3, то A4 0 равносильна паре аксиом {A4, A5}. Доказательство. [9, c. 30]. ¤ Следствие 1.5. Эквивалентны следующие два варианта расширения аксиом: e K ⇔ K. 1.6. СВОЙСТВА ВЕРОЯТНОСТНОЙ МЕРЫ (ВЕРОЯТНОСТИ) Пусть (Ω, F, P ) – вероятностное пространство. Исследуем свойства вероятностной меры (вероятности) P = P(A), вытекающие из аксиом Колмогорова. Свойства вероятности C1. ∀A ∈ F P(A) = 1 − P(A). Доказательство. Разложим Ω: Ω = A ∪ A, A ∩ A = ∅, тогда по аксиоме A4: P(Ω) = P(A ∪ A) = P(A) + P(A). В силу A3: P(Ω) = 1 ⇒ P(A) = 1 − P(A). ¤ C2. Вероятность невозможного события равна нулю: P(∅) = 0. ¤ Доказательство следует из свойства C1, если положить Ω = A. C3. (Монотонность вероятностной меры.) Если A ⊂ B, то P(A) ⩽ P(B). Доказательство. Разложим B на два несовместных: B = A ∪ (B \ A), и по A2, A4 имеем P(B) = P(A) + P(B \ A) ⩾ P(A) ⇒ P(B) ⩾ P(A). ¤ Следствие 1.6. Если A ⊂ B, то P(B \ A) = P(B) − P(A). C4. (Формула сложения вероятностей.) Пусть (Ω, F, P ) – произвольное вероятностное пространство. Тогда для любых случайных событий A, B ∈ F справедлива формула сложения вероятностей: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). (1.10) Доказательство. Проиллюстрируем доказательство диаграммой Вьенна на рис. 1.2. 28 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ ω B\(A ∩ B) '$ A '$ ∩ B B ¢®¢ Ω Q s Q A &% ¢̧ &% ¢ A\(A ∩ B) Рис. 1.2. Диаграмма Вьенна для суммы событий Запишем разложения случайных событий на несовместные: A ∪ B = A ∪ (B \ (A ∩ B)); B = (B \ (A ∩ B)) ∪ (A ∩ B). (1.11) (1.12) Применим к (1.11) и (1.12) аксиому A3 и получим P(A ∪ B) = P(A) + P(B \ (A ∩ B)); P(B) = P(A ∩ B) + P(B \ (A ∩ B)). (1.13) (1.14) Почленно вычтем (1.14) из (1.13) и получим (1.10). ¤ Следствие 1.7. Если A и B несовместные, A ∩ B = ∅, то формула сложения вероятностей (1.10) превращается в A3. Следствие 1.8. Для любых случайных событий A и B вероятность P(A ∪ B) ≤ ≤ P(A) + P(B). C5. (Обобщенная формула сложения вероятностей.) Пусть N ⩾ 2, тогда для любых случайных событий A1 , A2 , . . . , AN ∈ F cправедливо следующее обобщение формулы (1.10): ÃN ! N N −1 X N [ X X P Ai = P(Ai ) − P(Ai ∩ Aj )+ i=1 + N −2 N −1 X X N X i=1 i=1 j=i+1 N −1 P(Ai ∩ Aj ∩ Ak ) − . . . + (−1) P ÃN \ ! Ai . (1.15) i=1 i=1 j=i+1 k=j+1 Доказательство. Соотношение (1.15) доказывается по математической индукции ¤ по N ; для N = 2 результат следует из (1.10). C6. Для любой последовательности N (2 ⩽ N ⩽ ∞) случайных событий A1 , . . . , AN ∈ F справедливо неравенство ! ÃN N X [ P(Ai ). P Ai ⩽ i=1 i=1 Доказательство. Прежде всего отметим, что случай N = 2 рассмотрен в следствии 1.8. Построим вспомогательную последовательность случайных событий (используя «принцип новизны»): B1 = A1 , B2 = A2 \A1 , B3 = A3 \(A1 ∪ A2 ), . . . , Bi = Ai \ i−1 [ j=1 Aj , i = 1, . . . , N. 29 1.7. УСЛОВНАЯ ВЕРОЯТНОСТЬ И ЕЕ СВОЙСТВА Построенные события попарно несовместны: Bi ∩ Bj = ∅, i 6= j. Очевидно, что Bi ⊆ A i , N [ Bi = i=1 N [ Ai . i=1 Тогда в силу А4 0 и свойства C3 ÃN ! ÃN ! N N [ [ X X P Ai = P Bi = P(Bi ) ⩽ P(Ai ). i=1 i=1 i=1 i=1 ¤ C7. (Эквивалент А5.) Для любой монотонной возрастающей последовательности случайных событий An ↑, имеющей предел lim An = n→∞ ∞ [ An , n=1 допустим предельный переход под знаком вероятностной меры: ³ ´ lim P(An ) = P lim An . n→∞ n→∞ Доказательство. Введем вспомогательную последовательность случайных событий Bn = An . Очевидно, что Bn ↓, тогда по теореме 1.3 (см. п. 1.5) lim Bn = n→∞ ∞ \ Bn . n=1 Поэтому с учетом свойства C1 и правила де Моргана имеем ³ ´ lim P(An ) = lim (1 − P(Bn )) = 1 − P lim Bn = n→∞ =1−P Ã∞ \ n=1 n→∞ ! An =P n→∞ Ã∞ \ ! An n=1 =P Ã∞ [ ! An n=1 ³ =P ´ lim An . n→∞ ¤ 1.7. УСЛОВНАЯ ВЕРОЯТНОСТЬ И ЕЕ СВОЙСТВА. ФОРМУЛА ПОЛНОЙ ВЕРОЯТНОСТИ. ФОРМУЛА БАЙЕСА Рассмотрим события B = {студент сдал первый экзамен на 3}; A = {он сдаст второй экзамен на 10}. Как показывают экзаменационные статистические данные, вероятность события A зависит от наступления или ненаступления B. Удобной математической моделью для зависимости таких событий является условная вероятность. Определение 1.20. Пусть (Ω, F, P ) – произвольное вероятностное пространство, на котором задано произвольное случайное событие B ∈ F: P(B) > 0. Тогда условной вероятностью случайного события A при условии события B называется величина P(A | B) = P(A ∩ B) ; P(B) (1.16) при этом вероятность P(A), изученная ранее, называется безусловной вероятностью. 30 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ Замечание 1.7. Символ «|» читается: «при условии» (или «относительно»). Замечание 1.8. P(A | B) ∈ [0; 1]. Это следует из (1.16), так как вероятность неотрицательна, (A ∩ B) ⊆ B и вероятностная мера монотонна. Выясним содержательный смысл соотношения (1.16). Рассмотрим серию n независимых случайных экспериментов: n = 1, 2, . . . и представим результаты в виде табл. 1.2. Таблица 1.2 Случайное событие A B A∩B Частота случайного события mn (A) mn (B) mn (A ∩ B) Относительная частота νn (A)=mn (A)/n νn (B)=mn (B)/n νn (A ∩ B)=mn (A ∩ B)/n По свойству статистической устойчивости νn (A) → P(A), νn (B) → P(B), νn (A ∩ B) → P(A ∩ B). n→∞ n→∞ n→∞ Вычислим относительную частоту наступления события A при условии, что B наступило, и предел при n → ∞ с учетом свойства статистической устойчивости и формулы (1.16): νn (A|B) = P(A ∩ B) mn (A ∩ B) 1/n νn (A ∩ B) −→ · = = P(A|B). n→∞ mn (B) 1/n νn (B) P(B) Таким образом, условная вероятность (1.16) характеризует относительную частоту наступления события A при условии события B в бесконечной серии экспериментов. Свойства условной вероятности C1. При фиксированном случайном событии B ∈ F : P(B) > 0 числовая функция PB (A) ::= P(A|B), где A ∈ F, удовлетворяет всем аксиомам теории вероятностей A1–A5. Следствие 1.9. PB (A) является некоторой вероятностной мерой. C2. Условная вероятность удовлетворяет всем шести свойствам безусловной вероятности (см. п. 1.6), в частности P(A | B) = 1 − P(A | B), P(A ∪ B | C) = P(A | C) + P(B | C) − P(A ∩ B | C). C3. (Формула умножения вероятностей.) Если P(B) > 0, то справедлива формула P(A ∩ B) = P(B)P(A|B). (1.17) Доказательство. Формула получается из (1.16), если произвести умножение на P(B). ¤ Следствие 1.10. (Симметричная формула умножения вероятностей.) Если P(A) > 0 и P(B) > 0, то справедлива симметричная формула умножения вероятностей P(A ∩ B) = P(B)P(A|B) = P(A)P(B|A). 31 1.7. УСЛОВНАЯ ВЕРОЯТНОСТЬ И ЕЕ СВОЙСТВА C4. (Обобщенная формула умножения вероятностей.) Для любогоÃконечного ! числа N N −1 [ и любых N случайных событий A1 , . . . , AN ∈ F таких, что P Ai > 0, спраi=1 ведлива формула P ÃN \ ! Ai = P(A1 ) i=1 N −1 Y à P Ai+1 | i=1 i \ ! Aj . j=1 Доказательство. Требуемый результат можно получить, N − 1 раз применив формулу (1.17), последовательно отщепляя по одному событию. ¤ Определение 1.21. Пусть (Ω, F, P ) – произвольное вероятностное пространство, тогда любая конечная или бесконечная система из N (2 ⩽ N < ∞) случайных событий H1 , H2 , ..., HN ∈ F называется полной системой случайных событий (полной группой гипотез), если выполнены следующие три свойства: C1. N [ Hi = Ω; i=1 C2. Hi ∩ Hj = ∅, i 6= j; C3. P(Hi ) > 0, i = 1, 2, . . . , N. Теорема 1.5 (формула полной вероятности). Пусть на произвольном вероятностном пространстве (Ω, F, P ) определена полная система случайных событий {Hi }. Тогда для любого случайного события A ∈ F его безусловная вероятность допускает разложение N X P(A) = P(Hi )P(A | Hi ). i=1 Доказательство. Построим разложение A на несовместные события: ÃN ! N [ [ A=A∩Ω=A∩ Hi = (A ∩ Hi ) . i=1 i=1 Преобразовав вероятность события A с помощью формулы умножения вероятностей, получим N N X X P(A) = P (A ∩ Hi ) = P(Hi )P(A|Hi ). i=1 i=1 ¤ Замечание 1.9. Формула полной вероятности допускает следующую более общую формулировку. Если случайное событие A может наступать лишь с одним из событий G1 , . . . , GN (N ⩽ + ∞), то справедлива формула P(A) = N X P(Gi )P(A|Gi ). i=1 Теорема 1.6 (формула Байеса). Пусть выполнены условия теоремы 1.5, тогда, если A ∈ F – такое случайное событие, что P(A) > 0, то справедлива формула 32 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ P(Hi |A) = P(Hi )P(A|Hi ) N X , i = 1, 2, . . . , N. P(Hj )P(A|Hj ) j=1 Доказательство. Воспользуемся симметричной формулой умножения вероятностей: P(A ∩ Hi ) = P(Hi )P(A|Hi ) = P(A)P(Hi |A), и, применив формулу полной вероятности, разрешим полученное уравнение относительно P(Hi |A): P(Hi )P(A|Hi ) P(Hi )P(A|Hi ) P(Hi |A) = = N . P(A) X P(Hj )P(A|Hi ) j=1 ¤ Замечание 1.10. P(Hi ) называется априорной вероятностью (от лат. «a priori», что означает «до опыта»), так как она известна до проведения и наблюдения результатов эксперимента. Замечание 1.11. P(Hi |A) называется апостериорной вероятностью (от лат. «a posteriori», что означает «после опыта»). Замечание 1.12. Формула Байеса позволяет пересчитывать априорные вероятности в апостериорные: {P(Hi )} → {P(Hi |A)}, и в этом смысле ее называют математической моделью обучения. 1.8. НЕЗАВИСИМЫЕ СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ СВОЙСТВА Основатель теории вероятностей А. Н. Колмогоров считал понятие независимости случайных событий важнейшим в теории вероятностей. Понятия вероятностной независимости и причинной независимости различны. Определение 1.22. Пусть (Ω, F, P ) – произвольное вероятностное пространство. Любые события A, B ∈ F называются независимыми случайными событиями на (Ω, F, P ), если вероятность их совместного наступления равна произведению вероятностей: P(A ∩ B) = P(A)P(B). (1.18) В противном случае события A и B зависимы. Свойства независимых случайных событий C1. Если P(B) > 0, то A и B независимы тогда и только тогда, когда P(A|B) = P(A). (1.19) Доказательство. По правилу умножения вероятностей P(A ∩ B) = P(B)P(A|B), тогда из (1.18) получаем (1.19). ¤ Следствие 1.11. Свойство (1.19) может рассматриваться как критерий независимости случайных событий A и B. 1.8. НЕЗАВИСИМЫЕ СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ СВОЙСТВА 33 Доказательство. Возможны два случая: а) если P(B) > 0, то согласно C1 (1.18) и (1.19) эквивалентны; б) если P(B) = 0, тогда в (1.18) правая и левая части равны нулю: A ∩ B ⊆ B ⇒ P(A ∩ B) ⩽ P(B) = 0. ¤ Замечание 1.13. Из (1.19) виден содержательный смысл определения 1.22. События A и B независимы, если наступление одного из этих событий не влияет на вероятность наступления другого. C2. Свойство независимости переносится на противоположные события. В частности, если A, B – независимые случайные события, то A, B – также независимые случайные события. Доказательство. Проверим критерий (1.19): P(A|B) = 1 − P(A|B) = 1 − P(A) = P(A). ¤ C3. Пусть A, B, C ∈ F – любые случайные события на (Ω, F, P ) такие, что A, C – независимы, B, C – независимы и A, B – несовместны, тогда независимы A ∪ B и C. Доказательство. Проверим (1.19): P(A ∪ B|C) = P(A|C) + P(B|C) − P(A ∩ B|C) = P(A) + P(B) − 0 = P(A ∪ B). ¤ Определение 1.23. Случайные события A1 , A2 , . . . , An ∈ F называются независимыми в совокупности на (Ω, F, P ), если для ∀m ∈ {2, 3, . . . , n} и любых упорядоченных значений m индексов 1 ⩽ i1 < i2 < . . . < im ⩽ n выполняется обобщение (1.18): Ãm ! m \ Y P Aij = P(Aij ). (1.20) j=1 j=1 Если же (1.20) выполняется лишь для m = 2, то случайные события A1 , . . . , An называются попарно независимыми. C4. Из независимости в совокупности следует попарная независимость случайных событий. Обратное, вообще говоря, неверно. Доказательство. Прямое утверждение очевидно. Приведем контрпример Бернштейна, показывающий, что из попарной независимости событий не следует их независимость в совокупности. Над плоской поверхностью бросается симметрический тетраэдр, грани которого раскрашены следующим образом: одна – в красный цвет, вторая – в синий, третья – в зеленый, четвертая имеет полоски всех трех цветов. Определим случайные события: A1 = {на выпавшей грани есть красный цвет}; A2 = {на выпавшей грани есть синий цвет}; A3 = {на выпавшей грани есть зеленый цвет}. Проверим попарную независимость и независимость в совокупности этих событий: P(Ai ) = 2/4 = 1/2; P(Ai ∩ Aj ) = 1/4; P(Ai ∩ Aj ) = P(Ai ) · P(Aj ) ⇒ события попарно независимы; P(A1 ∩ A2 ∩ A3 ) = 1/4 6= P(A1 ) · P(A2 ) · P(A3 ) = 1/8, т. е. A1 , A2 , A3 – зависимы. ¤ C5. (Обобщенная формула сложения вероятностей для независимых в совокупности случайных событий.) Если случайные события A1 , A2 , ..., AN независимы в совокупности, то вероятность наступления хотя бы одного из этих событий вычисляется по формуле ÃN ! N Y [ P (1 − P(Ai )). Ai = 1 − i=1 i=1 34 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ Доказательство провести самостоятельно. ¤ Задание 1.7. Указать все события, которые не зависят от любых событий A ∈ F. Задание 1.8. Доказать или опровергнуть: если случайные события A и B имеют ненулевую вероятность и несовместны, то они не могут быть независимыми. 1.9. СХЕМА НЕЗАВИСИМЫХ ИСПЫТАНИЙ БЕРНУЛЛИ. БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ Рассмотрим случайный эксперимент S, который является составным и состоит из N ⩾ 2 случайных экспериментов S1 , S2 , . . . , SN . Например, студент сдает в сессию 5 экзаменов: N = 5. Рассмотрим Sn − n-й эксперимент, n = 1, . . . , N . Его математическая модель – это вероятностное пространство (Ω, F, P ), где Ωn – пространство элементарных событий n-го эксперимента; ωn ∈ Ωn – исход n-го эксперимента; Fn – σ-алгебра подмножеств из Ωn ; Pn – вероятностная мера, действующая в n-м эксперименте. Обозначим: ω = = (ω1 , . . . , ωN )T – составной вектор исходов (протокол всей сессии); ω ∈ Ω = = Ω1 ×. . .×ΩN ; F – σ-алгебра, порожденная произведением F1 ×. . .×FN . P(A), A ∈ F – вероятностная мера составного эксперимента. Определение 1.24. Указанная выше схема N случайных испытаний называется схемой независимых испытаний, если произвольные N случайных событий A1 , . . . , AN , относящиеся к различным случайным экспериментам, независимы в совокупности, т. е. ∀A = A1 × . . . × AN ∈ F, A1 ∈ F1 , A2 ∈ F2 , . . . , AN ∈ FN , выполняется P(A) = N Y Pn (An ). n=1 Имеет место схема независимых испытаний Бернулли, если вдобавок к предыдущему определению выполняются: 1) Ωn = {0, 1}, т. е. состоит из двух исходов, |Ωn | = 2 : ωn = 1 – «успех», ωn = 0 – «неуспех»; 2) Fn = 2Ωn = {∅, {0}, {1}, Ωn }; ( p, ωn = 1, 3) Pn (ωn ) = = pωn (1 − p)1−ωn , ωn ∈ Ωn , где p ∈ (0, 1) является па1 − p, ωn = 0, раметром и называется вероятностью успеха; 4) Ω = {ω = (ω1 , . . . , ωN )T : ωn ∈ (0, 1), n = 1, 2, . . . , N } – множество всевозможных двоичных векторов, F = 2Ω – множество всех подмножеств из Ω: P(ω) = где N X N Y N P Pn (ωn ) = pn=1 ωn N− (1 − p) N P n=1 ωn , n=1 ωn – число единиц в двоичном векторе ω. n=1 Рассмотрим следующее случайное событие в этой модели: Bm = {в указанной схеме независимых испытаний Бернулли наступило m «успехов»}, m = 0, 1, . . . , N . Вычислим его вероятность: X X P(Bm ) = P(ω) = pm (1 − p)N −m = CNm pm (1 − p)N −m . ω: N P n=1 ωn =m ω: N P n=1 ωn =m 35 1.10. УПРАЖНЕНИЯ Определение 1.25. Набор вероятностей pm = CNm pm (1 − p)N −m , m = 0, 1, . . . , N, (1.21) называется биномиальным распределением вероятностей и обозначается Bi(N, p). Замечание 1.14. Биномиальное распределение вероятностей (1.21) можно получить на основе следующей формулы бинома Ньютона: (p + (1 − p))N = N X pn ≡ 1. n=0 Замечание 1.15. При больших значениях N, m и для вычисления (1.21) используют приближенные формулы Муавра – Лапласа, которые получаются из формулы Стирлинга (см. п. 5.6). 1.10. УПРАЖНЕНИЯ 1. Пусть F – σ-алгебра подмножеств из Ω, a B ∈ F – некоторое случайное событие. Показать, что GB = {g = A ∩ B : A ∈ F} есть σ-алгебра подмножеств из B. 2. Какие из нижеприведенных соотношений тождественно верны? Для тех соотношений, которые не верны, указать условия, при которых они выполняются: a) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C); б) A ∩ (B ∩ C) = (A ∩ B) ∩ C; в) (A ∪ B) ∩ C = A ∪ (B ∩ C); г) A \ (B ∩ C) = (A \ B) ∪ (A \ C). 3. Доказать справедливость неравенств: max(P(A), P(B)) ⩽ P(A ∪ B) ⩽ P(A) + P(B). ¡ ¢ 4. Доказать справедливость неравенств: max 0, P(A) − P(B), P(B) − P(A) ⩽ ⩽P(A ∩ B) ⩽ min(P(A), P(B)). 5. Пусть An , n ∈ N , – последовательность случайных событий, каждое из которых ∞ ´ ³\ An = 1. имеет вероятность P(An ) = 1. Показать, что P n=1 6. Пусть n ≥ 3 и A1 , . . . , An – случайные события, о которых известно, что по крайней мере одно из этих событий в эксперименте определенно наступает, но более двух наступить не может. Если P(Ai ) = p1 , P(Ai ∩ Aj ) = p2 , показать, что p1 ≥ 1/n, p2 ≤ 2/n. 7. Показать, что если P(A|B) > P(A), то P(B|A) > P(B). 8. Пусть p – простое число, Ω = {1, 2, . . . , p}, F = 2Ω , и для любого подмножества A ∈ F вероятностная мера задана следующим образом: P(A) = |A|/p. Показать, что если A, B ∈ F независимы, то A и B совпадают с ∅ или Ω. 9. Показать, что в общем случае условная независимость A, B при условии C не влечет, не влечется безусловной независимостью A, B. Для каких событий C – произвольные события A, B независимы тогда и только тогда, когда они условно независимы при условии C? 10. Пусть F , G – некоторые σ-алгебры подмножеств из Ω. Показать, что F ∩ G — тоже σ-алгебра, а F ∪ G, вообще говоря, не является σ-алгеброй. 11. Показать, что вероятность того, что в точности одно из событий A, B наступает, равна P(A) + P(B) − 2P(A ∩ B). 36 ГЛАВА 1. СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ ВЕРОЯТНОСТИ 12. Доказать, что P(A1 ∪ A2 ∪ A3 ) = 1 − P(A1 |A2 ∩ A3 ) · P(A2 |A3 ) · P(A3 ). 13. Доказать: a) если A не зависит от самого себя, то P(A) = 0 ∨ 1; б) если P(A) = 0 ∨ 1, то A не зависит от ∀B ∈ F. 14. Доказать неравенства (иногда называемые неравенствами Буля): Ãn ! Ãn ! n n [ X [ X P Ai ≤ P(Ai ), P Ai ≥ 1 − P(Ai ). i=1 i=1 i=1 i=1 15. Пусть события A и B1 независимы и события A и B2 независимы. Показать, что события A и B1 ∪ B2 независимы тогда и только тогда, когда события A и B1 ∩ B2 независимы. 16. Доказать: P + X Ãn \ i=1 ! Ai = n X P(Ai ) − i=1 X P(Ai ∪ Aj )+ i<j n P(Ai ∪ Aj ∪ Ak ) − . . . − (−1) P(A1 ∪ A2 ∪ . . . ∪ An ). i<j<k 17. Доказать следующее утверждение (иногда называемое теоремой Варинга). Пусть A1 , A2 , . . ., An ∈ F – некоторые события, Nk ∈ F – случайное событие, состоящее в том, что в точности k событий среди {Ai } наступает. Тогда P(Nk ) = n−k X k (−1)i Ck+i Sk+i , i=0 где Sj = X ¡ ¢ P Ai1 ∩ Ai2 ∩ . . . ∩ Aij . i1 <i2 <...<ij 18. («Парадокс дней рождения».) Предполагая, что дни рождения присутствующих на лекции по теории вероятностей и математической статистике n студентов, рожденных в одном и том же году, чисто случайны и независимы, показать, что вероятность хотя бы одного совпадения дней рождения pn = 1 − 365! . (365 − n)!365n Показать, что начиная с n = 23 эта вероятность pn > 1/2. Глава 2 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 2.1. ПОНЯТИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ. ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ И ЕЕ СВОЙСТВА В гл. 1 был рассмотрен случайный эксперимент S, в котором каждому ω ∈ Ω соответствует некоторое случайное событие A. Но существуют более сложные по результатам случайные эксперименты, в которых измеряются числовые величины, т. е. элементарному исходу ω ставится в соответствие действительное число: ξ = ξ(ω) ∈ R. Удобной математической моделью для таких случайных экспериментов является случайная величина. Определение 2.1. Пусть (Ω, F, P ) – произвольное вероятностное пространство, (R, B) – измеримое пространство, где B = B(R) – борелевская σ-алгебра на числовой прямой. Числовая функция ξ = ξ(ω) : Ω → R называется F-измеримой функцией, если прообраз любого борелевского множества B ∈ B является случайным событием, т. е. выполняется ξ−1 (B) ::= {ω ∈ Ω : ξ(ω) ∈ B} = {ξ ∈ B} ∈ F. (2.1) Определение 2.2. F-измеримая числовая функция ξ = ξ(ω) : Ω → R, удовлетворяющая (2.1), называется случайной величиной, заданной на (Ω, F, P ). Обозначим для произвольного борелевского множества B ∈ B его ξ-прообраз: ξ−1 (B) = {ω : ξ(ω) ∈ B} ∈ F. Теорема 2.1. Совокупность случайных событий Fξ ::= {ξ−1 (B) : B ∈ B} является σ-алгеброй, причем Fξ ⊆ F. Доказательство. Проверим свойства, определяющие σ-алгебру. Во-первых, так как ξ−1 (R) = Ω, то Ω ∈ Fξ . Во-вторых, выберем произвольные борелевские множества B1 , B2 ∈ B и построим случайные события: A1 = ξ−1 (B1 ) ∈ Fξ , A2 = ξ−1 (B2 ) ∈ Fξ . Из определения борелевской σ-алгебры B имеем B1 ∪ B2 ∈ B, B1 ∩ B2 ∈ B, B1 ∈ B, B2 ∈ B. Отсюда следует: A1 ∪ A2 = {ξ ∈ B1 } ∪ {ξ ∈ B2 } = {ξ ∈ B1 ∪ B2 } ∈ Fξ ; A1 ∩ A2 = {ξ ∈ B1 } ∩ {ξ ∈ B2 } = {ξ ∈ B1 ∩ B2 } ∈ Fξ ; Ai = {ξ ∈ Bi } = {ξ ∈ Bi } ∈ Fξ , i = 1, 2, . . . . 38 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ В-третьих, выберем произвольно B1 , B2 , . . . ∈ B. Тогда ∞ [ Bi ∈ B, Ai = ξ−1 (Bi ) ∈ Fξ , i = 1, 2, . . . . i=1 Поэтому ∞ [ i=1 Ai = ∞ [ −1 ξ (Bi ) = ξ i=1 −1 Ã∞ [ ! Bi ∈ Fξ . i=1 Таким образом, Fξ является σ-алгеброй. Осталось показать, что Fξ ⊆ F. Предположим противное: F ⊂ Fξ . Это значит, что Fξ \F 6= ∅ и найдется B 0 ∈ B такое, что ξ−1 (B 0 ) ∈ Fξ , но ξ−1 (B 0 ) ∈ / F. Последнее противоречит определению случайной величины ξ. Следовательно, Fξ ⊆ F. ¤ Определение 2.3. σ-Алгебра Fξ = {ξ−1 (B) : B ∈ F} называется σ-алгеброй, порожденной случайной величиной ξ. С помощью случайной величины ξ = ξ(ω) и вероятностной меры P построим еще одну числовую функцию: Pξ (B) ::= P(ξ−1 (B)) = P{ξ ∈ B}, B ∈ B. (2.2) Пользуясь формулой (2.2), легко проверить, что эта функция удовлетворяет всем аксиомам Колмогорова и, следовательно, является некоторой вероятностной мерой. Определение 2.4. Вероятностная мера Pξ (B), определяемая (2.2), называется распределением вероятностей случайной величины ξ = ξ(ω). Вероятностное пространство (R, B, Pξ ) называется вероятностным пространством, порожденным случайной величиной ξ (индуцированным случайной величиной ξ). Замечание 2.1. Функция Pξ (B) определена на борелевских множествах B ∈ B и показывает, как распределена вероятность по этим множествам. Отсюда происходит ее название. Замечание 2.2. Борелевская σ-алгебра B была построена на основе базовой системы интервалов: F0 = {∅, Ax = (−∞, x) : x ∈ R}. В связи с этим определение случайной величины можно упростить. Определение 2.5 (эквивалентное понятие СВ). Числовая функция ξ = ξ(ω) : Ω → R называется случайной величиной на вероятностном пространстве (Ω, F, P ), если для любого x ∈ R прообраз интервала Ax = (−∞, x) является случайным событием, т. е. ξ−1 (Ax ) = {ω ∈ Ω : ξ(ω) < x} ∈ F. Определение 2.6. Пусть ξ = ξ(ω) : Ω → R – произвольная случайная величина на (Ω, F, P ), имеющая распределение вероятностей Pξ (B) = P{ξ ∈ B}, B ∈ B. Тогда действительная функция Fξ (x) = P{ξ < x} = Pξ (Ax ), x ∈ R, (2.3) называется функцией распределения случайной величины ξ. Распределение вероятностей Pξ (·) однозначно определяет функцию распределения Fξ (·). Обратное соответствие задается следующей теоремой. Теорема 2.2. Для произвольного B ∈ B распределение вероятностей Pξ (B) = = P{ξ ∈ B} однозначно выражается через функцию Fξ (·). В частности, для ∀x, x1 , x2 ∈ R, x1 < x2 , справедливы соотношения: 2.1. ПОНЯТИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 39 P{ξ ⩾ x} = 1 − Fξ (x); (2.4) P{x1 ⩽ ξ < x2 } = Fξ (x2 ) − Fξ (x1 ); (2.5) P{ξ = x} = Fξ (x + 0) − Fξ (x). (2.6) Доказательство. Результат теоремы вытекает из свойств вероятностной меры P и из того факта, что B построена на основе базовой системы интервалов: F0 = {∅, Ax : x ∈ R}. Доказательство проведем для вышеприведенных частных случаев. По свойствам вероятности из (2.3) для (2.4) имеем P{ξ ⩾ x} = 1 − P{ξ < x} = 1 − Fξ (x). Теперь рассмотрим (2.5), учитывая, что [x1 , x2 ) = Ax2 \Ax1 : P{x1 ⩽ ξ < x2 } = Pξ {ξ ∈ Ax2 \Ax1 } = = P{ξ ∈ Ax2 } − P{ξ ∈ Ax1 } = Fξ (x2 ) − Fξ (x1 ). Обратимся к (2.6), используя аксиому непрерывности А5: Ã∞ ½ ¾! \ 1 P{ξ = x} = P x⩽ξ<x+ = n n=1 ¾ ¶ ½ µ 1 1 = lim Fξ x + − Fξ (x) = Fξ (x + 0) − Fξ (x). = lim P x ⩽ ξ < x + n→∞ n→∞ n n ¤ Следствие 2.1. Распределение вероятностей Pξ (B), B ∈ B, и функция распределения Fξ (x), x ∈ R, находятся во взаимно-однозначном соответствии. Теорема 2.3 (о свойствах ФР). Пусть ξ = ξ(ω) : Ω → R – произвольная случайная величина, определенная на вероятностном пространстве (Ω, F, P ) и имеющая функцию распределения Fξ (x), x ∈ R, и распределение вероятностей Pξ (B), B ∈ B. Тогда Fξ (·) удовлетворяет следующим свойствам: 1) область ее значений есть [0, 1]: 0 ⩽ Fξ (x) ⩽ 1, x ∈ R; 2) функция распределения Fξ – неубывающая функция, т. е. ∀x1 < x2 ⇒ Fξ (x1 ) ≤ ≤ Fξ (x2 ); 3) полное колебание функции распределения ω(Fξ ) = 1, при этом Fξ (−∞) = 0, Fξ (+∞) = 1; 4) функция распределения непрерывна слева в каждой точке области определения, т. е. Fξ (x − 0) = Fξ (x), x ∈ R. Доказательство. Для начала графически проиллюстрируем вид Fξ (·) (рис. 2.1). Рис. 2.1. График функции распределения 40 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Свойства 1) и 2) вытекают из формулы (2.3) и свойств вероятности. Докажем свойство 3). Функция Fξ (·) – неубывающая, поэтому полное колебание ω = Fξ (+∞)− −Fξ (−∞). Покажем, что Fξ (−∞) = 0. Выберем вспомогательную монотонно убывающую не ограниченную снизу числовую последовательность xn → −∞ и с ее помощью построим монотонно убывающую последовательность числовых промежутков Axn ↓. ∞ \ Как известно, ∃ lim Axn = Axn = ∅. Поэтому с учетом (2.3) и аксиомы А5 имеем: n→∞ n=1 Fξ (−∞) = lim Fξ (xn ) = lim Pξ (Axn ) = Pξ ( lim Axn ) = Pξ (∅) = 0. n→∞ n→∞ n→∞ Самостоятельно доказать, что Fξ (+∞) = 1, выбрав вспомогательную не ограниченную сверху последовательность yn → +∞. Докажем свойство 4) с учетом (2.3) и теоремы о монотонной последовательности случайных событий: Fξ (x − 0) = lim Fξ (x − 1/n) = lim Pξ (Ax−1/n ) = Pξ ( lim Ax−1/n ) = n→∞ n→∞ n→∞ = Pξ (Ax ) = Fξ (x). ¤ Теорема 2.4. Пусть F (x), x ∈ R, – произвольная действительная функция, обладающая свойствами 1–4. Тогда найдется такое вероятностное пространство (Ω, F, P ) и на нем такая случайная величина ξ = ξ(ω) : Ω → R, что ее функция распределения в точности совпадет с данной функцией Fξ (·) = F (·). Доказательство. Доказательство данной теоремы носит конструктивный характер. Его разобрать самостоятельно согласно работе [9]. ¤ Следствие 2.2. Свойства 1–4 полностью характеризуют семейство функций распределения. 2.2. КЛАССИФИКАЦИЯ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ, РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ И СЛУЧАЙНЫХ ВЕЛИЧИН. ОСНОВНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Пусть ξ = ξ(ω) – произвольная случайная величина на вероятностном пространстве (Ω, F, P ). Математической моделью этой случайной величины является вероятностное пространство (R, B, Pξ ), где R – числовая прямая, B – борелевская σ-алгебра, Pξ (B), B ∈ B, – распределение вероятностей. Многообразие математических моделей случайных величин есть многообразие их функций распределений, поэтому проведем классификацию случайных величин и распределений вероятностей, классифицируя функции распределения. Существует следующая классификация функций распределения. 1. Дискретные функции распределения (дискретные распределения вероятностей, дискретные случайные величины). 2. Абсолютно непрерывные функции распределения (абсолютно непрерывные распределения вероятностей, непрерывные случайные величины). 3. Сингулярные функции распределения (сингулярные распределения вероятностей, сингулярные случайные величины). 2.2.1. Дискретные функции распределения Определение 2.7. Принято говорить, что случайная величина ξ = ξ(ω), определенная на вероятностном пространстве (Ω, F, P ), имеет дискретное распределение вероятностей, если множество X всевозможных ее значений дискретно (конечно или счетно), т. е. для ∀ω ∈ Ω ξ(ω) ∈ X = {x1 , . . . , xM }, M ⩽ +∞, причем −∞ < x1 < x2 < < . . . < xM < +∞ и элементарные вероятности pi = P{ξ = xi } > 0, i = 1, . . . , M . 41 2.2. КЛАССИФИКАЦИЯ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ При этом случайная величина ξ называется дискретной случайной величиной, а ее функция распределения Fξ (x) – дискретной функцией распределения. Дискретное распределение вероятностей удобно задавать с помощью следующей таблицы: Значение xi x1 ... xM Элементарная вероятность pi p1 ... pM Элементарные вероятности удовлетворяют условию нормировки M X pi = 1, так как i=1 сумма слева определяет вероятность достоверного события. Вычислим функцию распределения для дискретной случайной величины. Из определения следует: X Fξ (x) = P{ξ < x} = P{ξ = xi }. i:xi <x Таким образом, дискретная функция распределения имеет следующий общий вид (рис. 2.2): X Fξ (x) = pi , x ∈ R. i:xi <x Рис. 2.2. График дискретной функции распределения Существует бесконечное множество дискретных функций распределения, различающихся в зависимости от X, {px : x ∈ X}. На практике встречаются некоторые типовые дискретные распределения вероятностей, которые принято называть законами дискретного распределения вероятностей. Основные законы дискретного распределения вероятностей 1. Закон распределения вероятностей Бернулли c параметром p ∈ [0, 1] (при этом X = {0, 1}, M = 2): ½ p, x = 1, px = P{ξ = x} = = px (1 − p)1−x , x ∈ X. 1 − p, x = 0, 42 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Здесь p ∈ [0, 1] – параметр, который принято называть элементарной вероятностью или вероятностью успеха. Такая случайная величина ξ = ξ(ω) ∈ {0, 1} характеризует случайный исход единичного испытания Бернулли: ξ = 1 − «успех», ξ = 0 − «неудача». Пример 2.1. Представим специалиста, который контролирует качество некоторой продукции (микросхем, дискет, ...). Ему для проверки предоставили огромный контейнер этих деталей. Пусть в исследуемой партии доля брака равна p. Контролер наудачу берет одну деталь и проверяет. С точки зрения контролера: ½ 1, «успех» − бракованное изделие, ξ= 0, «неуспех» − годное изделие. Таким образом, введенная случайная величина ξ является случайной величиной Бернулли. 2. Биномиальный закон распределения вероятностей с параметрами p ∈ [0, 1], N ∈ N. Он задается следующими соотношениями: X = {0, 1, . . . , N }, M = N + 1; px = P{ξ = x} = CNx px (1 − p)N −x , x ∈ X. Пример 2.2. ξ(ω) – случайное число бракованных деталей, обнаруженных контролером при извлечении N деталей наудачу, ξ = ξ(ω) – случайное число успехов в схеме N независимых испытаний Бернулли. В теории вероятностей для краткости записи законов используют следующее обозначение (Binomial Law): L{ξ} = Bi(N, p) (читается: «закон распределения величины ξ есть биномиальный закон с параметрами N и p»). При N = 1 имеем L{ξ} = Bi(1, p) − закон распределения вероятностей Бернулли с параметром p ∈ [0, 1]. 3. Дискретный равномерный на множестве X закон распределения вероятностей: X = {x1 , . . . , xM }, M < +∞, px = 1 , M x ∈ X. Обозначение: L{ξ} = DR(X) − Discrete Rectangular. 4. Гипергеометрический закон распределения вероятностей с параметрами K, k, L: L{ξ} = H(K, k, L) − Hypergeometric, L < K. При этом множество возможных значений X = {N1 , N1 + 1, . . . , N2 }, где N1 = = max(0, L − (K − k)), N2 = min{k, L}: px = L−x Ckx CK−k , x ∈ X. L CK Пример 2.3. В урне перемешано K шаров: k – красных, K − k – белых; извлекаем L шаров, ξ = ξ(ω) – случайное число извлеченных красных шаров, px = P{ξ = x}. 2.2. КЛАССИФИКАЦИЯ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ 43 Пример 2.4. Контроль качества продукции: K микросхем, среди которых k бракованных, наудачу извлекаем L микросхем и проверяем их, ξ – случайное число обнаруженных бракованных микросхем. 5.Геометрическое распределение вероятностей с параметром p ∈ [0, 1]: L{ξ} = G(p) − Geometric. Здесь p – элементарная вероятность, X = {0, 1, 2, . . .}, M = |X| = ∞, px = P{ξ = x} = = (1 − p)x p, x ∈ X. Пример 2.5. Контролер проверяет первую микросхему, вторую и т. д. – до первой бракованной; ξ = ξ(ω) – случайное число проверок до обнаружения первой бракованной микросхемы, p – доля брака, 1 − p – вероятность извлечь годную микросхему, (1 − p)x – вероятность извлечь годную деталь x раз. Поскольку события независимы, то вероятность после x годных деталей извлечь бракованную равна (1 − p)x p. 6. Закон распределения Пуассона с параметром λ > 0: L{ξ} = Q (λ), X = {0, 1, 2, ...}, M = +∞, px = P{ξ = x} = λx e−λ , x ∈ X. x! Задание 2.1. Проверить условие нормировки. Пример 2.6. ξ = ξ(ω) – случайное число посетителей акционерно-коммерческого банка в течение рабочего дня, λ > 0 – среднее число посетителей. 2.2.2. Абсолютно непрерывные функции распределения вероятностей Пусть на некотором вероятностном пространстве (Ω, F, P ) определена некоторая случайная величина ξ = ξ(ω), имеющая распределение вероятностей Pξ (B), B ∈ B, и функцию распределения Fξ (x) = P{ξ < x}, x ∈ R. Определение 2.8. Функция распределения Fξ (·) называется абсолютно непрерывной функцией распределения вероятностей, если существует неотрицательная интегрируемая функция pξ (x) ⩾ 0 такая, что справедливо следующее интегральное представление: Zx pξ (y)dy, x ∈ R; (2.7) Fξ (x) = −∞ при этом распределение вероятностей Pξ (·) называется абсолютно непрерывным распределением вероятностей, случайная величина ξ – непрерывной случайной величиной, а функция pξ (·) – плотностью распределения вероятностей. Свойства плотности распределения вероятностей C1. pξ (x) ⩾ 0, x ∈ R. C2. Условие нормировки: +∞ Z pξ (y) dy = 1. −∞ 44 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Доказательство. Из интегрального представления (2.7) и свойства функции распределения при x → ∞ имеем +∞ Z Fξ (+∞) = pξ (y)dy, −∞ но по свойствам функций распределения Fξ (+∞) = 1. C3. Для ∀B ∈ B справедливо Z P{ξ ∈ B} = pξ (y)dy, ¤ (2.8) B и, в частности, Zb P{a ⩽ ξ < b} = pξ (y)dy. (2.9) a Доказательство. Это свойство является следствием трех фактов: а) B построена на основе базовой системы интервалов F0 = {∅, Ax = (−∞, x)}; б) для ∀B ∈ F0 формула (2.8) верна, так как она превращается в представление (2.7); в) интеграл обладает свойством аддитивности, следовательно, так как для базовых множеств (2.8) выполняется, а B порождено их объединениями, то (2.8) выполняется ∀B ∈ B. Проиллюстрируем эту схему доказательства на формуле (2.9), используя свойства функции распределения: Z P{a ⩽ ξ < b} = Fξ (b) − Fξ (a) = pξ (y)dy = Ab \Aa Zb = Za pξ (y)dy − −∞ Zb pξ (y)dy = pξ (y)dy. −∞ a ¤ Соотношение (2.8) имеет наглядную графическую иллюстрацию (рис. 2.3). Плотность распределения вероятностей неотрицательна и площадь фигуры под кривой равна единице. Рис. 2.3. График плотности распределения вероятностей Таким образом, вероятность P{a ⩽ ξ < b} есть площадь криволинейной трапеции, выделенной двойной штриховкой. 2.2. КЛАССИФИКАЦИЯ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ 45 C4. Каким бы ни было фиксированное значение x ∈ R, для непрерывной случайной величины ξ = ξ(ω) справедливо соотношение P{ξ = x} = 0. Доказательство. Поскольку функция распределения Fξ (·) непрерывна, то P{ξ = x} = Fξ (x + 0) − Fξ (x) = 0. ¤ Замечание 2.3. Это свойство приводит к парадоксу. Например, наудачу бросается точка на отрезок [0,1]. Одно из событий вида {ξ = x} произойдет, но в то же время P{ξ = x} = 0. C5. Если x – точка непрерывности pξ (·), то справедливо pξ (x) = Fξ0 (x). (2.10) Zx pξ (y)dy, получаем требуемое ра- Доказательство. Дифференцируя Fξ (x) = венство. Следствие 2.3. Справедливы соотношения: −∞ ¤ Zx pξ (y)dy, x ∈ R, pξ (x) = Fξ0 (x). Fξ (x) = −∞ C6. В условиях C5 справедливо предельное соотношение pξ (x) = lim ∆→0 P{x ⩽ ξ < x + ∆} . ∆ (2.11) Доказательство. В силу свойств функции распределения имеем pξ (x) = lim ∆→0 P{x ⩽ ξ < x + ∆} Fξ (x + ∆) − Fξ (x) = lim . ∆→0 ∆ ∆ ¤ Замечание 2.4. Из соотношения (2.11) происходит название «плотность распределения». В физике плотность распределения массы на числовой прямой ρ= m m([x, x + ∆)) = lim , ∆→0 V ∆ т. е. ρ – это плотность массы, сосредоточенной в точке x. Аналогично в теории вероятностей: плотность распределения СВ ξ характеризует плотность вероятности в точке x. Задание 2.2. Показать справедливость формулы P{a < ξ < b} = P{a ⩽ ξ ⩽ b} = P{a ⩽ ξ < b} = P{a < ξ ⩽ b}, если ξ имеет абсолютно непрерывное распределение вероятностей. Основные абсолютно непрерывные законы распределения вероятностей 1. Равномерный (прямоугольный) закон распределения вероятностей на [a, b], a < b: L{ξ} = R[a, b] − Rectangular, 46 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ ( 1 , x ∈ [a, b], b−a 0, x∈ / [a, b], 0, x−a x ⩽ a, , a < x ⩽ b, b−a 1, x > b. Вероятность попадания зависит лишь от длины интервала, а не от его расположения, т. е. вероятностная масса распределена равномерно (рис. 2.4). pξ (x) = Fξ (x) = Рис. 2.4. Иллюстрация равномерного закона Пример 2.7 (геометрическая вероятностная модель). В ранее рассмотренном примере (1.5) игры «Что? Где? Когда?» ξ = ξ(ω) = ω – случайный угол остановившейся стрелки. Шансы остановиться в любой точке, принадлежащей [0, 2π), одинаковы; L{ξ} = R [0, 2π). Определение 2.9. Если a = 0, b = 1, то закон R[0, 1] называется стандартным равномерным законом распределения вероятностей. Пример 2.8. ξ = ξ(ω) – выходное значение программного датчика случайных чисел, например Random в языке P ascal. 2. Нормальный (гауссовский) закон распределения вероятностей с параметрами a ∈ R, D > 0: L{ξ} = N (a, D), где N происходит от англ. «Normal»: (x−a)2 1 e− 2D =:: n(x|a, D). 2πD Графики этой плотности распределения для различных a, D приведены на рис. 2.5. Функция распределения для нормального закона Zx n(y|a, D)dy, x ∈ R. Fξ (x) = pξ (x) = √ −∞ Пример 2.9. Допустим, на некотором производстве выпускают стержни для шариковых ручек. Пусть a – стандартная длина стержня. С конвейера наудачу берем один из изготовленных стержней и измеряем его длину: ξ = ξ(ω). Она отличается от a и является случайной величиной по следующим причинам: а) случайные погрешности настройки станка; б) случайные ошибки персонала; в) случайная неоднородность материала. Если строить гистограмму, она будет иметь вид гауссоиды. При этом a – точка максимума, стандарт, который хотелось бы иметь; D характеризует точность изготовления. Заметим, что P{ξ = a} = 0, т. е. в точности стержень длины a появится в выборке с вероятностью 0. 2.2. КЛАССИФИКАЦИЯ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ 47 Рис. 2.5. Иллюстрация нормального закона Определение 2.10. Если a = 0, D = 1, то закон распределения N (0, 1) с плотностью n(x|0, 1) называется стандартным нормальным законом распределения вероятностей; x2 1 φ(x) = n(x|0, 1) = √ e− 2 , x ∈ R, − 2π стандартная нормальная плотность распределения вероятностей; 1 Φ(x) = √ 2π Zx y2 e− 2 dy, x ∈ R, − −∞ стандартная нормальная функция распределения (функция Лапласа, или интеграл вероятностей). Замечание 2.5. Функции φ, Φ имеются в таблицах, и существуют стандартные компьютерные программы для их вычисления. Задание 2.3. Построить с помощью математических пакетов графики φ(x), Φ(x). Свойства φ, Φ С1. Функция φ(·) – четная: φ(−x) = φ(x), x ∈ R; Φ(−x) = 1 − Φ(x). С2. Любой нормальный закон L{ξ} = N (a, D) выражается через стандартный нормальный закон: µ ¶ µ ¶ 1 x−a x−a pξ (x) = √ φ √ ; Fξ (x) = Φ √ . D D D 3. Закон распределения вероятностей Коши (обозначение происходит от англ. Cauchy) с параметрами a ∈ R, b > 0: L{ξ} = C(a, b); 48 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 1 µ ¶2 ! , x ∈ R; x−a πb 1 + b Zx 1 à Fξ (x) = µ ¶2 ! dy. y − a −∞ πb 1 + b pξ (x) = à Задание 2.4. Построить с помощью математических пакетов графики pξ (·) и Fξ (·). 4. Экспоненциальный закон распределения вероятностей c параметром λ > 0: L{ξ} = E{λ}, pξ (x) = λe−λx , x ⩾ 0; Fξ (x) = 1 − e−λx . Задание 2.5. Построить с помощью математических пакетов графики pξ (·) и Fξ (·). 2.2.3. Сингулярные функции распределения вероятностей Определение 2.11. Точка g ∈ R называется точкой роста для Fξ (x), если для ∀² > 0 приращение Fξ (g + ²) − Fξ (g − ²) > 0. При этом G(Fξ ) ::= {g} ⊆ R – множество всех точек роста. Приведем классификацию функций распределения в табл. 2.1. Таблица 2.1 Класс функций Дискретные Абсолютно Сингулярные распределения непрерывные Непрерывна ли Fξ (·)? нет да да Мера Лебега µ(G(Fξ )) 0 µ>0 0 Определение 2.12. Функция распределения Fξ (x) называется сингулярной функцией распределения, если она непрерывна, и в то же время множество точек роста имеет нулевую меру Лебега. Примером сингулярной функции распределения может служить «лестница Кантора» [9, c. 51]. Замечание 2.6. Существует эквивалентное определение сингулярной функции распределения: Fξ (·) непрерывна и существует борелевское множество (носитель) S ∈ B нулевой меры Лебега µ(S) = mes(S) = 0 такое, что P{ξ ∈ S} = 1. Теорема 2.5 (Лебега). Любая функция распределения F (x) представима в виде линейной комбинации некоторой дискретной Fд (x), некоторой абсолютно непрерывной Fан (x) и некоторой сингулярной Fc (x) функций распределения: F (x) = p1 · Fд (x) + p2 · Fан (x) + p3 · Fc (x), x ∈ R, (2.12) где p1 , p2 , p3 ∈ [0, 1], p1 +p2 +p3 = 1; (2.12) – смесь функций распределения; p1 , p2 , p3 – коэффициенты этой смеси. Следствие 2.4. Произведенная классификация функций распределения в три класса вместе со всевозможными их смесями является полной. 2.3. n-МЕРНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА 49 2.3. n-МЕРНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА И СЛУЧАЙНЫЙ n-ВЕКТОР. n-МЕРНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ, n-МЕРНАЯ ПЛОТНОСТЬ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ И ИХ СВОЙСТВА Эти понятия являются обобщением понятий одномерных случайных величин на многомерный случай. Раньше рассматривались случаи, когда каждому исходу ставилось в соответствие некоторое число: ω → ξ = ξ(ω) ∈ R – случайная величина. Но часто в экспериментах измеряется сразу n > 1 случайных величин, т. е. ξ1 ω → ξ = ... ∈ Rn − ξn многомерная случайная величина (случайный вектор). Определение 2.13. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определено n случайных величин: ξi = ξi (ω) : Ω → R, i = 1, . . . , n. Тогда упорядоченный по индексу i набор случайных величин ξ1 ξ1 (ω) . . .. ξ = .. = ξ(ω) = ξn ξn (ω) называется n-мерной случайной величиной или случайным n-вектором на (Ω, F, P ). При этом ξi = ξi (ω) – i-я компонента случайного вектора. Рассмотрим измеримое пространство (Rn , Bn ): Rn – евклидово n-мерное пространство; Bn – борелевская σ-алгебра подмножеств из Rn . Bn строится на основе базовой системы параллелепипедов: x1 F0 = {∅, Ax = Ax1 × Ax2 × . . . × Axn : x = ... ∈ Rn }, Axi = (−∞, xi ). xn Поскольку ξi = ξi (ω) F-измерима, ∀i = 1, . . . , n, то векторная функция ξ = ξ(ω) тоже F-измерима, т. е. ξ−1 (B) ∈ F, ∀B ∈ Bn . Определение 2.14. Распределением вероятностей случайного вектора ξ = ξ(ω) : Ω → Rn , заданного на вероятностном пространстве (Ω, F, P ), называется вероятностная мера Pξ (B) ::= P(ξ−1 (B)) = P{ξ ∈ B}, B ∈ Bn . Определение 2.15. Функция n действительных переменных Fξ (x) = Fξ1 , ... ,ξn (x1 , . . . , xn ) = P{ξ1 < x1 , . . . , ξn < xn } = Pξ (Ax ), x = (xi ) ∈ Rn , называется n-мерной функцией распределения или совместной функцией распределения случайных величин ξ1 , . . . , ξn . 50 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Свойства n-мерной функции распределения C1. Распределение вероятностей случайного вектора Pξ (·) и n-мерная функция распределения Fξ (·) находятся во взаимно-однозначном соответствии: Pξ (·) ⇔ Fξ (·). n C2. Для ∀x ∈ R Fξ (x) ∈ [0, 1]. C3. Fξ (·) – неубывающая функция по каждому из своих аргументов. C4. Справедливы предельные соотношения (i = 1, . . . , n): Fξ (x) |xi =−∞ = 0 (здесь достаточно устремить к −∞ по крайней мере одну координату); Fξ (x) |x1 =+∞, ... , xn =+∞ = 1 (в данном случае необходимо устремить к +∞ все координаты вектора х). C5. Функция распределения Fξ (·) непрерывна слева по совокупности своих переменных. Доказательства C1–C5 проводятся аналогично случаю n = 1. C6. (Свойство согласованности.) n- и (n − 1)-мерные функции распределения согласованы следующим образом: Fξ (x) |xi =+∞ = Fξ1 , ... ,ξi−1 ,ξi+1 , ... ,ξn (x1 , . . . , xi−1 , xi+1 , . . . , xn ), i = 1, . . . , n, x1 , . . . , xn ∈ R. (2.13) Доказательство. В определении 2.15 устремим координату xi → +∞. Левая часть (2.13) Fξ (x) |xi =+∞ = P{ξ1 < x1 , . . . , ξi−1 < xi−1 , ξi < +∞, ξi+1 < xi+1 , ξi+2 < xi+2 , . . . , ξn < xn }. Учитывая, что {ξi < +∞} есть достоверное событие, удаляя его из правой части и используя определение 2.15, получаем правую часть формулы (2.13). ¤ Определение 2.16. Пусть k (1 ⩽ k ⩽ n − 1) – произвольное натуральное число и задан произвольный набор k индексов: 1 ⩽ i1 < i2 . . . < ik ⩽ n. Тогда упорядоченный набор k компонент исходного случайного n-вектора ξ ∈ Rn ξi1 . ξ0 = .. ∈ Rk ξi k называется случайным подвектором, а его k-мерная функция распределения – k-мерной маргинальной (от англ. marginal) (частной) функцией распределения. Обозначим k-мерную маргинальную ФР: xi1 . Fξ0 (x0 ), x0 = .. ∈ Rk . xik Следствие 2.5. Чтобы получить k-мерную маргинальную функцию распределения Fξ0 (x0 ), достаточно в исходной n-мерной функции распределения Fξ (x) устремить к +∞ все n − k переменных, за исключением xi1 , . . . , xik . 51 2.3. n-МЕРНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА Примем обозначения: ξ = (ξi ) ∈ Rn – случайный n-вектор с n-мерной функцией распределения Fξ (x); Ci = [ai , bi ) – i-й числовой промежуток, где ai , bi (ai < bi ) – действительные числа; C = C1 × C2 × . . . × Cn ∈ Rn – прямоугольный параллелепипед; ∆i Fξ (x) = Fξ (x) |xi =bi −Fξ (x) |xi =ai − приращение функции распределения по i-й переменной на промежутке Ci . C7. Вероятность попадания вектора ξ в прямоугольный параллелепипед C равна n-кратному приращению функции распределения: P{ξ ∈ C} = ∆1 ∆2 . . . ∆n Fξ (x) ⩾ 0. (2.14) Доказательство. Введем в рассмотрение вспомогательную функцию: P{ξ ∈ C} =:: Q(C1 , . . . , Cn ) = P{ξ1 ∈ C1 , . . . , ξn ∈ Cn }, Ci = Abi \Aai , где Ay = (−∞, y). Тогда по свойствам вероятности имеем цепочку равенств: Q(C1 , . . . , Cn ) = Q(Ab1 \Aa1 , C2 , . . . , Cn ) = P{ξ1 ∈ Ab1 , ξ2 ∈ C2 , ξ3 ∈ C3 , . . . , ξn ∈ Cn } − P{ξ1 ∈ Aa1 , ξ2 ∈ C2 , . . . , ξn ∈ Cn } = = Q(Ab1 , C2 , . . . , Cn ) − Q(Aa1 , C2 , . . . , Cn ) = = ∆1 Q(Ax1 , C2 , . . . , Cn ) = . . . = ∆1 ∆2 . . . ∆n Q(Ax1 , . . . , Axn ) = = ∆1 ∆2 . . . ∆n Fξ (x) ⩾ 0. ¤ Задание 2.6. Записать соотношение (2.14) в явном виде при n = 2. C8. Справедливо обобщение теоремы Лебега о классификации функций распределения. Определение 2.17. n-Мерная функция распределения Fξ (x), x ∈ Rn , называется абсолютно непрерывной функцией распределения, если существует такая неотрицательная интегрируемая функция n действительных переменных pξ (y), y = (yi ) ∈ Rn , что справедливо интегральное представление x Z1 xZn pξ (y1 , . . . , yn )dy1 , . . . , dyn ; ... Fξ (x) = Fξ1 , ... ,ξn (x1 , . . . , xn ) = −∞ −∞ при этом функция pξ (y) называется плотностью распределения вероятностей случайного вектора ξ или совместной плотностью распределения случайных величин ξ1 , . . . , ξn . Свойства n-мерной плотности распределения вероятностей C1. pξ (x) ⩾ 0, x ∈ Rn . Z C2. Выполняется условие нормировки: pξ (x)dx = 1. Rn Z n C3. Для ∀B ∈ B вероятность P{ξ ∈ B} = pξ (x)dx. B 52 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ C4. Если х – точка непрерывности pξ (·), то справедлива формула pξ (x) = ∂ n Fξ (x) . ∂x1 . . . ∂xn Свойства С1–С4 доказываются аналогично случаю с n = 1. C5. (Свойство согласованности плотностей распределения вероятностей.) n-Мерная и (n − 1)-мерная плотности распределения вероятностей согласованы: +∞ Z pξ1 , ... ,ξn (x1 , . . . , xn )dxi = −∞ = pξ1 , ... ,ξi−1 ,ξi+1 , ... ,ξn (x1 , . . . , xi−1 , xi+1 , . . . , xn ), ∀x1 , . . . , xn ∈ Rn , ∀i = 1, . . . , n. Доказательство. Достаточно продифференцировать почленно по переменным x1 , . . . , xi−1 , xi+1 , . . . , xn соотношение (2.13) и воспользоваться C4. ¤ Определение 2.18. k-Мерной маргинальной плотностью распределения вероятностей случайного подвектора ξ0 , ξ0 = (ξi1 , . . . , ξik )T ∈ Rk называется совместная плотность распределения вероятностей случайных величин ξi1 , . . . , ξik . Следствие 2.6. Чтобы получить k-Мерную маргинальную ПРВ, достаточно исходную n-мерную плотность распределения вероятностей pξ (x), x ∈ Rn , проинтегрировать в бесконечных пределах n − k раз по всем переменным, за исключением xi1 , . . . , xik . Определение 2.19. Случайный m-вектор ξ = (ξ1 , . . . , ξm )T ∈ Rm называется гауссовским случайным вектором, или говорят, что многомерный случайный вектор ξ имеет n-мерное нормальное распределение вероятностей с параметрами a = = (a1 , . . . , am ) ∈ Rm и B = (bij ) − (m × m)-матрицей, и это кратко обозначается L(ξ) = Nm (a, B), если плотность распределения ξ имеет вид µ ¶ 1 1 −m − T −1 pξ (x) = (2π) 2 |B| 2 exp − (x − a) B (x − a) =:: nm (x|a, B), 2 x = (xi ) ∈ Rm (здесь B = B T  0 – положительно определенная симметрическая матрица). Задание 2.7. Построить график этой плотности распределения при m = 2. Следствие 2.7. Для гауссовского случайного вектора все маргинальные распределения вероятностей являются гауссовскими. В частности, одномерное маргинальное распределение i-й компоненты имеет вид L{ξi } = N1 (ai , bii ), i = 1, . . . , m. Задание 2.8. Используя C5, доказать формулу для одномерного маргинального распределения i-й компоненты при m = 2. Определение 2.20. Принято говорить, что случайный вектор ξ = (ξ1 , . . . , ξm )T ∈ ∈ Rm имеет полиномиальное распределение вероятностей с параметрами N, m, p1 , . . . , pm : L{ξ} = Pol(N, m, p1 , . . . , pm ), если дискретное распределение вероятностей этого вектора имеет вид P{ξ1 = x1 , . . . , ξm = xm } = N! · px1 · . . . · pxmm , x1 ! . . . x m ! 1 53 2.4. УСЛОВНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ где x1 , . . . , xm ∈ {0, 1, . . . , N }, N X xi ≡ N, 0 ⩽ pi ⩽ 1, i=1 m X pi = 1. i=1 Это распределение возникает в схеме независимых испытаний, когда в каждом независимом испытании имеется m исходов, а N – число испытаний, pi – вероятность i-го исхода в единичном испытании. Пример 2.10. Студент сдает сессию, состоящую из N = 5 экзаменов, |{3, 4, . . . , 10}| = m = 8 – число исходов, pi – вероятность получить соответствующую оценку (p1 − 3, p2 − 4, . . . , p8 − 10), ξi – число оценок типа i, которое получил студент за всю сессию (случайное число оценок i-го типа). Следствие 2.1. Допустим, m = 2 («зачет – незачет») и в сессии N зачетов. Получаем схему независимых испытаний Бернулли, и полиномиальное распределение вероятностей превращается в биномиальное. Следствие 2.2. Одномерное маргинальное распределение является биномиальным: L{ξi } = Bi (N, pi ), i = 1, . . . , m. 2.4. УСЛОВНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ, УСЛОВНАЯ ПЛОТНОСТЬ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ И ИХ СВОЙСТВА На практике часто приходится находить распределение вероятностей случайной величины ξ при условии, что некоторая другая случайная величина приняла фиксированное значение η = y. Например: 1) η – оценка, полученная на первом экзамене; ξ – оценка, полученная на втором экзамене. Как влияет η на распределение вероятностей ξ? 2) η – расход фирмы на рекламу в течение месяца; ξ – доход фирмы. Если затраты нарекламу составили η = y, то каким будет распределение дохода? ξ1 Обозначим: ξ = ... ∈ Rn – случайный вектор; x = (xi ) ∈ Rn ; Axi = (−∞, xi ); Ax = ξn = Ax1 × . . . × Axn ∈ Bn ; Bn – борелевская σ-алгебра подмножеств в Rn . Определение 2.21. Пусть на (Ω, F, P ) определен вектор ξ = (ξi ) ∈ Rn , Fξ (x) = = Fξ1 , ... ,ξn (x1 , . . . , xn ) ::= P{ξ ∈ Ax }, и на этом же пространстве определено случайное событие C ∈ F, P(C) > 0; тогда условной функцией распределения случайного вектора ξ при условии случайного события C называется функция n действительных переменных P({ξ ∈ Ax } ∩ C) Fξ (x|C) ::= P{ξ ∈ Ax |C} = , x ∈ Rn . (2.15) P(C) При этом Fξ (x) называется безусловной функцией распределения. Определение 2.22. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определены случайный вектор ξ = (ξi ) ∈ Rn и дискретный случайный вектор η = (ηj ) ∈ Y ⊂ Rm . Тогда, если вероятность P{η = y} > 0(y ∈ Y ), то условной функцией распределения случайного вектора ξ при условии η = y называется функция n + m действительных переменных: Fξ|η (x|y) ::= P{ξ ∈ Ax |η = y}, x ∈ Rn , y ∈ Y. 54 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ µ ¶ ξ . . . ∈ Rn+m имеет абсолютно непреη рывный закон распределения вероятностей с Zнекоторой совместной плотностью распределения вероятностей pξ, η (x, y); pη (y) = pξ,η (x, y)dx – маргинальная плотность Пусть теперь составной случайный вектор Rn распределения подвектора η. Но воспользоваться определением 2.22 не представляется возможным, так как P{η = y} = 0. Обозначим ²-кирпич: Cy (²) ::= {v = (vj ) ∈ Rm : yj ⩽ vj < yjµ+²,¶ j = 1, . . . , m} ⊂ Rm . ξ Определение 2.23. Пусть составной случайный вектор . . . ∈ Rn+m имеет абсоη лютно непрерывное распределение вероятностей с непрерывной плотностью pξ, η (x, y), x ∈ Rn , y ∈ Rm . Тогда если pη (y) > 0, то условной функцией распределения ξ при условии η = y называется функция n + m действительных переменных, определяемая соотношением Fξ, η (x|y) = lim P{ξ ∈ Ax |η ∈ Cy (²)}. (2.16) ²→0 Покажем, что в указанных условиях предел в правой части (2.16) существует и, следовательно, определение корректно. По определению условной вероятности имеем Z Z du pξ, η (u, v)dv Ax lim P{ξ ∈ Ax |η ∈ Cy (²)} = lim ²→0 ²→0 Cy (²) Z . pη (v)dv Cy (v) Применим к интегралам по v в числителе и знаменателе теорему о среднем, обозначив v 0 , v 00 ∈ Cy (²) – «промежуточные точки». С учетом этого и непрерывности pξ,η (·), pξ (·) имеем Z pξ, η (u, v 00 )du · ²m lim P{ξ ∈ Ax |η ∈ Cy (²)} = lim ²→0 Ax ²→0 Z = Ax pξ, η (u, v) du =:: pη (y) где обозначено Z pη (v 0 ) ²m pξ|η (u|y)du, = (2.17) Ax pξ, η (x, y) ⩾ 0, x ∈ Rn , y ∈ Rm . (2.18) pη (y) Проведенный анализ позволяет сделать выводы: 1) предел в (2.16) существует, и, следовательно, определение корректно; 2) из (2.17) видно: условная функция распределения Fξ|η (·) представима в виде интеграла от неотрицательной функции pξ|η (u|y) ⩾ 0 по параллелепипеду Ax , a из этого следует, что эта условная функция распределения абсолютно непрерывна; функция (2.18) является условной плотностью распределения вероятностей. Определение 2.24. Функция n + m действительных переменных pξ|η (x|y), определяемая (2.18), называется условной плотностью распределения вероятностей случайного вектора ξ при условии η = y, при этом pξ (x) – безусловная плотность распределения вероятностей. pξ|η (x|y) = 2.4. УСЛОВНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ 55 Свойства условной плотности распределения вероятностей n m C1. Неотрицательность: pξ|η Z (x|y) ⩾ 0, x ∈ R , y ∈ R . pξ|η (x|y)dx = 1, ∀y ∈ Rm . C2. Условие нормировки: Rn C3. ∀B ∈ Bn справедлива формула Z pξ|η (x|y)dx, y ∈ Rm . P{ξ ∈ B|η = y} = B C4. Если x – точка непрерывности условной плотности распределения вероятностей pξ|η (x|y), то справедливо следующее равенство: pξ|η (x|y) = ∂ n Fξ|η (x|y) , x ∈ Rn , y ∈ Rm . ∂x1 . . . ∂xn Свойства C1–C4 доказываются аналогично свойствам безусловной плотности распределения вероятностей. C5. (Симметрическая формула умножения плотностей.) Если pξ (x) > 0 и pη (y) > 0, то pξ, η (x, y) = pη (y) · pξ|η (x|y) = pξ (x) · pη|ξ (y|x). Доказательство. Эта формула следует из (2.18). C6. Формула безусловной плотности распределения вероятностей: Z pξ (x) = pξ|η (x|y)pη (y)dy. ¤ Rm Доказательство. Эту формулу можно получить из C5 и свойства маргинальной плотности распределения вероятностей. ¤ C7. (Формула Байеса для плотностей распределения вероятностей.) pη|ξ (y|x) = Z pξ|η (x|y) · pη (y) , x ∈ Rn , y ∈ Rm . pξ|η (x|v)pη (v)dv Rm Доказательство. Эту формулу можно получить из свойств C5 и C6. ¤ ¶ µ ξ1 ∈ R2 – двухмерный гауссовский случайный вектор, L{ξ} = C8. Пусть ξ= ξ2 µ ¶ µ ¶ a1 b11 b12 = N2 (a, B), где a = , B = . Тогда условное распределение веa2 b21 b22 роятностей ξ1 при условии ξ2 = x2 – тоже гауссово: L{ξ1 |ξ2 = x2 } = N1 (a1|2 , b11|2 ), a1|2 = a1 + Доказать самостоятельно. b12 b2 (x2 − a2 ); b11|2 = b11 − 12 . b22 b22 56 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 2.5. НЕЗАВИСИМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН Определение 2.25. Функция y = f (x) : Rn → RN называется борелевской функцией, если прообраз любого борелевского множества является борелевским множеством: ∀B ∈ BN f −1 (B) ∈ Bn . Определение 2.26. Случайные величины ξ1 , . . . , ξn (n ⩾ 2) называются независимыми в совокупности на вероятностном пространстве (Ω, F, P ), если для ∀B1 , . . . , Bn ∈ B1 независимы в совокупности случайные события: {ξ1 ∈ B1 }, . . . , {ξn ∈ Bn } ∈ F, так что выполняется соотношение P{ξ1 ∈ B1 , . . . , ξn ∈ Bn } = n Y P{ξi ∈ Bi }. (2.19) i=1 В противном случае величины называются зависимыми. Если вышеуказанные случайные события попарно независимы, то и случайные величины называются попарно независимыми. Свойства независимых случайных величин C1. Свойство независимости сохраняется при борелевских функциональных преобразованиях. Доказательство. Пусть ξ = (ξi ) ∈ Rn , η = (ηj ) ∈ Rm – независимы и заданы борелевские функции: y = f (x) : Rn → RN и v = g(u) : Rm → RM . Покажем, что α = f (ξ) ∈ RN и β = g(η) ∈ RM независимы. Проверим выполнение (2.19). Для любых B1 ∈ BN , B2 ∈ BM имеем в силу независимости ξ и η P{α ∈ B1 , β ∈ B2 } = P{f (ξ) ∈ B1 , g(η) ∈ B2 } = = P{ξ ∈ f −1 (B1 ), η ∈ g −1 (B2 )} = P{ξ ∈ f −1 (B1 )}× ×P{η ∈ g −1 (B2 )} = P{α ∈ B1 } × P{β ∈ B2 }. Поскольку (2.19) выполняется, то α и β независимы. ¤ C2. (Общий критерий независимости случайных величин.) Случайные величины ξ1 , . . . , ξn независимы в совокупности на вероятностном пространстве (Ω, F, P ) тогда и только тогда, когда их совместная n-мерная функция распределения совпадает с произведением n одномерных маргинальных функций распределения: Fξ1 , ... ,ξn (x1 , . . . , xn ) = Fξ1 (x1 ) · . . . · Fξn (xn ), x1 , . . . , xn ∈ R. (2.20) Доказательство. Необходимость. Пусть ξ1 , . . . , ξn независимы в совокупности, тогда выполняется соотношение (2.19): P{ξ1 ∈ B1 , . . . , ξn ∈ Bn } = P{ξ1 ∈ B1 } · . . . · P{ξn ∈ Bn }, ∀B1 , . . . , Bn ∈ B. Выберем Bi = Axi = (−∞, xi ), i = 1, . . . , n, тогда {ξi ∈ Bi } = {ξi < xi }, и левая часть (2.19) получается равной левой части (2.20), и правые их части соответственно тоже равны. Достаточность. Пусть выполняется соотношение (2.20). Тогда (2.19) вытекает из следующих двух фактов: а) соотношение (2.19) выполняется для любого базового борелевского множества; 2.5. НЕЗАВИСИМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН 57 б) ∀B ∈ B порождается множествами из базовой системы F0 применением счетного числа объединений, пересечений и дополнений. Проиллюстрируем это при Bi = [ai , bi ) = Abi \ Aai , i = 1, . . . , n. Обозначим прямоугольный параллелепипед: B = B1 × . . . × Bn . Тогда по свойствам n-мерной функции распределения вероятностей с учетом (2.20) имеем P{ξ1 ∈ B1 , . . . , ξn ∈ Bn } = P{ξ ∈ B} = = 41 . . . 4n Fξ1 , ... ,ξn (x1 , . . . , xn ) = = n Y i=1 (Fξi (bi ) − Fξi (ai )) = n Y P{ξi ∈ Bi }. i=1 ¤ C3. (Критерий независимости для абсолютно непрерывных случайных величин.) Непрерывные случайные величины ξ1 , . . . , ξn независимы в совокупности на вероятностном пространстве (Ω, F, P ) тогда и только тогда, когда их совместная n-мерная плотность распределения вероятностей равна произведению n одномерных маргинальных плотностей распределения вероятностей: pξ1 , ... ,ξn (x1 , . . . , xn ) = pξ1 (x1 ) · . . . · pξn (xn ), x1 , . . . , xn ∈ R. (2.21) Доказательство. Для доказательства этого свойства достаточно продифференцировать (2.20) n раз по x1 , . . . , xn . ¤ Следствие 2.3. Случайные величины ξ, η (вообще говоря, многомерные) независимы тогда и только тогда, когда их условная плотность совпадает с безусловной: pξ|η (x|y) = pξ (x), ∀x, y. (2.22) Доказательство. Во-первых, из соотношения (2.21) имеем pξ,η (x, y) = = pξ (x)pη (y), а во-вторых, pξ,η (x, y) = pη (y)·pξ|η (x|y). Справедлив и симметричный результат. ¤ Следствие 2.4. Пусть ξ = (ξ1 , . . . , ξn )T ∈ Rn – гауссовский (нормальный) случайный вектор, имеющий распределение L{ξ} = Nn (a, B). Тогда величины ξ1 , . . . , ξn независимы в совокупности тогда и только тогда, когда матрица B является диагональной: B = diag{b11 , . . . , bnn }. Доказательство. Достаточно проверить соотношение (2.21), используя вид гауссовской плотности. ¤ Следствие 2.5. Случайные величины ξ, η независимы тогда и только тогда, когда условная функция распределения совпадает с безусловной функцией распределения Fξ|η (x|y) = Fξ (x), ∀x, y. Доказательство. Формула получается интегрированием соотношения (2.22). ¤ Следствие 2.6 (критерий независимости ДСВ). Случайные величины ξ1 , . . . , ξn ∈ X (X – дискретное множество) независимы в совокупности на (Ω, F, P ) тогда и только тогда, когда выполняется соотношение P{ξ1 = x1 , . . . , ξn = xn } = P{ξ1 = x1 } · . . . · P{ξn = xn }, ∀x1 , . . . , xn ∈ X. 58 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 2.6. ФУНКЦИОНАЛЬНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН Пусть на вероятностном пространстве (Ω, F, P ) определен произвольный случайный n-вектор (n ⩾ 1) ξ1 ξ1 (ω) .. ∈ Rn , ξ = ... = ξ(ω) = . ξn ξn (ω) имеющий некоторую функцию распределения Fξ1 , ... ,ξn (x1 , . . . , xn ) = Fξ (x) = P{ξ ∈ Ax }, (2.23) Ax = Ax1 × . . . × Axn ; Axj = (−∞, xj ); x = (xj ) ∈ Rn , j = 1, . . . , n. Пусть также задано некоторое борелевское функциональное преобразование Rn → Rm : f1 (x) y1 (2.24) y = f (x), где y = ... ∈ Rm , f (x) = ... . fm (x) ym С помощью соотношений (2.23) и (2.24) определим новый m-мерный случайный вектор – результат функционального преобразования: η1 η = f (ξ) ∈ Rm , где η = ... ∈ Rm , ηi = fi (ξ1 , . . . , ξm ), ηm i = 1, . . . , m. (2.25) Рассмотрим задачу отыскания закона распределения L{η} по заданным f (·) и Fξ (·). Будем искать функцию распределения Fη (·). Используя (2.25), из определения получаем Fη (y) = P{η ∈ Ay } = P{f (ξ) ∈ Ay } = P{ξ ∈ f −1 (Ay )}, Ay = Ay1 × . . . × Aym , Ayi = (−∞, yi ), i = 1, . . . , m. Таким образом, справедлива общая формула Fη (y) = P{ξ ∈ f −1 (Ay )}, y = (yi ) ∈ Rm . (2.26) Отметим, что в этой формуле B = f −1 (Ay ) ∈ Bn , поэтому P{ξ ∈ B} можно выразить через Fξ (·). К сожалению, в общем виде записать это выражение невозможно. Поэтому рассмотрим наиболее важные частные случаи. Предположим, преобразование (2.25) непрерывно дифференцируемо, так что существует матрица Якоби: µ ¶ ∂fi (x1 , . . . , xn ) Jf = , i = 1, . . . , m, j = 1, . . . , n. ∂xj Кроме того, предположим, что вектор ξ имеет абсолютно непрерывное распределение вероятностей, так что существует плотность распределения вероятностей: pξ (x) = ∂ n Fξ (x) . ∂x1 . . . ∂xn 59 2.6. ФУНКЦИОНАЛЬНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН Выделим два случая. I. Пусть функциональное преобразование (2.25) – невырожденное, rank(Jf ) = m = n, функции f1 (x), . . . , fn (x) функционально независимы и |Jf | = Df (x) Df −1 (y) 6= 0, ∃ ! x = f −1 (y), 6= 0. Dx Dy (2.27) Теорема 2.6. Пусть ξ = (ξi ) ∈ Rn – случайный n-вектор с n-мерной непрерывной плотностью распределения вероятностей pξ (x), а функциональное преобразование (2.25) – непрерывно дифференцируемо, невырождено, так что выполняется (2.27). Тогда случайный n-вектор η = f (ξ) ∈ Rn также имеет абсолютно непрерывное распределение вероятностей, и его плотность распределения вероятностей вычисляется по формуле ¯ ¯ ¯ Df −1 (y) ¯ −1 ¯ ¯ , y ∈ Rn . (2.28) pη (y) = pξ (f (y)) · ¯ Dy ¯ Доказательство. Воспользуемся формулой Z (2.26) и свойством многомерной плотности распределения вероятностей: Fη (y) = pξ (x) dx. f −1 (Ay ) Сделаем замену переменных x = f −1 (z), z = f (x) в кратном интеграле: ¯ ¯ Z Z ¯ Df −1 (z) ¯ −1 ¯ ¯ dz =:: pη (z)dz. Fξ (y) = pξ (f (z)) · ¯ Dz ¯ Ay Ay Отсюда получаем: Z 1) Fη (y) = pη (z)dz, так как подынтегральная функция неотрицательна, то эта функAy ция распределения абсолютно непрерывна; 2) подынтегральная функция pη (z) – плотность этого распределения вероятностей. ¤ Следствие 2.7 (случай линейного преобразования). Пусть ξ – абсолютно непрерывная случайная величина с плотностью pξ (x), x ∈ R1 , y = a+bx – невырожденное линейное преобразование (a ∈ R, b 6= 0). Тогда случайная величина η = a + bξ ∈ R1 также является абсолютно непрерывной случайной величиной и имеет плотность распределения вероятностей µ ¶ 1 y−a pη (y) = pξ , y ∈ R. (2.29) |b| b Доказательство. Полагаем m = n = 1 и применяем (2.28). ¤ Следствие 2.8. Если в условиях следствия 2.7 ξ – гауссовская случайная величина с некоторым распределением L{ξ} = N1 (µ, D), то при линейном преобразовании гауссовость сохраняется: L{η} = N1 (a + bµ, b2 D). ¤ Доказательство. Достаточно воспользоваться (2.29). Следствие 2.9. Если функциональное преобразование таково, что обратная функция x = f −1 (y) – не единственная, т. е. если уравнение f (x) = y имеет K > 1 решений: −1 −1 x = f(1) (y), . . . , x = f(K) (y), то формула (2.28) обобщается следующим образом: ¯ ¯ K ³ ´ ¯ Df −1 (y) ¯ X ¯ (k) ¯ −1 pη (y) = pξ f(k) (y) ¯ ¯ , y ∈ Rn . ¯ Dy ¯ k=1 60 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Доказательство повторяет доказательство теоремы, только прообраз f −1 (Ay ) является суммой K прообразов. ¤ II. Пусть функциональное преобразование (2.25) – вырожденное, rank(Jf ) = = m < n. При этом f1 (x), . . . , fm (x) – независимые функции и существует n−m вспомогательных функций fm+1 (x), . . . , fn (x), которые в совокупности дают систему n функционально независимых элементов. Сведем вырожденный случай к невырожденному, рассмотренному ранее. Введем расширенное функциональное преобразование Rn → Rn . Обозначим его y = f (x), где y f (x) ... ... ... ... n y fm+1 (x) ∈ Rn . y = m+1 ∈ R , f (x) = .. .. . . yn fn (x) Тогда построим расширенный случайный вектор η = f (ξ) = (η, . . . , ηm+1 , . . . , ηn )T . Вспомогательные функции выбираем так, чтобы составное преобразование удовлетворяло условиям (2.27). Тогда по теореме 2.6 имеем ¯ ¯ ³ −1 ´ ¯ Df −1 (y) ¯ ¯ ¯ pη (y) = pξ f (y) · ¯ (2.30) ¯ , y ∈ Rn . ¯ Dy ¯ Плотность распределения вероятностей подвектора η получим, используя свойство маргинальной плотности распределения вероятностей. Для этого проинтегрируем плотность (2.30) по всем вспомогательным переменным: +∞ Z pη (y) = +∞ Z pη (y) dym+1 . . . dyn , y ∈ Rm . ... −∞ (2.31) −∞ Замечание 2.7. В выборе вспомогательных функций fm+1 (x), . . . , fn (x) имеется произвол. Им следует пользоваться в целях упрощения процесса решения задачи. Теорема 2.7 (формула свертки). Пусть ξ1 , ξ2 ∈ R1 – независимые случайные величины, имеющие плотности распределения вероятностей pξ1 (x1 ), pξ2 (x2 ). Тогда плотность распределения вероятностей суммы η = ξ1 + ξ2 определяется по формуле свертки +∞ Z pη (y) = pξ1 (y − z)pξ2 (z) dz =:: pξ1 ∗ pξ2 = pξ2 ∗ pξ1 . −∞ Доказательство. Имеем вырожденное преобразование (т. е. случай II), в котором n = 2, m = 1. Построим расширенное функциональное преобразование: y1 = = f1 (x1 , x2 ) = x1 + x2 , y2 = f2 (x1 , x2 ) = x2 . Используя формулы (2.30), (2.31) и учитывая независимость, получаем доказываемое. ¤ Следствие 2.10. Если в условии теоремы суммируются гауссовские случайные величины, т. е. L{ξi } = N (ai , bi ), i = 1, 2, то сумма – тоже гауссовская случайная величина: L{η} = N (a1 + a2 , b1 + b2 ). 2.7. УПРАЖНЕНИЯ 61 2.7. УПРАЖНЕНИЯ 1. Пусть случайная величина ξ имеет функцию распределения F (x), x ∈ R, a, b ∈ R – константы. Найти функцию распределения линейно преобразованной случайной величины η = a + bξ. 2. Показать, что если F (·), G(·) – некоторые функции распределения и 0 ≤ λ ≤ 1, то смесь H1 = λF + (1 − λ)G тоже является функцией распределения. Будут ли H2 = F G, H3 = F λ G1−λ функциями распределения? 3. Пусть F (·) – некоторая функция распределения, а n ∈ N – натуральное число. Показать, что функциями распределения являются следующие функции: H1 (x) = F n (x); H2 (x) = 1 − (1 − F (x))n ; H3 (x) = F (x) + (1 − F (x)) log (1 − F (x)); H4 (x) = (F (x) − 1)e + e1−F (x) . 4. Выразить функции распределения каждой из следующих случайных величин: −ξ, ξ+ = max{0, ξ}, ξ− = − min{0, ξ}, |ξ| = ξ+ + ξ− , через функцию распределения F (x) случайной величины ξ. 5. Числовая функция d : S × S → R называется метрикой на S, если: a) d(s, t) = d(t, s) ≥ 0, ∀s, t ∈ S; б) d(s, t) = 0 ↔ s = t; в) d(s, t) ≤ d(s, u) + d(u, t), ∀s, t, u ∈ S. Если F (·), G(·) – функции распределения, то метрикой Леви называется числовая функция dL (F, G) = inf{² > 0 : G(x − ²) − ² ≤ F (x) ≤ ≤ G(x + ²) + ², x ∈ R}. Показать, что для dL (·) выполняются свойства а)–в) и, следовательно, dL (·) является метрикой в пространстве S = {F } всевозможных функций распределения. 6. (Продолжение предыдущего примера.) Пусть X, Y ∈ Z – целочисленные случайные величины: X dT V (X, Y ) = |P{X = k} − P{Y = k}|. k∈Z Показать, что dT V (·) удовлетворяет свойствам а), в) метрики и что dT V (X, Y ) = 0 ↔ P{X = Y } = 1. Таким образом, dT V (·) – метрика на пространстве классов эквивалентности случайных величин S с отношением эквивалентности X ∼ Y ↔ P{X = Y } = 1. Метрика dT V (·) называется расстоянием полной вариации. Показать, что dT V (X, Y ) = 2 sup |P {X ∈ A} − P{Y ∈ A}|. A⊆Z 7. Пусть X, Y ∈ N – независимые, одинаково распределенные случайные величины со значениями на множестве натуральных чисел с распределением вероятностей P{X = x} = 2−x , x ∈ N. 62 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Вычислить: а) P{min(X, Y ) < z}, z ∈ N; б) P{Y > X}; в) P{Y = x}; г) P{X > kY }, где k ∈ N – константа; д) P{X − делитель Y }; e) P{X = rY }, где r ∈ Q – заданная рациональная константа. 8. Пусть ξ – случайная величина с геометрическим распределением вероятностей L{ξ} = G(p). Показать, что P{ξ = n + k|ξ > n} = P{ξ = k}, k, n ≥ 1. Почему это свойство называют свойством отсутствия памяти? Существуют ли другие дискретные распределения вероятностей с этим свойством? 9. Пусть ξ, η – независимые случайные величины с биномиальным распределением вероятностей: L{ξ} = Bi(M, p), L{η} = Bi(N, p). Показать, что L{ξ + η} = = Bi(M + N, p). 10. Пусть X ≥ 0 – некоторая положительная случайная величина с функцией распределения F (x) и плотностью распределения вероятностей f (x) = F 0 (x). Функция H(x) = − log(1 − F (x)) называется функцией риска (hazard function), а r(x) = lim ∆→0+ P{x ≤ X < x + ∆|X ≥ x} , ∆ x ≥ 0, называется функцией интенсивности (отказа) (hazard rate). Дать содержательную интерпретацию этих функций для случая, когда X – длительность бессбойного функционирования некоторой системы, имеющая экспоненциальное распределение вероятностей L{X} = E{λ}. Показать: а) r(x) = H 0 (x) = f (x)/(1 − F (x)); б) если r(·) – монотонно возрастающая, то и H(x)/x – монотонно возрастающая; в) H(x)/x – монотонно возрастающая ⇔ (1−F (x))α ≤ 1−F (αx)∀x ≥ 0, 0 ≤ α ≤ 1; г) если H(x) – монотонно возрастающая, то H(x + y) ≥ H(x) + H(y)∀x, y ⩾ 0. 11. Пусть ξ1 , ξ2 – независимые, одинаково распределенные случайные величины с функцией распределения F (x) и плотностью распределения f (x) = F 0 (x). Показать, что ξ+ = max(ξ1 , ξ2 ) имеет функцию распределения F+ (x) = F 2 (x) и плотность распределения вероятностей f+ (x) = 2F (x)f (x). Найти плотность распределения вероятностей для ξ− = min(ξ1 , ξ2 ). 12. Пусть L{ξ} = R[0, 1]. Для какой функции g(·) случайная величина η = g(ξ) имеет стандартное экспоненциальное распределение: L{η} = E(1)? 13. Пусть L{ξ} = N (0, 1), η = eξ . Найти плотность распределения вероятностей для η. Этот закон распределения вероятностей называется логнормальным. 14. Показать, что стандартная нормальная плотность распределения вероятностей φ(x) удовлетворяет дифференциальному уравнению: φ0 (x)+xφ(x) = 0. Отсюда показать, что для отношения Миллса ψ(x) = (1 − Φ(x))/φ(x) справедливы неравенства: x−1 − x−3 < ψ(x) < x−1 − x−3 + 3x−5 , x > 0, 2.7. УПРАЖНЕНИЯ 63 порождающие аппроксимации при x → ∞: µ ¶ µ µ ¶¶ 1 1 1 1 1 1 ψ(x) = − 3 + O , Φ(−x) = φ(x) − + O . 5 3 x x x x x x5 15. Пусть ξ1 , ξ2 – независимые случайные величины, а случайная величина η ∈ ∈ {−1, +1} – некоторая СВ Бернулли. Показать, что случайные величины ζ1 = ηξ1 , ζ2 = ηξ2 , вообще говоря, зависимы, а ζ21 , ζ22 независимы. 16. Пусть ξ1 , ξ2 – независимые, одинаково распределенные случайные величины, L{ξ1 } = E(1). Найти плотность распределения вероятностей для η1 = ξ1 + ξ2 и для η2 = ξ1 /η1 . Показать, что L{η2 } = R[0, 1]. 17. Пусть ξ имеет распределение Коши. Показать, что η = 1/ξ также подчиняется закону распределения Коши. Найти другое нетривиальное распределение с этим свойством инвариантности. 18. Пусть ξ1 , . . . , ξn – независимые в совокупности случайные величины со стандартным равномерным распределением: L{ξi } = R[0, 1], i = 1, . . . , n. Вычислить плотность распределения вероятностей суммы η = ξ1 + . . . + ξn , n = 2, 3, 4, 5, . . . . 19. Пусть ξ1 , . . . , ξn – независимые, одинаково распределенные случайные величины, L{ξ1 } = R[0, 1]. Показать, что плотность распределения вероятностей для случайной величины η = ξ1 + . . . + ξn в любой точке x ∈ (0, n) является полиномом степени n − 1 относительно x. 20. Шесть координат (Xi , Yi ), i = 1, 2, 3 трех точек A1 , A2 , A3 на плоскости независимы и одинаково распределены по закону N (0, 1). Показать, что вероятность того, что точка A3 лежит внутри круга с диаметром A1 A2 , равна 1/4. 21. Пусть ξ1 , ξ2 – независимые, одинаково распределенные случайные величины Бернулли, L{ξ1 } = Bi(1, 1/2). Доказать, что ξ1 + ξ2 и |ξ2 − ξ1 | зависимы, хотя и некоррелированы. 22. Показать, что если ξ имеет геометрическое распределение, т. е. P(ξ = k) = P q k , k = = 0, 1, 2, . . . , то для любых k и n P{ξ − k = n|ξ ≥ k} = P{ξ = n}. 23. Случайные величины ξ1 и ξ2 независимы и имеют геометрическое распределение. Доказать, что P{ξ1 = k|ξ1 + ξ2 = n} = 1 , k = 0, 1, . . . , n. n+1 24. Случайные величины ξ1 и ξ2 независимы и имеют распределение Пуассона соответственно с параметрами λ1 , λ2 . Показать, что P{ξ1 = k|ξ1 +ξ2 = n} = Cnk pk q n−k , k = = 0, . . . , n, где p = λ1 /(λ1 + λ2 ) = 1 − q. 25. Пусть v – случайная величина, распределенная по геометрическому закону. Найти производящие функции случайных величин V+ = max(N, v), где N – целое неотрицательное число. V− = min(N, v), 64 ГЛАВА 2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 26. Случайные величины ξ1 и ξ2 независимы и имеют экспоненциальное распределение с параметром λ, т. е. P{ξi < x} = 1 − e−λx для x > 0. Показать, что: 1) случайная величина ξ1 /(ξ1 + ξ2 ) равномерно распределена на [0, 1]; 2) случайные величины ξ1 /(ξ1 + ξ2 ), ξ1 + ξ2 независимы. 27. Случайные величины ξ1 и ξ2 независимы и каждая имеет нормальное распределение N (0, 1). Показать, что случайная величина η = 1/2(ξ21 + ξ22 ) имеет экспоненциальное распределение с параметром λ = 1, т. е. P{η < x}) = 1 − e−x . 28. Случайные величины ξ1 и ξ2 независимы и имеют нормальное распределение. Показать, что случайные величины ξ + η и ξ − η независимы. 29. Случайные величины ξ1 и ξ2 независимы и равномерно распределены на √ [0, 1]. Показать, что случайные величины η1 = ρ cos φ и η2 = ρ sin φ, где ρ = −2 ln ξ1 , φ = 2πξ2 , независимы и имеют нормальное распределение N (0, 1). 30. Случайные величины ξ1 и ξ2 независимы и имеют соответственно нормальные распределения N (0, σ21 ) и N (0, σ22 ). Показать, что случайная величина ξ = p 2 2 = ξ1 ξ2 / ξ1 +ξ2 имеет нормальное распределение N (0, σ2 ), где 1/σ2 = 1/σ21 + 1/σ22 . 31. Случайные величины ξ1 , ξ2 , . . . , ξn независимы и имеют показательное распределение с параметром λ. Доказать, что случайные величины max(ξ1 , ξ2 , . . . , ξn ) и ξ1 + ξ2 /2 + ξ3 /3 + . . . + ξn /n одинаково распределены. 32. Случайные величины ξ и η независимы. Доказать, что если функция распределения случайной величины ξ непрерывна, то функция распределения ξ + η тоже непрерывна. 33. (Контрпример Й. М. Стоянова.) Пусть ξ1 , ξ2 – независимые, одинаково распределенные случайные величины со стандартным гауссовским распределением вероятностей N1 (0, 1). Определим случайный вектор в R2 : µ ¶ µ ¶ x1 ξ1 X= = . x2 |ξ2 | sign(ξ1 ) Показать, что одномерные маргинальные распределения x1 , x2 есть N1 (0, 1), но двухмерное распределение X не гауссовское. Глава 3 ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН 3.1. СХЕМА ПОСТРОЕНИЯ ИНТЕГРАЛА ЛЕБЕГА ПО ВЕРОЯТНОСТНОЙ МЕРЕ. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ ПРОСТОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И ЕГО СВОЙСТВА Пусть на произвольном вероятностном пространстве (Ω, F, P ) определена произвольная случайная величина ξ = ξ(ω), ω ∈ Ω, ξ ∈ R. Часто приходится усреднять случайные величины, математически это сводится к интегрированию по ω. Интеграл Римана в общем случае неприменим по следующим двум причинам: 1) Ω – пространство элементарных событий – это некоторое абстрактное множество, где может быть не задана метрика; 2) функция ξ(ω) может иметь счетное множество разрывов, и, по Риману, трудно строить интеграл от такой функции. В 1902 г. французский математик А. Лебег предложил новую конструкцию интеграла: Z E{ξ} = ξ(ω)P(dω) − Ω интеграл Лебега от случайной величины ξ(ω) по вероятностной мере P; при этом значение E{ξ} ∈ R этого интеграла называется математическим ожиданием (средним значением) СВ ξ. Построим интеграл Лебега в соответствии со следующей схемой: «от простого – к сложному» (рис. 3.1). Сначала построим интеграл от любой дискретной случайной величины с конечным множеством значений, затем с помощью предельного перехода построим интеграл от любой неотрицательной случайной величины. Рассматривая любую случайную величину как разность двух неотрицательных величин, построим интеграл Лебегаот любой случайной величины. Определение 3.1. Дискретная случайная величина ξ ∈ {a1 , . . . , aN } с конечным множеством значений (N < ∞) называется простой случайной величиной. Определение 3.2. Индикатором случайного события A ∈ F называется двоичная случайная величина ½ 1, ω ∈ A, 11A (ω) = (3.1) 0, ω ∈ / A. Укажем свойства индикатора, легко доказываемые на основе формулы (3.1). C1. Если обозначить p = P(A), то 11A – изученная ранее случайная величина Бернулли с распределением вероятностей Bi(1, p). C2. 11Ω (ω) ≡ 1. N X C3. Если события A1 , . . . , AN ∈F попарно несовместны, то 11 S 11Ai (ω), ω ∈ Ω. (ω)= N C4. 11A · 11B = 11A∩B . i=1 Ai i=1 66 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Рис. 3.1. Схема построения интеграла Лебега Теорема 3.1. Случайная величина ξ = ξ(ω) является простой случайной величиной тогда и только тогда, когда она представима в виде конечной линейной комбинации M < ∞ индикаторов: M X ξ(ω) = bj 11B (ω), (3.2) i=1 где B1 , . . . , BM ∈ F – попарно несовместные события; b1 , . . . , bM – действительные числа, не обязательно различные. Доказательство. Необходимость. Пусть ξ ∈ {a1 , . . . , aN } – простая случайная величина, Aj = {ξ = aj } ∈ F, j = 1, . . . , N. Тогда, сравнивая значения левой и правой частей, устанавливаем справедливость равенства: ξ(ω) = M X aj 11A (ω), ω ∈ Ω. (3.3) i=1 Это представление и имеет вид (3.2). Достаточность. Пусть случайная величина ξ имеет представление (3.2). В силу (3.1) это означает, что ξ может принимать лишь значения из конечного множества {0, b1 , . . . , bM }. По определению 3.1 это означает, что ξ – простая случайная величина. ¤ Определение 3.3. Математическим ожиданием простой случайной величины ξ ∈ {a1 , . . . , aN }, N < ∞, имеющей дискретное распределение вероятностей pi = = P{ξ = ai }, i = 1, . . . , N, называется число E{ξ} = Eξ = N X ai pi = N X ai P{ξ = ai }. (3.4) i=1 i=1 Иначе говоря, интегралом Лебега по вероятностной мере P(·) от дискретной случайной величины, допускающей представление (3.3), называется величина (3.4). Покажем, что данное определение корректно, т. е. не зависит от способа представления простой случайной величины в виде (3.2). Теорема 3.2. Если наряду с (3.3) случайная величина ξ представима в виде (3.2), то M X bj P(Bj ). (3.5) E{ξ} = j=1 67 3.1. СХЕМА ПОСТРОЕНИЯ ИНТЕГРАЛА ЛЕБЕГА Доказательство. В силу «основного» представления (3.3) a1 , . . . , aN – различные числа из набора чисел {b1 , . . . , bM }, M ⩾ N. Поэтому имеем цепочку равенств случайной величины, начиная с (3.2): ξ= M X bj 11Bj = j=1 N X X ai i=1 11Bj = N X ai 11 j:bj =ai i=1 j:bj =ai S Bj = N X ai 11Ai . i=1 Здесь учтено, что события {A1 , . . . , AN } попарно несовместны, события {B1 , . . . , BM } попарно несовместны, а также учтены свойство C3 индикаторов, соотношение (3.3) и равенство событий [ Ai = {ξ = ai } = Bj , i = 1, . . . , N. (3.6) j:bj =ai Используя (3.4) и (3.6), по свойству вероятности имеем N N X X [ E{ξ} = ai P(Ai ) = ai P Bj = i=1 = N X i=1 ≡ ai X i=1 N X j:bj =ai X P(Bj ) = j:bj =ai N X X ai P(Bj ) ≡ i=1 j:bj =ai M X bj P(Bj ) ≡ i=1 j:bj =ai bj P(Bj ), j=1 ¤ что совпадает с соотношением (3.5). Свойства математического ожидания простых случайных величин C1. Математическое ожидание константы c есть сама эта константа: E{c} = c. Доказательство. Константа c есть СВ, которая принимает одно значение a1 =c (N = 1) с вероятностью p1 = 1. ¤ C2. Если ξ ⩾ 0, то E{ξ} ⩾ 0. Доказательство. Если ξ ⩾ 0, то a1 , . . . , aN ⩾ 0. Поэтому сумма (3.4) этих значеN X ний также неотрицательна: E{ξ} = ai pi ⩾ 0. ¤ i=1 C3. Если ξ = 11A , где A ∈ F, то E{ξ} = P(A). ¤ Доказательство. Применим (3.4) при N = 2, a1 = 0, a2 = 1. C4. Постоянный множитель c можно выносить из-под знака математического ожидания: E{cξ} = cE{ξ}. N X (cai )11Ai . Отсюда по теореме 3.2 с учетом Доказательство. В силу (3.3) cξ = i=1 (3.4) имеем E{cξ} = N N X X (cai )P(Ai ) = c ai P(Ai ) = cE{ξ}. i=1 i=1 ¤ C5. (Свойство аддитивности.) Для любых простых случайных величин ξ и η случайная величина ζ = ξ + η также является простой случайной величиной и E{ξ + η} = E{ξ} + E{η}. (3.7) 68 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Доказательство. Пусть {a1 , . . . , aN }, {b1 , . . . , bM } – множества значений соответственно случайных величин ξ и η; Ai = {ξ = ai }, Bj = {η = bj } – случайные события, которые (без потери общности) образуют две полные системы случайных событий {A1 , . . . , AN } ⊂ F, {B1 , . . . , BN } ⊂ F: N [ Ai = i=1 M [ Ai ∩ Ai0 = ∅, i 6= i0 ; Bj = Ω; Bj ∩ Bj 0 = ∅, j 6= j 0 . j=1 В силу теоремы 3.1 справедливы представления: ξ= N X ai 11Ai , η= i=1 M X bj 11Bj . (3.8) j=1 В силу свойств индикатора, попарной независимости и попарной несовместности {Bj } имеем M X 11Ai ≡ 11Ai ∩Ω ≡ 11 M = 11Ai ∩Bj . (3.9) S (Ai ∩Bj ) j=1 Аналогично 11Bj = N X j=1 11Ai ∩Bj . (3.10) i=1 Подставляя (3.9), (3.10) в (3.8), получаем ξ+η = N X i=1 ai M X 11Ai ∩Bj + j=1 M X bj j=1 N X 11Ai ∩Bj = i=1 N X M X (ai +bj )11Ai ∩Bj . i=1 j=1 Отсюда, согласно теореме 3.1, следует, что ξ + η – простая случайная величина. Применяя теорему 3.2 к (3.11), приходим к (3.7): X X X E{ξ + η} = (ai + bj )P(Ai ∩ Bj ) = ai P(Ai ∩ Bj ) + bj P{Ai ∩ Bj } = i,j i,j i,j X X X X X X = ai P(Ai ∩ Bj ) + bj P(Ai ∩ Bj ) = ai P(Ai ) + bj P(Bj ) = i j j i i j = E{ξ} + E{η}. ¤ C6. Если ξ ⩽ η, то E{ξ} ⩽ E{η}. Доказательство. Рассмотрим СВ ζ = η − ξ. По условию ζ ⩾ 0, поэтому в силу C2, C4, C5 имеем 0 ⩽ E{ζ} = E{η + (−ξ)} = E{η} + E{−ξ} = E{η} − E{ξ}. ¤ C7. |E{ξ}| ⩽ E{|ξ|}. Доказательство. Согласно (3.3) |ξ| = N X i=1 |ai |11Ai , 69 3.1. СХЕМА ПОСТРОЕНИЯ ИНТЕГРАЛА ЛЕБЕГА поэтому в силу (3.4) и теоремы 3.2 ¯ ¯ N N ¯X ¯ X ¯ ¯ |E{ξ}| = ¯ ai P(Ai )¯ ⩽ |ai |P(Ai ) = E{|ξ|}. ¯ ¯ i=1 i=1 ¤ C8. Если простые случайные величины ξ, η независимы, то случайная величина ξ · η – также простая случайная величина, причем E{ξη} = E{ξ}E{η}. Доказательство. Как и при доказательстве C5, воспользуемся представлением (3.19) для простых случайных величин ξ, η. Тогда по свойству C4 индикатора имеем ξη = N X M X ai bj 11Ai 11Bj = X ai bj 11Ai ∩Bj . i,j i=1 j=1 Отсюда по теореме 3.1 заключаем, что ξη – простая СВ. Тогда по теореме 3.2 и определениям независимости имеем X X E{ξη} = ai bj P(Ai ∩ Bj ) = ai bj P{ξ = ai , η = bj } = i,j i,j X = ai bj P{ξ = ai }P{η = bj } = i,j = N X ai P{ξ = ai } i=1 M X bj P{η = bj } = E{ξ}E{η}. j=1 ¤ В заключение выясним содержательный смысл математического ожидания (3.4). Рассмотрим случайный эксперимент (Ω, F, P ), на множестве результатов которого определена простая случайная величина ξ с множеством N различных значений {a1 , . . . , aN } и распределением вероятностей pi = P{ξ = ai }, i = 1, . . . , N . Проводится серия n независимых экспериментов такого вида. Пусть ωj ∈ Ω – исход j-го эксперимента, а xj = ξ(ωj ) – зарегистрированное в j-м эксперименте значение случайной величины ξ. Вычислим среднее (арифметическое) значение случайной величины ξ в n экспериn X ментах: x = xj /n. Поскольку xj ∈ {a1 , . . . , aN }, то j=1 n X j=1 n N X xj = ai ni i=1 n = N X ai i=1 ni , n где ni – количество значений, равных ai , среди x1 , . . . , xn à N X i=1 ! ni = n . В силу статистической устойчивости частот относительная частота наступления события {ξ = ai } сходится к его вероятности: ni → P{ξ = ai } = pi . n 70 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Поэтому в силу формулы (3.4) n X xj j=1 n → N X ai pi = E{ξ}. i=1 Таким образом, математическое ожидание E{ξ} характеризует среднее значение случайной величины ξ в бесконечной серии независимых экспериментов. Поэтому иногда математическое ожидание называют средним значением. Кроме того, x можно рассматривать как ожидаемое (прогнозируемое) значение ξ в (n + 1)-м эксперименте. Отсюда и происходит термин «математическое ожидание» (ожидаемое значение, вычисленное математически). Замечание 3.1. Символ E в выражении E{ξ} происходит от англ. «expectation», что значит «оператор усреднения». Замечание 3.2. В некоторых учебных пособиях пользуются обозначением: M{ξ} = = E{ξ}, где символ M происходит от англ. «mean» – «среднее». 3.2. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ (ИНТЕГРАЛ ЛЕБЕГА) ДЛЯ ПРОИЗВОЛЬНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН Лемма 3.1. Для любой неотрицательной случайной величины ξ = ξ(ω), определенной на вероятностном пространстве (Ω, F, P ), существует аппроксимирующая неубывающая последовательность ξk = ξk (ω) простых случайных величин на (Ω, F, P ), сходящаяся к ξ = ξ(ω): ξn (ω) ↑ ξ(ω), n → ∞, ω ∈ Ω. (3.11) Доказательство. (Конструктивное.) Укажем способ построения аппроксимирующей последовательности ξn . Для n = 1, 2, . . . определим случайные события: ½ ¾ j−1 j (n) Aj = ω : n ⩽ ξ(ω) < n , j = 1, 2, . . . , n2n ; 2 2 (n) B = {ω : ξ(ω) ⩾ n} и случайную величину n ξn = ξn (ω) = n2 X j−1 j=1 2n 11 (n) (ω) + n11B (n) (ω). Aj (3.12) Из формулы (3.12) вытекают следующие свойства случайной величины {ξn }: 1) ∀n ∈ N ξn – простая случайная величина: ¾ ½ n2n − 1 1 ,n ; ξn ∈ 0, n , . . . , 2 2n 2) ∀ω ∈ Ω, n ∈ N ξn (ω) ⩽ ξn+1 (ω) ⩽ ξ(ω); 3) ∀ ∈ Ω такого, что 0 ⩽ ξ(ω) ⩽ n, ошибка аппроксимации |ξ(ω) − ξn (ω)| ⩽ 2−n . ¤ Из этих свойств следует сходимость (3.11). Заметим, что согласно (3.12) и свойству C6 (п. 3.1) числовая последовательность E{ξn } неубывающая, и, следовательно, при n → ∞ имеет предел, конечный или бесконечный. 71 3.2. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ Определение 3.4. Математическим ожиданием, или интегралом Лебега, по вероятностной мере P(·) называется конечный или бесконечный предел: Z Z E{ξ} = ξ(ω)P(dω) = lim E{ξn } = lim ξn (ω)P(dω), (3.13) n→∞ n→∞ Ω Ω где аппроксимирующая последовательность случайных величин ξn определяется (3.12). Замечание 3.3. Если подставить (3.12) в (3.13), то получим à n2n ! ¾ Z X j − 1 ½j − 1 j E{ξ} = ξ(ω)P(dω) = lim P ⩽ ξ < n + nP{ξ ⩾ n} . n→∞ 2n 2n 2 j=1 Ω Таким образом, интеграл Лебега, как и интеграл Римана, есть последовательность интегральных сумм. Однако принципы построения интегральных сумм совершенно различны: в интегральных суммах Римана «измельчается» область Ω определения функции ξ = ξ(ω), а в интегральных суммах Лебега «измельчается» область значений [0, ∞) этой функции. Покажем, что определение 3.4 корректно, т. е. предел (3.13) не зависит от способа построения аппроксимирующей последовательности ξn . Покажем, что если существует некоторая другая последовательность ηn (ω) ↑ ξ(ω), ω ∈ Ω, n → ∞, то lim E{ηn } = n→∞ = E{ξ}. Лемма 3.2. Пусть {ξn } и η – простые неотрицательные случайные величины, причем ξn ↑ ξ ⩾ η, (3.14) тогда lim E{ξn } ⩾ E{η}. n→∞ (3.15) Доказательство. Для произвольного ² > 0 построим вспомогательную последовательность случайных событий An = {ω : ξn ⩾ η − ²} ∈ F, n = 1, 2, . . . . По построению согласно (3.14) имеем An ↑ Ω, ξn = ξn 11An + ξn 11An ⩾ ξn 11An ⩾ (η − ²)11An . Поэтому, используя свойства математического ожидания от простых случайных величин (п. 3.1), находим E{ξn } ⩾ E{(η − ²)11An } = E{η11An } − ²P(An ) ≡ E{η(1 − 11An )} − − ²P(An ) = E{η} − E{η11An } − ²P(An ) ⩾ E{η} − c · P(An ) − ² · 1, (3.16) где c = max η(ω) < ∞. ω∈Ω Устремляя n → ∞ и учитывая P(An ) → 1, P(An ) → 0, получим lim E{ξn } ⩾ E{η} − ². n→∞ Отсюда в силу произвольности ² > 0 заключаем справедливость (3.15). ¤ 72 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Теорема 3.3. Пусть определены две различные аппроксимирующие последовательности простых неотрицательных случайных величин ξn = ξn (ω), n ∈ N, и ηm = = ηm (ω), m ∈ N, монотонно сходящиеся к ξ = ξ(ω) снизу: ξn ↑ ξ, ηm ↑ ξ. Тогда совпадают пределы математических ожиданий для этих последовательностей: lim E{ξn } = lim E{ηm }. n→∞ (3.17) m→∞ Доказательство. Поскольку ∀m ∈ N ξ ⩾ ηm , то ξn ↑ ξ ⩾ ηm , и в силу леммы 3.2 имеем lim E{ξn } ⩾ E{ηm } ⇒ lim E{ξn } ⩾ lim E{ηm }. n→∞ n→∞ m→∞ Аналогично, используя, что ∀n ∈ N ηm ↑ ξ ⩾ ξn , имеем lim E{ηm } ⩾ E{ξn } ⇒ lim E{ηm } ⩾ lim E{ξn }. m→∞ m→∞ n→∞ Из этих двух предельных соотношений следует (3.17). ¤ Следствие 3.1. Определение математического ожидания (3.13) для неотрицательной случайной величины ξ корректно. Замечание 3.4. Справедливо следующее эквивалентное представление математического ожидания неотрицательной случайной величины ξ ⩾ 0: E{ξ} = sup E{s}, {s∈S:s≤ξ} где S = {s} – множество простых неотрицательных случайных величин. Итак, для неотрицательных случайных величин математическое ожидание определено. Перейдем теперь к общему случаю произвольной случайной величины. Определение 3.5. Положительной срезкой случайной величины ξ = ξ(ω) : Ω → R называется неотрицательная случайная величина ξ+ = ξ+ (ω) ⩾ 0 : ( ξ(ω), ξ(ω) > 0, + ξ (ω) = max(0, ξ(ω)) = ω ∈ Ω. (3.18) 0, ξ(ω) ⩽ 0, Отрицательная срезка ξ− = ξ− (ω) ⩾ 0 определяется аналогично: ( −ξ(ω), ξ(ω) < 0, ξ− (ω) = − min(0, ξ(ω)) = max(0, −ξ(ω)) = 0, ξ(ω) ⩾ 0, ω ∈ Ω. (3.19) Отметим, что согласно (3.18) и (3.19) ξ− ≡ (−ξ)+ . Лемма 3.3. Любая случайная величина ξ = ξ(ω) представима в виде разности двух неотрицательных случайных величин (3.18) и (3.19): при этом ξ(ω) = ξ+ (ω) − ξ− (ω), ω ∈ Ω, (3.20) |ξ(ω)| = ξ+ (ω) + ξ− (ω), ω ∈ Ω. (3.21) Доказательство. Соотношения (3.20), (3.21) вытекают из (3.18), (3.19) очевидным образом. ¤ 73 3.2. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ Определение 3.6. Математическим ожиданием произвольной случайной величины ξ, допускающей, согласно лемме 3.3, представление в виде разности двух неотрицательных случайных величин (3.20), называется число E{ξ} = E{ξ+ } − E{ξ− }, (3.22) если E{ξ+ } < +∞, E{ξ− } < +∞. Если же E{ξ+ } = +∞, E{ξ− } < +∞, то полагают E{ξ} = +∞; если E{ξ+ } < +∞, E{ξ− } = +∞, то полагают E{ξ} = −∞; если же E{ξ+ } = +∞, E{ξ− } = +∞, то говорят, что математическое ожидание случайной величины ξ не существует. Замечание 3.5. Говорят, что математическое ожидание E{ξ} существует или определено, если min(E{ξ+ }, E{ξ− }) < ∞. Замечание 3.6. Говорят, что математическое ожидание E{ξ} конечно, если max(E{ξ+ }, E{ξ− }) < ∞ : |E{ξ}| < ∞ ⇔ E{|ξ|} < ∞. Определение 3.7. Определенное согласно (3.22) математическое ожидание случайной величины ξ называется интегралом Лебега от функции ξ = ξ(ω) по вероятностной мере P(·) и обозначается Z Z Z E{ξ} = ξ(ω)P(dω) = ξ dP = ξ dP. Ω Ω Z Определение 3.8. Символом случайной величины ξ11A : ξ dP, где A ∈ F, обозначается интеграл Лебега от A Z Z ξ dP = A ξ11A dP. Ω Z В заключение отметим, что интеграл Лебега ξ dP аналогично строится и в случае, Ω когда мера P(·) не обязательно нормирована, т. е. P(Ω) 6= 1, P(Ω) < ∞. В том случае, когда мера P(·) является σ-конечной, т. е. когда P(Ω) = +∞ и существует счетная система подмножеств Ω1 , Ω2 , . . . ⊂ Ω, для которой ∞ [ Ωi = Ω, Ωi ∩ Ωj = ∅, i 6= j, P(Ωi ) < ∞, i=1 под интегралом Лебега понимается предел Z Z n Z X ξ dP = lim ξ dP = lim ξ dP. n→∞ Ω n→∞ n S i=1 Ωi i=1 Ω i 74 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН 3.3. СВОЙСТВА МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ (ИНТЕГРАЛА ЛЕБЕГА) Свойства, которые сейчас будут рассмотрены, относятся к произвольной случайной величине; они обобщают свойства математического ожидания простых случайных величин, рассмотренных ранее. В нижеприведенных свойствах C1–C6 условимся обозначать: ξn , ηn , n ∈ N – простые неотрицательные СВ; ξ, η – случайные величины, для которых существуют математические ожидания. C1. Если ξ ⩾ 0, то E{ξ} ⩾ 0. Доказательство. Пусть ξn ↑ ξ. Тогда E{ξn } ⩾ 0 и E{ξ} = lim E{ξn } ⩾ 0. n→∞ п. н. ¤ Отметим, что условие этого свойства можно ослабить: ξ ⩾ 0. C2. Если c = const, то E{cξ} = cE{ξ}. Доказательство. Выделяются три ситуации. а) Если c ⩾ 0, ξ ⩾ 0 и ξn ↑ ξ, то cξn ↑ cξ и поэтому имеем E{cξ} = lim E{cξn } = c lim E{ξn } = cE{ξ}. n→∞ n→∞ б) Если c ⩾ 0, а ξ – произвольная случайная величина, то по доказанному в пункте a) E{cξ} = E{(cξ)+ } − E{(cξ)− } = E{cξ+ } − E{cξ− } = = cE{ξ+ } − cE{ξ− } = c(E{ξ+ } − E{ξ− }) = cE{ξ}. в) Если c < 0, а ξ – произвольная случайная величина, то по свойствам срезок ξ± и по доказанному в пункте a) E{cξ} = E{(cξ)+ } − E{(cξ)− } = E{−cξ− } − E{−cξ+ } = = −cE{ξ− } + cE{ξ+ } = c(E{ξ+ } − E{ξ− }) = cE{ξ}. ¤ C3. (Аддитивность.) Если ξ ⩾ 0, η ⩾ 0, то E{ξ + η} = E{ξ} + E{η}, полагая при этом, что ∞ + const = ∞, ∞ + ∞ = ∞. Доказательство. Поскольку ξ ⩾ 0, η ⩾ 0 и существуют аппроксимирующие последовательности неотрицательных простых случайных величин ξn ↑ ξ, ηn ↑ η, то ξn + ηn ↑ ξ + η. Отсюда по определению математического ожидания и свойству аддитивности из п. 3.1 имеем E{ξ + η} = lim E{ξn + ηn } = lim (E{ξn } + E{ηn }) = n→∞ n→∞ = E{ξ} + E{η}. C4. (Аддитивность.) Если ξ, η имеют конечные математические ожидания, то E{ξ + η} = E{ξ} + E{η}. ¤ (3.23) Доказательство. Определим вспомогательные неотрицательные случайные величины: ζ = ξ+ + η+ − (ξ + η)+ ⩾ 0, ζ0 = ξ− + η− − (ξ + η)− ⩾ 0. (3.24) 3.3. СВОЙСТВА МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 75 Используя (3.24), находим ξ + η = (ξ + η)+ − (ξ + η)− = ξ+ + η+ − ζ − (ξ− + η− − ζ0 ) = = (ξ+ − ξ− ) + (η+ − η− ) + ζ0 − ζ = ξ + η + ζ0 − ζ. Отсюда заключаем: ζ0 = ζ ⩾ 0, поэтому (3.24) примет вид (ξ + η)+ + ζ = ξ+ + η+ , (ξ + η)− + ζ = ξ− + η− . (3.25) Применив свойство C3 к (3.25), получим E{(ξ + η)+ } + E{ζ} = E{ξ+ } + E{η+ }, E{(ξ + η)− } + E{ζ} = E{ξ− } + E{η− }. Почленно вычтем второе равенство из первого: E{(ξ + η)+ } − E{(ξ + η)− } = (E{ξ+ } − E{ξ− }) + (E{η+ } − E{η− }), что с учетом определения 3.6 из п. 3.2 эквивалентно (3.23). ¤ C5. Если ξ ⩽ η, то E{ξ} ⩽ E{η}, причем если E{ξ} = +∞, то E{η} = +∞, а если E{η} = −∞, то E{ξ} = −∞. Доказательство. Выделим три ситуации. а) Если ξ, η имеют конечные математические ожидания, то для вспомогательной случайной величины ζ = η − ξ ⩾ 0 имеем в силу свойств C1, C2, C4 0 ⩽ E{ζ} = E{η − ξ} = E{η + ((−1)ξ)} = E{η} − E{ξ}. б) Пусть ξ ⩾ 0 и E{ξ} = +∞, т. е. если ξn ↑ ξ, то lim E{ξn } = +∞. Пусть n→∞ ηm ↑ η ⩾ 0. Тогда по лемме 3.2 из п. 3.2 ∀n ∈ N lim E{ηm } ⩾ E{ξn }. Переходя m→∞ к пределу при n → ∞, получаем E{η} = lim E{ηm } = +∞. m→∞ в) Пусть ξ – произвольная случайная величина такая, что E{ξ} = +∞, E{ξ+ } = = +∞, E{ξ− } < +∞. Из неравенства ξ ⩽ η и свойств срезок заключаем (непосредственной проверкой ∀ω ∈ Ω): ξ+ ⩽ η+ , ξ− ⩾ η− . Отсюда по доказанному в пункте б) получаем E{η+ } ≥ E{ξ+ } = +∞, E{η+ } = +∞, а E{η− } ≤ E{ξ− } < +∞. Случай E{η} = −∞ исследуется аналогично пунктам б), в). ¤ C6. (Аддитивность.) Справедливы два утверждения: а) если E{ξ} = +∞, E{η} > −∞ либо E{|ξ|} < +∞, E{η} = +∞, то E{ξ + η} = = +∞; б) если E{ξ} = −∞, E{η} < +∞ либо E{|ξ|} < +∞, E{η} = −∞, то E{ξ+η} = = −∞. Доказательство. Все возможные случаи исследуются аналогично. Для иллюстрации исследуем случай, когда E{ξ+ } = +∞, E{ξ− } < +∞, E{η± } < +∞. Поскольку ξ+ + η+ − ξ− − η− = (ξ + η)+ − (ξ + η)− ⩽ (ξ + η)+ , то ξ+ + η+ ⩽ (ξ+ + η)+ + ξ− + η− . В силу свойства C5 E{(ξ + η)+ + ξ− + η− } = +∞, откуда имеем E{(ξ + η)+ } = +∞. Поскольку (ξ + η)− ⩽ ξ− + η− , то в силу C5 E{(ξ + η)− } ⩽ E{ξ− } + E{η− } < +∞. Поэтому E{ξ + η} = E{(ξ + η)+ } − E{(ξ + η)− } = +∞. ¤ 76 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН C7. Следующее свойство сформулируем в виде теоремы. Теорема 3.4 (о монотонной сходимости). Пусть на вероятностном пространстве (Ω, F, P ) определены случайные величины η, ξ, ξ1 , ξ2 , . . . . Тогда справедливы следующие два утверждения: а) если ξn ⩾ η для всех n ⩾ 1, E{η} > −∞ и ξn ↑ ξ, то E{ξ} существует и E{ξn } ↑ E{ξ}; б) если ξn ⩽ η для всех n ⩾ 1, E{η} < +∞ и ξn ↓ ξ, то E{ξ} существует и E{ξn } ↓ E{ξ}. Доказательство. Докажем сначала первое утверждение. Выделим две ситуации. Пусть η n⩾ 0. oПостроим вспомогательные простые неотрицательные случайные ве(n) (n) личины ξk , обладающие свойством ξk ↑ ξn при k → ∞ ∀n ∈ N; построим еще (n) (n) простые случайные величины ηk = max ξk . Из монотонной сходимости ξk ↑ при 1⩽n⩽k k → ∞ вытекает, что ηk также монотонно сходится: ηk ↑, причем по построению (n) ξ k ⩽ η k ⩽ ξk . (3.26) Обозначим η = lim ηk . Тогда из предыдущего неравенства имеем k→∞ (n) lim ξk ⩽ lim ηk ⩽ lim ξk , k→∞ k→∞ k→∞ или, что эквивалентно: ξn ⩽ η ⩽ ξ, n = 1, 2, . . . . При n → ∞ получаем ξ ⩽ η ⩽ ξ, откуда следует η = ξ. Таким образом, ηk ↑ ξ. Отсюда по определению математического ожидания простых случайных величин получаем lim E{ηk } = E{ξ}. (3.27) k→∞ А так как ηk ⩽ ξk в силу (3.26), то согласно (3.27) E{ξ} = lim E{ηk } ⩽ lim E{ξk }. k→∞ k→∞ (3.28) С другой стороны, по условию ξk ↑ ξ, значит, E{ξk } ↑ и E{ξk } ⩽ E{ξ}∀k. Отсюда lim E{ξk } ⩽ E{ξ}. (3.29) k→∞ Из сравнения формул (3.28) и (3.29) заключаем: E{ξ} = lim E{ξk }. k→∞ Пусть η ∈ R – произвольная случайная величина. По условию E{ξ} > −∞. Если E{η} = +∞, то в силу C5 E{ξ} = +∞. Если E{η} < +∞, то имеем неотрицательную монотонно сходящуюся последовательность: 0 ⩽ ξn −η ↑ ξ−η, и по доказанному в предыдущем случае E{ξn − η} ↑ E{ξ − η}. Это означает, что E{ξ} − E{η} = E{ξ − η} = lim E{ξn − η} = lim E{ξn } − E{η}. n→∞ n→∞ Отсюда следует, что E{ξ} = lim E{ξn }. n→∞ Второе утверждение вытекает из первого, если вместо ξ, η, ξn рассмотреть случайные величины −ξ, −η, −ξn , n = 1, 2, . . . . ¤ C8. Перед тем как сформулировать это свойство в виде теоремы, докажем вспомогательную лемму. 3.3. СВОЙСТВА МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 77 Лемма 3.4 (лемма Фату). Пусть на вероятностном пространстве (Ω, F, P ) определены случайные величины η, ξ, ξ1 , ξ2 , . . . . Тогда справедливы следующие три утверждения: а) если ξn ⩾ η для всех n ⩾ 1 и E{η} > −∞, то E{lim ξn } ⩽ lim E{ξn }; б) если ξn ⩽ η для всех n ⩾ 1 и E{η} < +∞, то lim E{ξn } ⩽ E{lim ξn }; в) если |ξn | ⩾ η для всех n ⩾ 1 и E{η} < +∞, то E{lim ξn } ⩽ lim E{ξn } ⩽ lim E{ξn } ⩽ E{lim ξn }. (3.30) Доказательство. Докажем вначале первое утверждение. Пусть ζn = inf ξm , тогда m⩾n lim ξn = lim inf ξm = lim ζn . n→∞ m⩾n n→∞ Это означает, что ζn ↑ lim ξn и ζn ⩾ η для всех n ⩾ 1. Тогда из теоремы о монотонной сходимости имеем (свойство C6) E{lim ξn } = E{lim ζn } = lim E{ζn } = lim E{ζn } ⩽ lim E{ξn }, что и доказывает первое утверждение. Второе утверждение следует из первого (аналогично C6). Третье утверждение – следствие первых двух утверждений. ¤ Теорема 3.5 (Лебега о мажорируемой сходимости). Пусть на вероятностном пространстве (Ω, F, P ) определены случайные величины η, ξ, ξ1 , ξ2 , . . . такие, что |ξn | ≤ η, E{η} < +∞ и ξn → ξ. Тогда при n → ∞ E{|ξ|} < +∞; (3.31) E{ξn } → E{ξ}; (3.32) E{|ξn − ξ|} → 0. (3.33) Доказательство. В силу леммы Фату (3-е утверждение) справедлива цепочка соотношений (3.30). По условию данной теоремы ∃ lim ξn = lim ξn = lim ξn = ξ. Поэтому неравенства в (3.30) обращаются в равенства: E{lim ξn } = lim E{ξn } = lim E{ξn } = E{lim ξn } = E{ξ}, что доказывает (3.32). Поскольку |ξn | ⩽ η, то |ξ| ⩽ η. Поэтому в силу свойства C5 E{|ξ|} ⩽ E{η} < +∞, что означает (3.31). Для доказательства утверждения (3.33) определим вспомогательную последовательность случайных величин (уклонений): ζn = |ξn − ξ| ⩾ 0, ζn → 0. Поскольку ζn ⩽ |ξn | + |ξ| ⩽ 2η, E{η} < +∞, то по доказанному выше к последовательности ζn применимо утверждение вида (3.32): E{ζn } → 0, что эквивалентно (3.33). ¤ 78 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Следствие 3.2. Пусть η, ξ, ξ1 , ξ2 , . . . – случайные величины такие, что |ξn | ⩽ η, ξn → ξ и E{ηp } < ∞ для некоторого p > 0. Тогда E{|ξ|p } < ∞, E{|ξn − ξ|p } → 0. n→∞ Доказательство. Достаточно выбрать ζn = |ξn − ξ|p → 0 и аналогично доказательству (3.33) учесть, что ζn ⩽ 2ηp . ¤ Замечание 3.7. Условие |ξn | ⩽ η, E{η} < +∞, входящее в лемму Фату и теорему Лебега, можно ослабить, заменяя его условием равномерной интегрируемости [25, 36] sup E{|ξn |11{|ξn |>c} } → 0, c → ∞. n C9. Пусть ξ, η – независимые случайные величины с конечными математическими ожиданиями: E{|ξ|} < ∞, E{|η|} < ∞. Тогда E{|ξη|} < ∞ и математическое ожидание произведения равно произведению математических ожиданий: E{ξη} = E{ξ}E{η}. (3.34) Доказательство. Выделим две ситуации. Пусть ξ ⩾ 0, η ⩾ 0 и ξn ↑ ξ, ηn ↑ η – аппроксимирующие последовательности неотрицательных случайных величин, определенные в п. 3.2. По построению (3.14) при каждом n ∈ N ξn = gn (ξ), ηn = gn (η), где gn (·) – борелевская функция. Поэтому из свойств независимых случайных величин следует, что ξn , ηn – независимые случайные величины. Поскольку по построению ξn ηn ↑ ξη, то по определению математического ожидания и свойству C5 из п. 3.1 имеем E{ξη} = lim E{ξn ηn } = lim (E{ξn }E{ηn }) = E{ξ}E{η}. n→∞ n→∞ Пусть ξ, η – произвольные случайные величины с конечными математическими ожиданиями. Тогда по определению математического ожидания ξη = (ξ+ − ξ− )(η+ − η− ) = ξ+ η+ + ξ− η− − ξ+ η− − ξ− η+ . (3.35) В формуле (3.35) все слагаемые – неотрицательные случайные величины с конечными математическими ожиданиями, поэтому к каждому слагаемому применим результат, доказанный на предыдущем шаге. Применив свойства C3, C4 к (3.35), получим E{ξη} = E{ξ+ η+ } + E{ξ− η− } − E{ξ+ η− } − E{ξ− η+ } = = E{ξ+ }E{η+ } + E{ξ− }E{η− } − E{ξ+ }E{η− } − E{ξ− }E{η+ } = = E{ξ}E{η}, что совпадает с формулой (3.34). ¤ C10. (Математическое ожидание функции от случайной величины.) Пусть ξ ∈ ∈{x1 , x2 , . . .} – дискретная случайная величина, а y = g(x) – борелевская функция. Тогда ∞ X E{g(ξ)} = g(xi )P{ξ = xi }, (3.36) i=1 если ряд в соотношении (3.36) абсолютно сходится. Если: 79 3.4. НЕРАВЕНСТВА ДЛЯ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ а) ∞ X g + (xi )P{ξ = xi } = ∞, а i=1 б) ∞ X ∞ X g − (xi )P{ξ = xi } < ∞, то E{g(ξ)} = ∞; i=1 g + (xi )P{ξ = xi } < ∞, а i=1 ∞ X g − (xi )P{ξ = xi } = ∞, то E{g(ξ)} = −∞, где i=1 g ± (x) = max(0, ± g(x)). Доказательство. Воспользуемся эквивалентным представлением дискретной случайной величины g(ξ) (см. п. 3.1): g(ξ) = ∞ X g(xi )11{ξ=xi } = i=1 ∞ X g + (xi )11{ξ=xi } − i=1 ∞ X g − (xi )11{ξ=xi } . i=1 Тогда, используя определение и свойства математического ожидания, получаем (3.36). ¤ 3.4. НЕРАВЕНСТВА ДЛЯ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ Рассмотрим еще ряд важнейших свойств математических ожиданий (интегралов Лебега), имеющих вид неравенств. C1. Если для случайной величины ξ существует математическое ожидание E{ξ}, то |E{ξ}| ⩽ E{|ξ|}. (3.37) Доказательство. Поскольку −|ξ| ⩽ ξ ⩽ |ξ|, то по свойствам C2, C5 из п. 3.3 имеем −E{|ξ|} ⩽ E{ξ} ⩽ E{|ξ|}, что эквивалентно (3.37). ¤ C2. (Неравенство Чебышева.) Если y = g(x) ⩾ 0 – неотрицательная неубывающая функция на [0, ∞), то для любого ² > 0 и любой случайной величины ξ, определенной на (Ω, F, P ), справедливо неравенство P{|ξ| ⩾ ²} ⩽ E{g(|ξ|)} . g(²) (3.38) Доказательство. Непосредственная проверка ∀ω ∈ Ω показывает справедливость неравенства g(|ξ|) ⩾ g(²)E{11{|ξ| ⩾ ²} } = g(²)P{|ξ| ⩾ ²}, откуда следует (3.38). ¤ Следствие 3.3 (неравенство Чебышева). Если ξ ⩾ 0 – произвольная неотрицательная СВ, то для любого ² > 0 P{ξ ⩾ ²} ⩽ E{ξ} . ² (3.39) Доказательство. Достаточно положить g(x) ≡ x в соотношении (3.38) и учесть, что ξ ⩾ 0. ¤ Следствие 3.4. Для любой случайной величины ξ справедливы неравенства: P{|ξ| ⩾ ²} ⩽ E{|ξ|} , ² P{|ξ| ⩾ ²} ⩽ E{ξ2 } . ²2 Доказательство. Достаточно выбрать соответственно g(x) ≡ x, g(x) ≡ x2 . ¤ 80 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Определение 3.9. Принято говорить, что некоторое свойство выполнено на вероятностном пространстве (Ω, F, P ) «P – почти наверное», если существует множество Ω0 ∈ F нулевой меры P(Ω0 ) = 0 такое, что это свойство выполнено для каждой точки ω ∈ Ω \ Ω0 . Вместо слов «P – почти наверное» часто говорят «P – почти всюду» или просто «почти наверное» (п. н.), «почти всюду» (п. в.). п. н. Следствие 3.5. Если ξ ⩾ 0 и E{ξ} = 0, то ξ = 0. Доказательство. В силу неравенства Чебышева (3.39) имеем ∀² > 0 P{ξ ⩾ ²} = 0. Поэтому ∀²n ↓ 0 P{ξ > 0} ⩽ lim P{ξ ⩾ ²n } = 0. Следовательно, P{ξ = 0} = n→∞ = P{ξ ⩾ 0} − P{ξ > 0} = 1 − 0 = 1. ¤ п. н. Следствие 3.6. Если E{ξ2 } = 0, то ξ = 0. C3. (Неравенство Йенсена.) Для любой выпуклой функции y = g(x) и любой случайной величины ξ с конечным математическим ожиданием E{ξ} справедливо неравенство E{g(ξ)} ⩾ g(E{ξ}). (3.40) Доказательство. Воспользуемся следующим свойством выпуклой функции: для любой точки x0 ∈ R существует действительное число G0 = G(x0 ) такое, что g(x) ⩾ g(x0 ) + G0 · (x − x0 ), x ∈ R. (3.41) Рис. 3.2. Иллюстрация свойства выпуклости Неравенство (3.41) графически проиллюстрировано на рис. 3.2. Положим в (3.41) x0 = E{ξ}, x = ξ(ω), применим усреднение к левой и правой частям согласно свойствам (3.24), (3.26) и (3.27) из п. 3.3: E{g(ξ)} ⩾ E{g(E{ξ}) + G0 · (ξ − E{ξ})} = g(E{ξ})+ + G0 · E{ξ − E{ξ}} = g(E{ξ}). Здесь учтено, что E{ξ − E{ξ}} = E{ξ} − E{ξ} = 0. ¤ Следствие 3.7. Для ∀r ⩾ 1 справедливо неравенство |E{ξ}|r ⩽ E{|ξ|r }. Доказательство. Достаточно выбрать g(x) = |x|r в неравенстве (3.40). ¤ 81 3.4. НЕРАВЕНСТВА ДЛЯ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ Следствие 3.8. Справедливы неравенства |Eξ| ⩽ E{|ξ|}, (Eξ)2 ⩽ E{ξ2 }. Доказательство. Достаточно воспользоваться следствием 3.7 при r = 1, r = 2. ¤ Следствие 3.9. Если y = g(x) – вогнутая функция, то в неравенстве (3.40) знак меняется на обратный. Доказательство. Достаточно рассмотреть выпуклую функцию g̃(x) = −g(x). ¤ C4. (Неравенство Ляпунова.) Для любых положительных чисел 0 < s < t < +∞ справедливо неравенство (E{|ξ|s })1/s ⩽ (E{|ξ|t })1/t . (3.42) Доказательство. Воспользуемся следствием 3.7. Для ∀η ⩾ 0, r ⩾ 1 имеем (Eη)r ⩽ E{ηr }. (3.43) Положим в неравенстве (3.43) r = t/s > 1, η = |ξ|s ⩾ 0, тогда из (3.43) имеем E{|ξ|s }t/s ⩽ E{|ξ|t }. Возведем левую и правую части неравенства в положительную степень 1/t > 0 и получим (3.42). ¤ Следствие 3.10. Справедлива следующая цепочка неравенств Ляпунова: p p E{|ξ|} ⩽ 2 E{ξ2 } ⩽ 3 E{|ξ|3 } ⩽ . . . . C5. (Неравенство Гельдера.) Для любых случайных величин ξ1 , ξ2 и положительных констант p1 , p2 > 1 : 1/p1 + 1/p2 = 1 справедливо неравенство |E{ξ1 · ξ2 }| ⩽ E{|ξ1 · ξ2 |} ⩽ (E{|ξp1 |})1/p1 · (E{|ξp2 |})1/p2 . (3.44) Доказательство. Из свойства C1 имеем |E{ξ1 · ξ2 }| ⩽ E{|ξ1 · ξ2 |}. Для ∀x1 , x2 ⩾ 0, λ1 , λ2 ⩾ 0, λ1 + λ2 = 1 справедливо известное неравенство: λ λ x1 1 · x2 2 ⩽ λ1 x1 + λ2 x2 . (3.45) Выберем в формуле (3.45) λi = |ξi |pi 1 , xi = ⩾ 0, E{xi } = 1, i = 1, 2. pi E{|ξi |pi } Применяя операцию усреднения к левой и правой частям (3.45), получим ¾ ½ ¾ ½ |ξ1 ξ2 | 1 1 E x1 + x2 = ⩽E (E{|ξp11 |})1/p1 · (E{|ξp22 |})1/p2 p1 p2 = 1 1 ·1+ · 1 = 1. p1 p2 Домножая на знаменатель, получаем (3.44). Следствие 3.11. Справедливо неравенство Коши – Буняковского (Шварца): q |E {ξ1 ξ2 }| ⩽ E {|ξ1 ξ2 |} ⩽ E{ξ21 }E{ξ22 }. ¤ Доказательство. Достаточно положить p1 = p2 = 2 в неравенстве Гельдера. ¤ 82 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН C6. (Неравенство Минковского.) Если для некоторого p ⩾ 1, E {|ξ|p } < ∞, E{|η|p } < ∞, то E{|ξ + η|p } < ∞ и 1 1 1 (E {|ξ + η|p }) p ⩽ (E{|ξ|p }) p + (E {|η|p }) p . (3.46) Доказательство. Воспользуемся известным неравенством: |ξ + η|p ⩽ 2p−1 (|ξ|p + |η|p ). Отсюда в силу свойств математического ожидания имеем E {|ξ + η|p } ⩽ 2p−1 (E {|ξ|p } + E {|η|p }) < +∞. Используя неравенство Гельдера (3.44) для ξ1 = ξ, ξ2 = η, p1 = p, p2 = p/(p − 1), получаем © ª E {|ξ + η|p } = E |ξ + η| |ξ + η|p−1 ⩽ E {|ξ||ξ + η|p−1 } + 1 p p−1 +E {|η||ξ + η|p−1 } ⩽ (E{|ξ|p }) p (E{|ξ + η| p−1 (p−1) }) p + ³ ´ p−1 p−1 1 1 1 + (E{|η|p }) p (E {|ξ + η|p }) p = (E {|ξ + η|p }) p (E{|ξ|p }) p + (E {|η|p }) p . p−1 Деля левую и правую части неравенства на (E {|ξ + η|p }) p , получаем (3.46). ¤ 3.5. ВЫЧИСЛЕНИЕ ИНТЕГРАЛА ЛЕБЕГА. ИНТЕГРАЛЫ ЛЕБЕГА – СТИЛТЬЕСА И РИМАНА – СТИЛТЬЕСА Пусть ξ = ξ(ω) – произвольная случайная величина, определенная на некотором вероятностном пространстве (Ω, F, P ). Рассмотрим другое вероятностное пространство (R, B, Pξ ), порожденное случайной величиной ξ. Случайные величины, определенные на этом пространстве, являются борелевскими функциями g = g(x) действительной переменной x ∈ R. Интеграл Лебега от функции g(·) по мере Pξ (·) обозначается Z I = g(x)Pξ (dx). Известно, что мера Pξ = Pξ (B) однозначно выражается через функцию распределения Fξ (x) и обладает характерным свойством: Pξ ([x, x + ∆x)) = Fξ (x + ∆x) − Fξ (x) = ∆Fξ (x), ∆x ⩾ 0. (3.47) Определение 3.10. Поскольку вероятностная мера Pξ (·) обладает свойством (3.47), то она называется мерой Лебега – Стилтьеса, а соответствующий интеграл I – интегралом Лебега – Стилтьеса от функции g(·) по функции Fξ (·): Z I = g(x)dFξ (x). Определение 3.11. Если мера Pξ (B) = mes(B) является мерой Лебега (в частности, если B = [a, b] – отрезок, то mes(B) = b − a – его длина), то интеграл I записывается в виде Z I = g(x) dx и называется интегралом Лебега от функции g(·). 83 3.5. ВЫЧИСЛЕНИЕ ИНТЕГРАЛА ЛЕБЕГА Пусть F (x) – произвольная функция распределения. Определение 3.12. Интегралом Римана – Стилтьеса от функции g(·) по функции F (·) на отрезке [a, b] называется число Zb g(x)dF (x) = lim N −1 X ∆x→0 N →∞ i=0 a g(x̃i )(F (xi+1 ) − F (xi )), (3.48) если предел последовательности интегральных сумм существует и не зависит от выбора точек {xi }, {x̃i }, где a = x0 < x1 < . . . < xN = b, x̃i ∈ [xi , xi+1 ); ∆x = = max(xi+1 − xi ) – диаметр разбиения [a, b]. i +∞ Z Определение 3.13. (Несобственным) интегралом Римана – Стилтьеса g(x)dF (x) −∞ называется число Zb Z +∞ Z g(x)dF (x) = −∞ g(x)dF (x) = lim a→−∞, b→+∞ a R g(x)dF (x). +∞ Z Замечание 3.8. Интеграл g(x)dF (x) существует, если функция g = g(x) непре−∞ рывна или кусочно-непрерывна. Замечание 3.9. Интеграл Римана – Стилтьеса обладает всеми свойствами, которыми обладает интеграл Римана. Эти свойства доказываются, как и для интеграла Римана. Докажем три специальных свойства. Теорема 3.6. Если F (x) = p1 F1 (x) + p2 F2 (x) – линейная смесь двух функций распределения F1 (·), F2 (·) (p1 , p2 ⩾ 0, p1 + p2 = 1), то Zb Zb Zb g(x)dF (x) = p1 g(x)dF1 (x) + p2 g(x)dF2 (x). a a a Доказательство. Этот результат вытекает из (3.48) и свойства приращений: F (xi+1 ) − F (xi ) = p1 (F1 (xi+1 ) − F1 (xi )) + p2 (F2 (xi+1 ) − F2 (xi )). ¤ Теорема 3.7 (связь с интегралом Римана). Если функция распределения F (·) дифференцируема и существует непрерывная плотность распределения вероятностей p(x) = F 0 (x), то Zb Zb g(x)dF (x) = a g(x)p(x) dx – интеграл Римана. a Доказательство. По теореме о среднем xi+1 Z p(x) dx = p(x̂i )(xi+1 − xi ), F (xi+1 ) − F (xi ) = xi 84 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН где x̂i ∈ [xi , xi+1 ) – промежуточная точка. Подставляя это в (3.48), получим Zb g(x)dF (x) = lim ∆x→0 a N −1 X g(x̃i )p(x̂i )(xi+1 − xi ). i=0 Полагая x̂i = x̃i , получаем интегральную сумму Римана. ¤ Теорема 3.8. Если интегрирующая функция F (x) является ступенчатой со скачками в точках {yk }, причем величина скачка равна pk в точке yk (k = 1, 2, . . .), и ∞ X сходится ряд |g(yk )|pk < ∞, то k=1 +∞ Z g(x)dF (x) = ∞ X g(yk )pk . k=1 −∞ Доказательство. Разбиение {xi } в (3.48) осуществим так, чтобы при каждом i промежуток [xi , xi+1 ) содержал не более одной точки скачка из множества {yk }. Тогда ( pk , если yk ∈ [xi , xi+1 ) для некоторого i, F (xi+1 ) − F (xi ) = 0, в противном случае. Выберем в (3.48) x̃i = yk , если yk ∈ [xi , xi+1 ). Тогда (3.48) примет вид Zb X g(x)dF (x) = g(yk )pk . k:yk ∈[a,b] a Отсюда +∞ Z Zb g(x)dF (x) = lim a→−∞, b→+∞ a −∞ g(x)dF (x) = ∞ X g(yk )pk , k=1 так как по условию ряд справа абсолютно сходится. ¤ Теорема 3.9 (формула замены переменных). Пусть ξ = ξ(ω) – случайная величина на (Ω, F, P ) и g = g(x) – борелевская функция такая, что E{|g(ξ)|} < ∞. Тогда Z Z g(ξ(ω))P(dω) = g(x)dFξ (x). (3.49) Ω R Доказательство. Выделим четыре ситуации. 1. Пусть g(x) = 11B (x), B ∈ B. Поскольку 11B (ξ(ω)) ≡ 11{ξ∈B} (ω), то Z Z g(ξ(ω))P(dω) = 11B (ξ(ω))P(dω) = E{11{ξ∈B} (ω)} = Ω Ω Z = P{ξ ∈ B} = R что совпадает c (3.49). Z 11B (x)Pξ (dx) = Z g(x)Pξ (dx) = R g(x)dFξ (x), R 3.5. ВЫЧИСЛЕНИЕ ИНТЕГРАЛА ЛЕБЕГА 85 2. Пусть g = g(x) – простая функция вида g(x) = n X yk 11Bk (x), x ∈ R, n < ∞, Bk = {x : g(x) = yk }. k=1 Тогда из свойств интеграла Лебега (см. п. 3.3) и доказанного на предыдущем шаге имеем Z ZX n g(ξ(ω))P(dω) = yk 11Bk (ξ(ω))P(dω) = Ω k=1 Ω = n X Z Z n X yk 11Bk (ξ(ω))P(dω) = yk 11Bk (x)dFξ (x) = k=1 k=1 Ω = ZX n R Z yk 11Bk (x)dFξ (x) = R k=1 g(x)dFξ (x). R 3. Пусть g = g(x) ⩾ 0 и {gn } – аппроксимирующая последовательность простых функций таких, что gn ↑ g. Тогда gn (ξ) ↑ g(ξ). Используя предыдущий шаг и определение интеграла Лебега, получаем Z Z g(ξ(ω))P(dω) = lim gn (ξ(ω))P(dω) = n→∞ Z = lim n→∞ Z gn (x)dFξ (x) = g(x)dFξ (x). 4. Пусть g = g(x) – произвольная борелевская функция, E{|g(ξ)|} < +∞. По определению интеграла Лебега получаем Z Z Z g(ξ(ω))P(dω) = g + (ξ(ω))P(dω) − g − (ξ(ω))P(dω) = Z Z Z = g + (x)dFξ (x) − g − (x)dFξ (x) = g(x)dFξ (x), что совпадает с (3.49). ¤ Замечание 3.10. Результат доказанной теоремы и схема доказательства остаются в силе, если ξ = (ξi ) ∈ RN – случайный вектор, а g = g(x1 , . . . , xN ) – действительная функция N ⩾ 1 переменных такая, что E{|g(ξ)|} Z < +∞. Чтобы избежать путаницы, через (Л. – С.) g(x)dFξ (x) условимся обозначать интеZ грал Лебега – Стилтьеса, а интеграл Римана – Стилтьеса через (Р. – С.) g(x)dFξ (x). Установим связь между этими интегралами. Теорема 3.10. Z Если функция g = g(x) Z – непрерывна и существует один из интегралов (Л. – С.) равны: g(x)dFξ (x), (Р. – С.) Z (Л. – С.) g(x)dFξ (x), то существует и другой, и они Z g(x)dFξ (x) = (Р. – С.) g(x)dFξ (x). (3.50) 86 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Доказательство. Пусть −∞ < a < b < +∞. Поскольку функция g = g(x) непрерывна на R, то она будет равномерно непрерывна и ограничена на [a, b]. Следовательно, для любого n = 1, 2, . . . найдется набор точек a = x0 < x1 < . . . < xNn = b такой, что |g(x) − g(xi )| ⩽ 1/n, если x ∈ [xi−1 , xi ), i = 1, 2, . . . , Nn . Пусть c = const такая, что |g(x)| ⩽ c, x ∈ [a, b]. Определим последовательность кусочно-постоянных функций: gn (x) = g(xi ), если x ∈ (xi−1 , xi ), i = 1, 2, . . . , Nn . (3.51) Из (3.51) видно, что {gn (·)} – простые функции, причем 1 |gn (x) − g(x)| ⩽ , x ∈ [a, b]. (3.52) n Поскольку согласно (3.52) |gn (x)| ⩽ |g(x)|+1 ⩽ c+1, то по теореме Лебега о сходимости мажорируемой последовательности получаем g(x)dFξ (x) = (Л. – С.) Zb Zb Zb a = lim N X n→∞ = lim n→∞ gn (x)Pξ (dx) = g(x)Pξ (dx) = lim n→∞ a a gn (xi )P{ξ ∈ [xi−1 , xi )} = i=1 Nn X g(xi )(Fξ (xi ) − Fξ (xi−1 )) = i=1 Zb = (Р. – С.) g(x)dFξ (x). a Теперь перенесем этот результат на несобственные интегралы: +∞ Z (Л. – С.) Zb g(x)dFξ (x) = lim (Л. – С.) a→−∞, b→+∞ −∞ a Zb = lim (Р. – С.) a→−∞, b→+∞ g(x)dFξ (x) = +∞ Z g(x)dFξ (x) = (Р. – С.) a g(x)dFξ (x), ∞ что совпадает с соотношением (3.50). ¤ Следствие 3.12. Если ξ – СВ с функцией распределения Fξ (x), а g = g(x) – непрерывная функция такая, что E{|g(ξ)|} < ∞, то Z E{g(ξ)} = (Р. – С.) g(x)dFξ (x). (3.53) Доказательство. Формула (3.53) вытекает из определения математического ожидания как интеграла Лебега, формулы (3.50) и теоремы 3.10. ¤ Следствие 3.13. Если ξ ∈ {x1 , x2 , . . . , xN }, N ⩽ ∞, – ДСВ с дискретным распреN X делением вероятностей P{ξ = xi } = pi , pi = 1, то математическое ожидание i=1 вычисляется как сумма ряда: E{g(ξ)} = N X i=1 g(xi )pi = N X i=1 g(xi )P{ξ = xi }. (3.54) 3.6. УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ЕГО СВОЙСТВА 87 Следствие 3.14. Если g = g(x) Z – непрерывная функция, СВ ξ имеет плотность распределения pξ (x) = Fξ0 (x) и |g(x)|pξ (x)dx < ∞, то математическое ожидание вычисляется как интеграл Римана: Z E{g(ξ)} = g(x)pξ (x) dx. (3.55) Замечание 3.11. Теорема 3.10 и формулы (3.53)–(3.55) обобщаются на многомерный случай, когда ξ = (ξi ) ∈ RN – случайный вектор, а g = g(x1 , . . . , xN ) – действительная функция N ⩾ 1 переменных. 3.6. УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ЕГО СВОЙСТВА На практике часто возникает необходимость усреднения случайной величины ξ = = ξ(ω) при условии наступления события B или равенства некоторой другой случайной величины заданному числу η = y. Для решения этой задачи используются понятия условного математического ожидания: относительно случайного события, относительно случайной величины и относительно σ-алгебры. Определение 3.14. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определены некоторая случайная величина ξ = ξ(ω) и некоторое случайное событие B ∈ F, P(B) > 0. Пусть далее Fξ (x), x ∈ R, – функция распределения случайной величины ξ, PB (A) = P(A|B), A ∈ F, – условная вероятностная мера, а Fξ (x|B) – условная функция распределения. Тогда условным математическим ожиданием (условным средним) случайной величины ξ при условии события B называется величина интеграла Лебега (Лебега – Стилтьеса): Z E{ξ|B} = +∞ Z ξ(ω)PB (dω) = xdFξ (x|B), (3.56) −∞ Ω при этом ранее введенное математическое ожидание +∞ Z E{ξ} = xdFξ (x) (3.57) −∞ называется безусловным математическим ожиданием. Из (3.56) и (3.57) видно, что условное математическое ожидание отличается от безусловного лишь интегрирующей функцией. Поэтому формулы вычисления условного математического ожидания аналогичны формулам вычисления безусловно математического ожидания, полученным ранее: E{ξ|B} = N X ai pi = i=1 N X ai P{ξ = ai |B}, i=1 если ξ – дискретная случайная величина; ∞ Z E{ξ|B} = xpξ (x|B)dx, −∞ если ξ – абсолютно непрерывная случайная величина с условной плотностью распределения pξ (x|B) = Fξ0 (x|B). 88 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Теорема 3.11. Пусть на (Ω, F, P ) определены случайная величина ξ = ξ(ω) с математическим ожиданием E{ξ} и некоторая полная система случайных событий {Hi : i = 1, . . . , N }, N ⩽ + ∞. Тогда условные и безусловное математические ожидания связаны соотношением N X E{ξ} = P(Hi )E{ξ|Hi }. (3.58) i=1 Доказательство. Воспользуемся формулой полной вероятности: Fξ (x) = P{ξ < N N X X < x} = P(Hi ) · P{ξ < x|Hi } = P(Hi )Fξ (x|Hi ). Подставляя это выражение в i=1 i=1 соотношение (3.57), приходим к (3.58). ¤ Определение 3.15. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определены некоторая случайная величина ξ = ξ(ω) и некоторый случайный вектор η = η(ω) ∈ Rn . Пусть далее Fξ|η (x|y), x ∈ R1 , y ∈ Rn , есть условная функция распределения случайной величины ξ при условии η = y. Тогда условным математическим ожиданием ξ при условии η = y называется величина интеграла Лебега – Стилтьеса: +∞ Z E{ξ|η = y} = xdFξ|η (x|y). (3.59) −∞ Определение 3.16. Пусть с помощью определения 3.15 построена борелевская функция z = g(y) : RN → R1 , заданная следующим образом: g(y) = E{ξ|η = y}, y ∈ Rn . (3.60) Тогда условным математическим ожиданием случайной величины ξ относительно η называется случайная величина α = α(ω), ω ∈ Ω, являющаяся суперпозицией функций E{ξ|η} ::= α(ω) = g(η(ω)), ω ∈ Ω. В отличие от предыдущих определений условного математического ожидания, здесь E{ξ|η} является случайной величиной. Свойства условного математического ожидания C1. Условные математические ожидания (3.56), (3.59) обладают всеми свойствами безусловного математического ожидания. Доказательство. Условное математическое ожидание представляет собой такой же функционал, как и безусловное математическое ожидание (3.57), отличается лишь видом интегрирующей функции. ¤ C2. Если ξ и η независимы, то условное математическое ожидание совпадает с безусловным: E{ξ|η = y} = E{ξ}, y ∈ Rn . Доказательство. По свойствам независимости случайных величин: Fξ|η (x|y) = ¤ = Fξ (x), поэтому из (3.59) и (3.57) следует доказываемое. C3. (Формула полного математического ожидания.) Справедливо соотношение E{ξ} = E{E{ξ|η}}. (3.61) 3.6. УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ЕГО СВОЙСТВА 89 Доказательство. Рассмотрим частный случай: η ∈ Y = {y1 , . . . , yN }, N ⩽ + ∞, – дискретная случайная величина. По определению 3.16 и с учетом свойств математического ожидания из (3.60) имеем E{E{ξ|η}} = E{g(η)} = N X g(yi ) · P{η = yi }. i=1 Построим полную систему случайных событий: Hi = {η = yi }, i = 1, . . . , N ; используя (3.60) и теорему 3.11, получаем N X g(yi ) · P{η = yi } = i=1 N X E{ξ|η = yi } · P(Hi ) = E{ξ}. i=1 ¤ Замечание 3.12. Формула (3.61) представляет собой двухэтапное усреднение: E{ξ} = E{E{ξ|η}}, т. е. сначала осуществляется усреднение ξ при фиксированном значении η, а затем усреднение по всевозможным значениям η. C4. (Обобщение свойства C3.) Для любой ограниченной борелевской функции h(·) справедливо равенство E{h(η)E{ξ|η}} = E{h(η)ξ}. (3.62) Доказательство. 1) Рассмотрим вначале случай дискретного распределения вероятностей η. Воспользуемся схемой доказательства свойства C3: E{h(η)E{ξ|η}} = = N X N X P{η = yi }E{h(η)E{ξ|η}|η = yi } = i=1 P{η = yi }h(yi )E{E{ξ|η}|η = yi } = i=1 N X P{η = yi }h(yi )E{ξ|η = yi }. i−1 С другой стороны, E{h(η)ξ} = = N X N X P{η = yi }E{h(η)ξ|η = yi } = i=1 P{η = yi }h(yi )E{ξ|η = yi }. i=1 Из совпадения этих выражений получаем (3.62). 2) Рассмотрим теперь случай абсолютно непрерывного распределения вероятностей (ξ, η) с совместной плотностью pξ,η (x, y) и условной плотностью pξ|η (x|y). Аналогично построению условной функции распределения в п. 2.4 получаем Z E{ξ|η = y} = xpξ|η (x|y)dx. 90 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Поэтому имеем цепочку равенств, доказывающую (3.62): ZZ E{h(η)ξ} = h(y)xpξ,η (x, y)dxdy = ZZ = Z h(y)xpξ|η (x|y)pη (y)dxdy = E{ξ|η = y}h(y)pη (y)dy = = E{h(η)E{ξ|η}}. ¤ Замечание 3.13. Часто [14, 36] соотношение (3.62) принимается в качестве определения условного математического ожидания E{ξ|η}, являющегося Fη -измеримой случайной величиной. C5. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определены случайная величина ξ = ξ(ω) и случайный вектор η = η(ω) ∈ RN . Пусть далее z = ψ(y) : RN → R1 – некоторая борелевская функция. Тогда справедливо п. н. E{ψ(η) · ξ|η} = ψ(η) · E{ξ|η}. Доказательство. Сравнение значений левой и правой частей этого соотношения при всевозможных фиксированных η = y и даст требуемый результат. ¤ C6. (Соотношение Вальда.) Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определены: а) последовательность одинаково распределенных случайных величин ξ1 , ξ2 , . . . с конечным математическим ожиданием E{ξ1 }; б) не зависящая от всех {ξk } неотрицательная целочисленная случайная величина η = η(ω) ⩾ 0 с конечным математическим ожиданием E{η}; в) сумма случайного числа случайных величин Sη ::= ξ1 + ξ2 + . . . + ξη (η – случайный номер, S0 ::= 0). Тогда справедливо следующее соотношение Вальда: E{Sη } = E{η} · E{ξ1 }. Доказательство. Воспользуемся формулой полного математического ожидания: E{Sη } = E{E{Sη |η}} = = ∞ X i=0 ∞ X P{η = i} · E{ξ1 + . . . + ξη |η = i} = i=0 P{η = i} · E{ξ1 + . . . + ξi } = ∞ X iP{η = i} · E{ξ1 } = E{η} · E{ξ1 }. i=0 ¤ 3.7. УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ ОТНОСИТЕЛЬНО σ-АЛГЕБРЫ И ЕГО СВОЙСТВА Для усреднения случайных величин в некоторых приложениях оказывается недостаточно введенных в п. 3.6 условного математического ожидания относительно случайного события и относительно случайной величины. В этом пункте исследуем условное математическое ожидание относительно σ-алгебры, а также другие вероятностные характеристики, связанные с этим понятием. 91 3.7. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ ОТНОСИТЕЛЬНО σ-АЛГЕБРЫ Прежде всего докажем одно вспомогательное свойство условного математического ожидания случайной величины ξ = ξ(ω) : Ω → R, определенной на вероятностном пространстве (Ω, F, P ), относительно некоторого случайного события B ∈ F, имеющего положительную вероятность P(B) > 0. Теорема 3.12. Если P(B) > 0, то справедлива формула Z Z 1 1 E{ξ|B} = ξ(ω)P(dω) = 11B (ω)ξ(ω)P(dω). (3.63) P(B) P(B) B Ω Доказательство. Разобьем доказательство на четыре этапа аналогично схеме конструирования интеграла Лебега. На первом этапе покажем справедливость формулы (3.63) для индикаторной функции события A ∈ F – простейшей случайной величины Бернулли ξ = 11A (ω): Z Z 1 P(A ∩ B) 1 ξ(ω)P(dω)= 11A∩B (ω)P(dω)= =P(A|B) = P(B) P(B) P(B) B Ω ∞ Z Z Z xdFξ|B (x|B)=E{ξ|B}. =PB (A)= 11A (ω)PB (dω)= ξ(ω)PB (dω)= Ω −∞ Ω Последнее равенство вытекает из определения (3.56). На втором этапе для простой случайной величины ξ = ξ(ω) = N X ak 11Ak (ω) по k=1 ранее установленным свойствам математического ожидания в силу первого этапа имеем Z Z N N X 1 1 X ξ(ω)P(dω) = ak 11Ak (ω)P(dω) = ak E{11Ak (ω)|B} = E{ξ|B}. P(B) P(B) k=1 k=1 B B На третьем этапе для неотрицательной случайной величины ξ(ω) ⩾ 0 найдется монотонно возрастающая последовательность простых случайных величин ξn ↑ ξ. Тогда 11B (ω)ξn (ω) ↑ 11B (ω)ξ(ω), поэтому в силу предыдущего этапа существует предел Z Z 1 1 ξ(ω)P(dω) = 11B (ω)ξ(ω)P(dω) = P(B) P(B) B = lim 1 Ω Z 11B (ω)ξn (ω)P(dω) = lim E{ξn |B} = E{ξ|B}. n→∞ P(B) n→∞ Ω На четвертом этапе для произвольной случайной величины ξ воспользуемся известным представлением ξ(ω) = ξ+ (ω) − ξ− (ω) и результатом третьего этапа, а также свойствами математического ожидания: Z Z Z 1 1 1 ξ(ω)P(dω) = ξ+ (ω)P(dω) − ξ− (ω)P(dω) = P(B) P(B) P(B) B B + B − = E{ξ |B} − E{ξ |B} = E{ξ|B}, ¤ что совпадает с формулой (3.63). При построении условного математического ожидания относительно σ-алгебры, как и при построении интеграла Лебега, воспользуемся принципом «от простого к сложному». 92 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Пусть (Ω, F, P ) – произвольное вероятностное пространство, на котором определена произвольная случайная величина ξ = ξ(ω) : Ω → R, имеющая математическое ожидание E{ξ}. Пусть далее H1 , . . ., HN ∈ F – произвольная полная система случайных [ событий (N ⩽ ∞). Всевозможные объединения Hik и пустое множество ∅, очевидно, k образуют наименьшую σ-алгебру, содержащую {H1 , . . ., HN }. Обозначим эту σ-алгебру F0 ⊂ F. Определение 3.17. Условным математическим ожиданием случайной величины ξ относительно счетной σ-алгебры F0 ⊂ F называется дискретная случайная величина E{ξ|F0 } : Ω → R, определенная соотношением E{ξ|H1 }, ω ∈ H1 , E{ξ|F0 } = β(ω) ::= ... (3.64) E{ξ|HN }, ω ∈ HN . Иногда, чтобы подчеркнуть зависимость от ω, используется обозначение E{ξ|F0 }(ω). Свойства условного математического ожидания C1. Функция β(ω) измерима относительно «своей» σ-алгебры F0 . Доказательство. Для любого борелевского множества B ∈ B согласно (3.64) найдется набор индексов 1 ⩽ i1 < . . . < iM ⩽ N (M ⩽ N ) такой, что {ω : β(ω) ∈ B} = M [ Hik ∈ F0 . k=1 Это и означает F0 -измеримость функции β(ω). C2. Для любого случайного события A ∈ F0 выполняется равенство Z Z ξ(ω)P(dω) = E{ξ|F0 }P(dω). A ¤ (3.65) A Доказательство. Применим к правой части свойство аддитивности интеграла ! à N [ (A ∩ Hk ) , теорему 3.11 и формулу (3.64): Лебега A ≡ k=1 Z E{ξ|F0 }P(dω) = A = N X Z N X ξ(ω)P(dω) = k=1 A∩H k P(A ∩ Hk )E{ξ|Hk } = P(A) · k=1 Z ×P{Hk |A} = P(A) · E{ξ|A} = N X E{ξ|Hk }× k=1 ξ(ω)P(dω). A ¤ Перейдем теперь к рассмотрению общего случая для σ-подалгебры F0 ⊂ F. Как известно, случайная величина ζ = ζ(ω) : Ω → R является F0 -измеримой, если для любого интервала ∆ ∈ B {ω : ζ(ω) ∈ ∆} ∈ F0 . 3.7. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ ОТНОСИТЕЛЬНО σ-АЛГЕБРЫ 93 Определение 3.18. Случайная величина ζ = E{ξ|F0 } называется условным математическим ожиданием случайной величины ξ относительно σ-алгебры F0 ⊂ F, если: 1) случайная величина ζ является F0 -измеримой; 2) для всех A ∈ F0 выполняется равенство, аналогичное (3.65): Z Z ξ(ω)P(dω) = ζ(ω)P(dω). (3.66) A A Замечание 3.14. Эти два условия однозначно с вероятностью 1 определяют случайную величину ζ(ω). Действительно, если ζ1 = ζ1 (ω) также удовлетворяет условиям 1) и 2), то, поскольку {ζ1 − ζ ⩾ 0}, {ζ − ζ1 > 0} ∈ F0 , имеем цепочку равенств: Z Z |ζ(ω) − ζ1 (ω)|P(dω) = (ζ1 (ω) − ζ(ω))P(dω)+ Ω {ζ1 −ζ ⩾ 0} Z + Z (ζ(ω) − ζ1 (ω))P(dω) = {ζ−ζ1 >0} {ζ1 −ζ ⩾ 0} Z + (ξ(ω) − ξ(ω))P(dω)+ (ξ(ω) − ξ(ω))P(dω) = 0. {ζ−ζ1 >0} п. н. Отсюда следует: ζ1 (ω) = ζ(ω). Отметим еще, что E{ξ|F0 } существует, если E{|ξ|} < ∞. Теорема 3.13. Если F0 = Fη − σ-алгебра, порожденная случайной величиной η = = η(ω), то (3.66) и (3.62) эквивалентны. Доказательство. Формула (3.66) – частный случай (3.62) при h(η) = 11A (η). Пусть теперь выполняется (3.66). Тогда (3.62) верна при h(η) = 11A (η). В силу свойства линейности математического ожидания равенство (3.62) будет верно и для простых функций h(·). Далее, действуя как и при построении интеграла Лебега, доказываем, что равенство (3.62) верно и для любых ограниченных борелевских функций. ¤ Определение 3.19. Выражение P{A|F0 } = E{11A (ω)|F0 } называется условной вероятностью случайного события A ∈ F относительно σ-алгебры F0 . Определение 3.20. Действительная функция Fξ (x|F0 ) = P{ξ < x|F0 }, x ∈ R, называется условной функцией распределения случайной величины ξ относительно σ-алгебры F0 . Если эта условная функция распределения абсолютно непрерывна: ∞ Z Fξ (x|F0 ) = pξ (t|F0 ) dt, x ∈ R, −∞ то pξ (x|F0 ) ≥ 0 называется условной плотностью распределения величины ξ относительно σ-алгебры F0 . 94 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Свойства условного математического ожидания и условной вероятности относительно σ-алгебры F0 ⊂ F п. н. п. н. C1. Если c = const и ξ = c, то E{ξ|F0 } = c. п. н. п. н. C2. Если ξ ⩽ η, то E{ξ|F0 } ⩽ E{η|F0 }. п. н. C3. |E{ξ|F0 }| ⩽ E{|ξ||F0 }. C4. Если a, b – постоянные и a · E{ξ} + b · E{η} определено, то п. н. E{aξ + bη|F0 } = aE{ξ|F0 } + bE{η|F0 }. Доказательство. Вышеприведенные свойства очевидным образом вытекают из определения 3.18 и ранее установленных свойств интеграла Лебега. ¤ C5. Если F0 = {∅, Ω} – тривиальная σ-подалгебра F, то условное математическое ожидание почти наверное совпадает с безусловным математическим ожиданием: п. н. E{ξ|F0 } = E{ξ}. (3.67) Доказательство. Достаточно проверить свойства 1) и 2) в определении 3.18. Константа E{ξ} является F0 -измеримой величиной, поэтому свойство 1) выполнено. Если A = Ω или A = ∅, то, очевидно, выполняется (3.66), так что свойство 2) также выполнено в случае (3.67). ¤ C6. Если F0 = F, то справедливо равенство п. н. E{ξ|F} = ξ. (3.68) Доказательство. Проверим свойства 1), 2) определения 3.18. Случайная величина ξ F -измерима, и в случае (3.68) соотношение (3.66) выполняется тождественно: Z Z ξ(ω)P(dω) = ξ(ω)P(dω), A ∈ F. A A ¤ C7. Для двух вложенных σ-подалгебр F1 ⊆ F2 справедливо соотношение п. н. E{E{ξ|F2 }|F1 } = E{ξ|F1 }. (3.69) Доказательство. Пусть A ∈ F1 . Тогда Z Z E{ξ|F1 }P(dω) = ξ P(dω). A A В силу вложенности σ-подалгебры F1 событие A ∈ F2 , поэтому Z Z Z E{E{ξ|F2 }|F1 }P(dω) = E{ξ|F2 }P(dω) = ξ P(dω). A A A Следовательно, ∀A ∈ F1 : Z Z E{ξ|F1 }P(dω) = E{E{ξ|F2 }|F1 }P(dω). A A Из этого интегрального равенства в силу произвола A ∈ F1 и свойства интеграла Лебега (см. замечание 3.14) заключаем справедливость (3.69). ¤ 3.7. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ ОТНОСИТЕЛЬНО σ-АЛГЕБРЫ 95 C8. Справедлива обобщенная формула полного математического ожидания E{E{ξ|F0 }} = E{ξ}. (3.70) Доказательство. Соотношение (3.70) вытекает из свойств C6, C7, если положить F1 = {∅, Ω} и F2 = F. ¤ Следствие 3.15. Справедлива обобщенная формула полной вероятности: E{P{A|F0 }} = P(A), A ∈ F. Доказательство. Достаточно положить в (3.70) ξ(ω) = 11A (ω), ω ∈ Ω. C9. Если F2 ⊆ F1 , то п. н. E{E{ξ|F2 }|F1 } = E{ξ|F2 }. ¤ (3.71) Доказательство. ∀A ∈ F1 по определению 3.18 условного математического ожидания E{E{ξ|F2 }|F1 } имеем Z Z E{E{ξ|F2 }|F1 }P(dω) = E{ξ|F2 }P(dω). A A Функция E{ξ|F2 } – F2 -измерима, а так как F2 ⊆ F1 , то и F1 -измерима. Отсюда в силу произвола A ∈ F1 следует (3.71). ¤ C10. Если случайная величина ξ с конечным математическим ожиданием не зависит от σ-подалгебры F0 ⊂ F (т. е. ξ не зависит от случайных величин Бернулли 11B , B ∈ ∈ F0 ), то п. н. E{ξ|F0 } = E{ξ}. (3.72) Доказательство. Проверим свойства 1), 2) определения 3.18. Поскольку E{ξ} – константа, то она F0 -измерима, т. е. свойство 1) выполнено. Для выполнения свойства 2) надо проверить равенство ∀B ∈ F0 : Z Z ξ P(dω) = E{ξ} P(dω). (3.73) B A Правая часть (3.73), очевидно, равна Z E{ξ} P(dω) = P(B) · E{ξ}. B Левая часть в силу свойства мультипликативности математического ожидания равна Z ξ P(dω) = E{ξ · 11B } = E{ξ} · E{11B } = P(B) · E{ξ}, B так что (3.73) выполняется. Следовательно, имеет место соотношение (3.72). ¤ C11. Если E{|η|} < ∞, E{|ξη|} < ∞, то F0 -измеримый множитель η = η(ω), ω ∈ Ω, можно выносить из-под знака условного математического ожидания: п. н. E{ξη|F0 } = η · E{ξ|F0 }. 96 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН C12. Пусть ξ = ξ(ω) – произвольная случайная величина, определенная на вероятностном пространстве (Ω, F, P ), F1 ⊂ F2 ⊂ F3 ⊂ . . . ⊂ F – поток σ-подалгебр, а F∞ – ∞ [ наименьшая σ-алгебра, содержащая Fk . Тогда имеет место предельный переход k=1 по условию в условном математическом ожидании: п. н. lim E{ξ|Fk } = E{ξ|F∞ }. k→∞ В заключение докажем существование F0 -измеримой случайной величины ζ(ω), удовлетворяющей (3.66) для любого A ∈ F0 , с помощью теории меры. Обозначим числовую функцию множеств Q = Q(A), определяемую левой частью (3.66): Z Q = Q(A) = ξ(ω)P(dω), A ∈ F0 . (3.74) A Воспользуемся введенным в п. 3.2 представлением СВ ξ = ξ(ω) через неотрицательные случайные величины ξ+ , ξ− ⩾ 0 : ξ(ω) = ξ+ (ω) − ξ− (ω). Тогда Z + − ± ± Q = Q(A) = Q (A) − Q (A), Q = Q (A) = ξ± (ω)P(dω), A ∈ F0 . A Из свойств интеграла Лебега следует: 1) функции Q+ = Q+ (A), Q− = Q− (A), A ∈ F0 , удовлетворяют всем аксиомам меры и поэтому являются некоторыми мерами, причем min(Q+ (Ω), Q− (Ω)) < ∞; 2) мера Q = Q(A) абсолютно непрерывна относительно меры P = P(A), т. е. если P(A) = 0, то Q(A) = 0. Это свойство называется еще доминируемостью мер и обозначается так: Q ¿ P. При этом справедлив и обратный результат, выражаемый теоремой Радона – Никодима. Теорема 3.14 (теорема Радона – Никодима). Пусть на измеримом пространстве (Ω, F0 ) заданы две меры: µ – σ-конечная мера и λ – мера со знаком (т. е. λ = λ1 − λ2 , где одна из мер λ1 или λ2 конечна), являющаяся абсолютно непрерывной относительно µ. Тогда существует F0 -измеримая функция f = f (ω) со значениями из расширенной прямой R = [−∞, +∞] такая, что Z λ(A) = f (ω)µ(dω), A ∈ F0 . (3.75) A С точностью до множеств µ-меры нуль-функция f (ω) единственна: если h = h(ω) – другая F0 -измеримая функция такая, что Z λ(A) = h(ω)µ(dω), A ∈ F0 , A то µ{ω : f (ω) 6= h(ω)} = 0. При этом если λ = λ(A) ⩾ 0 – мера, то f = f (ω) принимает значения в R+ = [0, +∞]. Определение 3.21. Подынтегральная функция f = f (ω) в интеграле Лебега (3.75) называется производной Радона – Никодима (или плотностью) меры λ(·) отdλ dλ или (ω). носительно меры µ(·) и обозначается dµ dµ 3.8. МОМЕНТЫ СКАЛЯРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 97 Положим в (3.75) µ(·) = P(·), а λ(·) = Q(·), где мера Q(·) определяется (3.74). Тогда, сравнивая (3.74) и (3.75), согласно теореме Радона – Никодима получаем, что ζ = f (ω) = E{ξ|F0 } ≡ dQ (ω), dP т. е. условное математическое ожидание СВ ξ относительно σ-алгебры F0 есть не что иное как производная Радона – Никодима меры Q относительно меры P (рассматриваемых на (Ω, F0 )). Отметим еще, что в соответствии с теоремой Радона – Никодима условное математическое ожидание E{ξ|F0 } определяется однозначно лишь с точностью до множеств P-меры нуль. 3.8. МОМЕНТЫ СКАЛЯРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И ИХ СВОЙСТВА Определение 3.22. Пусть на (Ω, F, P ) определена случайная величина ξ = ξ(ω) и k ∈ N. Начальным моментом k-го порядка случайной величины ξ называется число © ª νk = E ξk = +∞ Z xk dFξ (x). −∞ © ª Число E |ξ|k называется абсолютным начальным моментом k-го порядка. ◦ ◦ Определение 3.23. Случайная величина ξ=ξ (ω) ::= ξ(ω)−E{ξ} называется центрированной случайной величиной, для которой выполняется следующее тождество: ½ ¾ ◦ E ξ ≡ 0. Определение 3.24. Центральным моментом k-го порядка случайной величины ξ +∞ ½◦¾ Z © ª k k называется число µk = E ξ = E (ξ − E{ξ}) = (x − E{ξ})k dFξ (x), при этом ½ ◦ E |ξ| −∞ ¾ k – абсолютный центральный момент. Свойства моментов скалярной случайной величины C1. Для любой случайной величины ξ справедливы равенства: ν1 = E{ξ}, µ1 ≡ 0. C2. Если для некоторого t > 0 ограничен момент порядка t, то для ∀s, 0 < s < t, ограничены моменты низших порядков s. Доказательство. Достаточно воспользоваться неравенством Ляпунова. ¤ C3. Для гауссовской случайной величины ξ, L{ξ} = N1 (a, B), справедливо равенство ½ 0, k − нечетное, µk = B k/2 (k − 1)!!, k − четное. C4. (Связь начальных и центральных моментов.) Справедливы следующие соотношения: k k X X Ckl νl (−ν1 )k−l , k ∈ N. νk = Ckl µl (ν1 )k−l ; µk = l=0 l=0 98 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Доказательство. Используя свойства математического ожидания, имеем ) (µ ( k ¶k ) X µ ◦ ¶l ◦ νk ≡ E =E Ckl ξ (ν1 )k−l = ξ +ν1 (µ ¶ )l=0 k k X X ◦ l l k−1 = Ck (ν1 ) E = Ckl (ν1 )k−l µl . ξ l=0 l=0 Второе соотношение доказывается аналогично. Следствие 3.16. Справедливы следующие формулы: © ª µ2 = ν2 − ν21 = E ξ2 − E2 {ξ} ⩾ 0, ¤ (µ ¶ ) ν2 = µ2 + ν21 = E ◦ ξ 2 + E2 {ξ}. C5. (Проблема моментов.) Если выполняется критерий Карлемана, т. е. если расходится ряд +∞ X 1 = ∞, √ 2k µ 2k k=1 то набор всевозможных начальных моментов {νk } однозначно определяет функцию распределения Fξ (·). 3.9. ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И ЕЕ СВОЙСТВА Определение 3.25. Пусть ξ = ξ(ω) – произвольная случайная величина на вероятностном пространстве (Ω, F, P ), имеющая функцию распределения Fξ (x). Дисперсией этой случайной величины называется ее центральный момент второго порядка: +∞ Z (x − E{ξ})2 dFξ (x) ⩾ 0, D{ξ} = σ2ξ ::= µ2 = E{(ξ − E{ξ})2 } = (3.76) −∞ p при этом σξ = D{ξ}⩾0 называется среднеквадратическим (стандартным) отклонением случайной величины. Справедливы формулы N X D{ξ} = (ai − E{ξ})2 P{ξ = ai }, i=1 если ξ ∈ {a1 , . . . , aN } – дискретная случайная величина, N ⩽ + ∞; +∞ Z (x − E{ξ})2 pξ (x) dx, D{ξ} = −∞ если ξ – абсолютно непрерывная случайная величина с плотностью распределения pξ (x) = Fξ0 (x). Дисперсия характеризует среднеквадратичное рассеяние (разброс) случайной величины относительно точки E{ξ}. 99 3.9. ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И ЕЕ СВОЙСТВА Свойства дисперсии C1. Для основных законов распределения вероятностей дисперсия вычисляется по формулам, приведенным в табл. 3.1. Задание 3.1. Заполнить табл. 3.1 для всех ранее изученных основных законов распределения вероятностей. C2. D{ξ} ⩾ 0. п. н. C3. D{ξ} = 0 ⇔ ξ = const = E{ξ}. Доказательство. Используя свойства математического ожидания, получаем цепочку равенств (µ ¶ ) ◦ 2 ◦ п. н. п. н. D{ξ} = E = 0 ⇔ξ = 0 ⇔ ξ = E{ξ}. ξ ¤ Таблица 3.1 L{ξ} Bi(1, p) Bi(K, p) E{ξ} p Kp D{ξ} p(1 − p) Kp(1 − p) R[a, b] a+b 2 (b − a)2 12 N1 (a, B) Q (λ) ... a λ ... B λ ... C4. При линейном преобразовании случайной величины дисперсия изменяется следующим образом: D{aξ + b} = a2 D{ξ}, ∀a, b ∈ R. Доказательство. По формуле (3.76) имеем (µ ¶ ) ◦ 2 D{aξ + b} = E{(aξ + b − E{aξ + b})2 } = E aξ = (µ ¶ ) ◦ 2 = a2 D{ξ}. =a E ξ 2 ¤ Следствие 3.17. D{ξ + b} = D{ξ}. Следствие 3.18. D{−ξ} = D{ξ}. C5. Дисперсия суммы двух случайных величин удовлетворяет следующему равенству: D{ξ + η} = D{ξ} + D{η} + 2E{(ξ − E{ξ})(η − E{η})}. Доказательство. Имеем цепочку равенств: (µ ¶2 ) ½ ¾ ◦ ◦◦ ◦ η D{ξ + η} = E + = D{ξ} + D{η} + 2E ξ ξη . ¤ C6. (Неравенство Чебышева относительно дисперсии.) Для любой случайной величины ξ = ξ(ω), имеющей конечное математическое ожидание E{ξ} и дисперсию D{ξ}, и любого ² > 0 справедливо неравенство P{(ξ − E{ξ}) ⩾ ²} ⩽ D{ξ} . ²2 (3.77) 100 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Доказательство. Из неравенства Чебышева относительно математического ожидания имеем ½ ¾ ◦ ½ ¯ ¯ ¾ E ξ2 ¯◦¯ P t ¯¯ξ¯¯ ⩾² ⩽ ²2 = D{ξ} . ²2 ¤ 8 Следствие 3.19 (правило «3σ»). С вероятностью, не меньшей , случайная 9 величина ξ концентрируется в 3σ-окрестности своего математического ожидания, p т. е. в окрестности U = (E{ξ} − 3σ, E{ξ} + 3σ), где σ = D{ξ}. Доказательство. Используя (3.77), оценим P{ξ ∈ / U } ≡ P{|ξ − E{ξ}| ⩾ 3σ} ⩽ σ2 1 = . 2 (3σ) 9 ¤ Задание 3.2. Обобщить правило «3σ» в правило «kσ», k > 0. Замечание 3.15. Правило «3σ» верно для любой случайной величины и поэтому широко используется на практике. 3.10. МОМЕНТЫ МНОГОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ, КОВАРИАЦИЯ, КОВАРИАЦИОННАЯ МАТРИЦА, КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ И ИХ СВОЙСТВА Определение 3.26. Пусть на пространстве (Ω, F, P ) определены случайный вектор ξ = (ξ1 , . . . , ξn )T ∈ Rn и математические ожидания mi = E{ξi }, m = = (m1 , . . . , mn )T = E{ξ} ∈ Rn – вектор математического ожидания. Пусть далее k ∈ N, k1 , . . . , kn – неотрицательные целые числа, задающие разбиение k, т. е. k = = k1 + k2 + . . . + kn . Тогда центральным смешанным моментом порядка k называется число © ª µk1 ,...,kn ::= E (ξ1 − m1 )k1 · . . . · (ξn − mn )kn . Определение 3.27. Ковариацией (от англ. covariance – взаимное изменение) случайных величин ξi , ξj называется центральный смешанный момент второго порядка: σij = cov{ξi , ξj } = E{(ξi − mi )(ξj − mj )}, i, j = 1, . . . , n. (3.78) При этом (n × n)-матрица Σ = (σij ) называется ковариационной матрицей. для практических вычислений ковариации. Если ξ ©Приведем формулы ª ∈ a(1) , . . . , a(N ) – дискретный случайный вектор, то σij = ∈ N ³ ´³ ´ n o X (l) (l) (l) (l) ai − mi aj − mj P ξi = ai , ξj = aj . l=1 Если ξ имеет абсолютно непрерывную плотность, то ∞ Z ∞ Z (xi − mi )(xj − mj )pξi ,ξj (xi , xj )dxi dxj , i 6= j, σij = (3.79) −∞ −∞ где pξi ,ξj (xi , xj ) – совместная плотность распределения случайных величин ξi , ξj . 3.10. МОМЕНТЫ МНОГОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ 101 Свойства ковариации и ковариационной матрицы C1. Для практических вычислений ковариации удобна формула σij = E{ξi ξj } − E{ξi } · E{ξj }, i, j = 1, . . . , n. (3.80) Доказательство. Используя (3.78) и свойства математического ожидания, получаем требуемое. ¤ C2. Справедливы матричные формулы: © ª Σ = E (ξ − Eξ) · (ξ − Eξ)T , © ª Σ = E ξ · ξT − E{ξ} · (E{ξ})T . Доказательство. Из (3.78), (3.80) и матричных правил получим матрицу под знаком E, а вследствие покомпонентного действия E получаем доказываемое. ¤ C3. Ковариация и ковариационная матрица – объекты симметричные, т. е. σij = σji , Σ = ΣT . C4. Диагональные элементы ковариационной матрицы являются дисперсиями: σii = = E {(ξi − E{ξi })2 } = D{ξi }, i = 1, . . . , n. √ C5. Внедиагональные элементы ковариационной матрицы ограничены: |σij | ⩽ σii · σjj , i, j = 1, . . . , n. Доказательство. Из неравенства Коши – Буняковского v ( (µ ¶ ) ¯ ½ ¾¯ u µ ¶2 ) 2 ◦ ◦ ◦ ◦ ¯ ¯ u √ t ¯ ¯ = σii · σjj . ·E |σij | = ¯E ξi · ξj ¯ ⩽ E ξj ξi ¤ C6. Ковариационная матрица – матрица неотрицательно определенная, т. е. ∀u ∈ Rn квадратичная форма Q(u) = uT Σu ⩾ 0. Доказательство. В силу C2 имеем (µ ( µ ¶ ) ¶) ◦ ◦ Q(u) = uT E ξ · ξ T u=E ◦ uT ξ 2 ⩾ 0. ¤ Задание 3.3. Разработать алгоритм генерации (случайным образом) ковариационной матрицы. C7. Если ξi и ξj независимы, то их ковариация равна нулю: σij = cov{ξi , ξj } = 0. Доказательство. Воспользуемся мультипликативным свойством математического ожидания: ½ ¾ ½ ¾ ½ ¾ ◦ ◦ ◦ ◦ σij = E ξi · ξj = E ξi · E ξj = 0 · 0 = 0. ¤ C8. Если ξ – гауссовский случайный вектор с нормальным распределением: L{ξ} = = Nn (a, B), то его ковариационная матрица Σ = B. ¤ Доказательство. Провести самостоятельно, пользуясь формулой (3.79). Определение 3.28. Коэффициентом корреляции случайных величин ξi , ξj называется их нормированная ковариация: cov(ξi , ξj ) σij , i, j = 1, . . . , n. =√ σ D{ξi }D{ξj } ii σjj ρij = corr{ξi , ξj } ::= p (3.81) При этом иногда (n × n)-матрица ρ = (ρij ) называется корреляционной матрицей. 102 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Свойства коэффициента корреляции C1. Коэффициент корреляции – величина симметричная: ρij = ρji . C2. Коэффициент корреляции ограничен: −1 ⩽ ρij ⩽ +1. √ Доказательство. По свойству ковариации |σij | ⩽ σii σjj , и из (3.81) следует доказываемое. ¤ C3. Диагональные элементы корреляционной матрицы равны единице: ρii = 1, i = = 1, . . . , n. C4. Если случайные величины ξi и ξj независимы, то их коэффициент корреляции равен нулю: ρij = 0. Доказательство. Результат следует из соответствующего свойства ковариации. ¤ Определение 3.29. Случайные величины ξi , ξj , i 6= j, для которых ρij = 0, называются некоррелированными. Следствие 3.20. Если случайные величины ξi , ξj – независимые, то они некоррелированные. Обратное, вообще говоря, неверно. Доказательство. Первое утверждение следует из C4. Второе утверждение доказывается контрпримером: n = 2, L{ξ1 } = N (0, 1), ξ2 = ξ21 . Случайные величины 3 ξ1 , ξ2 зависимы, ¤ µ ¶ но некоррелированы: σ12 = cov{ξ1 , ξ2 } = E{ξ1 } = 0. ξ1 C5. Если ξ = ∈ R2 – гауссовский случайный вектор с нормальным распределениξ2 ем N2 (a, B), то понятия независимости и некоррелированности случайных величин ξ1 , ξ2 совпадают. Доказательство. Из свойств ковариационной матрицы имеем µ ¶ σ11 σ12 Σ= = B. σ21 σ22 С другой стороны, из критерия независимости гауссовских случайных величин имеем B = diag{b11 , b22 }, или µ ¶ b11 0 B= . 0 b22 Следовательно, σ12 = 0, что равносильно независимости ξ1 и ξ2 . ¤ C6. Коэффициент корреляции принимает свои экстремальные значения ρij = ±1 тогда и только тогда, когда случайные величины ξi и ξj связаны почти наверное линейной п. н. зависимостью: ξj = a + bξi , a, b – постоянные. Доказательство. Введем в рассмотрение так называемые нормированные слу◦ √ чайные величины: ξ∗k = ξk / σkk , k ∈ {i, j}. Тогда по построению E{ξ∗k } = 0, D{ξ∗k } = 1. С помощью этих нормированных случайных величин построим еще одну величину: ζ = ξ∗j − ρij ξ∗i . По построению E{ζ} = 0. Тогда вычислим E{ζ2 } = E{(ξ∗j − ρij ξ∗i )2 } = 1 − 2ρij · E{ξ∗i · ξ∗j } + ρ2ij = 1 − ρ2ij . Имея это в виду, получаем п. н. п. н. |ρij | = 1 ⇔ E{ζ2 } = 0 ⇔ ζ = 0 ⇔ ξ∗j = ρij ξ∗i , но ρij = ±1, т. е. ξj − mj п. н. ξi − mi п. н. п. н. ξ∗j = ± ξ∗i ⇔ √ = ± √ ⇔ ξj = a + bξi , σjj σii 3.11. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ где r a = mj ∓ σjj mi , σii r b=± 103 σjj . σii ¤ Следствие 3.21. Модуль коэффициента корреляции ρij есть мера линейной зависимости случайных величин: чем больше |ρij |, тем сильнее эта зависимость. C7. Справедлива следующая формула для дисперсии суммы случайных величин: p D{ξ1 + ξ2 } = D{ξ1 } + D{ξ2 } + 2ρ12 D{ξ1 }D{ξ2 }. Доказательство. По формуле (3.81) имеем (µ ¶) D{ξ1 + ξ2 } = E ◦ ◦ 2 ξ1 + ξ2 (µ ¶ ) 2 ◦ =E + ξ1 (µ ¶ ) ½ ¾ 2 ◦ ◦ ◦ +E + 2E ξ1 · ξ2 . ξ2 ¤ Следствие 3.22. Если СВ ξ1 , ξ2 – некоррелированные (или независимые), то дисперсия суммы равна сумме дисперсий величин. Доказательство. В свойстве C7 положим ρ12 = 0 и получим требуемое. ¤ 3.11. ЭНТРОПИЯ, КОЛИЧЕСТВО ИНФОРМАЦИИ ПО ШЕННОНУ И ДРУГИЕ ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Определение 3.30. Пусть ξ = (ξi ) ∈ Rn – случайный n-вектор, заданный на вероятностном пространстве (Ω, F, P ), имеющий плотность распределения pξ (x), x ∈ ∈ Rn . Тогда энтропией случайного вектора ξ называется величина Z H{ξ} ::= E{− ln pξ (ξ)} = − pξ (x) ln pξ (x)dx. (3.82) Rn Если ξ ∈ {a1 , . . . , aN } – дискретный случайный вектор, тогда H{ξ} = − N X P{ξ = ak } · ln P{ξ = ak }. k=1 Свойства энтропии ξ C1. Энтропия составного случайного вектора: . . . ∈ Rn+m не превосходит суммы η энтропий каждого из подвекторов: H{ξ, η} ⩽ H{ξ} + H{η}. (3.83) Доказательство. Воспользуемся неравенством Йенсена и вычислим разность между правой и левой частями (3.83) с учетом определения (3.82): ½ ¾ pξ (ξ)pη (η) H{ξ} + H{η} − H{ξ, η} = E − ln . pξ,η (ξ, η) 104 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Функция z = − ln(y) выпуклая, и по неравенству Йенсена ½ ¾ ½ ¾ pξ (ξ)pη (η) pξ (ξ)pη (η) E − ln ⩾ − ln E = pξ,η (ξ, η) pξ,η (ξ, η) Z Z = − ln pξ,η (x, y) Rn Rm pξ (x)pη (y) dxdy = − ln 1 = 0. pξ,η (x, y) ¤ C2. Если ξ и η – независимые случайные векторы, то H{ξ, η} = H{ξ} + H{η}. Доказательство. В доказательстве C1 по критерию независимости pξ,η (ξ, η) = = pξ (ξ)pη (η), и получим равенство. ¤ Определение 3.31. Количеством информации по Шеннону, содержащейся в случайном векторе ξ о случайном векторе η, называется величина I{ξ, η} = H{ξ} + H{η} − H{ξ, η}. Свойства количества информации по Шеннону C1. I{ξ, η} ⩾ 0. Доказательство. Достаточно воспользоваться свойством C1 энтропии. ¤ Задание 3.4. Если случайный вектор ξ√ = (ξ1 , ξ2 )0 имеет нормальное распределение N2 (µ, Σ), то энтропия равна H{ξi } = ln 2πeσii , i = 1, 2, а количество информации по Шеннону 1 I{ξ1 , ξ2 } = ln p , 1 − ρ212 где ρ12 – коэффициент корреляции ξ1 и ξ2 . C2. I{ξ, η} – симметричный функционал, т. е. I{ξ, η} = I{η, ξ}. C3. Если ξ, η – независимы, то каждая из них несет нулевую информацию о другой случайной величине, т. е. I{ξ, η} = 0. Доказательство. Достаточно применить свойство C2 энтропии. ¤ Определение 3.32. Пусть ξ – некоторая случайная величина с плотностью распределения pξ (x). Тогда точка M = arg maxx pξ (x) называется модой распределения вероятностей. Определение 3.33. Пусть ξ – СВ с функцией распределения F (x), 0 ⩽ p ⩽ 1. Тогда наименьший корень уравнения F (z) = p обозначается zp = F −1 (p) и называется квантилью уровня p. Определение 3.34. Квантиль уровня p = 1/2 z0,5 = m называется медианой распределения вероятностей. Для нее характерно свойство P{ξ < m} = P{ξ ⩾ m} = 1/2. Задание 3.5. Показать, что если случайная величина ξ имеет распределение вероятностей N (µ, σ2 ), то M = m = µ. 3.12. ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ И ЕЕ СВОЙСТВА Определение 3.35. Пусть ξ = ξ(ω) : Ω → R – произвольная случайная величина, заданная на вероятностном пространстве (Ω, F, P ) и имеющая функцию распределения Fξ (x) = P{ξ < x}, x ∈ R. Тогда характеристической функцией случайной величины ξ называется комплекснозначная функция действительной переменной t, задаваемая соотношением 3.12. ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ И ЕЕ СВОЙСТВА © ª fξ (t) = E eitξ = 105 +∞ Z eitx dFξ (x), t ∈ R, fξ (t) ∈ C. (3.84) −∞ В соотношении (3.84) i – мнимая единица, интеграл в правой части – интеграл Лебега – Стилтьеса. Замечание 3.16. Математическое ожидание в (3.84) вычисляется с помощью формулы Эйлера © ª E eitξ = E{cos(tξ)} + iE{sin(tξ)}. Замечание 3.17. Для практических вычислений удобны формулы: fξ (t) = N X eitak · P{ξ = ak }, (3.85) k=1 если ξ ∈ {a1 , . . . , aN } – дискретная случайная величина, N ⩽ +∞; +∞ Z eitx pξ (x)dx, fξ (t) = (3.86) −∞ если ξ – абсолютно непрерывная случайная величина с плотностью распределения вероятностей pξ (x) = Fξ0 (x). Замечание 3.18. Из формулы (3.86) видно, что fξ (t) – преобразование Фурье от плотности распределения вероятностей. Свойства характеристической функции C1. Для основных законов распределения вероятностей характеристическая функция имеет следующий вид: а) для случайной величины Бернулли: L{ξ} = Bi(1, p), согласно (3.85), имеем fξ (t) = eit·0 (1 − p) + eit·1 · p = 1 + p(eit − 1), t ∈ R; б) L(ξ) = Bi(K, p) ⇒ fξ (t) = (1 + p(eit − 1))K ; it в) L(ξ) = Π(λ) ⇒ fξ (t) = eλ(e −1) ; 1 2 x2 1 г) L(ξ) = N (0, 1) ⇒ fξ (t) = e− 2 t , pξ (x) = √ e− 2 ; 2π 1 , t ∈ R. д) L(ξ) = E(λ) ⇒ fξ (t) = 1 1 − it λ Задание 3.6. Вычислить характеристические функции для основных законов распределения вероятностей, пользуясь формулами (3.85), (3.86), и внести в таблицу основных законов. C2. fξ (0) = 1, и характеристическая функция ограничена следующим образом: |fξ (t)| ⩽ 1 = fξ (0), ∀t ∈ R. (3.87) Доказательство. Положим t = 0 в (3.84): fξ (0) = E {ei·0 } ©= 1.ª Оценим ¯ª ©¯ левую часть (3.87). По свойству математического ожидания имеем |E eitξ | ⩽ E ¯eitξ ¯ = = 1. ¤ Следствие 3.23. Характеристическая функция существует для любой случайной величины. 106 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН C3. При комплексном сопряжении характеристическая функция изменяется следующим образом: fξ (t) = fξ (−t) = f−ξ (t), ∀t ∈ R. (3.88) Доказательство. Согласно (3.84) и замечанию 3.16 имеем fξ (t) = © ª © ª © формуле ª = E e−itξ ≡ E ei(−t)ξ ≡ E eit(−ξ) . ¤ Следствие 3.24. Если характеристическая функция действительна, то она четна. Доказательство. Мнимая часть равна нулю, следовательно, согласно (3.88) fξ (t) = fξ (t) = fξ (−t). ¤ C4. При линейном преобразовании η = a + bξ, где a, b – любые постоянные, характеристическая функция изменяется следующим образом: fa+bξ (t) = eita fξ (bt). (3.89) Доказательство. Из (3.84) и свойств математического ожидания имеем: © ª © ª левая часть (3.89) = E eit(a+bξ) = E eita · ei(bt)ξ = = правая часть (3.89). ◦ 2 ◦ ¤ Замечание 3.19. L{ξ} = N (a, σ ) ⇒ ξ = a + σ · ξ , где ξ ∼ N (0, 1). 1 1 2 2 2 Используя C4, имеем fξ (t) = eita · e− 2 (σt) = eita− 2 t σ . C5. Пусть ξ1 , . . ., ξn – независимые в совокупности случайные величины, определенные на одном и том же вероятностном пространстве (Ω, F, P ). Характеристическая функция суммы η = ξ1 + . . . + ξn равна произведению их характеристических функций: n Y fξ1 +...+ξn (t) = fξk (t), t ∈ R. (3.90) k=1 Доказательство. Воспользуемся формулой (3.84) и свойством мультипликативности математического ожидания, тогда ) ( n Y © it(ξ1 +...+ξn ) ª eitξk . левая часть (3.90) = E e ≡E k=1 Поскольку все сомножители независимы в совокупности, то далее имеем левая часть (3.90) = n Y ª © E eitξk = правая часть (3.90). k=1 ¤ Следствие 3.25. Если вдобавок ξ1 , . . . , ξn одинаково распределены с одной и той же характеристической функцией fξ (t), то fξ1 +...+ξn (t) = (fξ (t))n , t ∈ R. (3.91) Замечание 3.20. С помощью (3.91) можно вывести характеристическую функцию для Bi(K, p), используя характеристическую функцию для распределения Бернулли. 3.12. ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ И ЕЕ СВОЙСТВА 107 C6. Характеристическая функция равномерно непрерывна на всей числовой прямой: ∀² > 0, ∃δ = δ(²) : |fξ (t + δ) − fξ (t)| ⩽ ², ∀t ∈ R. (3.92) Доказательство. Выберем ∀² > 0, t ∈ R, и пока произвольные δ > 0, x∗ > 0 имеем цепочку неравенств ¯ +∞ ¯ +∞ ¯Z ¯ Z ¯ ¯ itx iδx ¯ ¯ |fξ (t + δ) − fξ (t)| = ¯ e (e − 1)dFξ (x)¯ ⩽ |eitx |× ¯ ¯ −∞ −∞ Z |eiδx − 1|dFξ (x) + ×|eiδx − 1| dFξ (x) = |x|<x∗ Z |eiδx − 1|dFξ (x) ⩽ I(δ, x∗ ) + 2P{|ξ| ⩾ x∗ }. + |x| ⩾ x∗ Поскольку 2P{|ξ| ⩾ x∗ } = 2(1 − F|ξ| (x∗ )), F|ξ| (+∞) = 1, то найдется x∗ = x∗ (²) : 2(1 − F|ξ| (x∗ )) ⩽ ²/2. При фиксированном x∗ и δ → 0 : I(δ, x∗ ) → 0. Следовательно, найдется δ = = δ1 (², x∗ (²)) =:: δ(²) : I(δ, x∗ ) ⩽ ²/2. В результате получаем неравенство (3.92). ¤ C7. (Связь характеристической функции с моментами.) Пусть для некоторого натурального k ∈ N существует ограниченный начальный момент k-го порядка: νk = = E{ξk }, т. е. +∞ Z k E{|ξ| } = |x|k dFξ (x) < +∞. (3.93) −∞ Тогда характеристическая функция fξ (t) непрерывно дифференцируема k раз, причем выполняется следующее соотношение: (k) fξ (0) = ik · νk . (3.94) Доказательство. По условию, E|ξ|k < ∞, поэтому из неравенства Ляпунова следует, что E|ξ|2 < ∞ при r < k. Поскольку µ ihξ ½ ¶¾ e −1 fξ (t + h) − fξ (t) = E eitξ h h ¯ ¯ ¯ itξ eihξ − 1 ¯ eihξ − 1 ¯ ¯ ⩽ |ξ| и теоремы Лебега и при h → 0 → iξ, то из неравенства ¯e h h ¯ о сходимости мажорируемой последовательности имеем ½ µ ihξ ¶¾ © ª e −1 E eitξ → E iξeitξ . h→0 h Отсюда получаем © ª fξ (t + h) − fξ (t) → fξ0 (t) = iE ξeitξ , h→0 h что совпадает с (3.93) при k = 1. 108 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Существование производных f (r) (t), 1 < r ⩽ k, и справедливость равенства (3.91) устанавливаются по индукции. Данное доказательство обосновывает формальное дифференцирование соотношения (3.84) k раз по параметру t: +∞ Z (k) fξ (t) = (ix)k eitx dFξ (x), t ∈ R. (3.95) −∞ (k) Непрерывность функции fξ (t) доказывается, как в свойстве C6. Положим в (3.95) t = 0, в результате получим (3.94). ¤ Следствие 3.26. Справедлива следующая удобная формула для вычисления начального момента k-го порядка: νk = 1 (k) f (0), k ∈ N. ik ξ (3.96) Задание 3.7. С помощью (3.96) найти моменты произвольного порядка для гауссовской случайной величины: N (a, b). Следствие 3.27. Если конечен момент νk , то в окрестности точки t = 0 характеристическая функция допускает следующее разложение в виде степенного ряда: k X (it)j fξ (t) = 1 + · νj + o(|t|k ). j! j=1 Доказательство. Достаточно воспользоваться формулой Тейлора и формулой (3.94). ¤ C8. (Теорема обращения для характеристической функции.) Теорема 3.15. Пусть ξ = ξ(ω) – произвольная случайная величина на (Ω, F, P ), имеющая некоторую функцию распределения Fξ (x) и характеристическую функцию fξ (t). Пусть C(Fξ ) ⊆ R – множество точек непрерывности функции распределения Fξ (·) и x1 , x2 ∈ C(Fξ ), x1 < x2 . Тогда справедлива следующая формула обращения: 1 τ→+∞ 2π +τ Z Fξ (x2 ) − Fξ (x1 ) = lim e−itx1 − e−itx2 fξ (t)dt. it (3.97) −τ Доказательство. Из определения характеристической функции fξ (t) имеем цепочку равенств: +∞ ZT −itx ZT −itx2 −itx1 −itx2 Z 1 e −e 1 −e 1 e Q(T ) = fξ (t)dt = eitx dFξ (x) dt = 2π it 2π it −T −T −∞ T +∞ Z Z i(x−x )t 1 − ei(x−x2 )t 1 e dFξ (x) = = 2π it −∞ −T T +∞ Z Z 1 sin t(x − x1 ) − sin t(x − x2 ) dt dFξ (x) = = 2π t −∞ −T 109 3.12. ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ И ЕЕ СВОЙСТВА T T (x−x +∞ +∞ Z Z Z Z 1) 1 sin u sin t(x − x1 )− sin t(x − x2 ) dt dFξ (x)= 1 = du dFξ (x). π t π u −∞ 0 −∞ Поскольку ZT lim T →∞ T (x−x2 ) sin u du = π, u −T то 0, x < x1 ∨ x > x2 , 1 sin u 1 ψ(x) = lim du = , x = x1 ∨ x = x2 , T →∞ π u 2 T (x−x2 ) 1, x1 < x < x2 . T (x−x Z 1) Отсюда следует +∞ Z lim Q(T ) = T →∞ 1 ψ(x)dFξ (x) = E{ψ(ξ)} = P{ξ = x1 }+ 2 −∞ 1 + P{ξ = x2 } + P{x1 < ξ < x2 }. 2 Поскольку x1 , x2 – точки непрерывности функции Fξ (x), то P{ξ = x1 } = 0, P{ξ = x2 } = 0 и lim Q(T ) = P{x1 < ξ < x2 } = Fξ (x2 ) − Fξ (x1 ). T →∞ ¤ Замечание 3.21. Формула (3.97) обратна к (3.84). Действительно, в (3.84) приращению dFξ (·) ставится в соответствие характеристическая функция fξ (·), а в (3.97) функции fξ (·) – приращение ∆Fξ (·). C9. (Теорема единственности для характеристической функции.) Теорема 3.16. Функция распределения Fξ (·) и характеристическая функция fξ (·) находятся во взаимно-однозначном соответствии: Fξ (·) ⇔ fξ (·). Доказательство. а) Пусть задана Fξ (·). Тогда характеристическая функция однозначно определяется формулой (3.84). б) Пусть задана fξ (·). Тогда воспользуемся формулой обращения (3.97) и разобьем область определения функции распределения Fξ (·) на два непересекающихся подмножества: D(Fξ ) = C(Fξ ) ∪ C0 (Fξ ), где C(Fξ ) – множество точек непрерывности функции распределения; C0 (Fξ ) – множество точек разрыва. Рассмотрим два случая: 1) y ∈ C(Fξ ) – точка непрерывности. В (3.97) устремим x → −∞, тогда Fξ (−∞) = 0. По (3.97) имеем 1 Fξ (y) = lim lim x→−∞ τ→+∞ 2π +τ Z e−itx − e−ity fξ (t)dt. it −τ Таким образом, функция распределения восстанавливается на C(Fξ ). (3.98) 110 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН 2) z ∈ C0 (Fξ ), тогда воспользуемся свойством непрерывности слева: Fξ (z) ::= ::= Fξ (z − 0). Тем самым восстановим функцию распределения всюду. ¤ Замечание 3.22. Справедливо взаимно-однозначное соответствие: Pξ (·) ⇔ ⇔ Fξ (·) ⇔ fξ (·). Следствие 3.28. Если случайная величина ξ = ξ(ω) имеет абсолютно непрерывное распределение вероятностей с некоторой плотностью распределения pξ (x), x ∈ R, то плотность распределения вероятностей pξ (·) и характеристическая функция fξ (·) находятся во взаимно-однозначном соответствии, и это взаимно-однозначное соответствие задается парой преобразования Фурье: +∞ Z eitx pξ (x) dx =:: Φ{pξ (·)}, t ∈ R; fξ (t) = (3.99) −∞ 1 pξ (x) = 2π +∞ Z e−itx fξ (t) dt =:: Φ−1 {fξ (·)}, x ∈ R. (3.100) −∞ Доказательство. Соотношение (3.99) – это фактически (3.86), а (3.100) получается дифференцированием (3.98). ¤ C10. (Теорема Бохнера – Хинчина.) Теорема 3.17. Пусть f (t), t ∈ R, – произвольная комплекснозначная непрерывная ограниченная функция такая, что f (0) = 1. Для того чтобы функция f (t) являлась характеристической функцией некоторой случайной величины, необходимо и достаточно, чтобы эта функция была неотрицательно определенной, т. е. для ∀n ∈ N, ∀t1 , . . . , tn ∈ R, ∀λ1 , . . . , λn ∈ C была неотрицательна следующая квадратичная форма: n X Q= f (tj − tk )λj · λk ⩾ 0. (3.101) j,k=1 Доказательство. Необходимость. Пусть f (t) = E{eitξ } – характеристическая функция случайной величины ξ. Покажем, что выполняется (3.101). Подставим в левую часть (3.101) это выражение и проведем эквивалентные преобразования, используя свойства математического ожидания: n X © ª E ei(tj −tk )ξ λj · λk = j,k=1 ¯ ¯2 ) ( n n n ¯ ¯X X X ¯ ¯ ⩾ 0. eitj ξ λj ¯ =E eitj ξ λj · eitk ξ λk = E ¯ ¯ ¯ Q= j=1 k=1 j=1 Достаточность. Провести самостоятельно. ¤ C11. (Свойство Марцинкевича.) Пусть для некоторой случайной величины ξ характеристическая функция имеет вид fξ (t) = ePm (t) , t ∈ R, где Pm (t) – некоторый многочлен степени m от переменной t. Тогда необходимо, чтобы m ⩽ 2. С характеристической функцией тесно связаны еще два понятия: кумулянтная функция и производящая функция. Определение 3.36. Кумулянтной функцией случайной величины ξ называется функция φξ (t) = lnfξ (t). (В некоторых книгах можно встретить название «семиинвариантная функция».) 3.13. УПРАЖНЕНИЯ 111 Задание 3.8. Рассмотреть свойства кумулянтной функции, вытекающие из свойств характеристической функции. Определение 3.37. Пусть ξ – некоторая неотрицательная целочисленная случайная величина ξ ∈ {0, 1, 2, . . .} с некоторым дискретным распределением вероятностей: pk = P{ξ = k}, k ∈ {0, 1, . . .}. Производящей функцией случайной величины ξ называется комплекснозначная функция комплексной переменной z ∈ C, определенная в круге |z| ⩽ 1 в виде функционального ряда следующим образом: gξ (z) = E{z ξ } = +∞ X z k · pk . k=0 Следствие 3.29. Производящая и характеристическая функции связаны соотношением fξ (t) = gξ (eit ), t ∈ R. 3.13. УПРАЖНЕНИЯ 1. Для каких случайных величин (дискретных, непрерывных) E{1/X} = 1/E {X}? 2. Доказать, что D{ξ} = E{D{ξ|η}} + D{E{ξ|η}}. 3. Пусть ξ1 , . . . , ξn – независимые, одинаково распределенные случайные величины, причем существует E{1/ξ1 }; Sm = ξ1 + . . . + ξm . Доказать, что если m ⩽ n, то ½ ¾ Sm m E = . Sn n 4. Пусть ξ ⩾ 0 – неотрицательная случайная величина с плотностью распределения ∞ R вероятностей f (x). Доказать, что E{ξr } = rxr−1 P{ξ > x}dx для любого r ⩾ 1 0 такого, что указанное математическое ожидание существует. 5. Доказать, что математическое ожидание µ, медиана m, дисперсия σ2 непрерывной случайной величины ξ удовлетворяют неравенству (µ − m)2 ≤ σ2 . 6. Пусть L{ξ} = N (µ, σ2 ). Доказать, что E {(ξ − µ)g(ξ)} = σ2 E{g 0 (ξ)}, когда обе части существуют. 7. Пусть ξ1 , ξ2 – независимые одинаково распределенные случайные величины, L{ξ1 } = R[0, 1]; η+ = max(ξ1 , ξ2 ), η− = min(ξ1 , ξ2 ). Вычислить E{η± }, D{η± }, cov{η+ , η− }. 8. Пусть ξ1 , ξ2 – независимые случайные величины с конечными дисперсиями; η1 = = ξ1 + ξ2 , η2 = ξ1 ξ2 . При каком условии η1 и η2 некоррелированы? 9. Пусть corr{ξ1 , ξ2 } = ρ. Доказать, что E{D{ξ2 |ξ1 }} ⩽ (1 − ρ2 ) D{ξ2 }. 10. Пусть ξ1 , ξ2 имеют двухмерное нормальное распределение с нулевыми средними, дисперсиями σ21 , σ22 и коэффициентом корреляции ρ. Доказать: ρσ1 a) E{ξ1 |ξ2 = y} = y; D{ξ1 |ξ2 = y} = σ21 (1 − ρ2 ); σ2 (σ2 + ρσ1 σ2 )z σ2 σ2 (1 − ρ2 ) б) E{ξ1 |ξ1 +ξ2 = z} = 2 1 ; D{ξ1 |ξ1 +ξ2 = z} = 2 1 2 . 2 (σ1 + 2ρσ1 σ2 + σ2 ) (σ1 + 2ρσ1 σ2 + σ22 ) 112 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН 11. Пусть ξ1 , ξ2 – независимые одинаково распределенные случайные величины, L{ξ1 } = N (0, 1); η = ξ1 + ξ2 . Найти L{η|ξ1 > 0, ξ2 > 0} и показать, что p E{η|ξ1 > 0, ξ2 > 0} = 2 2/π. 12. Пусть ξ1 , ξ2 , ξ3 имеют трехмерное нормальное распределение с нулевыми средними, единичными дисперсиями и коэффициентами корреляции ρ1 , ρ2 , ρ3 . Показать, что P{ξ1 > 0, ξ2 > 0, ξ3 > 0} = 1 1 + (arcsin ρ1 + arcsin ρ2 + arcsin ρ3 ). 8 4π 13. Найти зависимые случайные величины ξ1 , ξ2 , для которых выполняется следующее соотношение между характеристическими функциями: fξ1 +ξ2 (t) = fξ1 (t)fξ2 (t), t ∈ R. 14. Если f (t) – некоторая характеристическая функция, то показать справедливость неравенств: 1 Re(1 − f (t)) ⩾ Re(1 − f (2t)); 4 1 − |f (2t)| ⩽ 8(1 − |f (t)|). 15. Производящей функцией кумулянтов Kξ (θ) случайной величины ξ называется логарифмом производящей функции моментов: Kξ (θ) = log E{eθξ }. Если она конечна в окрестности точки θ = 0, то Kξ (·) допускает представление в виде сходящегося ряда Тейлора: ∞ X 1 Kξ (θ) = kn (ξ)θn . n! n=1 При этом kn (ξ) называется n-м кумулянтом или семиинвариантом случайной величины ξ. Выразить кумулянты k1 (ξ), k2 (ξ), k3 (ξ) через моменты E{ξ}, E{ξ2 }, E{ξ3 }. Доказать, что для независимых случайных величин ξ1 , ξ2 кумулянты складываются: kn (ξ1 + ξ2 ) = kn (ξ1 ) + kn (ξ2 ). 16. Используя определения из предыдущего упражнения, доказать, что для L{ξ} = = N (a, b) k1 (ξ) = a, k2 (ξ) = b, kn (ξ) = 0, n ⩾ 3. 17. Доказать, что если f (·) – некоторая характеристическая функция, то f , f 2 , |f |2 , Ref – также характеристические функции, но |f | в общем случае не является характеристической функцией. 18. Доказать, что нормальное, Пуассона и гамма-распределения – безгранично делимые. 19. Доказать, что если f (t) – характеристическая функция безгранично делимого закона, то f (t) 6= 0 ∀ t ∈ R. 20. Доказать неравенство для характеристической функции: |1−fξ (t)| ≤ E{|tξ|}, t ∈ R. 21. Пусть случайная величина ξ принимает конечное число неотрицательных значений x1 , . . . , xn . Доказать, что E{ξn+1 } = max(x1 , . . . , xn ), n→∞ E{ξn } lim p lim n E{ξn } = max(x1 , . . . , xn ). n→∞ 113 3.13. УПРАЖНЕНИЯ 22. Пусть случайная величина ξ принимает целые неотрицательные значения и E{ξ} < < ∞. Показать, что X E{ξ} = P{ξ ⩾ i}. i ⩾ 1 23. Пусть случайная величина ξ принимает значения x1 , . . . , xm , а случайная величина η принимает значения y1 , . . . , yn . Кроме того, случайные величины ξi и ηj при i = = 1, . . . , m − 1 и j = 1, . . . , n − 1 некоррелированы, т. е. E{ξi ηj } = E{ξi }E{ηj }. Показать, что случайные величины ξ и η независимы. 24. Пусть ξ и η – независимые случайные величины, принимающие неотрицательные целые значения, E{ξ} < ∞. Доказать, что X E{min(ξ, η)} = P{ξ ⩾ i}P{(η ⩾ i}. i ⩾ 1 25. Показать, что для любой константы c E{ξ − c}2 ⩾ E{ξ − E{ξ}}2 = D{ξ}. 26. Показать, что для любых чисел a и b E{η − aξ − b}2 ⩾ (1 − ρ2 )Dη, ρ = corr{ξ, η}. 27. Пусть случайные величины ξ1 , ξ2 независимы, одинаково распределены и имеют конечные вторые моменты. Показать, что случайные величины η1 = ξ1 + ξ2 и η2 = = ξ1 − ξ2 некоррелированы. 28. Пусть ξ – случайная величина, 0 < D{ξ} < ∞. Показать, что ( ) ξ − E{ξ} P −3, 2 < p < 3, 2 > 0, 9. D{ξ} 29. Случайные величины ξ1 , ξ2 независимы и распределены по нормальному закону N (µ, σ2 ). Показать, что σ E{max(ξ1 , ξ2 )} = µ + √ , n σ E{min(ξ1 , ξ2 )} = µ − √ . n 30. Случайные величины ξ1 , ξ2 , . . . , ξn независимы и равномерно распределены на [0,1], v – случайная величина, равная тому k, при котором впервые сумма S k = ξ1 + ξ2 + . . . + ξk превосходит 1. Доказать, что Ev = e. 31. Доказать, что при сложении независимых случайных величин третьи центральные моменты суммируются, а четвертые – нет. 32. Пусть ξ1 , ξ2 , . . . , ξn – случайные величины, имеющие конечные математические ожидания. Доказать, что E{max(ξ1 , . . . , ξn )} ⩾ max(E{ξ1 }, . . . , E{ξn }), E{min(ξ1 , . . . , ξn )} ≤ min(E{ξ1 }, . . . , E{ξn }). 114 ГЛАВА 3. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН 33. Пусть ξ и η – случайные величины, P{ξ > 0} = P{η > 0} = 3/4, P{ξ+η > 0} = 1/2. Доказать, что случайные величины ξ и η зависимы. 34. Доказать, что если случайные величины ξ и η принимают по два значения, то из равенства E{ξη} = E{ξ}E{η} следует независимость ξ и η. 35. Доказать, что для любых случайных величин ξ и η, имеющих конечные дисперсии, справедливы неравенства: p p p p ( D{ξ} − D{η})2 ≤ D{ξ + η} ≤ ( D{ξ} + {D{η})2 . 36. Случайные величины ξ и η независимы и одинаково распределены. Доказать, что если указанные ниже математические ожидания существуют, то ½ ¾ ½ ¾ ξ η 1 E =E = . ξ+η ξ+η 2 37. Пусть P{|ξ| ≤ C} = 1. Доказать, что D{ξ} ≤ CE{|ξ|}. 38. Случайные величины ξ и η независимы и имеют конечные дисперсии. Доказать, что D{ξη} ⩾ D{ξ}D{η}. 1 Fξ (x) 39. Пусть ξ ⩾ 0 и E α < ∞ при некотором α > 0. Доказать, что → 0 при x → 0. ξ xα 40. Случайная величина ξ имеет конечное математическое ожидание. Доказать, что для любого x max(x, E{ξ}) ≤ E{max(x, ξ)}. 41. Пусть ν, ξ1 , ξ2 , . . . – независимые случайные величины, а случайные величины ξ1 , ξ2 , . . . имеют функцию распределения F (x), случайная величина ν распределена по закону Пуассона с параметром λ. Доказать, что характеристическая функция случайной величины η = ξ1 + . . . + ξν равна +∞ Z exp λ (eitu − 1)dF (u) . −∞ 42. Пусть ξ1 и ξ2 – независимые случайные величины, имеющие геометрическое распределение соответственно с параметрами p1 и p2 . Показать, что случайная величина ξ = min(ξ1 , ξ2 ) имеет геометрическое распределение, и найти параметр этого распределения. 43. Производящие функции. Пусть ξ1 и ξ2 – независимые случайные величины, принимающие неотрицательные значения, и ξ1 + ξ2 имеет биномиальное распределение. Показать, что каждая из величин ξ1 и ξ2 имеет биномиальное распределение. 44. Пусть L{ξ} = N (µ, σ2 ). Показать, что corr{ξ, Fξ (ξ)} = p 3/π. 45. Контрпример. Пусть ξ1 , ξ2 – н. о. р. гауссовские СВ, L{ξ1 } = L{ξ2 } = N1 (0, 1). Показать, что СВ η1 = ξ1 , η2 = ξ1 · sign(ξ2 ) также имеют гауссовские распределения N1 (0, 1) и некоррелированы, однако их совместное распределение не является гауссовским. Глава 4 СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ 4.1. ОПРЕДЕЛЕНИЕ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ И ВИДОВ ЕЕ СХОДИМОСТИ Ранее мы рассматривали случайные эксперименты, в которых каждому исходу ω ∈ Ω ставилось в соответствие конечное множество числовых величин ξ1 , . . . , ξN ∈ R, 1 ⩽ N < +∞. При этом математической моделью таких результатов экспериментов было понятие случайного вектора: ξ1 ξ = ξ(ω) = ... ∈ RN . ξN Однако на практике N часто не удается ограничить. Например, исследуем динамику курса обмена валют. В таком случае наблюдается последовательность ξ1 , . . . , ξk , . . . ∈ R, где ξk – обменный курс в k-й торговый день. Удобной математической моделью для таких случаев является понятие случайной последовательности. Определение 4.1. Случайной последовательностью ξk = ξk (ω) ∈ R, ω ∈ Ω, k = = 1, 2, . . ., определенной на вероятностном пространстве (Ω, F, P ), называется счетное параметрическое семейство случайных величин ξ1 = ξ1 (ω), ξ2 = ξ2 (ω), . . . , заданных на одном и том же вероятностном пространстве (Ω, F, P ); при этом параметр k ∈ N этого семейства пробегает множество натуральных чисел. Основной вопрос, связанный со случайными последовательностями, – это вопрос их сходимости. В теории вероятностей существуют четыре основных вида сходимости. Определение 4.2. Пусть ξk = ξk (ω), k = 1, 2, . . . , – некоторая случайная последовательность, определенная на (Ω, F, P ), ξ = ξ(ω) – некоторая случайная величина, которая может быть определена и на другом пространстве. Пусть далее Fξk (x), Fξ (x), x ∈ R, – соответствующие функции распределения, а C(Fξ ) ⊆ R – множество точек непрерывности функции Fξ (·). Принято говорить, что случайная последовательность ξk при k → ∞ сходится к случайной величине ξ по распределению (Distribution), и принято кратко обозначать это следующим образом: D ξk → ξ, k→∞ если имеет место сходимость последовательности функций распределения, т. е. если выполняется соотношение lim Fξk (x) = Fξ (x), x ∈ C(Fξ ). k→∞ Задание 4.1. Пусть L{ξk } = N (a + 1/k, b), L{ξ} = N (a, b). Показать, что имеет место сходимость по распределению. Определение 4.3. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определены случайная последовательность ξk = ξk (ω), k = 1, 2, . . ., и случайная величина ξ = ξ(ω). Принято говорить, что случайная последовательность ξk 116 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ при k → ∞ сходится к случайной величине ξ по вероятности (Probability), и этот факт принято кратко обозначать P ξk → ξ, k→∞ если ∀² > 0 lim P{|ξk − ξ| > ²} = 0. k→∞ Задание 4.2. Пусть ξk = ξ + k−1 η, |η| ⩽ c < +∞. Показать, что имеет место сходимость по вероятности. Определение 4.4. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определена случайная последовательность ξk = ξk (ω), k = 1, 2, . . ., и случайная величина ξ = ξ(ω). Пусть r ∈ N – произвольное фиксированное натуральное число. Принято говорить, что случайная последовательность ξk при k → ∞ сходится к случайной величине ξ в среднем порядка r, и принято кратко обозначать L ξk →r ξ, k→∞ если ограничены абсолютные моменты порядка r: E{|ξk |r } < +∞, E{|ξ|r } < +∞ и выполняется предельное соотношение Z |ξk (ω) − ξ(ω)|r P(dω) = 0. lim E{|ξk − ξ|r } = lim k→∞ k→∞ Ω Определение 4.5. Если r = 2, то L2 -сходимость называется сходимостью в среднем квадратическом и обозначается ξk ср. кв. → k→∞ ξ либо l.i.m.k−→∞ ξk = ξ (limit in the mean). Определение 4.6. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определены случайная последовательность ξk = ξk (ω), k = 1, 2, . . ., и случайная величина ξ = ξ(ω). Принято говорить, что случайная последовательность ξk при k → ∞ сходится к случайной величине ξ почти наверное (почти всюду), и этот факт принято кратко обозначать п. н. P=1 k→∞ k→∞ ξk → ξ, либо ξk → ξ, либо ξk → ξ(P – п. в.), k→∞ если выполняется предельное соотношение n o P ω : lim ξk (ω) = ξ(ω) = 1. k→∞ 4.2. СХОДИМОСТЬ ПОЧТИ НАВЕРНОЕ. ЗАКОН 0 ∨ 1 БОРЕЛЯ Имеется ряд эквивалентных определений для сходимости почти наверное, введенной в п. 4.1. Теорема 4.1. Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определены случайная последовательность ξk = ξk (ω), случайная величина ξ = ξ(ω) и для ∀² > 0 последовательность случайных событий A²k = {ω : |ξk (ω) − ξ(ω)| > ²}. 4.2. СХОДИМОСТЬ ПОЧТИ НАВЕРНОЕ. ЗАКОН 0 ∨ 1 БОРЕЛЯ 117 Тогда справедлива следующая цепочка эквивалентных определений сходимости почти наверное: Ã∞ ∞ ! ³ ´ \[ п. н. ² ξk → ξ ⇔ P An = 0, ² > 0 ⇔ P lim A²k = 0, ² > 0 ⇔ k→∞ k=1 n=k k→∞ ½ ⇔ lim P ¾ sup |ξn − ξ| > ² k→∞ = 0, ² > 0. n ⩾ k Доказательство. Последовательно докажем рассматриваемую цепочку определений. Ã∞ ∞ ! \[ п. н. ² 1) Докажем, что ξk → ξ ⇔ P An = 0. Введем в рассмотрение случайное k→∞ событие k=1 n=k n o Ω∗ = ω : lim ξk (ω) = ξ(ω) ∈ F. k→∞ По определению сходимости почти наверное п. н. ξk → ξ ⇔ P(Ω∗ ) = 1, или P(Ω∗ ) = 0. k→∞ Исследуем подробнее событие Ω∗ . Для любого ² > 0 имеем Ω∗ ⊆ {ω : ∃K = K(², ω), ∀n ⩾ K |ξn − ξ| ⩽ ²} = ( ) ∞ \ = ω : ∃K = K(², ω), ω ∈ A²n . (4.1) n=K Перебирая всевозможные K = 1, 2, . . . и учитывая (4.1), имеем Ω∗ ⊆ ∞ \ ∞ [ A²n . (4.2) K=1 n=K Применим к соотношению (4.2) между событиями правило де Моргана: Ω∗ ⊇ ∞ [ ∞ \ A²n . K=1 n=K Поэтому по свойствам вероятности следует à ∞ ∞ ! \ [ ¡ ¢ P Ω∗ ⩾ P A²n ⩾ 0. K=1 n=K Отсюда P(Ω∗ ) = 0 тогда и только тогда, когда à ∞ ∞ ! \ [ P A²n = 0, ² > 0. K=1 n=K 2) Равносильность равенств P Ã∞ ∞ \[ k=1 n=k ! A²n ´ ³ = 0 и P lim Ak = 0 вытекает из п. 1 по k→∞ определению верхнего предела последовательности случайных событий (см. гл. 1). 118 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ ´ ³ 3) Для доказательства равносильности равенств P lim A²k = 0, ² > 0 ⇔ k→∞ ½ ¾ ⇔ lim P sup |ξn − ξ| > ² = 0 введем вспомогательную последовательность слуk→∞ n ⩾ k чайных событий: Bk² = ∞ [ A²n . По построению очевидно, что Bk² – монотонно n=k убывающая последовательность, значит, ∃ lim Bk² = k→∞ ∞ \ Bk² . Воспользуемся аксиомой k=1 непрерывности вероятностной меры: ³ ´ 0 = P lim Bk² = lim P(Bk² ). k→∞ k→∞ Наконец, заметим, что Bk² ≡ ½ ¾ ω : sup |ξn − ξ| > ² . n⩾k ¤ Следствие 4.1. Если для любого ² > 0 сходится ряд ∞ X P{|ξn − ξ| > ²} < +∞, n=1 п. н. то ξn −→ ξ. Доказательство. В силу последнего утверждения теоремы 4.1 и свойства вероятности имеем Ã∞ ! [ lim P{sup |ξn − ξ| > ²} = lim P {|ξn − ξ| > ²} ⩽ k→∞ k→∞ n⩾k ⩽ lim k→∞ ∞ X n=k P{|ξn − ξ| > ²} = 0. n=k Здесь учтено, что остаток сходящегося ряда стремится к нулю. ¤ Теорема 4.2 (критерий Коши сходимости п. н.). Для того чтобы случайная последовательность ξk = ξk (ω) на вероятностном пространстве (Ω, F, P ) сходилась почти наверное, необходимо и достаточно, чтобы эта последовательность была фундаментальной (последовательностью Коши) в смысле сходимости почти наверное: ½ ¾ ∀² > 0 lim P sup |ξm − ξn | > ² = 0. k→∞ m,n⩾k Доказательство. Результат этой теоремы вытекает из критерия Коши сходимости ¤ числовой последовательности и схемы доказательства теоремы 4.1. Сформулируем еще два достаточных признака сходимости почти наверное. Теорема 4.3 (I достаточный признак сходимости п. н.). Если при произвольном ² > 0 с вероятностью 1 наступает лишь конечное число случайных событий среди An = {ω : |ξn (ω) − ξ(ω)| > ²}, n ∈ N, то имеет место сходимость почти наверное, п. н. т. е. ξn → ξ. n→∞ 119 4.2. СХОДИМОСТЬ ПОЧТИ НАВЕРНОЕ. ЗАКОН 0 ∨ 1 БОРЕЛЯ Доказательство. Воспользуемся теоремой об эквивалентных определениях сходимости почти наверное. Рассмотрим предельное случайное событие lim An = n→∞ ∞ [ ∞ \ An = k=1 n=k = {наступает бесконечно много случайных событий среди{An }}. Тогда по условию доказываемой теоремы P{ lim An } = 0. Из теоремы следует, что n→∞ п. н. ξn → ξ. n→∞ При исследовании сходимости приходится иметь дело с событиями ¤ {An : n ∈ N} и A = lim An . n→∞ Возникает проблема: как, зная {P(An )}, оценить P(A)? Лемма 4.1 (Бореля – Кантелли). Пусть на вероятностном пространстве (Ω, F, P ) определена произвольная последовательность случайных событий An ∈ F, ∞ ∞ [ \ n = 1, 2, . . . , и предельное случайное событие A = lim An = An ∈ F. Тогда n→∞ k=1 n=k справедливы следующие два утверждения: ∞ X 1) если сходится ряд P(An ), то P(A) = 0; n=1 2) если этот ряд расходится и вдобавок события {An } независимы в совокупности, то P(A) = 1. Доказательство. Докажем два утверждения по отдельности. 1) Оценим сверху вероятность предельного события, используя свойства вероятности. ∞ [ An , ∀k ∈ N. Отсюда в По построению предельного события A очевидно, что A ⊆ n=k силу свойств вероятности имеем P(A) ⩽ ∞ X P(An ). (4.3) n=k Правая часть (4.3) – остаток сходящегося ряда, следовательно, ∞ X n=k P(An ) → 0. Знаk→∞ чит, выбором k эта сумма может быть сделана сколь угодно малой, поэтому P(A) = 0. 2) Оценим сверху вероятность противоположного события, используя независимость событий и свойства вероятности: Ã∞ Ã∞ !! Ã∞ ! ∞ [ \ X \ An ⩽ P An = P(A) = P k=1 = n=k k=1 n=k ∞ Y ∞ X ∞ P ∞ X − P(An ) (1 − P(An )) ⩽ e n=k = 0. k=1 n=k k=1 Здесь использовано известное неравенство: 1 − p ⩽ e−p , p ⩾ 0. Следовательно, P(A) = 0, значит, P(A) = 1. ¤ 120 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ Следствие 4.2 (закон 0 ∨ 1 Бореля). Пусть на (Ω, F, P ) определена произвольная последовательность независимых в совокупности случайных событий {An } и предельное случайное событие A = lim An = n→∞ ∞ [ ∞ \ An = k=1 n=k = {наступает бесконечно много случайных событий среди{An }}. Тогда P(A) = 0∨1 в зависимости от того, сходится или расходится ряд, составленный из вероятностей этих событий. Теорема 4.4 (II достаточный признак сходимости п. н.). Для того чтобы случайная последовательность ξk = ξk (ω) на вероятностном пространстве (Ω, F, P ) имела предел в смысле почти наверное, достаточно, чтобы существовала такая неотрицательная последовательность ²k ⩾ 0, что имеет место сходимость двух рядов: S1 = S2 = ∞ X ∞ X ²k < +∞, k=1 P{|ξk+1 − ξk | > ²k } < +∞. k=1 Доказательство. Введем в рассмотрение вспомогательную последовательность случайных событий: Ak = {ω : |ξk+1 − ξk | > ²k }, k = 1, 2, . . . , и введем предельное событие: A = lim Ak . k→∞ Воспользуемся первым утверждением леммы Бореля – Кантелли. В силу условий теоремы ряд S2 сходится, следовательно, P(A) = 0 ⇒ P(A) = 1. Для ∀ω ∈ A: P(A) = 1 запишем тождество ξk ≡ ξ1 + k−1 X (ξn+1 − ξn ); (4.4) n=1 ∀ω ∈ A ⇒ ∃N : ∀n ⩾ N наступает An , т. е. |ξn+1 − ξn | ⩽ ²n . По условию доказываемой теоремы ряд S1 сходится, т. е. в правой части (4.4) члены ряда мажорируются элементами сходящегося ряда, следовательно, ряд справа сходится, т. е. существует предел при k → ∞. Значит, существует предел левой части (4.4). Таким образом, для ∀ω ∈ A, P(A) = 1, ∃ lim ξk (ω). Иначе говоря, предел существуk→∞ ет на множестве меры 1, следовательно, по определению последовательность ξk сходится почти наверное. ¤ 4.3. СХОДИМОСТЬ ПО ВЕРОЯТНОСТИ Вначале установим соотношения между сходимостью по вероятности и сходимостью почти наверное. Теорема 4.5. Из сходимости почти наверное вытекает сходимость по вероятности. 121 4.3. СХОДИМОСТЬ ПО ВЕРОЯТНОСТИ п. н. Доказательство. Пусть ξn −→ ξ. Тогда по теореме об эквивалентных определениях сходимости почти наверное имеем à ! ½ ¾ [ ∀² > 0 P sup |ξm − ξ| > ² = P {|ξm − ξ| > ²} → 0. m⩾n n→∞ m⩾n Отсюда по свойствам вероятности à ∀² > 0 P {|ξn − ξ| > ²} ⩽P [ ! {|ξm − ξ| > ²} m⩾n → 0, n→∞ P что и означает сходимость по вероятности: ξn → ξ. ¤ Теперь сформулируем и докажем критерий Коши сходимости по вероятности: P ξn → ξ. Для этого нам понадобится вспомогательное утверждение. Лемма 4.2. Для любых случайных величин ξ, η, ζ на (Ω, F, P ) и любого ² > 0 справедливо неравенство n n ²o ²o P{|ξ − η| > ²} ⩽ P |ξ − ζ| > + P |ζ − η| > . (4.5) 2 2 Доказательство. Поскольку |ξ − ζ| ≡ |(ξ − ζ) + (ζ − η)| ⩽ |ξ − ζ| + |ζ − η|, то имеем следующее соотношение между случайными событиями: n ²o ²o n ∩ |ζ − η| ⩽ ⊆ {|ξ − η| ⩽ ²}. |ξ − ζ| ⩽ 2 2 По правилу де Моргана имеем n ²o n ²o {|ξ − η| > ²} ⊆ |ξ − ζ| > ∪ |ζ − η| > . 2 2 ¤ Отсюда по свойствам вероятности получаем (4.5). Теорема 4.6 (критерий Коши P-сходимости). Для того чтобы случайная последовательность ξk = ξk (ω), ω ∈ Ω, k ∈ N, имела бы предел по вероятности на вероятностном пространстве (Ω, F, P ), необходимо и достаточно, чтобы эта последовательность была фундаментальной (последовательностью Коши) по вероятности: ∀² > 0 lim P{|ξm − ξn | > ²} = 0. (4.6) m,n→∞ Доказательство. Соотношение (4.6) означает, что для любых ²1 , ²2 > 0 найдется число N = N (²2 ) такое, что ∀m, n ⩾ N P{|ξm − ξn | > ²1 } ⩽ ²2 . (4.7) P Необходимость. Пусть ξn → ξ. По определению это означает ∀² > 0 P{|ξn − ξ| > ²} → 0. n→∞ Тогда из (4.8) и предыдущей леммы получаем n n ²o ²o P{|ξm − ξn | > ²} ⩽ P |ξm − ξ| > + P |ξn − ξ| > → 0, 2 2 m,n→∞ что и влечет соотношение (4.6). (4.8) 122 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ Достаточность. Пусть выполняется формула (4.6) или, что эквивалентно, соотношение (4.7). Построим монотонно возрастающую последовательность натуральных чисел n1 , n2 , . . . ∈ N следующим рекуррентным образом (k = 2, 3, . . .): µ ½ ¾ ¶ 1 1 n1 = 1, nk = min n : n > nk−1 , ∀m, l ⩾ nP |ξm − ξl | > 2 ⩽ 2 . (4.9) k k Такая последовательность {nk } существует, так как выполняется (4.7). С помощью {nk } построим вспомогательную случайную подпоследовательность {ξnk }. В силу (4.9) для нее выполняется свойство ¾ ½ ¯ ¯ 1 1 ¯ ¯ (4.10) ∀k ∈ N P ξnk+1 − ξnk > 2 ⩽ 2 . k k Выбирая в (4.10) ²k = 1/k 2 и применяя II достаточный признак сходимости почти п. н. наверное (теорему 4.4), получаем ξnk → ξ. k→∞ Тогда по теореме 4.5 имеем P ξnk → ξ. k→∞ (4.11) Теперь из (4.11), вышедоказанной леммы 4.2 и (4.7) находим n n ²o ²o ∀² > 0 P{|ξn − ξ| > ²} ⩽ P |ξn − ξnk | > + P |ξnk − ξ| > → 0, 2 2 n,nk →∞ P что согласно (4.8) и означает ξn → ξ. ¤ P P п. н. Теорема 4.7 (о единственности предела). Если ξn → ξ и ξn → η, то ξ = η, так что P{ξ 6= η} = 0. Доказательство. В силу леммы 4.2 и условий данной теоремы для любого ² > 0 при n → ∞ имеем n n ²o ²o P{|ξ − η| > ²} ⩽ P |ξ − ξn | > + P |η − ξn | > → 0. 2 2 Таким образом, ∀² > 0 P{|ξ − η| > ²} = 0. Тогда в силу следствия аксиомы непрерывности Ã∞ ½ ¾! µ ½ ¾¶ [ 1 1 P{ξ 6= η} = P |ξ − η| > = P lim ω : |ξ − η| > = k→∞ k k k=1 ½ ¾ 1 = lim P |ξ − η| > = 0. k→∞ k ¤ Теорема 4.8. Из всякой случайной последовательности ξn = ξn (ω), n ∈ N, сходящейся на вероятностном пространстве (Ω, F, P ) по вероятности, можно выделить подпоследовательность ξnk = ξnk (ω), k ∈ N, сходящуюся почти наверное. Доказательство. Из критерия Коши сходимости по вероятности имеем ∀² > 0 lim P {|ξr − ξs | > ²} = 0. r,s→∞ Воспользуемся этим свойством и построим последовательность отбираемых номеров nk следующим рекуррентным способом: ½ ½ ¾ ¾ 1 1 n1 = 1, nk = min N : N > nk−1 , ∀r, s > N, P |ξr − ξs | > k < k , 2 2 k = 2, 3, . . . . 4.3. СХОДИМОСТЬ ПО ВЕРОЯТНОСТИ 123 Для исследования сходимости {ξnk } воспользуемся II достаточным признаком сходимости почти наверное: ¾ ½ ∞ ∞ X X ¯ ¯ 1 1 ¯ ξn − ξn ¯ > 1 ²k = k , S1 = < +∞, S = P ⩽ 2 k+1 k 2 2k 2k k=1 k=1 ∞ X 1 ⩽ < +∞. k 2 k=1 Следовательно, II достаточный признак выполняется, а из этого вытекает сходимость почти наверное. ¤ Теорема 4.9. Пусть на (Ω, F, P ) определены K ⩾ 1 случайных последовательностей, сходящихся по вероятности к константам (n → ∞): P P P (2) (K) ξ(1) → aK . n → a1 , ξn → a2 , . . . , ξn (4.12) Если функция g(x1 , . . . , xK ) : RK → R1 непрерывна в точке (a1 , . . . , aK ) ∈ RK , то при n → ∞ ¡ ¢ (K) P ηn = g ξ(1) → g(a1 , . . . , aK ). (4.13) n , . . . , ξn Доказательство. Свойство непрерывности функции g(·) в точке (a1 , . . . , aK ) означает, что для любого ² > 0 найдется такое δ = δ(², a1 , . . . , aK ) > 0, что как только |xi − ai | ≤ δ, i = 1, . . . , K, так |g(x1 , . . . , xK ) − g(a1 , . . . , aK )|⩽². Отсюда следует: K \ © ¯ ª ©¯ ¡ (1) ¢ ª ¯g ξn , . . . , ξ(K) ξ(i) − g(a1 , . . . , aK )¯ ⩽ ² . n − ai | ⩽ δ ⊂ n i=1 Переходя к противоположным событиям, по правилу де Моргана имеем K ¯ ¯ ©¯ ¡ (1) ¢ ª [ ©¯ (i) ª ¯g ξn , . . . , ξ(K) ¯ξn − ai ¯ > δ . − g(a1 , . . . , aK )¯ > ² ⊂ n i=1 Отсюда по свойствам вероятности из (4.12) заключаем: K X ¯ ¯ ©¯ ¡ ¢ ª ©¯ ª (K) ¯ ¯ P ¯g ξ(1) , . . . , ξ − g(a , . . . , a ) > ² ⩽ P ¯ξ(i) 1 K n n n − ai > δ → 0, i=1 ¤ что означает (4.13). Теорема 4.10. Пусть на (Ω, F, P ) определены случайные величины ξ(1) , . . . , ξ(K) и K ≥ 1 сходящихся по вероятности случайных последовательностей (n → ∞): (1) P (2) P (K) P ξn → ξ(1) ,ξn → ξ(2) , . . . , ξn → ξ(K) . Если функция g(x1 , . . . , xK ) : RK → R1 K равномерно-непрерывна в R , то P (1) (K) (K) ). ηn = g(ξ(1) n , . . . , ξn ) → g(ξ , . . . , ξ Доказательство. По определению равномерной непрерывности ∀² > 0 ∃δ = δ(²), |xi − yi | ⩽ δ, i = 1, . . . , K ⇒ |g(x1 , . . . , xK ) − g(y1 , . . . , yK )| ⩽ ². Далее до(i) казательство осуществляется, как в теореме 4.9, полагая xi = ξn , yi = ξ(i) , i = 1, . . . , K. ¤ Замечание 4.1. Справедливы аналоги теорем 4.9, 4.10, в которых вместо сходимости по вероятности рассматривается сходимость почти наверное. 124 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ 4.4. СХОДИМОСТЬ В СРЕДНЕМ Теорема 4.11 (критерий Коши Lr -сходимости). Для того чтобы случайная последовательность ξk = ξk (ω) на вероятностном пространстве (Ω, F, P ) сходилась в среднем порядка r, необходимо и достаточно, чтобы она была фундаментальной (последовательностью Коши) в смысле Lr -сходимости, т. е. чтобы E{|ξn |r } < ∞, n = 1, 2, . . . ; lim E{|ξm − ξn |r } = 0. (4.14) m,n→∞ L Доказательство. Необходимость. Пусть ξn →r ξ. По определению Lr -сходимости это означает, что E{|ξn |r } < ∞, n = 1, 2, . . . ; E{|ξ|r } < ∞; E{|ξn − ξ|r } → 0. n→∞ (4.15) Тогда по неравенству Минковского E{|η + ζ|r } ⩽ ³ 1 1 (E{|η|r }) r + (E{|ζ|r }) r ´r находим (η = ξm − ξ, ζ = ξ − ξn ): ³ ´ 1 1 r E{|ξm − ξn |r } ⩽ (E{|ξm − ξ|r }) r + (E{|ξn − ξ|r }) r → m,n→∞ 0, так что выполняется соотношение (4.14). Достаточность доказывается сложнее [36], при помощи схемы доказательства теоремы 4.8 из п. 4.3. ¤ Теорема 4.12. Если q < r, то из сходимости в среднем порядка r вытекает сходимость низшего порядка q. Доказательство. По условию теоремы выполняется (4.15). В силу неравенства Ляпунова 1 1 1 1 (E{|ξn |q }) q ⩽ (E{|ξn |r }) r , (E{|ξn − ξ|q }) q ⩽ (E{|ξn − ξ|r }) r , поэтому имеем E{|ξn |q } < ∞, n = 1, 2, . . . ; E{|ξn − ξ|q } → 0. n→∞ Lq Это означает, что ξn → ξ. ¤ Теорема 4.13. Из сходимости в среднем порядка r вытекает сходимость по вероятности. Доказательство. По условию теоремы выполняется (4.15). В силу неравенства Чебышева 1 ∀² > 0 P{|ξn − ξ| > ²} ⩽ r E{|ξn − ξ|r } → 0. ² P По определению P-сходимости это означает, что ξn → ξ. ¤ P Теорема 4.14. Если ξn → ξ и существует постоянная C > 0 такая, что |ξn | ⩽ C почти наверное (P{|ξn | ⩽ C} = 1) для n = 1, 2, . . . , то для любого r ⩾ 1 L ξn →r ξ. n→∞ 125 4.4. СХОДИМОСТЬ В СРЕДНЕМ Доказательство. Покажем ограниченность почти наверное предельной случайной величины ξ : P{|ξ| ⩽ C} = 1. Выберем произвольное ² > 0. Тогда в силу условий теоремы имеем P{|ξ| > C + ²} = P({|ξ| > C + ²} ∩ {|ξn − ξ| > ²})+ +P({|ξ| > C + ²} ∩ {|ξn − ξ| ⩽ ²}) ⩽ P{|ξn − ξ| > ²} + P{|ξn | > C} = = P{|ξn − ξ| > ²} → 0. n→∞ Отсюда следует, что ∀² > 0 P{|ξ| > C + ²} = 0. Тогда из аксиомы непрерывности вероятностной меры имеем Ã∞ ½ ¾! µ ½ ¾¶ \ 1 1 = P lim |ξ| > C + = P{ξ| > C} = P |ξ| > C + k→∞ k k k=1 ½ ¾ 1 = lim P |ξ| > C + = 0. k→∞ k Таким образом, |ξ| ⩽ C почти наверное. Определим вспомогательную последовательность случайных событий An = {|ξn − −ξ| > δ} для некоторого произвольного δ > 0. Тогда по свойствам математического ожидания с учетом доказанного выше имеем E{|ξn − ξ|r } ≡ E{|ξn − ξ|r 11An + |ξn − ξ|r 11An } = E{|ξn − ξ|r 11An } + + E{|ξn − ξ|r 11An } ⩽ δr + (2C)r · P{|ξn − ξ| > δ} → δr . n→∞ L Отсюда в силу произвола δ > 0 заключаем: E{|ξn − ξ|r } → 0, что влечет ξn →r ξ. ¤ Lr Теорема 4.15. Если ξn → ξ, то для любого целого q, 1 ⩽ q ⩽ r, имеет место сходимость последовательности начальных моментов q-го порядка: E{ξqn } → E{ξq }. n→∞ (4.16) Доказательство. По теореме 4.12 имеем Lq ξn → ξ, 1 ⩽ q ⩽ r. Схема доказательства (4.16) одна и та же для любого q. Поэтому докажем (4.16) при q = r. Обозначим ηn = ξn − ξ, E{|ηn |r } → 0. Тогда по свойствам математического ожидания имеем |E{ξrn } − E{ξr }| = |E{ξrn − ξr }| = |E{(ξ + ηn )r − ξr }| ≡ ¯ ( r )¯ r ¯ ¯ X X ¯ ¯ i r−i i ≡ ¯E C r ξ ηn ¯ ⩽ Cri E{|ξ|r−i |ηn |i }. ¯ ¯ i=1 (4.17) i=1 Выбирая p1 = r/(r − i) > 1, p2 = r/i > 1 в последней сумме, воспользуемся неравенством Гельдера: r−i i E{|ξ|r−i |ηn |i } ⩽ (E{|ξ|r }) r (E{|ηn |r }) r . 126 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ Подставив эту оценку в (4.17), получим |E{ξrn } − E{ξr }| ⩽ r X r−i i Cri (E{|ξ|r }) r (E{ηn |r }) r → 0. i=1 ¤ Лемма 4.3 (о сходимости в среднем квадратическом). Пусть на вероятностном пространстве (Ω, F, P ) определены две случайные последовательности, сходящиеся в ср. кв.: ξm ηn ср. кв. → m→∞ ср. кв. → n→∞ ξ, (4.18) η. (4.19) Тогда существует lim E{ξm · ηn } = E{ξ · η}. (4.20) m,n→∞ Доказательство. По определению среднеквадратической сходимости из (4.18) и (4.19) имеем E{ξ2m } < +∞, E{ξ2 } < +∞, E{|ξm − ξ|2 } → 0, m→∞ E{η2n } < +∞, 2 2 E{η } < +∞, E{|ηn − η| } → 0. n→∞ Покажем, что математическое ожидание в (4.20) существует. Воспользуемся неравенством Коши – Буняковского: p E{|ξm ηn |}⩽ E{ξ2m } · E{η2n } < +∞. Аналогично показывается существование математического ожидания в правой части соотношения (4.20). Оценим разность между левой и правой частями (4.20). Имеем |E{ξm ηn − ξη}| ≡ |E{(ξm − ξ)(ηn − η) + (ξm − ξ)η + (ηn − η)ξ}|⩽ ⩽E{|(ξm − ξ)(ηn − η)|} + E{|(ξm − ξ)η|} + E{|(ηn − η)ξ|}⩽ ⩽ p p E{(ξm − ξ)2 }E{(ηn − η)2 } + E{(ξm − ξ)2 }E{η2 } + + p E{(ηn − η)2 }E{ξ2 } → m,n→∞ 0 + 0 + 0 = 0. ¤ Теорема 4.16 (критерий L2 -сходимости). Для того чтобы случайная последовательность ξk на (Ω, F, P ) имела предел в среднем квадратическом, необходимо и достаточно, чтобы существовал конечный предел: lim E{ξm ξn } = A < +∞. m,n→∞ Доказательство. Необходимость. Пусть ξn ср. кв. → n→∞ ξ. (4.21) 4.5. РАВНОМЕРНАЯ ИНТЕГРИРУЕМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН 127 Тогда воспользуемся леммой 4.3, в которой положим ηn ≡ ξn . Тогда ∃ lim E{ξm ξn } = E{ξ · ξ} = A < +∞. m,n→∞ Достаточность. Пусть выполняется (4.21), тогда проверим выполнение критерия Коши: lim E{(ξm − ξn )2 } = lim (E{ξm ξm } − 2E{ξm ξn } + m,n→∞ m,n→∞ + E{ξn ξn }) → m,n→∞ A − 2A + A = 0. Отсюда следует, что критерий Коши выполняется и, значит, последовательность сходится в среднем квадратическом. ¤ ср. кв. Теорема 4.17. Пусть ξk → ξ, причем настолько быстро, что сходится ряд k→∞ ∞ X E{(ξk − ξ)2 } < +∞, (4.22) k=1 тогда п. н. ξk −→ ξ. Доказательство. Построим вспомогательную последовательность случайных событий Ak = {(|ξk − ξ| > ²}, ∀² > 0, ² зафиксировано. Воспользуемся неравенством Чебышева относительно математического ожидания: P(Ak ) ⩽ 1 E{|ξk − ξ|2 }, ²2 и исследуем сходимость ряда с учетом (4.22): ∞ X ∞ P(Ak ) ⩽ k=1 1 X E{(ξk − ξ)2 } < +∞. ²2 k=1 Тогда по лемме Бореля – Кантелли P{ lim Ak } = 0, и, следовательно, имеет место n→∞ сходимость почти наверное. ¤ 4.5. РАВНОМЕРНАЯ ИНТЕГРИРУЕМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН Определение 4.7. Последовательность СВ {ξn } называется равномерно интегрируемой (РИ), если Z sup |ξn |dP −→ 0. (4.23) a→∞ n (|ξn |>a) Теорема 4.18. Если для всех n выполняется неравенство |ξn | ≤ η, где E{η} < ∞, то последовательность {ξn } равномерно интегрируема. Доказательство. Поскольку для всех n (|ξn | > a) ⊂ (η > a), то Z Z Z |ξn |dP ≤ |ξn |dP ≤ ηdP −→ 0. a→∞ (|ξn |>a) (η>a) (η>a) 128 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ Отсюда Z sup |ξn |dP −→ 0. a→∞ n (|ξn |>a) ¤ Теорема 4.19. Если для всех n ≤ N выполняется неравенство E{ξn } < ∞, то совокупность СВ {ξn }n≤N равномерно интегрируема. Доказательство. Доказательство следует из теоремы 4.18, если взять в качестве η случайную величину: N X η= |ξn |. n=1 ¤ Теорема 4.20 (критерий равномерной интегрируемости). Для того чтобы последовательность {ξn } была равномерно интегрируема, необходимо и достаточно, чтобы: 1) последовательность {ξn } была абсолютно равномерно интегрируема, т. е. для любого ² > 0 существовало δ = δ² > 0 такое, что при Z P(A) ≤ δ sup |ξn |dP ≤ ²; (4.24) n A 2) выполнялось условие sup E{|ξn |} < ∞. (4.25) n Доказательство. Необходимость. Пусть выполняется (4.23). Тогда Z Z Z Z |ξn |dP = |ξn |dP + |ξn |dP ≤ aP(A) + sup |ξn |dP. A (4.26) n A(|ξn |≤a) A(|ξn |>a) (|ξn |>a) Из (4.23) следует, что для произвольного ² > 0 существует a0 такое, что Z ² sup |ξn |dP ≤ . 2 n (|ξn |>a0 ) Тогда, взяв событие A таким, чтобы a0 P(A) ≤ ²/2, получим, что правая часть (4.26) не превосходит ². Поскольку правая часть (4.26) не зависит от n, то, выбрав δ = ²/2a0 , получим Z sup |ξn |dP ≤ ², если P(A) ≤ δ. n A Соотношение (4.24) доказано. Для доказательства (4.25) возьмем A = Ω. Тогда из (4.23) для достаточно больших a Z E{|ξn |} ≤ a + sup |ξn |dP ≤ a + 1 < ∞. n (|ξn |>a) Отсюда sup E{|ξn |} < ∞. n Необходимость доказана. 129 4.5. РАВНОМЕРНАЯ ИНТЕГРИРУЕМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН Достаточность. Пусть выполняются (4.24) и (4.25). Поскольку 1 P{|ξn | > a} ≤ E{|ξn |}, a то из (4.25) имеем 1 sup E{|ξn |} −→ 0. a→∞ a n n Пусть ² > 0, δ = δ(²) > 0 такое, что (4.24) верно. Выберем a∗ таким, чтобы sup P{|ξn | > a} ≤ sup P{|ξn | > a∗ } ≤ δ. n Тогда для всех n и a ≥ a∗ Z |ξn |dP ≤ ². (|ξn |>a) Z Следовательно, sup Z |ξn |dP ≤ ², т. е. sup n |ξn |dP −→ 0. ¤ a→∞ n (|ξn |>a) (|ξn |>a) L P Теорема 4.21. Соотношение ξn →1 ξ эквивалентно двум соотношениям: ξn → ξ, и последовательность {ξn } равномерно интегрируема. L Доказательство. 1. Пусть ξn →1 ξ. Это означает, что E{|ξ|} < ∞, E{|ξn |} < ∞, E{|ξn − ξ|} −→ 0. Последнее соотношение равносильно условию для любых событий An n→∞ ¯ ¯ ¯Z ¯ Z ¯ ¯ ¯ ξn dP − ξdP ¯ −→ 0. (4.27) ¯ ¯ n→∞ ¯ ¯ An An Действительно: ¯ ¯ ¯ ¯ ¯Z ¯ ¯Z ¯ Z Z Z ¯ ¯ ¯ ¯ ¯ ξn dP − ξdP ¯ ≤ ¯ |ξn − ξ|dP ¯ ≤ |ξn − ξ|dP ≤ |ξn − ξ|dP = E{|ξn − ξ|} −→ 0. ¯ ¯ ¯ ¯ n→∞ ¯ ¯ ¯ ¯ An An An An С другой стороны, из (4.27) имеем Z E{|ξn − ξ|} = |ξn − ξ|dP = Ω L Z Z |ξn − ξ|dP − (ξn −ξ>0) (ξn − ξ)dP −→ 0. n→∞ (ξn −ξ≤0) P Поскольку ξn →1 ξ, то ξn → ξ. Z Проверим выполнимость условий (4.24) и (4.25). Из критерия Коши и (4.27) имеем |ξn − ξm |dP −→ 0 для любого события A. Это ознаn,m→∞ A чает, что для любого ² > 0 существует такое число N , что при всех n, m ≥ N и любого события A ∈ F Z ² |ξn − ξm |dP ≤ . 2 A Тогда для выбранного ² > 0, n ≥ N и любого события A Z Z Z Z Z ² |ξn |dP = |ξn − ξN + ξN |dP ≤ |ξn − ξN |dP + |ξN |dP ≤ + |ξN |dP. 2 A A A A A (4.28) 130 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ Поскольку E{|ξN |} < ∞, поэтому правую часть (4.28) можно сделать меньше ², если P(A) ≤ δ1 , где δ1 = δ1 (²) > 0. Поскольку правая часть (4.28) не зависит от n, то Z sup |ξn |dP ≤ ², если P(A) ≤ δ1 . n≥N A По теореме 4.19 совокупность СВ {ξn }n≤N равномерно интегрируема, то для некоторого δ2 > 0 Z sup |ξn |dP ≤ ², n<N A Взяв в качестве δ = min(δ1 , δ2 ), получим Z sup |ξn |dP ≤ ², n если P(A) ≤ δ2 . если P(A) ≤ δ. A Положив в неравенстве (4.28) A = Ω, получаем Z sup |ξn |dP = sup E {|ξn |} < ∞. n Ω P 2. Пусть ξn → ξ и последовательность {ξn } равномерно интегрируема. Покажем, P что E{|ξn |} < ∞. Поскольку ξn → ξ, то существует последовательность nk такая, что п. н. ξn −→ ξ. Тогда по лемме Фату и (4.25) имеем ¯¾ ¾ ½¯ ½ ¯ ¯ ¯ ¯ E{|ξ|} = E ¯ lim ξnk ¯ = E lim |ξnk | ≤ lim E{|ξnk |} ≤ sup E{|ξn |} < ∞. nk →∞ nk →∞ Используя (4.24), получаем Z E{|ξn − ξ|} = |ξn − ξ|dP = Ω n nk →∞ Z Z |ξn − ξ|dP + (|ξn −ξ|≤²) Z |ξn − ξ|dP ≤ (|ξn −ξ|>²) Z ≤² + |ξ|dP −→ ². |ξn |dP + (|ξn −ξ|>²) n→∞ (|ξn −ξ|>²) Отсюда заключаем E{|ξn − ξ|} −→ 0. n→∞ ¤ 4.6. СООТНОШЕНИЯ МЕЖДУ ВИДАМИ СХОДИМОСТИ СЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ Установим соотношения между видами сходимости случайных последовательностей, используя результаты пп. 4.1–4.5. Лемма 4.4. Для любых случайных событий A, B ∈ F справедливо неравенство P(A ∩ B) ⩾ P(A) − P(B). 131 4.6. СООТНОШЕНИЯ МЕЖДУ ВИДАМИ СХОДИМОСТИ Доказательство. Воспользуемся формулой сложения вероятностей: P(A ∪ B) = P(A) + 1 − P(B) − P(A ∩ B). Отсюда имеем P(A ∩ B) = P(A) − P(B) + (1 − P(A ∪ B)) ⩾ P(A) − P(B). ¤ Теорема 4.22 (соотношения между видами сходимости). Справедлива схема соотношений между видами сходимости случайных последовательностей, приведенная на рис. 4.1 (r > q). Доказательство. Проведем доказательство в три этапа в соответствии со схемой на рис. 4.1. п. н. ξn → ξ I ? Lr ξn → ξ II- Lq ξn → ξ II- P ξn → ξ III- D ξn → ξ Рис. 4.1. Схема соотношений между видами сходимости I. Этот результат вытекает из теоремы 4.5. II. Эти результаты доказаны в теоремах 4.12, 4.13. P III. Пусть ξn → ξ. Тогда введем для любого фиксированного ² > 0 последовательность случайных событий An = {|ξn − ξ| > ²} ∈ F. По определению имеем P(An ) → 0, ∀² > 0. (4.29) По определению D-сходимости надо доказать следующий результат: для произвольной точки непрерывности x ∈ C(Fξ ) имеет место Fξn (x) → Fξ (x). (4.30) n→∞ Воспользуемся двумя очевидными соотношениями между событиями: An ⊇ {ξn < x} ∩ {ξ ⩾ x + ²}, An ⊇ {ξn ⩾ x} ∩ {ξ < x − ²}. Воспользуемся свойством вероятности и леммой 4.4: P(An ) ⩾ P(A ∩ B) ⩾ P(A) − P(B) = Fξn (x) − Fξ (x + ²), P(An ) ⩾ P(B ∩ A) ⩾ Fξ (x − ²) − Fξn (x). Разрешим оба неравенства относительно Fξn (x): Fξ (x − ²) − P(An ) ⩽ Fξn (x) ⩽ Fξ (x + ²) + P(An ). Выберем здесь x ∈ C(Fξ ), n → ∞, ² → 0 и воспользуемся (4.29): P(An ) → 0, ² → 0, x – точка непрерывности, следовательно, существует предел: lim Fξn (x), причем выполняется соотношение (4.30). n→∞ ¤ 132 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ Приведенная на рис. 4.1 схема соотношений является полной, и без дополнительных условий отсутствуют какие-то другие соотношения. Покажем это примерами. Пример 4.1. Рассмотрим вероятностное пространство (Ω, F, P ), где Ω = [0, 1], F = = B[0, 1] – борелевская σ-алгебра подмножеств из Ω, P(·) = mes(·) – мера Лебега: 1 nα , 0 ⩽ ω ⩽ , n ξn (ω) = 1 0, < ω ⩽ 1, n п. н. α > 0 – некоторый параметр. Очевидно, что P{ω : ξn (ω) → 0} = 1, поэтому ξn −→ 0. Вычислим ¶ µ 1 p αp 1 E{ξn } = n = nαp−1 . +0· 1− n n Lp Если α < 1/p, то ξn → 0. Если α ⩾ 1/p, то Lp – сходимость отсутствует, т. е. из сходимости почти наверное не следует Lp -сходимость. Пример 4.2. Пусть ξ, ξ1 , ξ2 , . . . – независимые, одинаково распределенные случайные величины, имеющие стандартную нормальную функцию распределения Φ(x), x ∈ ∈ R. Поскольку Fξn (x) = Fξ (x) = Φ(x), то очевидно, что имеет место сходимость по распределению: D ξn → ξ. n→∞ В то же время, так как L{ξ1 − ξ} = N (0, 2), то ∀² > 0 µ ¶ ² P{|ξn − ξ| > ²} = P{|ξ1 − ξ| > ²} = 2Φ − √ 9 0 при n → ∞, 2 так что отсутствует сходимость по вероятности. Таким образом, в данном примере из сходимости по распределению не следует сходимость по вероятности. Замечание 4.2. Если случайные величины ξ, ξ1 , ξ2 , . . . с вероятностью 1 являются константами, то для последовательности ξn все виды сходимости эквивалентны. P D Теорема 4.23. Если ξn → C, где C – некоторая константа, то ξn → C, т. е. в n→∞ n→∞ случае сходимости к константе виды сходимости по распределению и по вероятности эквивалентны. Доказательство. По условию теоремы ½ 0, x ⩽ C, Fξn (x) = P{ξn < x} → F (x) = (4.31) 1, x > C. n→∞ Выберем произвольное ² > 0 и с учетом (4.31) исследуем P{|ξn − C| > ²} = 1 − P{C − ² ⩽ ξn ⩽ C + ²} = 1 − (Fξn (C + ²) − − Fξn (C − ²)) → 1 − (F (C + 0) − F (C − 0)) = 1 − 1 = 0. n→∞ P Таким образом, ξn → C. ¤ 133 4.7. УПРАЖНЕНИЯ Теорема 4.24. Если случайная последовательность {ξn } сходится в смысле какихнибудь двух из трех видов сходимости: по вероятности, почти наверное, в среднем порядка p, то предельные случайные величины с вероятностью 1 совпадают. Доказательство. Пусть п. н. Lp P P ξn −→ ξ, ξn → η. Тогда из теоремы 4.22 следует: ξn → ξ, ξn → η. Из теоремы единственности предела последовательности, сходящейся по вероятности (теорема 4.7), заключаем: P{ξ = η} = 1. ¤ Замечание 4.3. Проведенное в этой главе изучение видов сходимости позволяет сделать следующие общие выводы. Сходимость почти наверное является характеристикой всей последовательности {ξn } и основным видом сходимости. Сходимость по вероятности является характеристикой одной случайной величины ξn с бесконечно большим номером n → ∞; ее значения с вероятностью, стремящейся к 1, как угодно мало отличаются от значений предельной случайной величины ξ. В ситуации, когда заранее п. н. известно, что ξn −→ ξ, и надо оценить E{ξp }, пользуются сходимостью в среднем порядка p. Если требуется найти лишь вероятностное распределение (функцию распределения) предельной случайной величины ξ, то принято использовать сходимость по распределению. 4.7. УПРАЖНЕНИЯ 1. Доказать, что для всякой непрерывной на отрезке [0, 1] функции f (x) полиномы µ ¶ n X k f Бернштейна Bn (x) = Cnk xk (1 − x)n−k стремятся при n → ∞ к f (x). n k=0 2. Доказать, что если f (x) – непрерывная и ограниченная функция на [0, ∞), то для h>0 µ ¶ ∞ X k (nh)k −kn f x+ lim e = f (x + h). n→∞ n k! k=0 3. Пусть ξ1 , ξ2 , . . . – последовательность случайных величин, δ > 0. Доказать, что если ∞ X п. н. E{|ξn − ξ|δ } < ∞, то ξn → ξ. n=1 P 4. Доказать, что если ξn − an → 0, то mξn − an → 0, где mξn – медиана случайной n→∞ величины ξn , an – последовательность действительных чисел. Z Z Lp 5. Доказать, что если ξn → ξ, p ⩾ 1, то для любого события A ∈ F ξn dP → ξdP. A Lp p L1 A p 6. Доказать, что если ξn → ξ, p ⩾ 1, то |ξn | → |ξ| . P 7. Пусть ξ1 , ξ2 , . . . – последовательность независимых случайных величин и ξn → ξ. п. н. Доказать, что ξ имеет вырожденное распределение, т. е. ξ = const. (1) п. н. (k) п. н. 8. Пусть ξn −→ , . . . , ξn −→ ξk и функция g(x1 , . . . xk ) непрерывна в Rk . Доказать, ³ ξ1´ (1) (k) п. н. что ηn = g ξn , . . . ξn −→ η = g(ξ1 , . . . , ξk ). 134 ГЛАВА 4. СЛУЧАЙНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ И ИХ СХОДИМОСТЬ 9. Пусть r ⩾ 1, c ∈ R – константа, X, Y – случайные величины, определенные на (Ω, F, P ), ||Xr || = (E{|X|r })1/r . Показать, что: а) kcXkr = ckXkr ; б) kX + Y kr ⩽ kXkr + kY kr ; в) kXkr = 0 ⇔ P{X = 0} = 1. Это позволяет сказать, что k · kr – некоторая норма на множестве классов эквивалентности случайных величин с конечным r-м моментом; при этом отношение эквивалентности задается следующим образом: X ∼ Y ⇔ P{X = Y } = 1. 10. Построить случайные величины X, X1 , X2 , . . . на E{|Xn − X|2 } → 0, но E{|Xn |} = ∞ для любого n ∈ N. (Ω, F, P ), так что n→∞ L1 11. Пусть Xn → X. Показать, что отсюда следует сходимость средних: E{Xn } → E{X}. Справедливо ли обратное? P 12. Пусть Xn → X, |Xn | ⩽ Z для любого n ∈ N, причем E{Z} < ∞. Показать, что n→∞ L Xn →1 X. n→∞ 13. Пусть Xn D → n→∞ X и Yn D D n→∞ n→∞ P → n→∞ c, где c – некоторая константа. Показать, что Xn Yn → cX и Xn /Yn → X/c, если c 6= 0. 14. Доказать следующую теорему. D P Теорема (Слуцкого). Пусть Xn → 0, Yn → Y, а g(x, y) : R2 → R1 – непреn→∞ n→∞ рывная функция от y для всех x, причем g(0, y) непрерывна по y. Показать, что P g(Xn , Yn ) → g(0, Y ). n→∞ 15. Пусть X1 , X2 , . . . ⩾ 0 – независимые случайные величины, распределенные по зако∞ X ну Пуассона: L{Xr } = Π(λr ), r ∈ N. Показать, что Xr сходится или расходится r=1 почти наверное в зависимости от того, сходится или расходится числовой ряд ∞ X λr . r=1 16. Случайная последовательность X1 , X2 , . . . на (Ω, F, P ) называется вполне сходя∞ X щейся к случайной величине X, если ∀² > 0 P{|Xn − X| > ²} < ∞. k=1 Показать, что для последовательностей независимых случайных величин вполне сходимость эквивалентна почти наверное сходимости. Построить пример последовательности зависимых случайных величин, которая сходится почти наверное, но не является вполне сходящейся. (Использовать результаты упражнения 9.) 17. Пусть X1 , X2 , . . . – независимые, одинаково распределенные случайные величины с конечным математическим ожиданием µ и дисперсией. Показать, что 1 X P Xi Xj → µ2 . n→∞ Cn2 1⩽i<j⩽n D D n→∞ n→∞ 18. Показать, что если Xn → X, то aXn + b → aX + b для любых констант a, b ∈ R. Глава 5 ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 5.1. ЗАКОН БОЛЬШИХ ЧИСЕЛ И УСЛОВИЯ ЕГО ВЫПОЛНЕНИЯ Пусть задана последовательность независимых случайных величин ξ1 , . . . , ξn , имеющих конечное математическое ожидание E{ξk } = a (k = 1, . . . , n). Пусть, например, ξk – результат k-го взвешивания некоторого физического тела на аналитических весах, a – истинное значение веса. Тогда ξk −a – случайная погрешность измерения в k-м эксперименте. При увеличении числа экспериментов, оказывается, имеет место сходимость последовательности средних арифметических: n 1X ξk → a. n→∞ n k=1 (5.1) Если сходимость в (5.1) понимается по вероятности, то соотношение вида (5.1) называется законом больших чисел (ЗБЧ). Если же в (5.1) имеем в виду сходимость почти наверное, то соотношение вида (5.1) называют усиленным законом больших чисел (УЗБЧ). Теорема 5.1 (критерий ЗБЧ). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность как угодно зависимых случайных величин ξk = ξk (ω), k = 1, 2, . . . . Тогда условие à !2 n X (ξk − ak ) k=1 → 0 E !2 à n n→∞ X 2 (ξk − ak ) n + k=1 является необходимым и достаточным условием выполнения закона больших чисел: n 1X P (ξk − ak ) → 0. n→∞ n k=1 (5.2) n 1X ak , то закон больших чисел (5.2) можно запиn→∞ n k=1 Замечание 5.1. Если ∃a = lim сать в виде (5.1). Замечание 5.2. Введем в рассмотрение вспомогательную последовательность средних арифметических: n 1X ηn = ηn (ω) = (ξk − ak ). n k=1 В этом случае формулировка теоремы примет следующий упрощенный вид: P ηn → 0 тогда и только тогда, когда ½ E η2n 1 + η2n (5.3) ¾ → 0. (5.4) 136 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Доказательство. По определению сходимости по вероятности имеем (5.3) ⇔ ∀² > 0 Pn (²) ::= P{|ηn | > ²} → 0. n→∞ (5.5) Необходимо показать эквивалентность: (5.5) ⇔ (5.4). Введем в рассмотрение вспомогательную функцию: g(y) = y2 , 0 ⩽ g(y) ⩽ 1, g(y) ⩽ y 2 , g(·) − 1 + y2 монотонно возрастающая функция переменной |y|. Получим двухстороннюю оценку для Pn (²). В силу монотонности функции g(·) имеем оценку сверху: Z Z g(y) 1 + ²2 Pn (²) = 1dFηn (y) ⩽ dFηn (y) ⩽ × g(²) ²2 |y|>² +∞ Z × |y|>² y2 1 + ²2 dF (y) = E η n 1 + y2 ²2 −∞ ½ η2n 1 + η2n ¾ . (5.6) Оценим Pn (²) снизу: Z Z Pn (²) = 1dFηn (y) ⩾ |y|>² +∞ Z = Z ⩾E |y|>² g(y)dFηn (y) − −∞ ½ g(y)dFηn (y) = η2n 1 + η2n g(y)dFηn (y) ⩾ |y|⩽² ¾ ½ Z 2 − y dFηn (y) ⩾ E |y|⩽² η2n 1 + η2n ¾ − ²2 . (5.7) Объединяя (5.6) и (5.7), получаем ½ ¾ ½ ¾ η2n η2n 1 + ²2 2 E − ² ⩽ P (²) ⩽ E , ∀n ∈ N, ∀² > 0. n 1 + η2n ²2 1 + η2n ¤ Отсюда заключаем, что при n → ∞ (5.4) ⇔ (5.5). Замечание 5.3. Доказанный критерий закона больших чисел на практике часто труднопроверяем в вычислительном отношении. Сформулируем ряд более простых достаточных условий закона больших чисел. Теорема 5.2 (достаточное условие Маркова ЗБЧ). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность как угодно зависимых случайных величин ξk = ξk (ω), k = 1, 2, . . . , имеющих конечные математические ожидания E{ξk } = ak и дисперсии. Если выполняется условие ( n ) X 1 D ξk → 0, (5.8) n→∞ n2 k=1 то к последовательности {ξk } применим закон больших чисел в виде (5.2). 5.1. ЗАКОН БОЛЬШИХ ЧИСЕЛ И УСЛОВИЯ ЕГО ВЫПОЛНЕНИЯ 137 Доказательство. Покажем, что (5.8) влечет выполнение условия (5.4). По свойствам дисперсии имеем ( n ) ( n ) ½ ¾ n X X X 1 η2n 1 1 ⩽ E{η2n } ≡ D{ηn } = D E ξn − ak = 2 D ξk → 0, 1 + η2n n k=1 n k=1 n k=1 ¤ и, следовательно, выполняется (5.4), а значит, и закон больших чисел. Теорема 5.3 (достаточное условие Чебышева ЗБЧ). Если ξk = ξk (ω), k = = 1, 2, . . . , – последовательность попарно независимых случайных величин, имеющих конечные математические ожидания и ограниченные дисперсии: D{ξk } ⩽ c < +∞, (5.9) то к этой последовательности применим закон больших чисел в виде (5.2). Доказательство. Проверим достаточное условие Маркова, используя свойства дисперсии и формулу (5.9): ( n ) n X 1 1 X c D ξ = D{ξk } ⩽ → 0. k 2 2 n n k=1 n k=1 Следовательно, выполнено достаточное условие Маркова, а значит, и закон больших чисел. ¤ Теорема 5.4 (теорема Бернулли). Если ξk = ξk (ω), k = 1, 2, . . . , – последовательность одинаково распределенных попарно независимых случайных величин Бернулли: ξk ∈ {0, 1}, P{ξk = 1} = p, P{ξk = 0} = 1 − p, 0 ⩽ p ⩽ 1, то выполняется закон больших чисел в виде n 1X P ξk → p. n→∞ n k=1 Доказательство. Проверим достаточное условие Чебышева: E{ξk } = ak = p, D{ξk } = p(1 − p) ⩽ c = 1 < +∞. 4 Следовательно, имеет место закон больших чисел. ¤ Следствие 5.1 (эквивалентная формулировка). Пусть m – число наступлений случайного события A в схеме n независимых испытаний Бернулли, в каждом из которых событие A наступает с одной и той же вероятностью p. Тогда при увеличении числа испытаний (n → ∞) относительная частота νn (A) = m/n сходится к вероятности p: P νn (A) → p. Доказательство. Достаточно учесть, что m= n X ξk . k=1 ¤ 138 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Теорема 5.5 (Пуассона). Пусть ξk – последовательность попарно независимых случайных величин Бернулли: ξk ∈ {0, 1}, P{ξk = 1} = pk , P{ξk = 0} = 1 − pk , 0 ⩽ pk ⩽ 1. Тогда выполняется закон больших чисел в следующем виде: n 1X P ξk → p∗ , n→∞ n k=1 n 1X pk . n→∞ n k=1 Доказательство. Схема доказательства та же, что и в теореме 5.4. ¤ Следствие 5.2. Теоремы Чебышева, Бернулли и Пуассона остаются в силе, если вместо условия попарной независимости используется условие попарной некоррелированности. где p∗ = lim 5.2. УСИЛЕННЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ И УСЛОВИЯ ЕГО ВЫПОЛНЕНИЯ Определение 5.1. Принято говорить, что случайная последовательность ξk = = ξk (ω), k ∈ N, на вероятностном пространстве (Ω, F, P ) удовлетворяет усиленному закону больших чисел, если существует такая числовая последовательность ak ∈ R, что при n → ∞ последовательность средних арифметических сходится почти наверное: n 1X п. н. (ξk − ak ) → 0. n→∞ n k=1 (5.10) Замечание 5.4. Из выполнения усиленного закона больших чисел следует выполнение закона больших чисел. Замечание 5.5. Выполнение усиленного закона больших чисел требует более жестких условий, чем закон больших чисел. В частности, мы будем требовать независимость в совокупности случайных величин. Лемма 5.1 (неравенство Гаека – Реньи). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности случайных величин ξk = ξk (ω), k ∈ N, имеющих математические ожидания E{ξk } = ak и дисперсии D{ξk } = σ2k . Тогда для ∀² > 0, ∀m, n ∈ N, m < n, любой невозрастающей последовательности ck ⩾ 0 справедливо неравенство ( ) à ! k m n X X X 1 2 2 2 2 P max |ck (ξi − ai )| > ² ⩽ 2 cm σi + ci σi . m≤k≤n ² i=1 i=1 i=m+1 Доказательство. Обозначим Sk = k n−1 X X (ξi − ai ), η = Sk2 (c2k − c2k+1 ) + Sn2 c2n . i=1 k=m (5.11) 139 5.2. УСИЛЕННЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ Тогда E{η} = n−1 X k=m m X n−1 X = = m X n−1 X k X (c2k − c2k+1 )E{Sk2 } + c2n E{Sn2 } = σ2i (c2k − c2k+1 ) + i=1 k=m σ2i (c2m − c2n ) + n−1 X n−1 X σ2i (c2k − c2k+1 ) + c2n σ2i (c2i − c2n ) + c2n n X σ2i = c2m m X n X i=1 σ2i + i=1 i=1 i=m+1 i=1 k=m i=1 i=m+1 k=1 n−1 X σ2i (c2k − c2k+1 ) + c2n n X σ2i = i=1 σ2i = n X σ2i c2i . i=m+1 Рассмотрим случайные события: Ai = {ω : ck |Sk (ω)| ⩽ ², m ⩽ k < i − 1, ci |Si (ω)| > ²}, i = m, m + 1, . . . , n. Поскольку события {Ai } несовместны, то ¯ k ¯ ( ) ( n ) n ¯X ¯ [ X ¯ ¯ P max ck ¯ (ξi − ai )¯ > ² = P Ai = P{Ai }. m≤k≤n ¯ ¯ i=1 i=m i=m Отсюда для доказательства теоремы достаточно доказать, что E{η} ⩾ ²2 n X P{Ai }. i=m Это неравенство следует из неравенств n © ª X E{η}⩾E η11∪ni=m Ai = E{η11Ai }; i=m E{η11Ai } = n−1 X (c2k − c2k+1 )E{Sk2 11Ai } + c2n E{Sn2 11Ai } ⩾ k=m ⩾ n−1 X (c2k − c2k+1 )E{Sk2 11Ai } + c2n E{Sn2 11Ai }; k=i E{Sk2 11Ai } = E{(Sk − Si + Si )2 11Ai } ⩾ E{Si2 11Ai } + 2E{(Sk − Si )Si 11Ai } = = E{Si2 11Ai } + 2E{Sk − Si }E{Si 11Ai } = E{Si2 11Ai } ⩾ ⩾E ½ 2 ¾ ² ²2 11 = 2 P{Ai }. 2 Ai ci ci ¤ Следствие 5.3 (неравенство Колмогорова). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности случайных величин ξk = ξk (ω), k ∈ N, имеющих математические ожидания E{ξk } = ak 140 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ и дисперсии D{ξk } = σ2k . Тогда для ∀² > 0 справедливо следующее неравенство: n X σ2j ¯ ¯ ) k ¯X ¯ j=1 ¯ ¯ P max ¯ (ξj − aj )¯ > ² ⩽ 1≤k≤n ¯ ¯ ²2 ( D ≡ j=1 ( n X j=1 ²2 ) ξj . (5.12) Доказательство. Неравенство (5.12) следует из неравенства Гаека – Реньи, если положить m = 1, ck ≡ 1. ¤ Следствие 5.4. При n = 1 формула (5.12) превращается в неравенство Чебышева. Замечание 5.6. Таким образом, неравенство Гаека – Реньи является обобщением неравенства Чебышева. Теорема 5.6 (достаточное условие Колмогорова УЗБЧ). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности случайных величин ξk = ξk (ω), k ∈ N, имеющих конечные математические ожидания E{ξk } = ak и дисперсии D{ξk } = σ2k . Если сходится ряд Колмогорова K= ∞ X σ2 k k2 k=1 < +∞, (5.13) то к последовательности ξk применим усиленный закон больших чисел в виде (5.10). Доказательство. Воспользуемся неравенством (5.11), в котором положим ck = ◦ = 1/k, n → ∞, ξj = ξj − aj . Получим ¯ ¯ k ( ) à ! m ∞ ¯1 X ◦ ¯ X σ2j 1 1 X 2 1 ¯ ¯ ∀² > 0 P sup ¯ σj + =:: 2 (Am + Bm ). ξj ¯ > ² < 2 2 2 ¯ ² m j=1 j ² k≥m ¯ k j=1 j=m+1 Исследуем асимптотику этой числовой последовательности при m → ∞. Из (5.13) следует: Bm → 0 и Am → 0. Отсюда вытекает, что ¯ ¯ k ( ) ¯1 X ◦ ¯ ¯ ¯ ∀² > 0 lim P sup ¯ ξj ¯ > ² = 0. m→∞ ¯ k≥m ¯ k j=1 По одному из эквивалентных определений сходимости почти наверное это и означает ¤ (5.10). Лемма 5.2. Пусть ξ = ξ(ω) – произвольная случайная величина на вероятностном пространстве (Ω, F, P ), и для нее определена последовательность вероятностей событий: pk = P{|ξ| ⩾ k}, k = 0, 1, 2, . . . ; p0 = 1. Тогда справедливо следующее двухстороннее неравенство: ∞ X pk ⩽ E{|ξ|} ⩽ 1 + k=1 ∞ X pk . k=1 Доказательство. Доказать данную лемму можно, воспользовавшись следующим выражением: +∞ Z Z ∞ k+1−0 X E{|ξ|} = xdF|ξ| (x) ≡ xdF|ξ| (x). 0 k=0 k ¤ 141 5.2. УСИЛЕННЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ Теорема 5.7 (Колмогорова, УЗБЧ для н. о. р. СВ). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности, одинаково распределенных случайных величин ξk = ξk (ω), k ∈ N. Для того чтобы выполнялся усиленный закон больших чисел в следующем виде: n 1 X п. н. ξk → a, n→∞ n k=1 (5.14) необходимо и достаточно, чтобы существовало математическое ожидание E{|ξ1 |} < ∞, (5.15) причем E{ξ1 } = a. Доказательство. Достаточность. Разобьем доказательство на четыре части. 1) Определим последовательность вероятностей: pk = P{|ξ1 | ⩾ k}, k = 0, 1, . . . . В силу леммы 5.2 и формулы (5.15) заметим, что сходится ряд, составленный из этих вероятностей: ∞ X pk < +∞. (5.16) k=1 2) Построим вспомогательную последовательность ξ∗n на (Ω, F, P ) и покажем, что она эквивалентна ξn в смысле сходимости почти наверное: п. н. ξ∗n − ξn → 0. n→∞ Вспомогательная последовательность ξ∗n называется усеченной и строится следующим образом: ½ ξn , |ξn | < n, ξ∗n = (5.17) 0, |ξn | ⩾ n. Отсюда имеем P{ξ∗n 6= ξn } = P{|ξn | ⩾ n} = pn . Выберем ∀² > 0, ∀N ∈ N и оценим вероятность такого события: ½ ¾ ½ ¾ PN ::= P sup |ξ∗n − ξn | > ² ⩽ P sup |ξ∗n − ξn | > 0 = n≥N =P ( ∞ [ n≥N ) {ξ∗n 6= ξn } ⩽ n=N ∞ X P{ξ∗n 6= ξn } = n=N ∞ X pn . n=N В силу формулы (5.16) PN оценена остатком сходящегося ряда. Поэтому п. н. PN → 0 ⇒ ξ∗n − ξn → 0. n→∞ N →∞ Таким образом, рассматриваемые последовательности {ξn }, {ξ∗n } эквивалентны в смысле сходимости почти наверное. 3) Покажем, что к усеченной последовательности ξ∗n применим усиленный закон больших чисел. Проверим достаточное условие Колмогорова, т. е. сходимость ряда: K= ∞ X D{ξ∗ } n n=1 n2 . (5.18) 142 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Оценим дисперсию в (5.18) с учетом (5.17): n−0 Z y 2 dF|ξ1 | (y) ≡ D{ξ∗n } ⩽ E{(ξ∗n )2 } ::= ≡ Z n−1 k+1−0 X k=0 = n−1 X 0 y 2 dF|ξ1 | (y) ⩽ n−1 X (k + 1)2 P{k ⩽ |ξ1 | < k + 1} = k=0 k (k + 1)2 ((1 − pk+1 ) − (1 − pk )) = k=0 n−1 X (k + 1)2 (pk − pk+1 ). k=0 Подставляя эту оценку в (5.18), получаем ∞ X n−1 X 1 K⩽ n2 n=1 k=0 (k + 1)2 (pk − pk+1 ). Поменяв порядок суммирования, имеем K⩽ ∞ X (k + 1)2 (pk − pk+1 ) k=0 ∞ X 1 . 2 n n=k+1 Справедлива оценка суммы внутреннего ряда: ¶ ∞ ∞ ∞ µ X X X 1 1 1 1 1 1 ⩽ + ≡ + − = n2 (k + 1)2 n=k+2 n(n − 1) (k + 1)2 n=k+2 n − 1 n n=k+1 = 1 2 1 + ⩽ . (k + 1)2 k + 1 k+1 Используя эту оценку, получаем согласно (5.16) ! ! à Ã∞ ∞ ∞ ∞ ∞ X X X X X pk < +∞. kpk + pk − ipi = 2 1 + (k + 1)(pk − pk+1 ) = 2 K≤2 i=0 k=0 k=0 k=0 k=1 В силу достаточного условия Колмогорова заключаем, что усиленный закон больших чисел применим к ξ∗n в следующем виде: n 1X ∗ п. н. (ξk − E{ξ∗k }) → 0. n→∞ n k=1 (5.19) 4) Исследуем для (5.19) сходимость последовательности математических ожиданий, используя (5.17): Zk lim E{ξ∗k } = lim k→∞ k→∞ +∞ Z xdFξ1 (x) = xdFξ1 (x) = E{ξ1 } = a. −∞ −k Таким образом, (5.19) принимает вид n 1 X ∗ п. н. ξ → a. n k=1 k n→∞ А так как ξ∗k эквивалентна ξk в смысле сходимости почти наверное, то выполняется (5.14). 5.2. УСИЛЕННЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ 143 Необходимость. Введем вспомогательную последовательность средних арифметических: n 1X ξk , n ∈ N. ηn = n k=1 п. н. В силу формулы (5.14) имеем ηn → a. n→∞ Из этого следует, что 1 n−1 п. н. ξn ≡ η n − ηn−1 → 0. n→∞ n n Воспользуемся определением сходимости почти наверное и построим вспомогательную последовательность случайных событий: ¯ ¾ ½¯ ¯1 ¯ ¯ ¯ An = ¯ ξn ¯ ⩾ ² = {|ξn | ⩾ n}, n ∈ N, n где выбрано ² = 1. Из определения сходимости почти наверное имеем P{ lim An } = 0. Заметим, что n→∞ {An } независимы в совокупности, поэтому из закона 0 ∨ 1 Бореля следует, что ряд ∞ ∞ X X P(An ) = pn сходится. И в силу леммы 5.2 E{|ξ1 |} < +∞. Далее, пользуясь n=1 n=1 первой частью доказательства достаточности, получаем n 1 X п. н. ξk → E{ξ1 }. n→∞ n k=1 Из формулы (5.14) и единственности предела следует, что E{ξ1 } = a. ¤ Теорема 5.8 (теорема Бореля). Пусть m – случайное число наступлений события A в схеме n независимых испытаний, в каждом из которых A наступает с одной и той же вероятностью p. Тогда при n → ∞ относительная частота сходится к вероятности почти наверное: νn = m п. н. → p. n n→∞ Доказательство. Проверим условия теоремы Колмогорова. Так как ξk – случайная величина Бернулли, то ее математическое ожидание существует: E{ξ1 } = a = p. ¤ Замечание 5.7. Теорема Бореля усиливает теорему Бернулли. Теорема 5.9 (теорема Хинчина). Пусть на (Ω, F, P ) определена последовательность независимых в совокупности, одинаково распределенных случайных величин ξk , имеющих математическое ожидание E{ξk } = a. Тогда к этой последовательности применим закон больших чисел: n 1X P ξk → a. n→∞ n k=1 Доказательство. По теореме Колмогорова выполняется соотношение (5.14), а из сходимости почти наверное следует сходимость по вероятности. ¤ Замечание 5.8. Теорема Хинчина есть ослабление теоремы Колмогорова. 144 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 5.3. СХОДИМОСТЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ И ХАРАКТЕРИСТИЧЕСКИХ ФУНКЦИЙ Пусть на вероятностном пространстве (Ω, F, P ) определена случайная последовательность ξn = ξn (ω), n ∈ N, и определены соответствующие последовательности функций распределения: Fn (x) ::= P{ξn < x}, x ∈ R, и характеристических функций: +∞ Z eitx dFn (x), t ∈ R. itξ fn (t) ::= E{e } = −∞ Пусть F (x), x ∈ R, – некоторая неубывающая ограниченная функция, 0 ⩽ F (x) ⩽ 1; C(F ) ⊆ R – множество точек непрерывности функции F . Определение 5.2. Принято говорить, что последовательность функций распределения Fn (x), x ∈ R, слабо сходится к некоторой неубывающей ограниченной функции F (x), x ∈ R, при n → ∞, и этот факт принято кратко обозначать Fn (·) ⇒ F (·), (5.20) если имеет место поточечная сходимость последовательности функций распределения на множестве C(F ), т. е. если выполняется предельное соотношение ∀x ∈ C(F ) Fn (x) → F (x). (5.21) Замечание 5.9. Предельная функция F (·) – не обязательно функция распределения, так как ее колебание ω(F ) = sup F (x) − inf F (x) ∈ [0, 1] может оказаться меньше единицы. Замечание 5.10. Если ω(F ) = 1, то предельная функция F (·) – функция распределения некоторой случайной величины ξ, и тогда соотношение (5.20) эквивалентно ранее D изученной сходимости по распределению: ξn → ξ. Теорема 5.10 (критерий слабой сходимости ФР). Для того чтобы Fn (·) ⇒ F (·), необходимо и достаточно, чтобы имела место поточечная сходимость последовательности функций распределения Fn (·) на некотором всюду плотном в R множестве Z ⊆ R: (5.22) ∀z ∈ Z, Fn (z) → F (z). Замечание 5.11. Множество Z ⊆ R всюду плотно в R тогда и только тогда, когда ∀x ∈ R, ∀² > 0, ²-окрестность точки x содержит хотя бы один элемент из Z. Доказательство. Необходимость. Пусть Fn (·) ⇒ F (·). Найдем такое всюду плотное множество Z ⊂ R, для которого выполняется (5.22). Выберем Z ::= C(F ). Поскольку F – неубывающая ограниченная функция, то множество точек ее разрыва C0 (F ) не более чем счетно. Тогда C(F ) = R/C0 (F ) всюду плотно в R. Достаточность. Пусть выполняется (5.22). В силу свойств всюду плотного множества Z подберем числовые последовательности: z1 ↑ x, z2 ↓ x, z1 , z2 ∈ Z, z 1 ⩽ x ⩽ z2 , x ∈ C(F ). В силу свойства функции распределения из (5.23) имеем Fn (z1 ) ⩽ Fn (x) ⩽ Fn (z2 ). (5.23) 5.3. СХОДИМОСТЬ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ 145 Устремляя n → ∞, в силу (5.22) имеем lim Fn (z1 ) = F (z1 ) ⩽ lim Fn (x) ⩽ lim Fn (x) ≤ lim Fn (z2 ) = F (z2 ). n→∞ n→∞ n→∞ n→∞ Устремим теперь: z1 ↑ x, z2 ↓ x. Поскольку x – точка непрерывности функции F , то lim Fn (x) = lim Fn (x) = F (x), что означает выполнение (5.21). ¤ n→∞ n→∞ Лемма 5.3 (первая теорема Хелли). Из всякой последовательности функций распределения Fn (x), x ∈ R, n ∈ N, можно выделить подпоследовательность Fnk (x), x ∈ R, k ∈ N, которая слабо сходится к некоторой неубывающей ограниченной функции F : Fnk (·) ⇒ F (·). Доказательство. Для доказательства следует воспользоваться леммой Больцана – Вейерштрасса. ¤ Лемма 5.4 (вторая теорема Хелли). Пусть некоторая последовательность функций распределения слабо сходится к некоторой неубывающей ограниченной функции: Fn (·) ⇒ F (·), причем предельная функция F (·) является некоторой функцией распределения (т. е. ω(F ) = 1). Пусть далее y = g(x) – некоторая непрерывная ограниченная функция: |g(x)| ⩽ M < +∞. Тогда имеет место сходимость последовательности интегралов +∞ +∞ Z Z g(x)dFn (x) → g(x)dF (x). −∞ −∞ Доказательство. На первом этапе доказывается сходимость последовательности интегралов на конечном промежутке [a, b]. На этом промежутке для подынтегральной функции g(x) строится аппроксимирующая функция g² (x): sup |g² (x) − g(x)| ⩽ ², a≤x≤b для которой показывается, что Zb Zb g² (x)dFn (x) → a g² (x)dF (x). a На втором этапе используются свойства функции распределения: F (a) → 0 при a → −∞, 1 − F (b) → 0 при b → +∞. ¤ Теорема 5.11 (теорема непрерывности). Пусть на (Ω, F, P ) определены последовательность случайных величин ξn = ξn (ω), n = 1, 2, . . . , и соответствующие последовательности функций распределения Fn (x), x ∈ R, и характеристических функций fn (t), t ∈ R. Тогда при n → ∞ справедливы следующие два утверждения: 1) если последовательность функций распределения слабо сходится к некоторой функции распределения F (·) : Fn (·) ⇒ F (·), то имеет место поточечная сходимость последовательности характеристических функций: +∞ Z eitx dF (x) − fn (t) → f (t), t ∈ R, причем f (t) = n→∞ −∞ характеристическая функция, соответствующая предельной функции распределения F (·); 146 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 2) если имеет место поточечная сходимость последовательности характеристических функций: fn (t) → f (t), t ∈ R, причем предельная функция f (t) непрерывна в точке t = 0, то имеет место слабая сходимость последовательности функций распределения: Fn (·) ⇒ F (·); при этом F (·) – функция распределения, которой соответствует характеристическая функция f (t). Доказательство. 1) Выберем во второй теореме Хелли: g(x) = eitx , t – фиксированное; g – ограничена и непрерывна: |g(x)| = 1. Итак, из второй теоремы Хелли имеем +∞ Z +∞ Z itx eitx dF (x), e dFn (x) → −∞ следовательно, −∞ fn (t) → f (t), n→∞ ∈ R. 2) Из доказанной выше первой теоремы Хелли следует, что существует последовательность nk такая, что {Fnk } будет слабо сходиться к некоторой функции F , которая непрерывна слева и неубывающая. Покажем, что функция F – функция распределения. Для этого требуется доказать, что F (−∞) = 0, F (+∞) = 1 или ω(F ) = = F (+∞) − F (−∞) = 1. Предположим противное: F (+∞) − F (−∞) = δ < 1. Поскольку для всех n fn (0) = 1, то и f (0) = 1. Из непрерывности f (t) в точке t = 0 следует, что для любого ² > 0 найдется τ > 0 такое, что ¯ ¯ ¯ ¯ Zτ ¯1 ¯ ² ¯ ¯ ¯ 2τ f (t)dt¯ ⩾1 − 2 . ¯ ¯ −τ Поскольку fnk → f (t), t ∈ R, то существует n0 такое, что |fnk (t) − f (t)| ⩽ ²/2 при nk ⩾ n0 . Тогда ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ Zτ Zτ ¯1 ¯ ¯1 ¯ ² ¯ ¯ ¯ f (t)dt¯ ⩽ ¯ fnk (t)dt¯¯ + 1− ⩽ ¯ 2 ¯ 2τ ¯ ¯ 2τ ¯ −τ −τ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ Zτ Zτ ¯1 ¯ ¯ ² ¯1 ¯ ¯ ¯ +¯ (f (t) − fnk (t))dt¯ ⩽ ¯ fnk (t)dt¯¯ + . ¯ 2τ ¯ ¯ 2 ¯ 2τ −τ Отсюда при nk ⩾ n0 −τ ¯ ¯ ¯ ¯ Zτ ¯ ¯1 ¯ ⩾ 1 − ². ¯ (t)dt f nk ¯ ¯ 2τ ¯ ¯ −τ Используя неравенства ¯ ¯ ¯ sin τx ¯ ¯ ¯ ¯ τx ¯ ⩽ 1, | sin τx| ⩽ 1, (5.24) 5.3. СХОДИМОСТЬ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ 147 получаем ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯Z ¯ Zτ Zτ Z Zτ ¯ ¯ ¯1 ¯ ¯1 ¯ 1 itx itx ¯ ¯ ¯ ¯ ¯= ¯ e dF (x)dt = f (t)dt e dF (x)dt = nk nk nk ¯ ¯ 2τ ¯ 2τ ¯ ¯ 2τ ¯ ¯ ¯ ¯ ¯ ¯ ¯ −τ −τ −τ ¯ ¯ ¯ ¯ ¯Z ¯ ¯ ¯ ¯ ¯ Z Z ¯ sin τx ¯ ¯ ¯ ¯ ¯ sin τx sin τx ¯ ¯ ¯ ¯ ¯ =¯ dFnk (x)¯ = ¯ dFnk (x)¯ + ¯ dFnk (x)¯¯ ⩽ τx τx τx ¯ ¯ ¯ ¯ −X ⩽ x<X x⩾X,x<−X 1 ⩽ Fnk (X) − Fnk (−X) + . τX Выберем X и −X точками непрерывности функции F . Тогда Fnk (X) → F (X) и Fnk (−X) → F (−X). nk →∞ nk →∞ Тогда по предположению Fnk (X) − Fnk (−X) → F (X) − F (−X) ⩽ δ. Отсюда получаем, что для любого ²1 > 0 существует номер n1 = n1 (², X) такой, что при nk ⩾ n1 ²1 Fnk (X) − Fnk (−X) ⩽ δ + . 2 Выберем X из условия 1 ²1 ⩽ . τX 2 Тогда при n ⩾ max(n0 , n1 ) ¯ ¯ ¯ ¯ Zτ ¯1 ¯ ¯ ¯ ⩽ δ + ²1 . f (t)dt (5.25) nk ¯ 2τ ¯ ¯ ¯ −τ Из соотношений (5.24) и (5.25) получаем неравенство 1 − ² ⩽ δ + ²1 , верное при всех ² > 0 и ²1 > 0, что невозможно. Получили противоречие. Таким образом, функция F – функция распределения. +∞ Z Поскольку fnk (t) → eitx dF (x) по второй теореме Хелли и fnk (t) → f (t), следовательно, −∞ Z f (t) = eitx dF (x). Это означает, что f – характеристическая функция, соответствующая функции распределения F . Покажем, что Fn ⇒ F . Допустим противное: Fn ; F . Тогда будет существовать последовательность n∗k такая, что Fn∗ ⇒ F ∗ , где F ∗ 6= F и F ∗ – функция распределения. k По второй теореме Хелли получаем Z Z fn∗ (t) → eitx dF ∗ (x) 6= eitx dF (x) = f (t). k Получили противоречие, так как fn∗ (t) ∗→ f (t). k n →∞ k ¤ 148 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Замечание 5.12. Теорема 5.11 показывает, что соответствие между функцией распределения и характеристической функцией является не только взаимно-однозначным, но и взаимно непрерывным: Fn (·) ⇒ F (·) ⇒ fn (·) → f (·); fn (·) → f (·) ⇒ Fn (·) ⇒ F (·). 5.4. УСЛОВИЕ ЛИНДЕБЕРГА И ЕГО ВЕРОЯТНОСТНЫЙ СМЫСЛ Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности случайных величин ξk = ξk (ω), k = 1, 2, . . . , имеющих функции распределения: Zy Fξk (y) = P{ξk < y} = dFξk (z), y ∈ R, −∞ конечные математические ожидания: +∞ Z ak = E{ξk } = ydFξk (y) −∞ и конечные дисперсии: +∞ Z σ2k = D{ξk } = E{(ξk − ak )2 } = (y − ak )2 dFξk (y). (5.26) −∞ Определение 5.3. Усеченным математическим ожиданием случайной величины ξk называется величина Z E{ξk ; |ξk | ⩾ c} ::= ydFξk (y), |y|≥c где c ⩾ 0 – параметр усечения. Очевидно: E{ξk ; |ξk | ⩾ 0} ≡ E{ξk }. Рассмотрим последовательность частичных сумм случайных величин: Sn = n X ξk , n = 1, 2, . . . . k=1 Определим соответствующее математическое ожидание An = E{Sn } = n X ak и дис- k=1 персию Bn2 = D{Sn } = n X σ2k . (5.27) k=1 Определение 5.4. Функцией Линдеберга для суммы Sn вышеопределенных случайных величин называется функция двух переменных: Z n 1 X (5.28) L = L(n, τ) ::= 2 (y − ak )2 dFξk (y), n ∈ N, τ ⩾ 0. Bn k=1 |y−ak |>τBn 149 5.4. УСЛОВИЕ ЛИНДЕБЕРГА И ЕГО ВЕРОЯТНОСТНЫЙ СМЫСЛ Согласно формулам (5.26) и (5.27) Z n X +∞ Bn2 = (y − ak )2 dFξk (y). k=1 −∞ Поэтому функция Линдеберга обладает следующими свойствами: C1. 0 ⩽ L(n, τ) ⩽ 1. C2. L(n, 0) = 1, L(n, +∞) = 0. C3. L(n, τ) – невозрастающая по переменной τ функция. Определение 5.5. Говорят, что случайная последовательность ξk удовлетворяет условию Линдеберга, если ∀τ > 0, L(n, τ) → 0. (5.29) n→∞ Упростим обозначения. Для этого введем нормированные случайные величины: ξkn = ξk − ak σ2 , E{ξkn } = 0, D{ξkn } = k2 , k = 1, . . . , n. Bn Bn Рассмотрим нормированные частичные суммы: Sn0 = n X ξkn = k=1 Sn − An , E{Sn0 } = 0, D{Sn0 } = 1. Bn В функции Линдеберга (5.28) сделаем замену переменных: (y −ak )/Bn = x и получим L = L(n, τ) = Z n X k=1 x2 dFξkn (x) = n X E{ξ2kn ; |ξkn | > τ}, n ∈ N, τ ⩾ 0. (5.30) k=1 |x|>τ Оказывается, что при увеличении n распределение L{Sn0 } приближается к гауссовскому распределению, хотя слагаемые имеют произвольное распределение вероятностей. Это явление называют «чудом Лапласа». Основным условием выполнения «чуда Лапласа» является условие Линдеберга (5.29). Выясним его вероятностный смысл. Лемма 5.5 (вероятностный смысл условия Линдеберга). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности случайных величин {ξk }, имеющих конечные математические ожидания {ak } и конечные дисперсии {σ2k }. Тогда если выполняется условие Линдеберга (5.29), то справедливы следующие два свойства: 1) имеет место равномерная малость дисперсий слагаемых в сумме Sn : σ2k = max D{ξkn } → 0; 2 n→∞ 1≤k≤n 1≤k≤n Bn max (5.31) 2) нормированные случайные величины {ξkn } группируются в окрестности точки x = 0 так, что выполняется соотношение ½ ¾ ∀τ > 0 P max |ξkn | > τ → 0. (5.32) 1≤k≤n n→∞ Доказательство. Докажем (5.31), (5.32) по отдельности. 150 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 1) По построению {ξkn } и с учетом (5.30) имеем max D{ξkn } = max E{ξ2kn } ≡ 1≤k≤n 1≤k≤n ≡ max (E {ξ2kn ; |ξkn | ⩽ τ} + E{ξ2kn ; |ξkn | > τ}) ≤ 1⩽k⩽n 2 ≤ τ + max E {ξ2kn ; |ξkn | > τ} ⩽ τ2 + L(n, τ) → τ2 . n→∞ 1≤k≤n Отсюда в силу произвола τ получаем (5.31). 2) По свойствам вероятности и с учетом (5.30) имеем ½ ¾ µ n ¶ S P max |ξkn | > τ ≡ P {|ξkn | > τ} ≤ 1≤k≤n k=1 Z n n X X ≤ P{|ξkn | > τ} = 1dFξkn (x) ≤ k=1 k=1 n X |x|>τ 1 1 E{ξ2kn ; |ξkn | > τ} = 2 L(n, τ) → 0, ∀τ. ≤ 2 n→∞ τ k=1 τ Отсюда следует выполнение (5.32). ¤ 5.5. ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА ЛИНДЕБЕРГА – ФЕЛЛЕРА Лемма 5.6. Для любых α ∈ R, β ∈ C, |β| ⩽ 1/2 справедливы неравенства: |eiα − 1| ⩽ |α|; α2 ; 2 α2 |α|3 |eiα − 1 − iα + | ⩽ ; 2 6 | ln(1 + β) − β| ⩽ |β|2 . |eiα − 1 − iα| ⩽ Доказательство. Проводится с использованием формулы Тейлора и представлением остаточного члена в форме Лагранжа. ¤ Теорема 5.12 (ЦПТ Линдеберга). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности случайных величин ξk , k = 1, 2, . . ., имеющих конечные математические ожидания E{ξk } = ak и дисперсии D{ξk } = σ2k . Тогда если выполняется условие Линдеберга (5.29), то выполняется условие равномерной малости дисперсий (5.31) и при n → ∞ последовательность функций распределения нормированных сумм Sn0 = (Sn − An )/Bn случайных величин сходится к функции распределения стандартного нормального закона: ∀x ∈ R F 0 Sn 1 (x) = P{Sn0 < x} → Φ(x) = √ 2π Zx z2 e− 2 dz. (5.33) −∞ Замечание 5.13. Стандартный нормальный закон N (0, 1) – закон распределения вероятностей некоторой случайной величины ξ ∈ R с функцией распределения Φ(x), t2 плотностью распределения φ(x) = Φ0 (x) и характеристической функцией f (t) = e− 2 . 5.5. ЦПТ ЛИНДЕБЕРГА – ФЕЛЛЕРА 151 Замечание 5.14. C(Φ) = R, следовательно, формула (5.33) эквивалентна слабой сходимости FSn0 (·) ⇒ Φ(·), эквивалентной, в свою очередь, сходимости по распределению D Sn0 → ξ. Доказательство. Состоит из четырех этапов. Этап 1. Из (5.29) в силу леммы 5.5 следует (5.31), т. е. имеет место равномерная малость дисперсий. Этап 2. Вместо (5.33) будем доказывать эквивалентное утверждение о сходимости последовательности характеристических функций: t2 fSn0 (t) → f (t) = e− 2 , t ∈ R. n→∞ (5.34) Предельная функция f (t) непрерывна в точке t = 0; и отсюда по теореме непрерывности для характеристической функции будет следовать эквивалентность (5.33) и (5.34). В свою очередь, (5.34) эквивалентно сходимости последовательности кумулянтных функций: t2 ln fSn0 (t) → − , t ∈ R. (5.35) n→∞ 2 Итак, вместо (5.33) будем доказывать (5.35). Этап 3. Построим асимптотическое разложение для кумулянтной функции в произвольной точке t ∈ R, используя свойства характеристической функции и условие Линдеберга: ln fSn0 (t) = ln n Y fξkn (t) = k=1 n X ln(1 + ∆kn (t)), (5.36) k=1 где ∆kn (t) ::= fξkn (t) − 1 = E{eitξkn − 1}. Исследуем асимптотику ∆kn (t) при n → ∞. Построим оценку, используя лемму 5.6: ½ 2 ¾ ¯ © itξ ª¯ t 2 t2 σ2 kn ¯ ¯ |∆kn (t)| ≡ E e − 1 − itξkn ⩽ E ξkn = · k2 . (5.37) 2 2 Bn Из формулы (5.37) и условия (5.31) имеем max |∆kn (t)| ⩽ 1⩽k⩽n σ2 t2 max k2 → 0. 2 1⩽k⩽n Bn n→∞ Отсюда следует, что ∃ n < ∞ : ∀n > n, ∀k ∈ {1, . . . , n} |∆kn (t)| < 1/2. В (5.36) воспользуемся линейной формулой Тейлора ln fSn0 (t) = n X ∆kn (t) + rn , t ∈ R, k=1 где с учетом (5.37) для остаточного члена справедлива следующая оценка: ¯ ¯ n n ¯ ¯X X ¯ ¯ |∆kn (t)| · |∆kn (t)| ≤ |rn | = ¯ (ln(1 + ∆kn (t)) − ∆kn (t))¯ ⩽ ¯ ¯ k=1 k=1 n t2 X σ2k t2 ≤ max |∆kn (t)| · · = max |∆kn (t)| → 0. 2 1⩽k⩽n 2 k=1 Bn 2 1⩽k⩽n 152 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Таким образом, rn → 0, ∀t ∈ R. n→∞ Этап 4. Оценим по модулю разность между левой и правой частями (5.35): ¯ ¯ µ 2 ¶¯ ¯¯ n n ¯ 2 X X ¯ ¯ ¯ t t ¯ ¯ ≡ ¯rn + ∆n = ¯¯ln fSn0 (t)− − E{ξ2kn }¯ ≤ E{eitξkn −1−itξkn } + × ¯ ¯ ¯ 2 2 k=1 k=1 ≤ |rn | + n X k=1 ¯¾ ½¯ ¯ (tξkn )2 ¯¯ . E ¯¯eitξkn − 1 − itξkn + 2 ¯ Выберем ∀τ > 0 и воспользуемся леммой 5.6: ¯ ¾ ½¯ ¯ itξ (tξkn )2 ¯¯ kn ¯ − 1 − itξkn + ; |ξkn | ⩽ τ + ∆n ⩽ |rn | + E ¯e 2 ¯ k=1 ¯ ½¯ ¾ n X ¯ (tξkn )2 ¯¯ + E ¯¯eitξkn − 1 − itξkn + ; |ξ | > τ ≤ kn 2 ¯ k=1 ½ 3 2 ¾ n X |t| τξkn E ≤ |rn | + ; |ξkn | ⩽ τ + 6 k=1 ¯ ½¯ ¾ n X ¯ (tξkn )2 ¯¯ + E ¯¯eitξkn − 1 − itξkn + ; |ξ | > τ ⩽ kn 2 ¯ k=1 n X ⩽ |rn | + |t|3 t2 |t3 |τ τ · 1 + 2 · · L(n, τ) + , 6 2 6 ∀n > n, ∀t ∈ R, ∀τ > 0. (5.38) Устремим в (5.38) n → ∞ и учтем условие Линдеберга (5.29). В результате из (5.38) получаем lim ∆n ⩽ n→∞ |t|3 τ , ∀t ∈ R, τ > 0. 6 В силу произвола τ заключаем: ∆n → 0. Следовательно, выполняется соотношение (5.35), а значит, и (5.33). ¤ Теорема 5.13 (ЦПТ Феллера). Пусть на (Ω, F, P ) определена последовательность независимых в совокупности случайных величин {ξk }, имеющих конечные математические ожидания {ak } и дисперсии {σ2k }. Тогда при n → ∞, если выполнено условие равномерной малости дисперсий (5.31) и имеет место сходимость последовательности функций распределения нормированных сумм к стандартному нормальному закону (5.33), то выполняется условие Линдеберга (5.29). Замечание 5.15. Теоремы Линдеберга и Феллера и лемму 5.6 обычно объединяют в одну теорему, которая называется центральной предельной теоремой Линдеберга – Феллера. Замечание 5.16. Центральная предельная теорема допускает обобщение в двух направлениях: 1) для слабозависимых случайных величин {ξk }; 2) на случай суммы случайных векторов (многомерных случайных величин). Замечание 5.17. ЦПТ интенсивно используется в математической статистике. 153 5.6. ЧАСТНЫЕ СЛУЧАИ ЦЕНТРАЛЬНОЙ ПРЕДЕЛЬНОЙ ТЕОРЕМЫ 5.6. ЧАСТНЫЕ СЛУЧАИ ЦЕНТРАЛЬНОЙ ПРЕДЕЛЬНОЙ ТЕОРЕМЫ Определение 5.6. Если выполняется сходимость (5.33) к нормальному закону, то n X принято говорить, что сумма Sn = ξk при n → ∞ распределена асимптотически k=1 нормально с математическим ожиданием An = n X ak и дисперсией Bn2 = k=1 n X σ2k . k=1 Теорема 5.14 (теорема Ляпунова). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности случайных величин ξk , k ∈ N, имеющих конечные математические ожидания E{ξk } = ak и дисперсии D{ξk } = σ2k . Пусть далее для некоторого δ > 0 существуют конечные абсолютные моменты порядка 2 + δ : c2+δ ::= E{|ξk − ak |2+δ } и определены суммы моментов: k n n X X Bn2 = σ2k , Cn2+δ = c2+δ k . Тогда при n → ∞, если выполнено условие Ляпунова, т. е. k=1 k=1 если стремится к нулю дробь Ляпунова: Cn → 0, Bn n→∞ n X ξk распределена асимптотически нормально с то последовательность сумм Sn = k=1 математическим ожиданием An = ½ FSn0 (x) = P n X ak и дисперсией Bn2 : k=1 Sn − An <x Bn ¾ → Φ(x), x ∈ R. (5.39) Доказательство. Проверим условие Линдеберга и воспользуемся центральной предельной теоремой Линдеберга: n 1 X E{|ξk − ak |2 · 1; |ξk − ak | > τ · Bn } ≤ L(n, τ) ::= 2 Bn k=1 ) ( ¶δ µ n 1 X |ξk − ak | 1 C 2+δ 2 ≤ 2 ; |ξk − ak | > τBn ≤ δ · n2+δ → 0, τ > 0. E |ξk − ak | · Bn k=1 τBn τ Bn Следовательно, по центральной предельной теореме Линдеберга заключаем справедливость (5.39). ¤ Следствие 5.5 (неравенство Берри – Эссеена). Справедливо следующее неравенство: µ ¶2+δ Cn 1 , √ < λ < 1. sup |FSn0 (x) − Φ(x)| ⩽ λ · Bn 2π x∈R Теорема 5.15 (ЦПТ Леви – Линдеберга). Пусть на вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности, одинаково распределенных случайных величин ξk , k ∈ N, имеющих конечное математическое ожидание E{ξ1 } = a и конечную дисперсию D{ξ1 } = σ2 . Тогда при n → ∞ имеет место асимптотическая нормальность сумм этих случайных величин: ½ ¾ Sn − na √ P < x → Φ(x), x ∈ R. (5.40) nσ 154 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Доказательство. Проверим условие Линдеберга, учитывая одинаковую распределенность случайных величин: Z n 1 X An = n · a, Bn2 = n · σ2 , L(n, τ) = (y − a)2 dFξ1 (y) = nσ2 k=1 √ 1 = 2 σ Z |y−a|>τσ n (y−a)2 dFξ1 (y) → 0. √ |y−a|>τσ n n→∞ По центральной предельной теореме Линдеберга заключаем справедливость (5.40). ¤ Теорема 5.16 (теорема Муавра – Лапласа). Пусть на одном и том же вероятностном пространстве (Ω, F, P ) определена последовательность независимых в совокупности одинаково распределенных случайных величин Бернулли: ξk = ξk (ω), n X k ∈ N, P{ξk = 1} = p, P {ξk = 0} = 1 − p, 0 < p < 1. Тогда сумма Sn = ξk этих k=1 случайных величин Бернулли при n → ∞ распределена асимптотически нормально с математическим ожиданием An = np и дисперсией Bn2 = np(1 − p): ( ) Sn − np FSn0 (x) = P p < x → Φ(x), x ∈ R. (5.41) np(1 − p) Доказательство. Проверим условия теоремы Леви – Линдеберга. По свойствам распределения Бернулли: ∃a = E{ξk } = p, ∃σ2 = D{ξk } = p(1 − p) < ∞. Таким образом, соотношение (5.41) вытекает из предыдущей теоремы. ¤ Следствие 5.6. Пусть m – случайное число наступлений некоторого случайного события A в схеме n независимых испытаний Бернулли, в каждом из которых событие A наступает с одной и той же вероятностью p. Тогда справедливо следующее предельное соотношение: ( ) m − np P p <x → Φ(x), x ∈ R. n→∞ np(1 − p) Следствие 5.7. Справедлива следующая формула для приближенных вычислений: à ! à ! Y − np X − np P{X ⩽ m < Y } ≈ Φ p −Φ p , np(1 − p) np(1 − p) причем точность приближения зависит от X, Y ∈ R (X < Y ) и возрастает при увеличении числа экспериментов n. Доказательство. Основано на следствии 5.6 и следующем тождестве: ( ) m − np Y − np X − np P{X ⩽ m < Y } ≡ P p ⩽ p <p . np(1 − p) np(1 − p) np(1 − p) ¤ 155 5.7. СХЕМА СЕРИЙ. СХОДИМОСТЬ К ЗАКОНАМ ГАУССА И ПУАССОНА 5.7. СХЕМА СЕРИЙ. СХОДИМОСТЬ К ЗАКОНАМ ГАУССА И ПУАССОНА Определение 5.7. Принято говорить, что множество случайных величин Ξ = {ξkn } задано в схеме серий, если это множество устроено следующим образом: первая серия: ξ11 ; вторая серия: ξ12 , ξ22 ; ... n-я серия: ξ1n , ξ2n , . . . , ξnn . Причем внутри каждой серии случайные величины независимы в совокупности и одинаково распределены. Примером схемы серий служит множество нормированных величин в теореме Леви – ξ −a Линдеберга: ξkn = √knσ . n X Основной вопрос – это вопрос о предельном распределении L{Sn }, где Sn = ξkn . Рассмотрим частный случай, когда {ξkn } – случайные величины Бернулли: k=1 ξkn ∈ {0, 1}, P{ξkn = 1} = pn , P{ξkn = 0} = 1 − pn , k = 1, . . . , n. (5.42) Выделим две ситуации: 1. Пусть pn = p = const, 0 < p < 1, np → ∞. Тогда выполнены условия теоремы Муавра – Лапласа, и в этом случае L{Sn } сходится к закону Гаусса: ( ) Sn − np <x → Φ(x), x ∈ R. P p n→∞ np(1 − p) µ ¶ 1 λ 2. Пусть pn = + o → 0, 0 < λ < ∞, npn → λ. n n n→∞ Теорема 5.17 (теорема Пуассона). Пусть Ξ = {ξkn } – определенная выше схема серий случайных величин Бернулли (5.42), причем вероятность успеха µ ¶ λ 1 pn = + o , 0 < λ < ∞, npn → λ. n n n X ξkn этих случайных Тогда при n → ∞ распределение вероятностей сумм Sn = k=1 Q величин сходится к распределению Пуассона (λ) с параметром λ: FSn (x) = P{Sn < x} → FQ (x, λ) = x−1 k −λ X λ e k=0 k! , x ∈ N. (5.43) Доказательство. Воспользуемся той же идеей, что и при доказательстве центральной предельной теоремы Линдеберга – Феллера, а именно воспользуемся теоремой непрерывности для характеристических функций. Имеем it fξkn (t) = E{eitξkn } = 1 + pn (eit − 1); fQ (t, λ) = eλ(e −1) . Воспользуемся свойством характеристической функции: µ µ ¶¶ λ(eit − 1) 1 it fSn (t) = (fξ1n (t))n = 1 + +o → eλ(e −1) = fQ (t, λ), t ∈ R. n→∞ n n (5.44) 156 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Характеристическая функция Пуассона (5.44) непрерывна в точке t = 0. Поэтому по теореме непрерывности для характеристических функций из установленной сходимости следует формула (5.43), т. е. сходимость последовательности функций распределения. ¤ Следствие 5.8. Справедливо следующее предельное соотношение: λx e−λ , x ∈ 0, 1, . . . . n→∞ x! P{Sn = x} → Возникает вопрос, какие законы распределения вероятностей могут быть предельными для L{Sn }, n → ∞. Если предельное распределение L{Sn }, n → ∞, существует, то оно относится к классу безграничных делимых законов распределения вероятностей. Определение 5.8. Принято говорить, что случайная величина ξ имеет безгранично делимый закон распределения вероятностей, если для ∀n ∈ N найдется такое D разложение случайной величины ξ в виде ξ = ξ1n + . . . + ξnn , причем все слагаемые независимы в совокупности и имеют одинаковый закон распределения того p же типа, что и ξ, отличающийся лишь значением параметра. Другими словами: n fξ (t) – характеристическая функция того же типа, что и fξ (t), и отличается лишь значением параметра. µ ¶ p λ λ it Например, рассмотрим n fQ (t, λ) = e n (e −1) = fQ t, . n Задание 5.1. По таблице законов распределения вероятностей классифицировать все законы по признаку, являются они безгранично делимыми или нет. 5.8. ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА ДЛЯ СЛУЧАЙНЫХ ВЕКТОРОВ И СЛАБОЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН Как уже отмечалось, центральная предельная теорема допускает обобщения на многомерный случай и случай слабозависимых слагаемых. Дадим краткую формулировку этих результатов. Теорема 5.18 (ЦПТ для случайных векторов). Пусть X1 , X2 , . . . ∈ RN – определенные на вероятностном пространстве (Ω, F, P ), независимые в совокупности случайные N -векторы, одинаково распределенные и имеющие математическое ожидание E{Xk } = µ ∈ RN и ковариационную (N × N )-матрицу Σ. Тогда случайный N -вектор n 1 X 1 √ Σ− 2 (Xk − µ) n k=1 при n → ∞ распределен асимптотически нормально по N -мерному стандартному нормальному закону NN (0, IN ). Доказательство. Укажем лишь схему доказательства. На первом этапе, используя теорему непрерывности для характеристических функций, необходимо доказать следующий результат. Пусть на (Ω, F, P ) определены случайные N -векторы X, X1 , X2 , . . . ∈ RN . СхоD димость по распределению последовательности случайных векторов Xn → X имеет n→∞ место тогда и только тогда, когда для любого N -вектора a ∈ RN имеет место сходимость последовательности случайных величин aT Xn : D ∀a ∈ RN aT Xn → aT X. n→∞ 157 5.9. УПРАЖНЕНИЯ T На втором этапе для случайных величин {a Xn } используется центральная предельная теорема Линдеберга для одинаково распределенных случайных величин. ¤ Приведем теперь вариант центральной предельной теоремы для слабозависимых случайных величин – случайных величин с сильным перемешиванием. Пусть X1 , X2 , . . . – последовательность случайных величин с E{Xj } = 0, j ⩾ 1, =ba – σ-алгебра, порожденная случайными величинами, Xj , j ∈ [a, b], α(τ) = sup |P(AB) − P(A)P (B)| − t,A∈=t0 ,B∈=∞ t+τ коэффициент перемешивания по Розенблатту. Обозначим à !2 n n X 1 X , Sn = Xj , σ2n = E Xj σn j=1 j=1 ¯ ¯ ¯ ¯ Zz 2 ¯ ¯ 1 − x2 ¯ √ 4n = sup ¯P(Sn < z) − e dx¯¯ . z ¯ 2π ¯ −∞ Теорема 5.19 (ЦПТ для слабозависимых СВ [14]). Пусть существуют такие постоянные C > 0, C0 > 0, K > 0, 0 < δ ≤ 1, β > 1, что n o 2+δ sup E |Xk |2+δ ⩽ C, σ2n ⩾ C0 n, α(τ) ⩽ Kτ− δ β . k ⩽ n β−1 −δ Тогда 4n ⩽ Bn 2 β+2δ , где ограниченная величина B зависит только от C, C0 , K, δ, β. 5.9. УПРАЖНЕНИЯ 1. Пусть X1 , X2 , . . . – независимые случайные величины такие, что P{Xn = n} = 1 1 = P{Xn = −n} = , P{Xn = 0} = 1 − . Показать, что для {Xn } выпол2n log n n log n няется закон больших чисел, но не выполняется усиленный закон больших чисел. 2. Построить последовательность {Xr : r ⩾ 1} независимых случайных чисел с нулеn 1X п. н. Xk → −∞. вым математическим ожиданием такую, что n→∞ n k=1 3. Пусть случайные величины X1 , X2 , . . . таковы, что D{Xn } < c для всех n ∈ N n 1X P и некоторой константы 0 < c < ∞. Показать, что (Xi − E{Xi }) → 0, если n→∞ n k=1 коэффициенты корреляции удовлетворяют хотя бы одному из следующих условий: а) corr{Xi , Xj } ⩽ 0 для всех i 6= j; б) corr{Xi , Xj } → 0, если |j − i| → ∞. 4. Пусть X1 , X2 , . . . – независимые, одинаково распределенные случайные величины с 0, |x| ⩽ 2, c где c – норплотностью распределения вероятностей p(x) = 2 , |x| > 2, x log |x| n X P мировочная константа. Показать, что E{Xi } не существует, но n−1 Xi → 0. Показать, что усиленный закон больших чисел не имеет места. i=1 n→∞ 158 ГЛАВА 5. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 5. Пусть X1 , X2 , . . . – независимые дискретные случайные величины. P{Xk = k} = n X = P{Xk = −k} = 1/2k 2 , P{Xk = 1} = P{Xk = −1} = 1/2(1 − 1/k 2 ), Sn = Xk . k=1 √ √ Показать, что L{Sn / n} → N (0, 1), но D{Sn / n} → 2. n→∞ n→∞ 6. Пусть X1 , X2 , . . . – независимые, одинаково распределенные случайные величины, P{Xi = 1} = P{Xi = −1} = 1/2. Сходится ли почти наверное при n → ∞ ряд n X Xi /i? i=1 7. Пусть X1 , X2 , . . . – случайная последовательность, для которой выполняется закон больших чисел. Будет ли выполняться закон больших чисел для последовательности |X1 |, |X2 |, . . .? 8. Пусть X1 , X2 , . . . – случайная последовательность, E{Xi } = 0 (i = 1, 2, . . .), причем n X P P Xn → 0. Выполняется ли закон больших чисел n−1 Xi → 0? n→∞ i=1 n→∞ 9. Пусть X1 , X2 , . . . – независимые, одинаково распределенные случайные величины, n 1 X п. н. (Xi − E{Xi }) → 0. E{|Xi |r } < ∞, где 1 ⩽ r < 2. Показать, что √ r n→∞ n i=1 10. Пусть X1 , X2 , . . . – независимые, одинаково распределенные случайные величины, n 1 X п. н. E{|Xi |r } < ∞, где 0 < r < 1. Показать, что 1/r Xi → 0. n→∞ n i=1 11. Пусть X1 , X2 , . . . – независимые, одинаково распределенные случайные величины, n ( P (X ) −X ) 2i−1 L{Xi } = Π(λ). Найти предел: lim P i=1 n→∞ √ n 2i < x , x ∈ R. 12. Пусть X1 , X2 , . . . – независимые случайные величины, L{Xi } = N (0, σ2i ), σ21 = 1, σ2i = 2i−2 . Показать, что условие Линдеберга не выполнено, но тем не менее ЦПТ имеет место. 13. Пусть ξ1 , ξ2 , . . . – независимые, одинаково распределенные случайные величины с нулевыми математическими ожиданиями и единичными дисперсиями. Доказать, √ ξ1 + . . . + ξn √ ξ1 + . . . + ξn что величины ηn = n 2 и ςn = n p 2 асимптотически 2 ξ1 + . . . + ξn ξ1 + . . . + ξ2n нормально распределены при n → ∞. 14. Случайные величины ξ1 , ξ2 , . . . независимы, причем {ξ2k−1 , k = 1, 2, . . .} одинаково распределены и {ξ2k , k = 1, 2, . . .} одинаково распределены, D{ξ1 } > 0, D{ξ2 } > 0, < ∞. Положим Sn = ξ1 + . . . + ξn . Доказать, что при n → ∞ E{ξ21 } < ∞, E{ξ22 } p ηn = (Sn − E{Sn })/ D{Sn } имеет нормальное распределение. 15. Пусть Y1 , Y2 , . . . – независимые, одинаково распределенные случайные величины, каждая из которых равномерно распределена на {0, 1, . . . , 9}. Пусть Xn = n X Yi 10−i – десятичная дробь, построенная с помощью n случайных цифр. Ис= i=1 пользуя характеристическую функцию, показать сходимость к стандартному равп. н. номерному закону: L{Xn } → R[0, 1]. Показать, что Xn → Y для некоторой n→∞ случайной величины Y, L{Y } = R[0, 1]. n→∞ ЧАСТЬ 2 ТЕОРИЯ СЛУЧАЙНЫХ ПРОЦЕССОВ Глава 6 ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ОБЩИЕ СВОЙСТВА СЛУЧАЙНЫХ ПРОЦЕССОВ 6.1. ОПРЕДЕЛЕНИЕ И ЗАДАНИЕ СЛУЧАЙНЫХ ПРОЦЕССОВ Определение 6.1. Случайным процессом (СП) ξ(t) = ξ(t, ω), ω ∈ Ω, t ∈ T , называется семейство случайных величин {ξ(t)}, зависящих от параметра t ∈ T и определенных на одном и том же вероятностном пространстве (Ω, F, P ). Если T ⊂ Rn , n > 1, то СП ξ(t) называют случайным полем, если T – конечное или счетное множество, то ξ(t) называют случайной последовательностью; если T – числовой интервал (конечный или бесконечный), то ξ(t) называют случайным процессом. Параметр t часто интерпретируется как время. В дальнейшем будем рассматривать случай, когда T ⊂ R, т. е. когда ξ(t) является случайным процессом или случайной последовательностью. Таким образом, ξ(t) = ξ(t, ω), ω ∈ Ω, t ∈ T , является функцией двух переменных. Функция времени ξ(t, ω), соответствующая фиксированному ω, называется траекторией (реализацией, выборочной функцией) СП ξ(t). Существует несколько способов задания случайного процесса. 1. Аналитический способ задания случайного процесса: ξ(t) = g(t, η1 , . . . , ηk ), где {ηi } – набор случайных величин. Например, ξ(t) = η cos(ζt + θ) – гармоническое колебание, где η, ζ, θ – случайные величины. 2. Рекуррентный способ задания случайного процесса: ξ(t) = g(t, ξ(t − 1), . . . , ξ(t − k), η(t), . . . , η(t − l)), т. е. значение случайного процесса в момент t определяется значениями случайного процесса ξ(t) в предыдущие моменты времени и значениями некоторых случайных величин, не зависящих от случайного процесса ξ(t). Такой способ задания случайного процесса используется в основном для случайных последовательностей. 3. Задание случайного процесса с помощью конечномерных распределений. Пусть ξ(t), t ∈ T , – случайный процесс. Тогда для любого n и любых точек t1 , . . . , tn ∈ T набор случайных величин (ξ(t1 ), . . . , ξ(tn )) является n-мерной случайной величиной с n-мерной функцией распределения Fξ(t1 ),...,ξ(tn ) (x1 , . . . , xn ) = Ft1 ,...,tn (x1 , . . . , xn ) = (n ) \ = P{ξ(t1 ) < x1 , ξ(t2 ) < x2 , . . . , ξ(tn ) < xn } = P (ξ(ti ) < xi ) . i=1 Эти функции удовлетворяют свойствам 1–5 функций распределения n-мерных случайных величин (гл. 2), а также свойству 6 (симметрии), т. е. при любой перестановке индексов {i1 , . . . , in } набора (1, . . . , n) справедливо равенство Fti ,...,tin (xi1 , . . . , xin ) = Ft1 ,...,tn (x1 , . . . , xn ). 1 162 ГЛАВА 6. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ОБЩИЕ СВОЙСТВА СЛУЧАЙНЫХ ПРОЦЕССОВ Определение 6.2. Семейство функций {Ft1 ,...,tn (x1 , . . . , xn )} называется семейством конечномерных распределений случайного процесса ξ(t). Определение 6.3. Семейство функций {Ft1 ,...,tn (x1 , . . . , xn )} называется согласованным, если оно удовлетворяет свойствам 1–6 функций распределения n-мерных случайных величин ∀n ∈ N. Теорема 6.1 (теорема Колмогорова о согласованности). Если при любом n и любых t1 , . . ., tn ∈ T семейство функций {Ft1 , ... ,tn (x1 , . . . , xn )} является согласованным, то существует вероятностное пространство (Ω, F, P ) и случайный процесс ξ(t), t ∈ T , определенный на этом вероятностном пространстве, для которого данное семейство функций будет семейством конечномерных распределений. Пример 6.1. Случайный процесс ξ(t), t ⩾ 0, называется гауссовским, если для любых n и любых t1 , . . . , tn характеристическая функция ( n ) X fξ(t1 ),...,ξ(tn ) (λ1 , . . . , λn ) = E exp i λk ξ(tk ) k=1 конечномерных распределений имеет вид ( n ) n X 1 X fξ(t1 ),...,ξ(tn ) = exp i a(tk )λk − b(tk , tm )λk λm , 2 k,m=1 k=1 (6.1) где матрица B = [b(tk , tm )] симметрическая, неотрицательно определенная. При этом a(t) = E{ξ(t)}, b(t, u) = cov(ξ(t), ξ(u)). Если матрица B имеет определитель |B| 6= 0, то n-мерная случайная величина (ξ (t1 ) , . . . , ξ (tn )) имеет плотность распределения ( ) n 1 1 X ∗ −n − p(x1 , . . . , xn ) = (2π) 2 |B| 2 · exp − b (tk , tm )(xk − a(tk ))(xm − a(tm )) , 2|B| k,m=1 где b∗ (tk , tm ) – алгебраическое дополнение элемента b(tk , tm ). Замечание 6.1. Из свойств функции распределения следует, что для любого борелевского множества B ⊂ Rn P {(ξ(t1 ), . . . , ξ(tn )) ∈ B} однозначно определяется с помощью функции распределения Ft1 ,...,tn (x1 , . . . , xn ). Тогда, используя аксиомы вероятности, с помощью конечномерных распределений можно определить поведение случайного процесса в конечном или счетном числе точек. Часто возникает необходимость знать вероятность того, что выборочная функция случайного процесса обладает тем или иным свойством, которое определяется ее поведением на некотором несчетном множестве точек t. К таким событиям относятся события (ξ(t) < c, t ∈ T ), (ξ(t) непрерывна в точке t0 ∈ T ), (ξ(t) непрерывна на множестве T) и др. Ниже (пример 6.2) покажем, что вероятность таких событий нельзя найти с помощью конечномерных распределений. 4. Задание случайного процесса моментами первого и второго порядков. Пусть ξ(t), t ∈ T , – случайный процесс. Обозначим a(t) = E{ξ(t)}, r(t, u) = = cov(ξ(t), ξ(u)). Функция a(t) называется математическим ожиданием случайного процесса, функция r(t, u) – ковариационной функцией случайного процесса. Теорема 6.2. Ковариационная функция случайного процесса является неотрицательно определенной функцией, т. е. для любого n, любых t1 , . . . , tn ∈ T и любых комплексных чисел z1 , . . . , zn справедливо неравенство n X k,l=1 r(tk , tl )zk z̄l ⩾0. 6.2. ЭКВИВАЛЕНТНЫЕ, ТОЖДЕСТВЕННЫЕ И СЕПАРАБЕЛЬНЫЕ ПРОЦЕССЫ 163 Доказательство. Имеем: n X n X r(tk , tl )zk z̄l = E{(ξ(tk ) − a(tk ))(ξ(tl ) − a(tl ))}zk z̄l = ¯ ¯2 ( n ) n n ¯X ¯ X X ¯ ¯ =E (ξ(tk ) − a(tk ))zk (ξ(tl ) − a(tl ))zl = E ¯ (ξ(tk ) − a(tk ))zk ¯ ⩾ 0. ¯ ¯ k,l=1 k,l=1 k=1 l=1 k=1 ¤ Теорема 6.3. Если функция r(t, u) является неотрицательно определенной функцией, то существует случайный процесс ξ(t), для которого r(t, u) будет ковариационной функцией. Доказательство. В качестве такого процесса можно взять гауссовский процесс с функцией b(t, u) = r(t, u). ¤ 6.2. ЭКВИВАЛЕНТНЫЕ, ТОЖДЕСТВЕННЫЕ И СЕПАРАБЕЛЬНЫЕ ПРОЦЕССЫ Определение 6.4. Случайные процессы ξ(t), η(t) ∈ T называются эквивалентными, если при каждом t ∈ T P{ξ(t) = η(t)} = 1. Определение 6.5. Случайные процессы ξ(t), η(t) ∈ T называются тождественными, если P{ξ(t) = η(t), t ∈ T } = P{ω : ξ(t, ω) = η(t, ω), t ∈ T } = 1, т. е. вероятность совпадений траекторий равна 1. Теорема 6.4. У эквивалентных процессов конечномерные распределения совпадают. Доказательство. Покажем, что для любого k и любых t1 , . . . , tk ∈ T ) (k \ (ξ(tl ) = η(tl )) = 1. P l=1 Поскольку ) ) (k (k k X \ [ P{ξ(tl ) 6= η(tl )} = 1, то (ξ(tl ) 6= η(tl )) ⩾1 − (ξ(tl ) = η(tl )) = 1 − P P l=1 l=1 l=1 P (k \ ) (ξ(tl ) = η(tl )) = 1. l=1 Покажем равенство конечномерных распределений. Поскольку из того, что P(B) = 1, следует P(A) = P(AB), получаем (k ) (k ) k \ \ \ Fξ(t1 ),...,ξ(tk ) (x1 , . . . , xk ) = P (ξ(tl ) < xl ) = P (ξ(tl ) < xl ) (ξ(tl ) = η(tl )) = l=1 l=1 l=1 (k ) (k ) k \ \ \ =P (η(tl ) < xl ) (ξ(tl ) = η(tl )) = P (η(tl ) < xl ) = Fη(t1 ),...,η(tk ) (x1 , . . . , xk ) . l=1 l=1 l=1 ¤ Следствие 6.1. Для случайных последовательностей понятия эквивалентности и тождественности случайных процессов совпадают. 164 ГЛАВА 6. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ОБЩИЕ СВОЙСТВА СЛУЧАЙНЫХ ПРОЦЕССОВ Пример 6.2. Рассмотрим вероятностное пространство (Ω, F, P ), где Ω = [0, 1], F – сигма-алгебра борелевских подмножеств [0, 1], P – мера Лебега. Определим случайные процессы: ξ(t, ω) = 0, t ∈ [0, 1], ω ∈ Ω, ( ω 1, t = , n = 1, 2, . . . , 1, t = ω, n η(t, ω) = ζ(t, ω) = 0, t 6= ω , n = 1, 2, . . . . 0, t 6= ω; n Поскольку P{ξ(t) 6= η(t)} = P{t} = 0, ( ) [ P{ξ(t) 6= ζ(t)} = P {tn } = 0, n:0≤tn≤1 то случайные процессы ξ(t), η(t), ζ(t) эквивалентны. С другой стороны, P{ξ(t) < 1, t ∈ [0, 1]} = P{[0, 1]} = 1, P{η(t) < 1, t ∈ [0, 1]} = P{∅} = 0. Таким образом, по конечномерным распределениям нельзя определить вероятность P{ξ(t) < c}. Аналогично, P{ξ(t) непрерывен справа в точке {0}} = P{[0, 1]} = 1; P{ζ(t) непрерывен справа в точке {0}} = P{0} = 0; P{ξ(t) непрерывен на [0, 1]} = 1; P{η(t) непрерывен на [0, 1]} = 0. Заметим, что случайные процессы ξ(t), η(t) и ζ(t) не являются тождественными. Определение 6.6. Случайный процесс ξ(t) называется сепарабельным, если существует такое счетное множество S, называемое множеством сепарабельности, что для любого открытого интервала I с вероятностью единица выполняются соотношения: sup ξ(t) = sup ξ(t), inf ξ(t) = inf ξ(t). t∈I t∈I t∈I∩S t∈I∩S Смысл этих соотношений состоит в том, что траектории сепарабельного процесса могут быть восстановлены по их значениям на некотором счетном множестве точек. Замечание 6.2. Для сепарабельных процессов рассмотренные выше вероятности событий могут быть найдены с помощью конечномерных распределений. На практике сепарабельными процессами будут процессы, имеющие непрерывные траектории, кусочно-непрерывные траектории, либо процессы с непрерывными справа или слева траекториями. 6.3. НЕПРЕРЫВНОСТЬ И ДИФФЕРЕНЦИРУЕМОСТЬ СЛУЧАЙНОГО ПРОЦЕССА В СРЕДНЕМ КВАДРАТИЧНОМ В дальнейшем будем считать, что a(t) = E{ξ(t)} = 0. В противном случае можно рассмотреть процесс ξ(t) − a(t). Определение 6.7. Случайный процесс ξ(t) называется непрерывным в среднем квадратичном в точке t0 , если ξ(t0 ) = l.i.m. ξ(t). t→t0 6.3. НЕПРЕРЫВНОСТЬ И ДИФФЕРЕНЦИРУЕМОСТЬ СЛУЧАЙНОГО ПРОЦЕССА 165 Теорема 6.5. Для того чтобы случайный процесс ξ(t) был непрерывным в среднем квадратичном в точке t0 , необходимо и достаточно, чтобы ковариационная функция r(t, u) была непрерывна в точке t = u = t0 . Если функция r(t, u) непрерывна в точках t = u, то она непрерывна во всех точках. Доказательство. Доказательство теоремы следует из критерия сходимости в среднем квадратичном: последовательность {ξn } сходится в среднем квадратичном тогда и только тогда, когда E{ξn ξm } −→ C, причем C = E{ξ2 }, ξ = l.i.m. ξn . n,m→∞ n→∞ Справедливо также: если ξ = l.i.m. ξn , η = l.i.m. ηn , то E{ξn ηn } −→ ξη. n→∞ n→∞ n→∞ Необходимость. Пусть ξ(t0 ) = l.i.m. ξ(t). Тогда t→t0 r(t0 + ∆t, t0 + ∆u) = E{ξ(t0 + ∆t)ξ(t0 + ∆u)} −→ ∆r→0,∆u→0 E{ξ2 (t0 )} = r(t0 , t0 ), т. е. функция r(t, u) непрерывна в точке t = u = t0 . Достаточность. Пусть функция r(t, u) непрерывна в точке t = u = t0 . Тогда E{(ξ(t) − ξ(t0 ))2 } = r(t, t) − r(t0 , t) − r(t, t0 ) + r(t0 , t0 ) −→ 0, t→t0 т. е. случайный процесс ξ(t) непрерывен в среднем квадратичном в точке t0 . ¤ Заметим, что непрерывность в среднем квадратичном не влечет за собой непрерывность выборочных функций. В качестве контрпримера можно взять процесс Пуассона, рассмотренный ниже. Определение 6.8. Случайный процесс ξ(t) называется дифференцируемым в среднем квадратичном в точке t0 , если существует случайная величина ξ0 (t0 ) такая, что ξ(t0 + h) − ξ(t0 ) ср. кв. 0 −→ ξ (t0 ). h−→0 h Случайная величина ξ0 (t0 ) называется производной в среднем квадратичном случайного процесса ξ(t) в точке t0 . Теорема 6.6. Для того чтобы случайный процесс ξ(t) был дифференцируем в среднеквадратичном в точке t0 , необходимо и достаточно, чтобы ковариационная функция r(t, u) имела вторую производную ¯ ∂ 2 r(t, u) ¯¯ . ∂t∂u ¯t=u=t 0 ∂ 2 r(t, u) в точках t = u, то она Если функция r(t, u) имеет вторую производную ∂t∂u имеет вторую производную во всех точках, причем эта производная является ковариационной функцией случайного процесса ξ0 (t). Доказательство. Существование производной в среднем квадратичном случайного процесса в точке t0 эквивалентно тому, что ½ E ξ(t0 + ∆t) − ξ(t0 ) ξ(t0 + ∆u) − ξ(t0 ) · ∆t ∆u ¾ = 1 (r(t0 + ∆t, t0 + ∆u)− ∆t∆u − r(t0 + ∆t, t0 ) − r(t0 , t0 + ∆u) + r(t0 , t0 )) −→ ∆t → 0 ∆u → 0 E{ξ0 (t0 )}2 (6.2) 166 ГЛАВА 6. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ОБЩИЕ СВОЙСТВА СЛУЧАЙНЫХ ПРОЦЕССОВ по критерию сходимости. Но левая часть (6.2) стремится к ∂ 2 r(t0 , t0 ) . ∂t∂u ∂ 2 r(t, u) Из свойств сходимости в среднем квадратичном получаем: если существует ∂t∂u в точках t = u, то для любых точек t0 , u0 существуют производные в среднем квадратичном ξ0 (t0 ) и ξ0 (u0 ) и ½ ¾ ξ(t0 + ∆t) − ξ(t0 ) ξ(u0 + ∆u) − ξ(u0 ) E · = ∆t ∆u 1 = (r(t0 + ∆t, u0 + ∆u) − r(t0 + ∆t, u0 ) − r(t0 , u0 + ∆u)+ ∆t∆u + r(t0 , u0 )) −→ ∆t → 0 ∆u → 0 E{ξ0 (t0 )ξ0 (u0 )}. (6.3) ∂ 2 r(t0 , u0 ) Но левая часть (6.3) стремится к . ∂t∂u Отсюда получаем ∂ 2 r(t0 , u0 ) = E{ξ0 (t0 )ξ0 (u0 )} = rξ0 (t) (t0 , u0 ). ∂t∂u ¤ 6.4. СТОХАСТИЧЕСКИЕ ИНТЕГРАЛЫ В СРЕДНЕМ КВАДРАТИЧНОМ Пусть ξ(t) – случайный процесс с ковариационной функцией r(t, u) и g(t) – некоторая неслучайная борелевская функция. Определим интегралы вида Zb I1 = ξ(t)g(t)dt, a Zb I2 = g(t)dξ(t), a где [a, b] – конечный или бесконечный интервал. Рассмотрим вначале случай, когда −∞ < a < b < ∞. Пусть a < t0 < t1 < . . . < tn < b. λn = max(tk − tk−1 ); k S1 = n X g(t̃k )ξ(t̃k )(tk+1 − tk ); k=1 S2 = n X g(t̃k )(ξ(tk+1 ) − ξ(tk )), k=1 где t̃k ∈ (tk−1 , tk ]. Определим интегралы I1 и I2 как I1 = l.i.m. S1 , λn →0 I2 = l.i.m. S2 , λn →0 где предел не должен зависеть от разбиения отрезка [a, b] и выбора точек t̃k . 167 6.5. НЕПРЕРЫВНОСТЬ ТРАЕКТОРИЙ СЛУЧАЙНОГО ПРОЦЕССА Теорема 6.7. 1. Интеграл I1 существует тогда и только тогда, когда существует интеграл Римана Zb Zb Q1 = g(t)g(u)r(t, u)dtdu. a a 2. Интеграл I2 существует тогда и только тогда, когда существует интеграл Римана – Стилтьеса Zb Zb Q2 = g(t)g(u)r(t, u)dt,u r(t, u), a a причем Q1 = E{I12 }, Q2 = E{I22 }. Доказательство. Рассмотрим другое разбиение отрезка [a, b] : a = u0 < u1 < . . . < < um < b, λm = max(uk − uk−1 ), ũk ∈ (uk−1 , uk ], и интегральные суммы: k S10 = m X g(ũl )ξ(ũl )(ul+1 − ul ); l=1 S20 = m X g(ũl )(ξ(ul+1 ) − ξ(ul )). l=1 Тогда, по критерию сходимости в среднем квадратичном, интеграл I1 существует тогда и только тогда, когда существует предел E{S1 S10 } = m n X X g(t̃k )g(ũl )r(t̃k , ũl )(tk+1 − tk )(ul+1 − ul ), когда λn , λm → 0. k=1 l=1 Но такой предел есть интеграл Q1 и E{I12 } = Q1 . Аналогично, E{S2 S20 } = m n X X g(t̃k )g(ũl )(r(tk+1 , ul+1 ) − r(tk+1 , ul ) − r(tk , ul+1 ) + r(tk , ul )) k=1 l=1 −→ λn → 0 λm → 0 Q2 , причем Q2 = E{I22 }. Под интегралами по бесконечному промежутку понимается предел в среднем квадратичном интегралов по конечному промежутку, когда концы интервалов стремятся к бесконечности. ¤ 6.5. НЕПРЕРЫВНОСТЬ ТРАЕКТОРИЙ СЛУЧАЙНОГО ПРОЦЕССА Теорема 6.8. Пусть случайный процесс ξ(t), t ∈ [0, 1], удовлетворяет условию: для любого h ⩾ 0 выполняется P{|ξ(t + h) − ξ(t)| ⩾ g(h)} ⩽ q(h), (6.4) где g(t) и q(t) – четные неубывающие на интервале [0, +∞) функции, удовлетворяющие условиям: ∞ X k=0 g(2−k ) < +∞ и ∞ X k=0 2k q(2−k ) < +∞. (6.5) 168 ГЛАВА 6. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ОБЩИЕ СВОЙСТВА СЛУЧАЙНЫХ ПРОЦЕССОВ Тогда для процесса ξ(t) существует эквивалентный ему случайный процесс η(t), траектории которого непрерывны с вероятностью 1. Если случайный процесс ξ(t) сепарабельный, то траектории самого ξ(t) непрерывны. Доказательство. Основано на приближении траектории случайного процесса ξ(t) ломаными прямыми ξn (t), которые сходятся равномерно к траекториям процесса ξ(t) с вероятностью 1. r Для каждого n положим tnr = n , r = 0, 1, ..., 2n . 2 ξn (t) = ξ(tn,r ) + 2n (t − tn,r ) [ξ(tn,r+1 ) − ξ(tn,r )] при tn,r ⩽ t ⩽ tn,r+1 . Рассмотрим один из промежутков [tnr , tnr+1 ] (рис. 6.1). Рис. 6.1. Траектории процессов ξ(t), ξn (t) и ξn+1 (t) Здесь tnr = tn+1,2r и tnr+1 = tn+1,2r+2 . Рассмотрим теперь η= max tnr ⩽t⩽tnr+1 1 1 1 |ξn+1 (t) − ξn (t)| = |ξ(tn+1,2r+1 ) − (ξ(tn+1,2r+2 ) + ξ(tn+1,2r ))| ⩽ η1 + η2 , 2 2 2 где 1 1 η1 = |ξ(tn+1,2r+1 ) − ξ(tn+1,2r )|, η2 = |ξ(tn+1,2r+1 ) − ξ(tn+1,2r+2 )|. 2 2 Поскольку (η1 ⩽a)(η2 ⩽a) ⊂ (η⩽a), то, переходя к противоположным событиям, получаем (η1 > a) + (η2 > a) ⊃ (η > a). В качестве a возьмем a = g(tn+1,2r+1 − tn+1,2r ) = g(2−n−1 ). Используя свойство вероятностей, получаем: ½ ¾ P max |ξn+1 (t) − ξn (t)| > g(2−n−1 ) ⩽ tnr ⩽t⩽tnr+1 ¯ ©¯ ª ⩽P ¯ξtn+1,2r+1 − ξtn+1,2r ¯ > g(2−n−1 ) + ¯ ©¯ ª + P ¯ξtn+1,2r+1 − ξtn+1,2r+2 ¯ > g(2−n−1 ) ⩽2q(2−n−1 ). (6.6) Рассмотрим теперь ½ ¾ P{An } = P max |ξn+1 (t) − ξn (t)| > g(2 ) = 0⩽t⩽1 (2n −1 µ ¶) [ =P ⩽ max |ξn+1 (t) − ξn (t)| > g(2−n−1 ) −n−1 r=0 tn,r ⩽t⩽tn,r+1 ⩽ n −1 2X r=0 2q(2−n−1 ) = 2n+1 q(2−n−1 ). 6.5. НЕПРЕРЫВНОСТЬ ТРАЕКТОРИЙ СЛУЧАЙНОГО ПРОЦЕССА Из (6.5) получаем, что ∞ X 169 P{An } < ∞. Тогда по лемме Бореля – Кантелли следует n=1 P{limAn } = 0 или P{limAn } = 1. Из определения нижнего предела следует, что для всех ω ∈ limAn существует такой номер n0 = n0 (ω), что для всех n ⩾ n0 справедливо неравенство max |ξn+1 (t, ω) − ξn (t, ω)| ⩽ g(2−n−1 ). 0⩽t⩽1 Отсюда и из (6.5) следует, что для этих ω ряд ∞ X номерно. Тогда ∞ X |ξn+1 (t, ω) − ξn (t, ω)| сходится рав- n=1 |ξn+1 (t, ω) − ξn (t, ω)| = lim m→∞ n=1 m X |ξn+1 (t, ω) − ξn (t, ω)| = lim ξm (t, ω) − ξ1 (t, ω). m→∞ n=1 Отсюда следует, что с вероятностью единица существует предел lim ξm (t, ω) = η(t) m→∞ при каждом фиксированном t, причем эта сходимость равномерная. Поскольку траектории ξn (t, ω) непрерывны и сходятся равномерно, то траектория η(t, ω) непрерывна. Поскольку P{limAn } = 1, то с вероятностью единица процесс η(t) непрерывен. Покажем теперь, что случайные процессы ξ(t) и η(t) эквивалентны, т. е. для всех t P{ξ(t)=η(t)} = 1. Заметим, что по построению ξ(tnr ) = η(tnr ). Пусть теперь t – произвольная точка n→∞ из отрезка [0,1]. Тогда существует последовательность rn такая, что tn,rn −→ t, при−n чем |tn,rn − t|⩽2 . Поскольку по условию теоремы P{Bn } = P{|ξ(tn,rn ) − ξ(t) | > > g(tn,rn − t)} ≤ g(tn,rn − t). Тогда из (6.5) следует X X g(tn,rn − t) ≤ g(2−n ) < +∞. n n Аналогично получаем, что X q(tn,rn − t) ≤ n X q(2−n ) < +∞. n Теперь применяем те же рассуждения, что и ранее, получаем п. н. ξ(tn,rn ) −→ ξt . п. н. С другой стороны, ξ(tn,rn ) = η(tn,rn ) −→ ηt . Тогда из теоремы единственности следует, что при каждом t ∈ [0, 1] P{ξt = ηt } = 1. Для доказательства второй части достаточно показать, что траектории ξ и η совпадают с вероятностью 1. Поскольку траектории случайного процесса η(t) с вероятностью единица непрерывны, то для почти всех ω и любого ² > 0 существует δ = δ(ω, t0 ) такое, что как только |t − t0 | ≤ δ, то |η(t) − η(t0 )| ≤ ². Покажем, что в произвольной точке t0 > 0 траектории совпадают. Возьмем интервал I = (t0 − δ, t0 + δ). Тогда в силу сепарабельности с вероятностью единица будут выполняться неравенства ξ(t0 ) ≤ sup ξ(t) = sup ξ(t) = sup η(t)⩽ sup η(t)⩽η(t0 ) + ², t∈I t∈I∩S t∈I∩S t∈I 170 ГЛАВА 6. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ОБЩИЕ СВОЙСТВА СЛУЧАЙНЫХ ПРОЦЕССОВ где S – множество сепарабельности. Итак, ξ(t0 ) ≤ η(t0 ) + ². Поскольку ² любое, то ξ(t0 ) ≤ η(t0 ). Аналогично получим, что ξ(t0 ) ⩾ η(t0 ). Таким образом, в произвольной точке t0 > 0 с вероятностью единица ξ(t0 ) = η(t0 ). А так как траектории процесса η(t) непрерывны, то и траектории процесса ξ(t) тоже непрерывны. ¤ 6.6. УПРАЖНЕНИЯ dξ(t) . Найти математичеdt ское ожидание, ковариационную функцию и дисперсию процесса η(t). 0 2 1. Известно, что E{ξ(t)} = 2t + 1; rξ (t, t0 ) = e−(t −t) ; η(t) = 2. Доказать, что случайный процесс ξ(t) = e−αt sin(wt + φ), где α и w – положительные постоянные, а φ – случайная величина, равномерно распределенная на отрезке [0, 2π], дифференцируем при всех t > 0. 3. Пусть ξ(t) – стационарный и гауссовский процесс с математическим ожиданием m и ковариационной функцией r(τ). Написать выражения одномерной и двухмерной плотностей этого процесса. 4. Будут ли непрерывны и дифференцируемы стационарные процессы, имеющие ковариационные функции: 1) De−a|τ| cos ´ ³ bτ; a 2) De−a|τ| cos bτ + sin b|τ| ? b © ª 5. Пусть ξ(1) (t), . . . , ξ(n) (t) – независимые случайные процессы такие, что E ξ(i) (t) = 0, i = 1, . . . , n, r1 (t, s), . . . , rn (t, s) – соответствующие ковариационные функции. Найти ковариационную функцию процесса ξ(1) (t) + . . . + ξ(n) (t). 6. Пусть ξ – гауссовская случайная величина, L(ξ) = N (m, σ2 ), b ∈ R. Найти ковариационную функцию процесса ξ(t) = ξt + b, t ≥ 0. 7. Пусть ξ(1) (t), ξ(2) (t) – два независимых случайных процесса с ковариационными функциями r1 (t, s) и r2 (t, s) соответственно. Найти ковариационную функцию процесса ηt = ξ(1) (t)ξ(2) (t). Глава 7 СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 7.1. ОСНОВНЫЕ ПОНЯТИЯ И СВОЙСТВА В этой главе будут рассматрены комплекснозначные случайные процессы ξ(t) = ξ1 (t) + iξ2 (t) ∈ C, t ∈ R, где ξ1 (t) и ξ2 (t) – вещественнозначные случайные процессы, i2 = −1. Изучение комплекснозначных процессов удобно в теоретических исследованиях; полученные результаты переносятся на вещественнозначные случайные процессы. Ковариационная функция r(t, u) для таких процессов определяется следующим образом: r(t, u) = E{(ξ(t) − E{ξ(t)})(ξ(u) − E{ξ(u)})}, где ξ(u) ∈ C обозначает комплексное сопряжение ξ(u). Определение 7.1. СП ξ(t) называется стационарным в широком смысле, если выполнены следующие три условия: 1) E{|ξ(t)|2 } < ∞; 2) E{ξ(t)} = m; 3) z(t, u) = r(t − u, 0) = r(t − u). Свойства ковариационной функции C1. z(t, u) = r(u, t). C2. Функция r(t, u) является неотрицательно определенной, т. е. для любого n, любых действительных чисел t1 , . . . , tn и любых комплекснозначных чисел z1 , . . . , zn X r(tk , tl )zk z̄l ≥ 0. k,l=1 C3. |r(t, u)|2 ≤ r(t, t)r(u, u). Доказательства свойств C1 и C2 следуют из линейности математического ожидания и равенства E{ξ(t)} = E{ξ1 (t)} + iE{ξ2 (t)}. Третье свойство следует из неравенства Шварца |E{ξ(t)ξ(u)}|2 ≤ E{|ξ(t)|2 }E{|ξ(u)|2 }. В дальнейшем без потери общности будем полагать, что E{ξ(t)} = m = 0. 172 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 7.2. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ КОВАРИАЦИОННОЙ ФУНКЦИИ СЛУЧАЙНОГО ПРОЦЕССА Если r(t) – ковариационная функция стационарного в широком смысле и непрерывного в среднем квадратичном СП, то существует вещественная, неубывающая, непрерывная справа функция F такая, что Z r(t) = eiλt dF (λ), (7.1) F (−∞) = 0, F (+∞) = r(0). Функция F (λ) называется спектральной функцией СП ξ(t). Равенство (7.1) называется спектральным представлением ковариационной функции СП. Zλ f (x)dx, то функция f (x) ≥ 0 называется спектральной плотностью Если F (λ) = −∞ СП ξ(t). Доказательство теоремы является следствием следующей теоремы. Теорема 7.1 (теорема Бохнера). Если функция r(t) – неотрицательно определена и непрерывна в нуле, r(0) < ∞, то справедливо представление (7.1). Доказательство. Рассмотрим функцию 1 g(λ, A) = 2πA ZAZA r(t − u)e−itλ eitu dtdu. (7.2) 00 В силу неотрицательной определенности функции r(t) интегральные суммы интеграла (7.2) неотрицательны. Следовательно, функция g(λ, A) ≥ 0. Сделав замену переменных в интеграле (7.2), получаем 1 g(λ, A) = 2π ZA µ ³x´ A r(x)e−iλx dx, −A ( где µ(x) = 1 − |x|, если |x| ≤ 1, 0, Покажем, что если |x| > 1. +∞ Z g(λ, A)dλ < ∞. −∞ Поскольку для всех M > 0 µ +∞ Z µ −∞ = 1 M π λ 2M +∞ Z −∞ ¶ 1 g(λ, A)dλ = 2π +∞ Z −∞ +∞ µ ¶ ¶ Z µ t λ µ r(t)dt µ e−itλ dλ = A 2M −∞ +∞ µ ¶ µ ¶2 ¶2 Z µ t sin M t 1 sin t µ dt ≤ r(0) dt = r(0), r(t) A Mt π t −∞ 7.3. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ СТАЦИОНАРНОГО ПРОЦЕССА 173 то, переходя в этом неравенстве к пределу при M → ∞, получаем +∞ Z g(λ, A)dλ ≤ r(0). (7.3) −∞ Поскольку функция g(λ, A) есть преобразование Фурье функции µ µ ¶ t r(t), и выA полняется (7.3), то существует обратное преобразование Фурье +∞ µ ¶ Z t µ r(t) = g(λ, A)eitλ dλ. A −∞ В частности, при t = 0 +∞ Z g(λ, A)dλ = r(0). −∞ g(λ, A) Таким образом, функцию можно рассматривать как плотность распределеr(0) µ ¶ t r(t) ния вероятностей некоторой случайной величины. Тогда функция µ при кажA r(0) дом A будет характеристической функцией этой случайной величины. Поскольку она непрерывна в нуле, то по теореме о непрерывности для характеристических функций получаем, что µ ¶ t r(t) r(t) lim µ = A→∞ A r(0) r(0) есть характеристическая функция. Следовательно, по теореме единственности для характеристической функции существует функция распределения F0 (λ) такая, что r(t) = r(0) +∞ Z eitλ dF0 (λ). −∞ Взяв в качестве F (λ) функцию r(0)F0 (λ), получим равенство (7.1). Полученные ранее результаты для функции распределения F (x) = P (ξ < x) верны и для функции распределения F (x) = P (ξ ≤ x), которая непрерывна справа. ¤ 7.3. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ СТАЦИОНАРНОГО В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНОГО ПРОЦЕССА Определение 7.2. Случайный процесс ξ(λ) называется процессом с ортогональными приращениями, если для любых λ1 < λ2 ≤ λ3 < λ4 E{(ξ(λ4 ) − ξ(λ3 ))(ξ(λ2 ) − ξ(λ1 ))} = 0. Теорема 7.2. Если ξ(t) – стационарный в широком смысле, непрерывный в среднем квадратичном случайный процесс, то существует случайный процесс ζ(λ) с ортогональными приращениями такой, что 174 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Z ξ(t) = eiλt dζ(λ), E{|ζ(λ)|2 } = F (λ). (7.4) Равенство (7.4) называется спектральным представлением СП ξ(t). Доказательство. Пусть F (λ) – спектральная функция СП ξ(t). Рассмотрим пространство µ ¶ Z HF = g(λ) : |g(λ)|2 dF (λ) < ∞ . В пространстве HF введем скалярное произведение и норму µZ Z (g1 , g2 ) = ¶1 2 |g(λ)| dF (λ) . 2 g2 (λ)g2 (λ)dF (λ), kgkHF = Таким образом, HF – гильбертово пространство. Рассмотрим пространство ! à X X Hξ = ξ(t), ak ξtk , l.i.m. ak ξtk − k пространство, состоящее из случайных величин {ξ(t) : t ∈ R}, их линейных комбинаций, а также пределов в среднем квадратичном этих линейных комбинаций. Если η1 , η2 ∈ Hξ , то скалярное произведение и норму в этом пространстве определим следующим образом: 1 (η1 , η2 ) = E{η1 η¯2 }, kηkHξ = E 2 {|η|2 }. Между пространствами HF и Hξ установим взаимооднозначное соответствие: случайной величине ξ(t) поставим в соответствие функцию g(λ) = eiλt . Покажем, что скалярные произведения и нормы соответствующих элементов будут совпадать: Z (ξ(t), ξ(u))Hξ = E{ξ(t)ξ(u)} = r(t − u) = eiλ(t−u) dF (λ) = (eitλ , eitu )HF . Распространим это соответствие на конечные линейные комбинации элементов ξ(tk ) и eiλtk , а именно элементу η = α1 ξ(t2 ) + . . . + αn ξ(tn ) (7.5) сопоставим элемент g(λ) = α1 eiλt1 + . . . + αn eiλtn . (7.6) Из линейности математического ожидания и интегралов будет следовать, что для соответствующих пар η1 , η2 и g1 , g2 (η1 , η2 )Hξ = (g1 , g2 )HF (7.7) kη1 − η2 kHξ = kg1 − g2 kHF . (7.8) и для соответствующих норм Последнее соотношение показывает, что установленное соответствие взаимнооднозначно, так как η1 и η2 не могут совпадать, если не совпадают g1 и g2 , и обратно. Из равенства Z E{|ηm − ηn |2 } = |gm (λ) − gn (λ)|2 dF (λ) 175 7.3. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ СТАЦИОНАРНОГО ПРОЦЕССА следует, что если последовательность {ηn } сходится в среднем квадратичном к некоторой случайной величине η, то и соответствующие функции {gn (λ)} сходятся в среднем квадратичном относительно спектральной функции F (λ). Если g(λ) = l.i.m. gn (λ), то элементу η поставим в соответствие элемент g(λ). Аналогично, любой элемент из HF есть предел в среднем квадратичном некоторой последовательности элементов вида (7.6). Из свойств сходимости в среднем квадратичном следует, что соотношения (7.7) и (7.8) будут выполняться для всех η1 , η2 ∈ Hξ и g1 , g2 ∈ HF . Для любого λ0 функция g(λ − λ0 ), где g(λ) = 11(−∞,0] (λ), принадлежит HF . Пусть ζ(λ0 ) – соответствующий элемент из Hξ . Тогда приращению ζ(λ2 ) − ζ(λ1 ) будет соответствовать разность g(λ−λ2 )−g(λ−λ1 ). Если интервалы (λ1 , λ2 ) и (λ3 , λ4 ) не пересекаются, то в силу инвариантности скалярного произведения получаем Z E{(ζ(λ4 ) − ζ(λ3 ))(ζ(λ2 ) − ζ(λ1 ))} = = (g(λ − λ4 ) − g(λ − λ3 ))(g(λ − λ2 ) − g(λ − λ1 ))dF (λ) = 0, т. е. ζ(λ) – процесс с ортогональными приращениями. Полагая λ3 = λ1 , λ4 = λ2 , получаем E{|ζ(λ2 ) − ζ(λ1 )|2 } = F (λ2 ) − F (λ1 ), E{|ζ(λ)|2 } = F (λ). Пусть для некоторого A > 0 задано разбиение [−A, A]: −A = λ0 < λ1 < . . . < λn = A, µn = max(λj − λj−1 ). j Тогда случайной величине ηn = n X eitλj (ζ(λj ) − ζ(λj−1 )) соответствует функция j=1 gn (λ) = n X eitλj (g(λ − λj ) − g(λ − λj−1 )). Поскольку при µn → 0 n→∞ j=1 ZA eitλ dζ(λ), gn (λ) → eitλ 11[−A,A] (λ), ηn → −A +∞ Z eitλ dζ(λ) соот- то устремляя A к бесконечности, получим, что случайной величине −∞ ветствует функция eitλ . Поскольку функции eitλ соответствует случайная величина ξ(t), то, в силу однозначного соответствия, получим Z ξ(t) = eitλ dζ(λ). (7.9) ¤ Заметим, что если случайной величине η соответствует функция g(λ), то Z η(t) = g(λ)dζ(λ), (7.10) причем если η1 ↔ g1 (λ), η2 ↔ g2 (λ), то Z E{η1 η2 } = (η1 , η2 )Hξ = (g1 , g2 )HF = g1 (λ)g2 (λ)dF (λ). (7.11) 176 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 7.4. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ ДЕЙСТВИТЕЛЬНЫХ СЛУЧАЙНЫХ ПРОЦЕССОВ Рассмотрим случай, когда ξ(t) = ξ(t). Для процесса ξ(t) ковариационная функция – действительная и Z Z r(t) = r(−t) = cos tλdF (λ), sin tλdF (λ) = 0. Поскольку случайной величине η = α1 ξ(t1 ) + . . . + αn ξ(tn ) соответствует функция g(λ) = α1 eit1 λ +. . .+αn eitn λ , а комплексно-сопряженной случайной величине η̄ = α1 ξ(t1 )+ + . . . + αn ξ(tn ) соответствует функция α1 eit1 λ + . . . + αn eitn λ = g(−λ), то отсюда следует, что если случайной величине η ∈ Hξ соответствует функция g(λ) ∈ HF , то случайной величине η̄ будет соответствовать функция g(−λ). Обозначим ∆ = (λ1 , λ2 ], ζ(∆) = ζ(λ2 ) − ζ(λ1 ), g(∆) = g(λ − λ2 ) − g(λ − λ1 ). Поскольку случайной величине ζ(∆) соответствует функция g(∆), то из показанного выше случайной величине ζ(∆) будет соответствовать функция g(−∆), а ей соответствует случайная величина ζ(−∆), где −∆ = [−λ2 , −λ1 ). Отсюда получаем ζ(∆) = ζ(−∆), т. е. ζ1 (∆) − iζ2 (∆) = ζ1 (−∆) + iζ2 (−∆). Поэтому ζ1 (∆) = ζ1 (−∆), ζ2 (∆) = −ζ2 (−∆). (7.12) Пусть ∆1 и ∆2 – два произвольных интервала. Обозначим ∆3 = ∆1 ∩ ∆2 , ∆01 = ∆1 \ ∆3 , ∆02 = ∆2 \ ∆3 . Тогда ζ(∆1 ) = ζ(∆01 ) + ζ(∆3 ), ζ(∆2 ) = ζ(∆02 ) + ζ(∆3 ) и ∆01 ∆02 = ∅. Поскольку процесс ζ(λ) – процесс с ортогональными приращениями, то E{ζ(∆1 )ζ(∆2 )} = E{ζ(∆3 )ζ(∆3 )} ≥ 0. Следовательно, для любых интервалов ∆1 и ∆2 Im{E{ζ(∆1 )ζ(∆2 )}} = E{ζ1 (∆1 )ζ2 (∆2 )}− −E{ζ2 (∆1 )ζ1 (∆2 )} = 0. Заменив в этом соотношении ∆1 на −∆1 и используя (7.12), получим Eζ1 (∆1 )ζ2 (∆2 ) = 0 для любых интервалов ∆1 и ∆2 , т. е. процессы ζ1 (λ) и ζ2 (λ) являются взаимно ортогональными. Пусть интервалы ∆1 и ∆2 такие, что ∆1 ∩∆2 = ∅, −∆1 ∩∆2 = ∅. Поскольку E{ζ(∆1 )ζ(∆2 )} = 0, то Re{E{ζ(∆1 )ζ(∆2 )}} = E{ζ1 (∆1 )ζ2 (∆2 )} + E{ζ2 (∆2 )ζ2 (∆2 )} = 0. Заменив в этом соотношении ∆1 на −∆1 и используя (7.12), получим E{ζ1 (∆1 )ζ1 (∆2 )} = = 0, E{ζ2 (∆1 )ζ2 (∆2 )} = 0, т. е. процессы ζ1 (λ) и ζ2 (λ) являются процессами с ортогональными приращениями. Используя (7.12) и равенство (7.9), получим спектральное представление случайного процесса ξ(t) Z Z ξ(t) = cos tλdζ1 (λ) + sin tλdζ2 (λ). 7.5. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНОГО ПРОЦЕССА Пусть ξ(t) – стационарный в широком смысле, непрерывный в среднем квадратичном случайный процесс, имеющий спектральное представление Z Z ξ(t) = eitλ dζ(λ), E{ξ(t)ξ(0)} = r(t) = eitλ dF (λ). 177 7.5. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНОГО ПРОЦЕССА Рассмотрим простейшее линейное преобразование СП ξ(t) η(t) = X λk ξ(t + tk ), где k {tk } – некоторое множество действительных чисел. Используя спектральное представление СП ξ(t), получим ZX Z X Z η(t) = λk eitk λ dζ(λ) = λk eitk λ dξ(λ) = g(λ)eitλ dζ(λ), где g(λ) = P k k λk eitk λ . k Определение 7.3. Случайный процесс η(t) называется линейным преобразованием СП ξ(t), если существует такая функция g(λ), что Z |g(λ)|2 dF (λ) < ∞ (7.13) и справедливо представление Z η(t) = g(λ)eitλ dζ(λ). (7.14) Функция g(λ) называется частотной характеристикой линейного преобразования. Теорема 7.3. Если СП ξ(t) – стационарный в широком смысле, то и СП η(t) – также стационарный в широком смысле. Доказательство. Используя (7.10) и (7.11), получаем ½Z ¾ Z Z i(t+u)λ iuλ g(λ)e dζ(λ) g(λ)e dζ(λ) = |g(λ)|2 eitλ dF (λ) = rη (t). E{η(t + u)η(u)} = E Z Отсюда получаем E{|η(t)|2 } = rη (0) = |g(λ)|2 dF (λ) < ∞. ¤ Из этих соотношений следует, что если СП ξ(t) имеет спектральную плотность fξ (λ), то СП η(t) имеет спектральную плотность fη (λ) = |g(λ)|2 fξ (λ). (7.15) Рассмотрим частные случаи линейных преобразований. Случай 7.1. Дифференцирование СП. Z Теорема 7.4. Если для рассмотренного выше СП ξ(t) λ2 dF (λ) < ∞, то СП ξ(t) дифференцируем в среднем квадратичном, и его производная есть линейное преобразование СП ξ(t) с частотной характеристикой g(λ) = iλ. Доказательство. Имеем цепочку равенств: (¯Z (¯ ¯2) ¯2) Z Z ¯ ei(t+h)λ − eitλ ¯ ¯ ¯ ξ(t + h) − ξ(t) itλ itλ E ¯¯ − iλe dξ(λ)¯¯ = E ¯¯ dξ(λ) − iλe dξ(λ)¯¯ = h h (¯µZ ) ¯2 ¯ ¶ Z ¯ ihλ ¯ ¯ ¯ e − 1 − ihλ ¯2 eihλ − 1 − ihλ itλ ¯ ¯ ¯ ¯ dF (λ). (7.16) =E ¯ e dξ(λ)¯ = ¯ ¯ h h Поскольку |(eihλ − 1 − ihλ)/h|2 ≤ λ2 и (eihλ − 1 − ihλ)/h→0 при h→0, то правая часть (7.16) будет стремиться к нулю при h→0. Отсюда будет следовать результат теоремы. ¤ Верна более общая теорема. 178 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Z Теорема 7.5. Если для СП ξ(t) λ2n dF (λ) < ∞, то СП ξ(t) n раз дифференцируем в среднем квадратичном и его n-я производная есть линейное преобразование СП ξ(t) с частотной характеристикой g(λ) = (iλ)n . Доказательство теоремы аналогично доказательству теоремы 7.3 и проводится по индукции. Случай 7.2. Фильтрация СП ξ(t). Определение 7.4. СП η(t) называется фильтрацией СП ξ(t), если справедливо следующее соотношение, называемое фильтром: Z η(t) = h(t, s)ξ(s)ds. (7.17) Если h(t, s) = 0 при s > t, то фильтр называется физически осуществимым. В этом случае значение η(t) зависит только от значений СП{ξ(s) : s ≤ t}. Функция h(t, s) называется импульсной характеристикой фильтра. Рассмотрим случай, когда h(t, s) = h(t−s), h(u) = 0 при u < 0. Процесс η(t) согласно (7.17) является линейным преобразованием СП ξ(t) с частотной характеристикой Z g(λ) = h(x)e−iλx dx. Теорема 7.6. Если СП η1 (t) является фильтрацией СП ξ(t), а η2 (t) является фильтрацией СП η1 (t) с импульсными характеристиками h1 (t) и h2 (t) и частотными характеристиками g1 (λ) и g2 (λ) соответственно, то СП η2 (t) является фильтрацией СП ξ(t) с импульсной характеристикой h(t) = h1 ∗h2 (t) (свертка функций) и частотной характеристикой g(λ) = g1 (λ)g2 (λ). Доказательство. По условию теоремы Z Z Z η1 (t) = h1 (t − s)ξ(s)ds, η2 (t) = h2 (t − u)η1 (u)du = h2 (t − u)× ¶ Z Z µZ Z × h1 (u − s)ξ(s)dsdu = h2 (t − u)h1 (u − s)du ξ(s)ds = h(t − s)ξ(s)ds. Для частотных характеристик имеем Z Z Z Z η1 (t) = g1 (λ)eitλ dζ(λ), η2 (t) = h2 (t − s)η1 (s)ds = h2 (t − s) g1 (λ)eitλ dξ(λ)ds = Z Z Z ¡ ¢ = g1 (λ) h2 (t − s)e−i(t−s)λ ds eitλ dζ(λ) = g1 (λ)g2 (λ)eitλ dζ(λ). ¤ 7.6. ПРОГНОЗИРОВАНИЕ СЛУЧАЙНОГО ПРОЦЕССА Пусть ξ(t) – рассмотренный выше СП. Рассмотрим задачу оценивания случайной величины ξ(t + h), в будущий момент времени t + h, h > 0, по значениям СП ξ(s) для s ≤ t. Обозначим H(ξ, t) – сужение пространства Hξ на множество случайных величин {ξ(s) : s ≤ t}. Будем искать оценку ξ∗ (t, h) случайной величины ξ(t + h) в пространстве H(ξ, t) допустимых оценок ξ̂(t, h), которая минимизирует среднеквадратичную ошибку, т. е. E{|ξ(t + h) − ξ∗ (t, h)|2 } = min E{|ξ(t + h) − ξ̂|2 }. (7.18) ξ̂∈H(ξ,t) 7.6. ПРОГНОЗИРОВАНИЕ СЛУЧАЙНОГО ПРОЦЕССА 179 ∗ Теорема 7.7. Если случайная величина ξ (t, h) удовлетворяет соотношению E{(ξ(t + h) − ξ∗ (t, h))η̄} = 0 (7.19) для любой случайной величины η ∈ H(ξ, t), то она удовлетворяет соотношению (7.18). Доказательство. Пусть случайная величина ξ∗ (t, h) удовлетворяет соотношению (7.19). Покажем, что она минимизирует (7.18). Пусть ξ̂ ∈ H(ξ, t). Тогда имеем цепочку равенств: E{|ξ(t + h) − ξ̂|2 } = E{|ξ(t + h) − ξ∗ (t, h) + ξ∗ (t, h) − ξ̂|2 } = = E{|ξ(t + h) − ξ∗ (t, h)|2 } + E{|ξ∗ (t, h) − ξ̂|2 }+ + E{(ξ(t + h) − ξ∗ (t, h))(ξ∗ (t, h) − ξ̂)} + E{(ξ(t + h) − ξ∗ (t, h))(ξ∗ (t, h) − ξ̂)}. (7.20) ∗ Поскольку случайная величина ξ (t, h)−ξ̂∈H(t, ξ), то из (7.19) следует, что два последних слагаемых в (7.20) равны нулю. Следовательно, минимум левой части (7.20) достигается, если ξ̂ = ξ∗ (t, h). ¤ Следствие 7.1. Соотношение (7.19) эквивалентно соотношению E{(ξ(t + h) − ξ∗ (t, h))ξ̄(s)} = 0 (7.21) для любой случайной величины ξ(s), где s ≤ t. Доказательство. Доказательство следует из линейности математического ожидания и свойств сходимости в среднем квадратичном. ¤ Заметим, что соотношение (7.21) допускает эквивалентный вид: r(t + h − s) = E{ξ∗ (t, h)ξ̄(s)}. (7.22) Следовательно, для нахождения оценки ξ∗ (t, h) необходимо проверить равенство (7.22) для всех ξ(s), s ≤ t. Пример 7.1. СП ξ(t) имеет ковариационную функцию r(t) = e−|t| . Покажем, что оценкой случайной величины ξ(t + h), t > 0, h > 0 является случайная величина ξ∗ (t, h) = ξ(t)e−h . Проверим выполнимость соотношения (7.22): E{ξ∗ (t, h)ξ̄(s)} = e−h E{ξ(t)ξ̄(s)} = e−h r(t − s) = e−h−t+s = r(t + h − s). Пример 7.2. СП ξ(t), t ≥ 0, имеет ковариационную функцию r(t) = e−t (cos t + sin t). Имеем r(t + h) = e−t−h (cos(t + h) + sin(t + h)) = e−h ((cos h + sin h)r(t) + (sin h)r0 (t)). В качестве оценки ξ∗ (t, h) случайной величины ξ(t + h) возьмем случайную величину ξ∗ (t, h) = e−h ((cos h + sin h)ξ(t) + (sin h)ξ0 (t)). Поскольку E{ξ0 (t)ξ̄(s)} = r0 (t − s), то E{ξ∗ (t, h)ξ̄(s)} = e−h ((cos h + sin h)r(t − s) + (sin h)r0 (t − s)) = r(t + h − s). Следовательно, в силу (7.22) ξ∗ (t, h) есть оптимальный прогноз. Zt Пример 7.3. СП ξ(t) имеет вид ξ(t) = g(t − λ)dζ(λ), где ζ(λ) – процесс с ор−∞ тогональными приращениями, соответствующий процессу ξ(t). Поскольку ξ(t + h) = t+h Z = g(t + h − λ)dζ(λ), то в качестве ξ∗ (t, h) возьмем случайную величину −∞ Zt ξ∗ (t, h) = g(t + h − s)dζ(λ). −∞ 180 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Проверим выполнимость соотношения (7.22). Поскольку процесс ζ(λ) является процессом с ортогональными приращениями, то t Zs Z E{ξ∗ (t, h)ξ̄(s)} = E g(t + h − λ)dζ(λ) g(s − λ)dζ(λ) = s Z =E −∞ −∞ t+h Zs Z g(t + h − λ)dζ(λ) g(s − λ)dζ(λ) = g(t + h − λ)g(s − λ)dF (λ) = E −∞ −∞ −∞ = E{ξ(t + h)ξ̄(s)} = r(t + h − s). Заметим, что в примере 7.1 для прогноза необходимо знание СП ξ(t) только в одной точке t, в примере 7.2 знание значения СП ξ(t) в окрестности точки t, а в примере 7.3 знание всех значений СП ξ(t) до момента времени t. 7.7. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ КОВАРИАЦИОННОЙ ФУНКЦИИ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ И САМОЙ СТАЦИОНАРНОЙ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ Будем рассматривать стационарную в широком смысле случайную последовательность (ССП) {ξ(n)}, n ∈ Z, E{ξ(n)} = 0, r(n) = E{ξ(n + m)ξ(m)} = E{ξ(n)ξ(0)}. Ковариационная функция r(n) обладает следующими свойствами (см. п. 7.1): 1. r(n) = r(−n); 2. |r(n)| ≤ r(0); n X r(k − l)zk z̄l ≥ 0. 3. r(n) – неотрицательно определенная функция, т. е. k,l=1 Теорема 7.8 (теорема Герглотца). Если функция r(n) неотрицательно определена, то она представима в виде Zπ eiλn dF (λ), r(n) = −π где F (λ) – некоторая неубывающая, непрерывная справа функция переменной λ ∈ [−π, π], F (−π) = 0, F (π) = r(0). Доказательство. Рассмотрим функцию N g(λ, N ) = 1 X r(k − l)e−iλk eiλl . 2πN k,l=0 В силу неотрицательной определенности r(n) g(λ, N ) ≥ 0. Сделав замену суммирования, получим ¶ N µ |m| 1 X 1− r(m)e−iλm . g(λ, N ) = 2π N |m|=0 Рассмотрим функцию Zλ FN (λ) = g(x, N )dλ. −π 7.8. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ 181 Тогда имеем Zπ iλn e µ ¶ Zπ µ ¶ N 1 X |m| |n| iλn −iλm dFN (λ) = . r(m) 1 − e e dλ = r(n) 1 − 2π N N |m|=0 −π (7.23) −π Полагая n = 0, получаем FN (π) − FN (−π) = r(0). Поскольку FN (−π) = 0, то FN (π) = FN (λ) является функцией распределения некоторой слуr(0). Тогда функция F˜N (λ) = r(0) чайной величины. Из первой теоремы Хелли следует, что существует последовательность Nk такая, что F̃Nk (λ) будет слабо сходиться к некоторой функции распределения F̃ (λ). Тогда из (7.23) и второй теоремы Хелли получим Zπ Zπ e iλn eiλn F̃Nk (λ) = dF̃ (λ) = lim Nk →∞ −π r(n) . r(0) −π Взяв в качестве F (λ) = r(0)F̃ (λ), получим результат теоремы. ¤ Функция F (λ) называется спектральной функцией ССП {ξ(n)}. Zλ Если F (λ) = f (x)dx, то неотрицательная функция f (λ) ≥ 0 называется спектраль−π ной плотностью ССП {ξ(n)}. Теорема 7.9. Если {ξ(n)} стационарна в широком смысле, то справедливо представление Zπ ξ(n) = eiλn dζ(λ), (7.24) −π где ζ(λ), λ ∈ [−π, π], – случайный процесс с ортогональными приращениями; E{|ζ(λ)|2 } = F (λ). Доказательство. Доказательство теоремы повторяет доказательство теоремы 7.2, причем t ∈ Z, λ ∈ [−π, π]. В случае действительного ССП справедливо представление Zπ Zπ sin λndζ2 (λ), cos λndζ1 (λ) + ξ(n) = −π −π где ζ1 (λ) и ζ2 (λ) – случайные процессы с ортогональными приращениями такие же, как и в п. 7.4. Доказательство повторяет доказательство представления из п. 7.4. ¤ 7.8. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ Пусть {ξ(n)} – стационарная в широком смысле случайная последовательность со спектральной функцией F (λ) и спектральным представлением Zπ eiλn dζ(λ). ξ(n) = −π 182 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Определение 7.5. Последовательность {ηn } называется линейным преобразованием ССП {ξ(n)}, если существует функция g(λ) такая, что Zπ Zπ 2 g(λ)eiλn dζ(λ). |g(λ)| dF (λ) < ∞, η(n) = −π (7.25) −π Функция g(λ) называется частотной характеристикой линейного преобразования. Найдем ковариационную функцию случайной последовательности {η(n)}: π π Zπ Z Z o g(λ)eiλn dζ(λ) g(λ)eiλn dζ(λ) = |g(λ)|2 eiλ(n−m) dF (λ). rη (n, m)=E η(n)η(m) =E n −π −π −π Отсюда следует, что {η(n)} является стационарной в широком смысле случайной последовательностью с ковариационной функцией: Zπ |g(λ)|2 eiλn dF (λ). r(n) = −π Таким образом, если ССП {ξ(n)} имеет спектральную плотность fξ (λ), то ССП {η(n)} имеет спектральную плотность fn (λ) = |g(λ)|2 fξ (λ). (7.26) Рассмотрим частный случай линейного преобразования, называемый фильтром: η(n)= +∞ X h(n − m)ξ(m). (7.27) m=−∞ Функция h(s), s ∈ Z, – некоторая комплекснозначная функция, называемая импульсной переходной функцией фильтра. Соотношение (7.27) можно рассматривать как значение выходного сигнала η(n), если на вход системы, описываемой фильтром (7.27), подается сигнал ξ(m), −∞ < m < ∞. Для физически осуществимых систем значение выходного сигнала в момент времени n определяется лишь значениями входного сигнала ξ(m) при m ≤ n. В дальнейшем будем рассматривать фильтр с импульсной переходной функцией h(s) = 0 при всех s < 0, который называется физически осуществимым фильтром. ∞ X В этом случае η(n) = h(m)ξ(n − m). Тогда m=0 η(n) = ∞ X m=0 Zπ h(m) Zπ e iλ(n−m) eiλn dζ(λ) = −π −π ∞ X h(m)e−iλm dζ(λ). m=0 Отсюда получаем, что последовательность {η(n)} является линейным преобразованием ССП {ξ(n)} с частотной характеристикой g(λ) = ∞ X m=0 h(m)e−iλm . (7.28) 7.9. ПОСЛЕДОВАТЕЛЬНОСТИ АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО 183 Условие (7.25) примет вид Zπ |g(λ)|2 dF (λ) = ∞ X h(n)h(m)r(n − m) < ∞. (7.29) n,m=0 −π 7.9. ПОСЛЕДОВАТЕЛЬНОСТИ АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО Рассмотрим ССП {²(n)}, n ∈ Z, с E{²(n)} = 0, r² (n − m) = E{²(n)²(m)} = δmn . (7.30) Последовательность {²(n)} называется «белым шумом». Из (7.30) следует, что r(n) = Zπ = r² (n) = eiλn 1/(2π)dλ. Следовательно, ССП {²(n)} имеет спектральную плотность −π f (λ) = 1/(2π), λ ∈ [−π, π]. Рассмотрим теперь случайную последовательность ξ(n) = ∞ X ak ²(n − k), (7.31) k=0 которая называется последовательностью скользящего среднего и является фильтра∞ X ak e−iλk . Чтобы цией последовательности {²(n)} с частотной характеристикой g(λ) = k=0 последовательность {ξ(n)} была стационарной в широком смысле, необходимо выполнение условия (7.29), которое в нашем случае имеет вид ∞ X |ak |2 < ∞. (7.32) k=0 В случае, когда ξ(n) = p X ak ²(n − k), k=0 последовательность {ξ(n)} называется последовательностью скользящего среднего порядка p и обозначается CC(p). Последовательность CC(p) имеет спектральную плотность (см. (7.26)): fξ (λ) = p X ¯2 1 ¯¯ P (e−iλ )¯ , P (z) = ak z k . 2π k=0 Последовательность {ξ(n)}, задаваемая соотношением q X bk ξ(n − k) = ²(n), k=0 называется последовательностью авторегрессии и обозначается AP(q). (7.33) 184 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Последовательность {ξ(n)}, задаваемая соотношением p X ak ²(n − k) = q X k=0 bk ξ(n − k), (7.34) k=0 называется смешанной моделью авторегрессии и скользящего среднего и обозначается APCC(q, p). Покажем, что последовательность АРСС(q, p) является последовательностью скользящего среднего, т. е. представима в виде ξ(n) = ∞ X ck ²(n − k). (7.35) k=0 Для удобства будем считать, что p = q = s. Подставляя (7.35) в (7.34) и сравнивая коэффициенты при одинаковых элементах последовательности {²(n)}, получаем систему уравнений относительно {ck }: c0 = a0 , c + b1 c0 = a1 , 1 ··············· (7.36) cs + b1 cs−1 + . . . + bs c0 , cp + b1 cp−1 + . . . + bs cp−s = 0 при p > s. Для нахождения коэффициентов {ck : k = 0, 1, . . .} введем производящие функции ∞ s s X X X ck z k . Тогда, умножая k-е (k = 0, 1, 2, . . .) ak z k , B(z) = bk z k , C(z) = A(z) = k=0 k=0 k=0 уравнение (7.36) на z k и суммируя по k, получим A(z) = ∞ X s X ck−l bl z k = B(z)C(z). k=0 l=0 Поскольку A(z) и B(z) – полиномы степени s, то C(z) = A1 (z) A(z) = a0 + z , B(z) B(z) (7.37) где A1 (z) – полином степени s − 1. Условие стационарности в широком смысле последовательности {ξ(n)}: ∞ X |cn |2 < ∞. (7.38) n=0 Теорема 7.10. Если корни полинома B(z) лежат вне круга |z| = 1, то выполняется условие (7.38), т. е. последовательность {ξ(n)} стационарна в широком смысле. Доказательство. Воспользуемся равенством (7.37). Для простоты доказательства будем считать, что корни полинома B(z) – простые. Для кратных корней доказательство проводится аналогично. Имеем µ ¶ ¶ ∞ µ X As An A1 A1 + ... + + . . . + zn. C(z) = a0 + z = a0 + n n z1 − z zs − z z z 1 s n=1 185 7.10. ПРОГНОЗИРОВАНИЕ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ Отсюда cn = A1 z1−n + . . . + As zs−n . Если |zn | > 1, n = 1, 2, . . ., то выполняется условие (7.38). ¤ Из доказанной теоремы следует, что последовательность АРСС(q, p) имеет спектральную плотность ∞ fξ (λ) = 1 X −iλk ck e . 2π k=0 Выразим эту спектральную плотность через коэффициенты ak и bk . q X ¯ ¯ −iλ ¯2 ¯ Для последовательности АР(q) имеем 1/(2π) = Q(e ) fξ (λ), где Q(z) = bk z k . k=0 Следовательно, для последовательности АР(q) fξ (λ) = (2π)−1 |Q(e−iλ )|−2¯. ¯2 Если левую часть (7.34) обозначить η(n), то из (7.26) имеем fη (λ) = ¯Q(e−iλ )¯ fξ (λ). ¯ ¯2 Поскольку fη (λ) = 1/(2π) ¯P (e−iλ )¯ , то спектральная плотность fξ (λ) последовательности АРСС(q, p) будет иметь вид fξ (λ) = ¯ ¯2 1 ¯¯ P (e−iλ ) ¯¯ . 2π ¯ Q(e−iλ ) ¯ (7.39) 7.10. ПРОГНОЗИРОВАНИЕ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ Пусть {ξ(n)} – стационарная в широком смысле случайная последовательность, n ∈ Z. Пусть известны значения случайных величин {ξ(m) : m ≤ 0}. Требуется найти оценку (прогноз) случайной величины ξ(n), n > 0. Обозначим H(ξ, 0) – пространство случайных величин {ξ(m) : m ≤ 0}, их линейных комбинаций и пределов в среднем квадратичном этих линейных комбинаций. Будем искать оценку ξ∗ (n), принадлежащую пространству H(ξ, 0) и удовлетворяющую соотношению E{|ξ(n) − ξ∗ (n)|2 } = min E{|ξ(n) − ξ̃|2 }. (7.40) ξ̃∈H(ξ,0) Теорема 7.11. Если случайная величина ξ∗ (n) ∈ H(ξ, 0) удовлетворяет соотношению E{(ξ(n) − ξ∗ (n))ξ(m)} = 0 (7.41) для всех m ≤ 0, то она удовлетворяет соотношению (7.40). Доказательство теоремы повторяет доказательство теоремы 7.7 и следствия 7.1 для случая дискретной переменной t = n ∈ Z. Рассмотрим случай, когда ξ(n) = ∞ X ak ²(n − k), (7.42) k=0 где {²(n)} – «белый шум». Поскольку пространство H(ξ, 0) = H(², 0), то соотношение (7.41) будет эквивалентно соотношению E{(ξ(n) − ξ∗ (n))²(m)} = 0, m ≤ 0. Этому соотношению удовлетворяет случайная величина (7.43) 186 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ ξ∗ (n) = ∞ X ak ²(n − k). (7.44) k=n (à ∞ X ! ∞ X ) Действительно, ξ∗ (n) ∈ H(², 0) и E ak ²(n − k) − ak ²(n − k) ²(m) k=0 k=n (à n−1 ) n−1 ! X X =E ak ²(n − k) ²(m) = ak E{²(n − k)²(m)} = 0. k=0 = ¤ k=0 Покажем, как получить оценку ξ∗ (n) через значения случайных величин {ξ(m) : m ≤ 0}. Случайная последовательность {ξ(n)}, представимая в виде (7.42), ∞ X имеет спектральную плотность fξ (λ) = 1/(2π)|Φ(e−iλ )|2 , где Φ(z) = ak z k . Воспользуk=0 емся спектральным представлением ССП {ξ(n)}: Zπ eiλn dζ(λ). ξ(n) = −π Каждой случайной величине ξ̃ ∈ H(ξ, 0) будет соответствовать функция g̃(λ) такая, что Zπ ξ̃ = g̃(λ)dζ(λ), −π причем g̃(λ) ∈ H(F, 0) – замкнутое линейное пространство, порожденное функциями eiλn , n ≤ 0. Теорема 7.12. Случайной величине ξ∗ (n) соответствует функция gn∗ (λ) = eiλn Φn (e−iλ ) , Φ(e−iλ ) где Φn = ∞ X ak z k . k=n Доказательство. Проверим выполнимость (7.43). Имеем цепочку равенств π Zπ Z E{(ξ(n) − ξ∗ (n))ξ(m)} = E (eiλn − g ∗ (λ))dζ(λ) e−iλm dζ(λ) = −π Zπ (eiλn − g ∗ (λ))e−iλm dF (λ) = = −π 1 = 2π Zπ −π Zπ (e−iλn − g ∗ (λ))e−iλm fξ (λ)dλ = −π µ ¶ Zπ Φn (e−iλ ) 1 −iλ(n−m) −iλ 2 (e (eiλ(n−m) (Φ(e−iλ )− 1− |Φ(e )| dλ = Φ(e−iλ ) 2π −π 1 −Φn (e−iλ ))Φ(e−iλ )dλ = 2π = 1 2π Zπ X n−1 −π k=0 ak −π Zπ (e−iλ(n−m) n−1 X k=0 −π ∞ X Zπ l=0 −π ak e−iλk ∞ X āl eiλl dλ = l=0 e−iλ(n−m−k+l) dλ = 0. āl ¤ 7.11. ИНТЕРПОЛЯЦИЯ И ФИЛЬТРАЦИЯ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ 187 Разлагая функцию gn∗ (λ) в ряд Фурье: gn∗ (λ) = C0 + C−1 e−iλ + . . . + C−k e−iλk + . . . , находим Zπ ∗ gn∗ (λ)dζ(λ) = C0 ξ(0) + C−1 ξ(−1) + C2 ξ(−2) + . . . . ξ (n) = −π 7.11. ИНТЕРПОЛЯЦИЯ И ФИЛЬТРАЦИЯ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ Пусть {ξ(n)} – стационарная в широком смысле случайная последовательность со спектральной плотностью f (λ). Интерполяция. Пусть известны значения ξ(n) для всех n 6= 0. Требуется найти оценку (интерполяцию) пропущенного значения ξ(0). Обозначим H 0 (ξ) – замкнутое линейное пространство, порожденное случайными величинами {ξ(n) : n 6= 0}, H 0 (F ) – замкнутое линейное пространство, порожденное функциями {eiλn : n 6= 0}. Будем искать оценку ξ∗0 случайной величины ξ(0) из пространства H 0 (ξ), удовлетворяющую условию E{|ξ(0) − ξ∗0 |2 } = min E{|ξ(0) − ξ̃|2 }. ξ̃∈H 0 (ξ) (7.45) Условие (7.45), по доказанному ранее, эквивалентно условию E{(ξ(0) − ξ∗0 )ξ̄(n)} = 0, n 6= 0. (7.46) Используя спектральное представление, имеем Zπ ξ∗0 = g0∗ (λ)dζ(λ), где g0 (λ) ∈ H 0 (F ). −π Zπ dλ < ∞, то функция g0∗ (λ) −π f (λ) Теорема 7.13 (теорема Колмогорова). Если имеет вид g0∗ (λ) = 1 − α , f (λ) Zπ α= 2π Zπ −π . dλ f (λ) −π Доказательство. Преобразуем равенство (7.46): E{(ξ(0) − ξ∗0 )ξ(n)} = E{ξ(0)ξ(n)} − E{ξ∗0 ξ(n)} = Zπ Zπ Zπ −iλn ∗ −iλn = e dF (λ) − g0 (λ)e dF (λ) = e−iλn (1 − g0∗ (λ))f (λ)dλ = 0. −π −π −π Поскольку это равенство должно выполняться для всех n 6= 0, то (1−g0∗ (λ))f (λ) = α = = const. Отсюда g0∗ (λ) = 1 − α/f (λ). Поскольку функция g0∗ (λ) ∈ H 0 (F ), то в разложении ее в ряд Фурье будет отсутствоZπ вать свободный член. Следовательно, g0∗ (λ)dλ = 0. −π 188 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Отсюда имеем Zπ µ 0= α 1− f (λ) ¶ Zπ dλ = 2π − α −π dλ , f (λ) α = Zπ 2π −π . dλ f (λ) −π Разлагая функцию g0∗ (λ) в ряд Фурье: g0∗ (λ) = ξ∗0 = X X ¤ cn eiλn , получаем оценку n6=0 cn ξ(n). n6=0 Фильтрация случайной последовательности. Пусть ({θ(n)}, {ξ(n)}), n ∈ Z, – частично наблюдаемая двухкомпонентная последовательность, где {θ(n)} – ненаблюдаемая, а {ξ(n)} – наблюдаемая компонента. Пусть {θ(n)} и {ξ(n)} – стационарные в широком смысле случайные последовательности с нулевыми средними и спектральными Zπ Zπ iλn представлениями θ(n) = e dζθ (λ), ξ(n) = eiλn dζξ (λ) и спектральными плотностя−π −π ми fθ (λ), fξ (λ) соответственно. Предположим Zπ Zλ iλ(n−m) E{θn ξm } = r(n − m) = e dFθξ (λ), Fθξ (λ) = −π fθξ (x)dx. −π Функция fθξ (λ) называется взаимной спектральной плотностью последовательностей {θ(n)} и {ξ(n)}. Задача фильтрации состоит в построении оптимальной в среднеквадратическом смысле оценки θ̂n величины θn по наблюдаемым значениям последовательности {ξ(n)}. Будем искать оценку θ∗n ∈ H(ξ), удовлетворяющую условию E{|θn − θ∗n |2 } = min E{|θn − θ̃n |2 }. (7.47) θ̃n ∈H(ξ) По доказанному выше это условие будет эквивалентно условию E{(θn − θ∗n )ξ(m)} = 0, m ∈ Z. (7.48) Zπ Пусть θ∗n gn∗ (λ)dζξ (λ). Используя спектральное представление, получаем = −π из (7.48): Zπ eiλ(n−m) (fθξ (λ) − gn∗ (λ)e−iλn fξ (λ))dλ. 0 = E{θn ξ(m)} − E{θ∗n ξ(m)} = −π Поскольку это равенство должно выполняться для всех m, то fθξ (λ)−gn∗ (λ)e−iλn fξ (λ)=0. Отсюда eiλn fθξ (λ) gn∗ (λ) = . (7.49) fξ (λ) 7.12. УПРАЖНЕНИЯ 189 Разлагая функцию gn∗ (λ) в ряд Фурье gn∗ (λ) = X ck eiλk , (7.50) ck ξ(k). (7.51) k получаем θ∗n = X k Рассмотрим пример. Пусть ξ(n) = θ(n) + η(n), n ∈ Z, где сигнал {θ(n)} и шум {η(n)} являются некоррелированными последовательностями со спектральными плотностями fθ (λ) и fη (λ) соответственно. Требуется найти θ∗n по значениям {ξ(m) : m ∈ Z}. eiλn fθξ (λ) Согласно (7.49) gn∗ (λ) = . fξ (λ) Поскольку E{θ(n)ξ(m)} = E{θ(n)(θ(m) + η(m))} = E{θ(n)θ(m)} + E{θ(n)η(m)} = Zπ = E{θ(n)θ(m)} = eiλ(n−m) fθ (λ)dλ; −π E{ξ(n)ξ(m)} = E{(θ(n) + η(n))(θ(m) + η(m))} = Zπ = E{θ(n)θ(m)} + E{η(n)η(m)} = eiλ(n−m) (fθ (λ) + fη (λ))dλ, −π то fξ (λ) = fθ (λ) + fη (λ), fθξ (λ) = fθ (λ). Тогда gn∗ (λ) = eiλn fθ (λ) . fθ (λ) + fη (λ) Используя (7.50) и (7.51), получим оценку θ∗n . 7.12. УПРАЖНЕНИЯ 1. Случайный процесс ξ(t) представляет собой случайную величину η, Eη = a, Dη = σ2 . Найти E{ξ(t)}, D{ξ(t)}, ковариационную функцию. Определить, является ли процесс стационарным. 2. Пусть φ – случайная величина с плотностью Pφ (x) = cos x, 0 ≤ x ≤ π/2; α и w – положительные постоянные. Построим случайный процесс ξ(t) = a sin(wt+φ). Будет ли этот процесс стационарным? 3. Пусть φ – случайная величина, равномерно распределенная на отрезке [0, 2π], α и w – положительные постоянные. Доказать, что случайный процесс ξ(t) = a sin(wt + φ) – стационарный (в широком смысле). 4. Стационарный и гауссовский процесс ξ(t) имеет математическое ожидание mx = 5 и ковариационную функцию r(t, u) = e−2|τ| (cos 2τ + sin 2|τ|). Найти: dξ(t) а) одномерную плотность процесса η(t) = ; dt √ б) вероятность того, что |η(t)| < 3. 190 ГЛАВА 7. СТАЦИОНАРНЫЕ В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 5. Доказать, что следующие функции являются положительно определенными: r1 (t, s) = min(t, s) − ts, t, s ∈ [0, 1]; r2 (t, s) = e−|t−s| , t, s ∈ R. 6. Пусть φ1 (t), . . . , φn (t) – произвольные действительные функции, C1 , . . . , Cn – неотn X рицательные числа. Доказать, что функция r(t1 , t2 ) = Ci φi (t1 )φi (t2 ) является i=1 ковариационной функцией некоторого случайного процесса. 7. Случайный процесс ξ(t) строится следующим образом. В точке t = 0 он случайным образом с одинаковой вероятностью принимает одно из значений +1 или −1 и остается постоянным до точки t = 1, в точке t = 1 снова равновероятно и независимо от предыдущего значения принимает одно из значений +1 или −1 и сохраняет его до точки t = 2, и т. д. Определить математическое ожидание, дисперсию и ковариационную функцию ξ(t). Является ли случайный процесс стационарным в широком смысле? 8. Случайный процесс ξ(t) строится так же, как и в предыдущем упражнении, с той лишь разницей, что точки, в которых происходит «розыгрыш» нового значения, не закреплены на оси времени, а занимают на ней случайное положение, сохраняя между собой постоянное расстояние, равное единице. Распределение начала отсчета относительно первого момента «розыгрыша» – равномерное на [0, 1]. Найти E{ξ(t)}, D{ξ(t)}, ковариационную функцию. Определить, является ли ξ(t) стационарным в широком смысле. 9. Доказать, что если ξ(t) – стационарный в широком смысле случайный процесс, то ∞ Z его дисперсия D{ξ(t)} = 2 f (λ)dλ. 0 10. Найти спектральные плотности, соответствующие ковариационным функциям: |τ| 1 − , при |τ| ≤ τ0 , а) r(τ) = τ 0, |τ| 0> τ ; 0 б) r(τ) = e−|τ| cos βτ; в) r(τ) = σ2 e−α|τ| ; г) r(τ) = σ2 e−α|τ| (1 + α|τ|); ¡ ¢ α д) r(τ) = σ2 e−α|τ| cos βτ + sin β|τ| . β 11. Случайный процесс ξ(t) имеет спектральную плотность, равную нулю вне промежутка [λ1 , λ2 ] и постоянную на этом промежутке. Найти коэффициент корреляции между ξ(t1 ) и ξ(t2 ); t1 , t2 произвольны. a2 . Найти кова12. Случайный процесс ξ(t) имеет спектральную плотность f (λ) = 2 a + λ2 риационную функцию. 13. Будут ли дифференцируемы случайные процессы, имеющие следующие спектральные плотности: a2 a) f (λ) = 2 ; λ + b2 X a2j б) f (λ) = . λ2 + b2j j Глава 8 СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ 8.1. ВИД ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ СЛУЧАЙНОГО ПРОЦЕССА С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ Рассмотрим СП ξ (t), где t ≥ 0. Определение 8.1. СП ξ (t) называется стохастически непрерывным в точке t0 , если P ξ (t) −→ ξ (t0 ). t→t0 Определение 8.2. СП ξ(t) называется процессом с независимыми приращениями, если для любого n и любых 0 ≤ t1 < t2 < . . . < tn случайные величины ξ(t1 ), ξ(t2 )− −ξ(t1 ), . . . , ξ(tn ) − ξ(tn−1 ) независимы. Определение 8.3. СП ξ(t) называется однородным, если для любых t ⩾ 0, τ > 0 распределение случайной величины ξ (t + τ) − ξ (t) не зависит от t. Замечание 8.1. Из стохастической непрерывности СП не следует непрерывность траекторий СП. Для таких процессов возможны разрывы траекторий в случайные моменты времени (см. п. 8.3). Замечание 8.2. Из свойств сходимостей следует, что из стохастической непрерывности СП в точке t0 следует непрерывность характеристической функции fξ(t) (λ) по t в точке t0 . Теорема 8.1. Если СП ξ (t), ξ (0) = 0, стохастически непрерывен, однороден и является процессом с независимыми приращениями, то его характеристическая функция fξ(t) (λ) = E{eiλξ(t) } имеет вид ¡ ¢t fξ(t) (λ) = fξ(1) (λ) . Доказательство. Пусть 0 ⩽ u < t. Тогда ft (λ) = fξ(t) (λ) = E{eiλξ(t) } = E{eiλ(ξ(t)−ξ(u)+ξ(u)) } = E{eiλ(ξ(t)−ξ(u)) eiλξ(u) }. Используя независимость приращений и однородность СП ξ (t), получаем © ª © ª © ª © ª ft (λ) = E eiλ(ξ(t)−ξ(u)) E eiλξ(u) = E eiλξ(t−u) E eiλξ(u) = ft−u (λ) fu (λ). Положим g (t) = ft (λ). Из предыдущего равенства получаем g (t) = g (t − u) g (u). Полагая u = t1 , t − u = t2 , имеем g (t1 + t2 ) = g (t1 ) g (t2 ). Отсюда по индукции g (t1 + t2 + . . . + tn ) = g (t1 ) g (t2 ) × . . . × g (tn ) для t1 ⩾ 0, t2 ⩾ 0, . . . , tn ⩾ 0. (8.1) 192 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ Полагая в (8.1) tj = 1/n для всех j = 1, . . . , n, получаем g(1) = (g(1/n))n , т. е. g(1/n) = (g(1))1/n . Заменяя в (8.1) n на k и полагая tj = 1/n для всех j = 1, . . . , k, получим µ ¶ µ µ ¶¶k k k 1 g = (g (1)) n , = g n n т. е. для всех рациональных чисел r, g (r) = (g (1))r . Пусть t – произвольное число больше нуля. Тогда найдется последовательность рациональных чисел {rn } такая, что rn −→ t. В силу непрерывности функции g (t) имеем n→∞ g (t) = lim g (r) = lim (g (1))rn = (g (1))t . n→∞ n→∞ ¤ 8.2. ВИНЕРОВСКИЙ ПРОЦЕСС Определение 8.4. СП ξ (t) , t ⩾ 0, называется винеровским процессом (ВП), если он удовлетворяет следующим условиям: 1. ξ (0) = 0. 2. ξ (t) − однородный процесс с независимыми приращениями. 3. L (ξ (1)) = N (a, σ2 ). 4. Траектории СП ξ (t) с вероятностью единица непрерывны. В случае a = 0, σ = 1 СП ξ (t) называется стандартным винеровским процессом и обозначается w (t). Из теоремы 8.1 следует, что ´ ¡ ¢t ³ 1 2 2 t 1 2 2 fξ(t) (λ) = fξ(1) (λ) = eiλa− 2 λ σ = eiλat− 2 λ σ t , т. е. L (ξ (t)) = N (at, σ2 t). Из свойств нормально распределенной случайной величины следует w (t) = ξ (t) − at √ . σ t Замечание 8.3. В определении ВП условие непрерывности СП можно заменить на условие сепарабельности. Доказательство следует из теоремы 6.8, если взять в качестве g (h) = hα , α < 1/2. Действительно, P{|w(t + h) − w(t)| > hα } = P{|w(h)| > hα } = Z Z 2 y2 1 1 −x 2h e e− 2 dy = q (h). =√ dx = √ 2π 2πh |x|>hα |y|>h 1 α− 2 В дальнейшем нам понадобится нижеследующая лемма. ∞ µ ¶ Z y2 1 − x2 − 2 dy = O e 2 . Лемма 8.1. При x → ∞ e x x Доказательство следует из³Правила Лопиталя. ´ 2α−1 Тогда по лемме q (h) = O h1/2−α e−1/2h . Следовательно, функции q (h) и g (h) удовлетворяют условиям теоремы 6.8. 193 8.2. ВИНЕРОВСКИЙ ПРОЦЕСС Свойства винеровского процесса C1. ВП w (t) является гауссовским процессом с E{w (t)} = 0 и ковариационной функцией r (t, u) = min (t, u). Доказательство. Пусть 0 ⩽ t1 < t2 < . . . < tn . Тогда fω(t1 ),ω(t2 ),...,ω(tn ) (λ1 , . . . , λn ) = E{exp {i(λ1 ω(t1 ) + λ2 ω(t2 ) + . . . + λn ω(tn ))}} = = E{exp {i [λn (ω(tn ) − ω(tn−1 )) + (λn + λn−1 )(ω(tn−1 ) − ω(tn−2 ))+ + . . . + (λn + . . . + λ1 )(ω(t1 )]} = E{exp {iλn (ω(tn ) − ω(tn−1 ))}}× ×E{exp {i(λn + λn−1 )(ω(tn−1 ) − ω(tn−2 ))}} × . . . × ½ ¾ 1 2 ×E{exp {i(λn + . . . + λ1 )(ω(t1 )}} = exp − λn (tn − tn−1 ) × ¾ ½ 2 ¾ ½ 1 1 2 2 ×exp − (λn + λn−1 ) (tn−1 − tn−2 ) × . . . × exp − (λn + λn−1 + . . . + λ1 ) t1 = 2 2 ½ 1£ 2 = exp − λn (tn − tn−1 ) + (λn + λn−1 )2 (tn−1 − tn−2 ) + . . . + 2 ¾ ¤ +(λn + λn−1 + . . . + λ1 )2 t1 . (8.2) По определению гауссовского процесса следует, что процесс w (t) гауссовский. По определению винеровского процесса E{w (t)} = 0. Пусть t < u. Тогда r (t, u) = E{w (t) w (u)} = E{(w (u) − w (t) + w (t)) w (t)} = = E{(w(u) − w(t))w(t)} + E{(w(t))2 } = E{w(u) − w(t)}E{w(t)} + E{(w (t))2 } = = E{(w (t))2 } = t. ¤ C2. ВП w(t) является симметрическим СП, т. е. конечномерные распределения случайных процессов w (t) и −w (t) совпадают. Доказательство следует из равенства (8.2). Поскольку fw(t1 ),w(t2 ),...,w(tn ) (λ1 , . . . , λn ) = fw(t1 ),w(t2 ),...,w(tn ) (−λ1 , . . . , −λn ) = = f−w(t1 ),−w(t2 ),...,−w(tn ) (λ1 , . . . , λn ). ¤ C3. ВП w(t) обладает свойством строгой марковости. Пусть 0 ⩽ t1 < t2 < . . . < tn < t, B – борелевское множество, x1 , . . . , xn ∈ R. Используя свойства ВП w (t), имеем P{w(t) ∈ B|w(tn ) = xn , . . . , w(t1 ) = x1 } = = P{w(t) − w(tn ) ∈ B − {xn }|w(tn ) − w(tn−1 ) = xn − xn−1 , . . . , w(t2 ) − w(t1 ) = x2 − x1 , w(t1 ) = x1 } = P{w(t) − w(tn ) ∈ B − {xn }} = Z (x−xn )2 1 = P{w(t) ∈ B|w(tn ) = xn } = p e− 2(t−tn ) dx . 2π(t − tn ) B Отсюда следует свойство марковости процесса w (t) при s < t: Z (x−w(s))2 1 P {w (t) ∈ B |Fs } = P {w (t) ∈ B |w (s) } = p e− 2(t−s) dx, 2π (t − s) B (8.3) 194 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ где Fs = σ (w (t) , t ⩽ s). Из равенства (8.3) и независимости приращения СП w(t) следует при s < t, что P {w (t) − w (s) ∈ B |Fs } = P {w (t) − w (s) ∈ B}. Пусть τ – марковский момент, т. е. при каждом t событие (τ ≤ t) ∈ Ft , (8.4) Fτ = (A ∈ F : A (τ = t) ∈ Ft ). Замечание 8.4. Марковским моментом будет момент достижения СП некоторого множества B: τ = min (t : ξ (t) ∈ B). Свойство строгой марковости означает, что для любого t > 0 и марковского момента τ⩾0 P {w (t + τ) − w (τ) ∈ B |Fτ } = P{w(t) ∈ B}. Последнее соотношение равносильно следующему: для любого события A ∈ Fτ P{A ∩ (w(t + τ) − w(τ) ∈ B)} = P{A}P{w(t) ∈ B}. (8.5) Доказательство. Если марковский момент τ принимает конечное число значений τ = t1 , t2 , . . . , tn , то, используя (8.4), имеем X P{A ∩ (w(t + τ) − w(τ) ∈ B)} = P {A (τ = tj ) (w (t + τ) − w (τ) ∈ B)} = j X = P {A (τ = tj ) (w (t + tj ) − w (tj ) ∈ B)} = Xj = P {A (τ = tj )} P {w (t + tj ) − w (tj ) ∈ B} = Xj = P {A (τ = tj )} P{w (t) ∈ B} =P{A}P{w(t) ∈ B}. (8.6) j В общем случае равенство (8.5) доказывается приближением случайной величины τ марковскими моментами, принимающими конечное число значений. Рассмотрим последовательность марковских моментов 2 τ (n) = n X k n k=1 11 k ⩽τ< k+1 + n11(τ>n) . n n Поскольку τ(n) стремится к τ снизу и µ ¶ µ µ ¶¶ k k k+1 A τ(n) = =A τ∈ , ∈ Fk ; (8.7) n n n n ¡ ¢ ¡ ¢ п. н. (8.8) w t + τ(n) − w τ(n) −→ w (t + τ) − w (τ), где A ∈ Fτ , то, используя свойства сходимостей последовательностей случайных величин и соотношений (8.6), (8.7), (8.8), имеем ¢ ª ¢ ¡ © ¡ P{A ∩ (ω(t + τ) − ω(τ) ∈ B)} = lim P A ∩ (ω t + τ(n) − ω τ(n) ∈ B) = n→∞ = P{A}P {ω (t) ∈ B}. ¤ В дальнейшем приведенные свойства выполняются с вероятностью единица. 195 8.2. ВИНЕРОВСКИЙ ПРОЦЕСС C4. Траектории ВП w (t) за конечное время достигнут любого уровня. Доказательство. Пусть τa = min (t : w (t) = a). В силу симметрии, однородности и строгой марковости ВП w (t) имеем P {w(t) > > a|τa < t } = 1/2. Отсюда P{w(t) > a, τa < t} P{w(t) > a} 1 = = . 2 P{τa < t} P{τa < t} Следовательно, r P{τa < t} = 2P{w(t) > a} = 2 πt r ∞ Z x2 e− 2t dx = 2 π a ∞ Z y2 e− 2 dy. a √ t По аксиоме непрерывности r P{τa < ∞} = lim P{τa < t} = lim t→∞ t→∞ 2 π ∞ Z y2 e− 2 dy = 1. a √ t ¤ Найдем плотность распределения вероятностей СВ τa : 3 a2 dP{τa < t} at− 2 Pτa (t) = = √ e− 2t . dt 2π (8.9) C5. Траектории ВП w (t), исходя из любой точки, за сколь угодно малое время примут значения, лежащие как выше, так и ниже этой точки. Доказательство. В силу однородности ВП это свойство достаточно доказать для точки t = 0. Пусть η(t) = max w(s). Поскольку 0⩽s⩽t r P{η(t) > a} = P{τa < t} = 2 π ∞ Z y2 e− 2 dy, a √ t то по аксиоме непрерывности получаем P{η(t) > 0} = lim P{η(t) > a} = 1. a→0 В силу симметрии ВП w(t) P{η(t) < 0} = 1. Это равенство верно для любого t > 0. Найдем плотность распределения вероятностей СВ η (t): dP{η(t) > x} Pη(t) (x) = − = dx r 2 − x2 e 2t . πt ¤ (8.10) C6. Точка максимума траектории ВП w (t) на любом промежутке подчиняется закону арксинуса, т. е. с большой вероятностью примет значение или в начале промежутка, или в конце промежутка. 196 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ Доказательство. Не ограничивая общности, будем рассматривать промежуток [0, t]. Пусть τ = τ (t) = arg max w (u), s < t. Используя свойства условной плотности 0⩽u⩽t вероятности и (8.10), имеем Pη(t) (x|τa = s) = P max w(u) + a (x|τa = s) = P max w(u) + a (x − a|τa = s) = s⩽u⩽t s⩽u⩽t s (x−a)2 2 = P max w (u) (x − a) = Pη(t−s) (x − a) = e− 2(t−s) . π (t − s) 0⩽u⩽t − s Отсюда и из равенства (8.10) получаем 3 2 as− 2 − a2s2 − (x−a) (t−s) , Pη(t),τa (x, s) = Pτa (s) Pη(t) (x |τa = s ) = √ e π t−s тогда 3 xs− 2 − x2 Pη(t),τ (x, s) = Pη(t) (x) Pτ (s |η(t) = x) = Pη(t),τx (x, s) = √ e 2s . π t−s Следовательно, ∞ ∞ Z Z 3 x2 s− 2 1 Pτ (s) = Pη(t),τ (x, s) dx = √ xe− 2s dx = p . π t−τ π s (t − s) 0 0 Zs Таким образом Fτ (s) = p 2 Pτ (x) dx = arcsin s/t, если 0 ⩽ s ⩽ t. π ¤ −∞ C7. Траектории ВП w (t) ни в одной точке не дифференцируемы. Доказательство. В силу однородности ВП w (t) достаточно доказать для точки t = 0. Предположим, что существует предел lim w(t)/t = w0 (0). Тогда будет t→0 существовать предел −n w (2 ) lim = w0 (0). n→∞ 2−n В этом случае w (2−n+1 ) − w (2−n ) w (2−n+1 ) w (2−n ) = lim 2 − lim = w0 (0). n→∞ n→∞ n→∞ 2−n 2−n+1 2−n Рассмотрим события ´ ³ ¡ ¢ ¡ ¢ √ An = w 2−n+1 − w 2−n > 2−n . lim Поскольку интервалы (2−n , 2−n+1 ] , n > 0, не пересекаются, то события An будут независимы. Найдем вероятности этих событий: ∞ ∞ Z Z n o 2 √ y2 1 1 − x−n −n −n =√ e 2·2 dx = √ e− 2 dy = C. P{An } = P w(2 ) > 2 −n 2π 2π2 √ 2−n Отсюда ∞ X 1 © ª P {An } = ∞. Тогда по закону «0 или 1» P limAn = 1. n=1 Следовательно, для всех событий ω ∈ limAn неравенство w (2−n+1 , ω) − w (2−n , ω) √ >1 2−n 197 8.2. ВИНЕРОВСКИЙ ПРОЦЕСС будет выполняться для бесконечно большого числа значений n. Поэтому для этих ω последовательность √ w (2−n+1 , ω) − w (2−n , ω) w (2−n+1 , ω) − w (2−n , ω) 2−n √ = · 2−n 2−n 2−n не будет иметь предела. Получили противоречие. ¤ C8. Траектории ВП w (t) на любом конечном промежутке имеют неограниченную вариацию. Доказательство. Рассмотрим промежуток [s, t] и разбиение этого промежутка точками s = t1 < t2 < . . . < tn = t. Пусть λn = max (tk − tk−1 ), Vn = = n X k п. н. |w (tk ) − w (tk−1 )|. Покажем, что Vn −→ ∞, если λn достаточно быстро стре- k=1 мится к нулю. Вычислим ¸ · Z x2 1 x |x| e− 2t dx = √ = y = t 2πt r 2 √ 1 Z √ √ y 2 = t√ |y| e− 2 dy = t = C1 t. π 2π E{|w (t)|} = √ Тогда E{Vn } = n X E{|w (tk ) − w (tk−1 )|} = k=1 = C1 n √ P tk − tk−1 = C1 n X n X tk − tk−1 C1 √ ⩾ √ (t − s) −→ ∞; λn →0 tk − tk−1 λn k=1 D{|w (tk ) − w (tk−1 )|} = k=1 = n X E{|w (tk − tk−1 )|2 } − k=1 n X = E{|w (tk − tk−1 )|} = k=1 k=1 D{Vn } = n X (tk − tk−1 ) − k=1 n X n X n X D{|w (tk − tk−1 )|} = k=1 E2 {|w (tk − tk−1 )|} = k=1 C1 (tk − tk−1 ) = C2 (t − s). k=1 По неравенству Чебышева имеем для достаточно больших n P{Vn ⩽N } = P{Vn − E{Vn }⩾N − E{Vn }}⩽P{|Vn − E{Vn }|⩾E{Vn } − N }⩽ ⩽ D{Vn } C2 (t − s) ¶ −→ 0. µ 2⩽ λn →0 C2 (t − s) (E{Vn } − N ) √ −N λn P Отсюда следует Vn →∞. Заметим, что последовательность λn можно выбрать такой, что X P{Vn ⩽N } < ∞. n Следовательно, P{lim(Vn ⩽N )} = 0. п. н. Или P {(lim (Vn > N )} = 1. Отсюда следует, что Vn −→ ∞. ¤ 198 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ C9. ВП w (t) подчиняется закону повторного логарифма, т. е. ½ µ ¶ ¾ w (t) P lim √ = 1 = 1. t→∞ 2t ln ln t Доказательство. Из определения верхнего предела следует, что если a является верхним пределом числовой последовательности an , то для любого ² > 0 должны выполняться соотношения: 1. Существует n0 такое, что при всех n ⩾ n0 an ⩽ a + ²; 2. an ⩾ a − ² для бесконечно большого числа значений n. Отсюда следует, что для доказательства закона повторного логарифма нужно доказать выполнимость следующих соотношений с вероятностью единица: 1. Для любого ² > 0 существует t0 = t0 (ω, ²) такое, что при всех t ⩾ t0 √ |w (t)| ⩽ (1 + ²) 2t ln ln t. (8.11) 2. Для любого ² > 0 соотношение √ |w (t)| ⩾ (1 − ²) 2t ln ln t (8.12) выполняется для бесконечного числа значений t. Докажем вначале выполнимость соотношения √ w (t) ⩽ (1 + ²) 2t ln ln t (8.13) для достаточно больших t. Пусть a > 1. Рассмотрим события µ ¶ √ k−1 k−1 Ak = max w (u) > (1 + ²) 2a ln ln a . ak−1 ⩽u⩽ak Поскольку µ Ak ⊂ Bk = max w (u) > (1 + ²) u⩽ak √ 2ak−1 ln ln ak−1 ¶ , то, используя лемму 8.1 и распределение случайной величины η (t), получим o r2 n √ P {Bk } = P η (ak ) > (1 + ²) 2ak−1 ln ln ak−1 = π µ =O ∞ Z y2 e− 2 dy = √ (1+²) a2 ln ln ak−1 ½ ¾¶ µ ¶ (1+²)2 1 1 − 21 k−1 a √ exp −(1 + ²) ln ln a =O √ (k ln a) . a ln k ln ln ak−1 ∞ X X P {Bn } < ∞. Следовательно, P {An } < ∞. n=1 © n ª © ª По лемме Бореля – Кантелли P limAn = 0 или P limĀn = 1. Из определения нижнего предела последовательности событий получаем, что для всех ω ∈ limĀn существует номер k0 = k0 (w) такой, что при всех k ⩾ k0 будут выполняться соотношения √ max w (u, ω) ⩽ (1 + ²) 2ak−1 ln ln ak−1 . Положив a = 1 + ², получим ak−1 ⩽u⩽ak 199 8.2. ВИНЕРОВСКИЙ ПРОЦЕСС Отсюда следует выполнимость соотношения (8.12). Поскольку процесс w (t) симметричный, то из доказанного следует, что процесс w (t) будет удовлетворять соотношению √ w (t) ⩾ − (1 + ²) 2t ln ln t для всех достаточно больших t, т. е. будет выполняться соотношение (8.11). Аналогично, для доказательства соотношения (8.12) достаточно доказать неравенство √ w (t) ⩾ (1 − ²) 2t ln ln t (8.14) для бесконечного числа значений t. Пусть b > 1. Рассмотрим события ³ ³ ´ ²´ √ k 2b ln ln bk . Ck = w(bk ) − w(bk−1 ) > 1 − 2 £ k−1 k ¤ Поскольку интервалы b , b , k ⩾ 1, не пересекаются, то события Ck будут независимы. Используя лемму 8.1 и распределение случайной величины w (t), получим n ¡ o ¢ ³ ²´ √ k P{Ck } = P w bk−1 (b − 1) > 1 − 2b ln ln bk = O 2 à 1− ² 2 ( 2) − 1 1 √ k 1− b ln k ! . 2 Если выбрать b ⩾ , то ² ∞ X P {Ck } = ∞. k=1 © ª Следовательно, по закону «0 или 1» P limCk = 1. Это означает, что для любого ω ∈ limCk существует последовательность {kn }, kn = kn (ω) такая, что ³ ²´ p k w(bkn , ω) − w(bkn −1 , ω) > 1 − 2bn ln ln bkn . 2 С другой стороны, по доказанному имеем: для любого δ > 0√и для почти всех w существует t0 = t0 (ω, δ), что для всех t ⩾ t0 w (t) > − (1 + δ) 2t ln ln t. Тогда неравенство √ ¡ ¢ ¡ ¢ ¡ ¢ ¡ ¢ ³ ²´ √ k 2b ln ln bk − (1 + δ) 2t ln ln t w bk = w bk − w bk−1 + w bk−1 > 1 − 2 будет выполняться для бесконечного числа значений k. Выбором числа δ и достаточно большим b правую часть этого неравенства можно сделать меньшей, чем √ (1 − ²) 2bk ln ln bk . ¤ µ ¶ 1 C10. Если w (t) – стандартный винеровский процесс, то и W (t) = tw – стандартный t винеровский процесс. 200 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ Доказательство. Докажем, что процесс W (t) – гауссовский. Пусть 0 ⩽ t1 < t2 < < . . . < tn . Тогда случайная величина µ ¶ µ ¶ 1 1 λ1 W (t1 ) + λ2 W (t2 ) + . . . + λn W (tn ) = λ1 t1 w + λ2 t2 w + ...+ t1 t2 µ ¶ µ µ ¶ µ ¶¶ µ µ ¶ µ ¶¶ 1 1 1 1 1 +λn tn w = λ1 t1 w −w + (λ1 t1 + λ2 t2 ) w −w + tn t1 t2 t2 t3 µ µ ¶¶ 1 + . . . + (λ1 t1 + λ2 t2 + . . . + λn tn ) w tn имеет нормальный закон распределения. Найдя ее характеристическую функцию, получим выражение вида (6.1), т. е. процесс W (t) является гауссовским процессом. Найдем его характеристики: ½ µ ¶¾ ½ µ ¶¾ 1 1 = tE w = 0. E{W (t)} = E tw t t µ ¶¾ ½ µ ¶ 1 1 r (t, u) = E {W (t) W (u)} = E tw uw = t u ½ µ ¶ µ ¶¾ µ ¶ 1 1 1 1 = tuE w w = tu min , = min(t, u). t u t u ¤ C11. ВП w (t) подчиняется локальному закону повторного логарифма, т. е. |w (t)| P lim q = 1 = 1. t→0 2t ln ln 1 t Доказательство. Применим закон повторного логарифма к процессу W (t). Имеем ½ ¾ |W (t)| 1 = P lim √ =1 = t→∞ 2t ln ln t ( ) ¯ ¡ 1 ¢¯ ¯ ¯ t w t |w (u)| = P lim √ =1 . = 1 = P lim q t→∞ u→0 2u ln ln 1 2t ln ln t u ¤ 8.3. ПУАССОНОВСКИЙ ПРОЦЕСС Определение 8.5. Случайный процесс ξ(t), t > 0, называется пуассоновским процессом, если он удовлетворяет следующим условиям: 1. ξ (0) = 0. 2. ξ (t) – однородный процесс с независимыми приращениями. 3. ξ (t) – стохастически непрерывный процесс. 4. Случайная величина ξ (1) распределена по закону Пуассона с параметром λ. Из теоремы 8.1 следует, что ³ ´t iu fξ(t) (u) = fξ(1) (u) = eλt(e −1) , т. е. случайная величина ξ (t) имеет распределение Пуассона с параметром λt. 201 8.3. ПУАССОНОВСКИЙ ПРОЦЕСС Замечание 8.5. Из определения пуассоновского процесса следует, что он является неубывающим процессом, траектории которого – кусочно-постоянные. Покажем, что скачки данного процесса равны единице, т. е. он удовлетворяет условию ординарности: ξ(t) ∈ N0 и P{ξ(t + h) − ξ(t) > 1} = o(h). (8.15) Из определения процесса ξ (t) имеем P{ξ(t + h) − ξ(t) > 1} = P{ξ(h) > 1} = 1 − P{ξ(h) = 0} − P{ξ(h) = 1} = = 1 − e−λh − λhe−λh = o(h), т. е. выполняется соотношение (8.15). Замечание 8.6. В определении пуассоновского процесса условие 4 можно заменить на условие ординарности. Доказательство. Обозначим Pk (t) = P{ξ(t) = k}. Для нахождения Pk (t) применим метод дифференциальных уравнений. Из определения стохастической непрерывности СП ξ(t) имеем при t > t0 P{ξ(t) − ξ(t0 ) = 0} = P{ξ(t) − ξ(t0 ) ⩽ ²} −→ 1, t→t0 0 < ² < 1. Отсюда 0 ≤ P0 (t0 ) − P0 (t) = P{ξ(t0 ) = 0} − P{ξ(t) = 0} = P{ξ(t0 ) = 0, ξ(t) = 0}+ +P{ξ(t0 ) = 0, ξ(t) 6= 0} − P{ξ(t) = 0, ξ(t0 ) = 0} = = P{ξ(t0 ) = 0, ξ(t) − ξ(t0 ) 6= 0} ≤ P{ξ(t) − ξ(t0 ) 6= 0} −→ 0, t→t0 т. е. P0 (t) – непрерывная функция. Используя свойства условия 1 и 2, имеем P0 (t + u) = P{ξ(t + u) = 0} = P{ξ(t + u) = 0, ξ(t) = 0} = = P{ξ(t + u) − ξ(t) = 0, ξ(t) − ξ(0) = 0} = = P{ξ(t + u) − ξ(t) = 0}P{ξ(t) − ξ(0) = 0} = P0 (u)P0 (t). Используя доказательство теоремы 8.1, имеем P0 (t) = e−λt , где λ – некоторое число больше 0. Случаи P0 (t) = 0 и P0 (t) = 1 исключаем, так как они не представляют практического интереса. Используя формулу полной вероятности и условие ординарности, получаем Pk (t + ∆t) = P{ξ(t + ∆t) = k} = = = k X k X k X P{ξ(t) = l}P{ξ(t + ∆t) = k|ξ(t) = l} = l=0 Pl (t)P{ξ(t + ∆t) − ξ(t) = k − l|ξ(t) − ξ(0) = l} = l=0 Pl (t)P{ξ(t + ∆t) − ξ(t) = k − l} = Pk (t)P{ξ(t + ∆t) − ξ(t) = 0}+ l=0 +Pk−1 (t)P{ξ(t + ∆t) − ξ(t) = 1} + k−2 X Pl (t)P{ξ(t + ∆t) − ξ(t) = k − l} = l=0 = Pk (t)P(∆t) + Pk−1 (t)P1 (∆t) + o(∆t). (8.16) 202 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ Поскольку ∞ X k=0 Pk (∆t) = 1, ∞ X Pk (∆t) = o (∆t), то k=2 P1 (∆t) = 1 − P0 (∆t) + o (∆t) = 1 − e−λ∆t + o (∆t) = λ∆t + o (∆t). Подставляя эти соотношения в (8.16), получаем Pk (t + ∆t) = Pk (t) (1 − λ∆t) + Pk−1 (t) λ∆t + o (∆t). Отсюда P0k (t) = −λ∆tPk (t) + λPk−1 (t) , k ⩾ 1. Сделаем замену Qk (t) = eλt Pk (t). Тогда Qk (t) = λeλt Pk (t) + eλt P0k (t) = λQk (t) − λQk (t) + λQk−1 (t) = λQk−1 (t) . Поскольку Qk (0) = Pk (0) = 1 при k = 0 и равно 0, если k 6= 0, то Qk (t) = Pk (t) = (λt)k , т. е. k! (λt)k −λt e . k! ¤ Найдем вид конечномерных распределений процесса ξ (t). Пусть 0 ⩽ t1 < t2 < . . . < tn , 0 = k1 < k2 < . . . < kn ∈ N0 . Тогда P{ξ(t1 = k1 , ξ(t2 ) = k2 , . . . , ξ(tn ) = kn } = = P{ξ(t1 t) − ξ(0) = k1 , ξ(t2 t) − ξ(t1 ) = k2 − k1 , . . . , ξ(tn ) − ξ(tn−1 ) = kn − kn−1 } = = P{ξ(t1 ) − ξ(0) = k1 }P{ξ(t2 ) − ξ(t1 ) = k2 − k1 } × . . . × ×P{ξ(tn ) − ξ(tn−1 ) = kn − kn−1 } = P{ξ(tt ) = k1 }P{ξ(t2 − t1 ) = k2 − k1 } × . . . × (λt1 ) −λt1 λ (t1 − t2 ) −λ(t2 −t1 ) e e × ...× k1 ! (k2 − k1 )! λ (tn − tn−1 ) −λ(tn −tn−1 ) e . × (kn − kn−1 )! ×P{ξ(tn − tn−1 ) = kn − kn−1 } = 8.4. СТОХАСТИЧЕСКИЙ ИНТЕГРАЛ ИТО Пусть (Ft )t⩾0 – неубывающая последовательность σ-алгебр. Винеровский процесс w (t) измерим относительно Ft , и w (t + τ) − w (t) не зависит от событий из Ft . В частности, это будет верно, если Ft = Fw t = σ (w (s) , s ⩽ t). Заметим, что в общем случае Fw t ⊂ Ft . Определение 8.6. Функция φ (t) = φ (t, ω) называется неупреждающей, если она при каждом t измерима относительно Ft . Определение 8.7. Функция φ (t) называется простой, если существует такое разбиение промежутка [0, ∞) точками 0 ⩽ t0 < t1 < . . . на промежутки [tk, tk+1 ), что при t ∈ [tk, tk+1 ) φ (t) = φ (tk ). 8.4. СТОХАСТИЧЕСКИЙ ИНТЕГРАЛ ИТО 203 Пусть φ (t) – неупреждающая простая функция, −∞ < a < b < +∞, t0 ⩽a < t1 < < . . . < tm < b⩽tm+1 . Тогда определим Zb φ (t) dw (t) = φ (t0 ) (w (t1 ) − w (a)) + + m−1 X a φ (tk ) (w (tk+1 ) − w (tk )) + φ (tm ) (w (b) − w (tm )) . k=1 Для удобства записи положим a = t0 , b = tm+1 . Тогда Zb φ (t) dw (t) = m X φ (tk ) (w (tk+1 ) − w (tk )). (8.17) k=0 a Этот интеграл обладает следующими свойствами. Пусть функции φ и ψ – простые и неупреждающие. Можно считать, что они являются постоянными на одних и тех же промежутках. В противном случае можно рассматривать новые промежутки постоянства функций, полученные путем пересечения промежутков постоянства функций φ и ψ. C1. Для любых констант α и β Zb Zb Zb (αφ (t) + βψ (t)) dw (t) = α φ (t) dw (t) + β ψ (t) dw (t). a a a C2. Если a < c < b, то Zb Zc φ (t) dw (t) = a Zb φ (t) dw (t) + φ (t) dw (t). a c Доказательство этих свойствследует из (8.17). b Zb Zb Z φ (t) dw (t) ψ (t) dw (t) = E {φ (t) ψ (t)} dt. C3. E a a a Доказательство. Используя представление (8.17), получаем E φ (t) dw (t) ψ (t) dw (t) = = m X b Z Zb a a E {φ(tk )ψ(tk )(w(tk+1 ) − w(tk ))(w(tl+1 ) − w(tl ))} . (8.18) k,l=0 Пусть k < l. Тогда из свойств винеровского процесса w (t) получаем, что случайные величины φ (tk ) ψ (tk ) (w (tk+1 ) − w (tk )) и w (tl+1 ) − w (tl ) будут независимы. А так как E {w (tl+1 ) − w (tl )} = 0, то в (8.18) слагаемые с k 6= l будут равны 0. 204 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ Следовательно, b Zb m Z X © ª E φ (t) dw (t) ψ (t) dw (t) = E φ (tk ) ψ (tk ) (w (tk+1 ) − w (tk ))2 = = m X a k=0 a m X © 2ª E {φ (tk ) ψ (tk )} E (w (tk+1 ) − w (tk )) = E {φ (tk ) ψ (tk )} (tk+1 − tk ) = k=0 k=0 Zb = E {φ (t) ψ (t)} dt. a ¤ C4. Для любых промежутков [a, b] и [c, d] b Z Zd min(b,d) Z E φ (t) dw (t) ψ (t) dw (t) = E {φ (t) ψ (t)} dt. a c (8.19) max(a,c) Доказательство следует из того, что если интервалы (a, b) и (c, d) не пересекаются, то (см. доказательство C3) левая часть соотношения (8.19) будет равна 0. Zb Доопределим φ (t) dw (t) для неупреждающих функций φ (t), удовлетворяющих условию a Zb © ª E φ2 (t) dt < ∞. (8.20) a Построим последовательность простых неупреждающих функций φn (t), удовлетворяющих условию Zb © ª E (φ (t) − φn (t))2 dt −→ 0. n→∞ a Положим µ n φn (t) = n2 X k=−n2n φ k 2n ¶ 11 k , k+1 (t). 2n 2n Поскольку из условия (8.20) следует Zb © ª E φ2 (t) 11(|φ(t)|>n) dt −→ 0 n→∞ a и по теореме Лебега для каждого N > 0 Zb © ª E (φ (t) − φn (t))2 11(|φ(t)|⩽N ) dt −→ 0, n→∞ a (8.21) 205 8.4. СТОХАСТИЧЕСКИЙ ИНТЕГРАЛ ИТО то Zb © ª E (φ (t) − φn (t))2 dt −→ 0. n→∞ a Zb Определим φ (t) dw (t) от неупреждающих функций, удовлетворяющих (8.20) следуюa щим образом: Zb Zb φ (t) dw (t) = l.i.m. φn (t) dw (t), (8.22) n→∞ a a где φn (t) удовлетворяют (8.21). Покажем, что данное определение является корректным, т. е. предел в (8.22) существует и не зависит от последовательности {φn (t)}, удовлетворяющей (8.21). Проверим критерий Коши сходимости в среднем квадратичном. Используя (8.17), имеем 2 2 Zb Zb Zb = =E (φn (t) − φm (t)) dw (t) E φn (t) dw (t) − φm (t) dw (t) a a a Zb = © ª E (φn (t) − φm (t))2 dt ≤ a Zb Zb 2 ≤ 2 E{φn (t) − φ(t)} dt + 2 E{φn (t) − φ(t)}dt −→ 0. n,m→∞ a a Пусть последовательность {ψn (t)} неупреждающих функций удовлетворяет (8.21). Zb Zb Тогда покажем, что φ (t) dw (t) = l.i.m. ψn (t) dw (t). n→∞ a a По определению сходимости в среднем квадратичном имеем 2 Zb Zb E ψm (t) dw (t) − φ (t) dw (t) ⩽ a a 2 2 Zb Zb ⩽2E (ψm (t) − φn (t)) dw (t) + 2E (φn (t) − φ (t)) dw (t) . a (8.23) a По определению второе слагаемое в (8.23) стремится к нулю при n → ∞. Покажем, что 206 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ и первое слагаемое в (8.23) имеет пределом 0: 2 b Zb Z © ª E (ψm (t) − φn (t)) dw (t) = E (ψm (t) − φn (t))2 dt⩽ a a Zb Zb a a © ª © ª ⩽2 E (ψm (t) − φ (t))2 dt + 2 E (φn (t) − φ (t))2 dt −→ 0. n,m→∞ Zb Замечание 8.7. Из свойств сходимости в среднем квадратичном следует, что φ(t)dw(t) обладает свойствами С1 – С4 как для простых неупреждающих функций. a Построенный интеграл называется стохастическим интегралом Ито. Заметим, что таким образом определенный интеграл нельзя определять так же, как и ранее определенные стохастические интегралы, так как предел интегральных сумм будет зависеть от способа построения интегральных сумм. Покажем это на примере. ZT Вычислим стохастический интеграл Ито w (t) dw (t). Пусть 0 0⩽t0 < t1 < . . . < tn = T , λn = max (tk+1 − tk ). k Q1 = n−1 X w (tk ) (w (tk+1 ) − w (tk )). k=0 Найдем Q1 = l.i.m.Q1 при λn → 0: n n ¢ 1 1 X¡ 2 1X (w (tk+1 ) − w (tk ))2 . w (tk+1 ) − w2 (tk ) − (w (tk+1 ) − w (tk ))2 = w2 (T )− 2 k=1 2 2 k=1 Обозначим ηn = n X (w (tk+1 ) − w (tk ))2 : k=1 E {ηn } = n X n n © ª X © ª X E (w (tk+1 ) − w (tk ))2 = E (w (tk+1 − tk ))2 = (tk+1 − tk ) = T. k=1 k=1 D {ηn } = D ( n X k=1 ) (w (tk+1 ) − w (tk ))2 = k=1 =2 n X © ª D (w (tk+1 − tk ))2 = k=1 (tk+1 − tk )2 ⩽2λn k=1 Итак, n X n X (tk+1 − tk ) = 2λn T −→ 0. λn →0 k=1 © ª l2 D{ηn } −→ 0. Покажем ηn −→ T . E (ηn − T )2 = D{ηn } −→ 0. E{ηn } = T, λn →0 l 2 Следовательно, Q1 −→ 1 λn →0 2 ZT λn →0 1 wT2 − T = w (t) dw (t). 2 0 λn →0 8.5. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ РЕШЕНИЙ 207 Рассмотрим Q2 = w (tk+1 ) (w (tk+1 ) − w (tk )) = k=1 n = n X ¢ l2 1 2 1 1 X¡ 2 w (tk+1 ) − w2 (tk ) + (w (tk+1 ) − w (tk ))2 −→ wT + T. λn →0 2 2 k=1 2 Таким образом, предел зависит от выбора промежуточных точек. 8.5. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ РЕШЕНИЙ СТОХАСТИЧЕСКИХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ Пусть a (t, x) , b (t, x) – измеримые, локально ограниченные функции на R+ × R со значениями в R, ξ (t) – случайный непрерывный процесс, удовлетворяющий соотношению Zt Zt ξ (t) = ξ (0) + a (s, ξ (s)) ds + b (s, ξ (s)) dw (s), 0 (8.24) 0 которое называется стохастическим дифференциальным уравнением (Ито) . Интегралы понимаются как интегралы в среднем квадратичном. Второй интеграл есть интеграл Ито, w(t) – стандартный винеровский процесс. В этом случае говорят, что для СП ξ(t) существует дифференциал dξ(t) удовлетворяющий равенству dξ (t) = a (t, ξ (t)) dt + b (t, ξ (t)) dw (t) . Возникает задача: заданы функции a(t, x), b (t, x), и требуется найти функцию ξ (t), удовлетворяющую (8.24). Значение ξ (0) полагается заданным. Теорема 8.2. Пусть функции a(t, x), b (t, x) удовлетворяют условиям: 1) для некоторого l и любых t < T выполняются условия |a (t, x) − a (t, y)| + |b (t, x) − b (t, y)| ⩽l |x − y| ; 2) функции a(t, 0), b (t, 0) ограничены. Тогда уравнение (8.24) имеет решение ξ (t), и это решение единственно, т. е. если существует другое решение ξ (t) уравнения (8.24), то ½ ¾ ¯ ¯ ¯ ¯ P sup ξ(t) − ξ(t) > 0 = 0. t Доказательство. Докажем вначале единственность. Допустим, что существуют два решения уравнения (8.24) ξ (t) и ξ (t), для которых ξ (0) = ξ(0). Тогда Zt ξ (t) − ξ (t) = Zt ¢ ¡ ¢ a s, ξ (s) − a (s, ξ (s))ds + b s, ξ (s) − b (s, ξ (s)) dw (s). ¡ 0 0 ¯ © ¯ ª Пусть c > 0. Обозначим τc = sup t : ¯ξ (t) − ξ (t)¯ < c , tc = min (t, τc ). Ztc Ztc ¡ ¢ ¡ ¢ Тогда ξ (tc ) − ξ (tc ) = a s, ξ (s) − a (s, ξ (s))ds + b s, ξ (s) − b (s, ξ (s))dw(s). 0 0 Используя неравенство Шварца и свойства интеграла Ито, получаем 208 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ t 2 Zc £ ¡ n¯ ¯2 o ¢ ¤ E ¯ξ (tc ) − ξ (tc )¯ ⩽2E a s, ξ (s) − a (s, ξ (s)) ds + 0 t 2 Zc £ ¡ ¢ ¤ +2E b s, ξ (s) − b (s, ξ (s)) dw (s) ⩽ 0 t Zc £ ¡ ¢ ¤2 ⩽ 2tc E a s, ξ (s) − a (s, ξ (s)) ds + 0 t Zc n Ztc n ¯2 o ¯ ¢ ¤2 o £ ¡ 2 +2 ds ⩽ 2 (tc + 1) l E ¯ξ (tc ) − ξ (tc )¯ ds. (8.25) E b s, ξ (s) − b (s, ξ (s)) 0 0 Таким образом, для каждого t > 0 существует константа R = R (t) такая, что функция Zt n¯ ¯2 o ¯ ¯ gc (t) = E ξ (tc ) − ξ (tc ) удовлетворяет неравенству gc (t) ⩽ R gc (s) ds. 0 Справедлива следующая лемма. Zt Лемма 8.2. Если функция g (t) удовлетворяет неравенству g (t) ⩽ C + R g (s) ds, то g (t) ⩽ CeRt . Доказательство. Поскольку 0 Zt ln C + R g (s) ds = 0 то Zt 0 Rg (t) ⩽ R, Zt C + R g (s) ds 0 Zt ln C + R g (s) ds ⩽ ln C + Rt. Отсюда C + R g (s) ds ⩽ CeRt . ¤ 0 0 Поскольку в нашем случае C = 0, то по лемме 8.2 получаем gc (t) = 0 для всех c > 0 с вероятностью единица ξ (tc ) = ξ (tc ). Устремляя c к ∞, получим для каждого t > 0 ξ (t) = ξ (t) , (п. н.) . Из аксиом непрерывности получим ª © P ξ(t) = ξ(t), t ∈ Q+ = 1, где Q+ – множество неотрицательных рациональных чисел. А так как траектории СП ξ (t) и ξ (t) непрерывны, то © ª P ξ(t) = ξ(t), t⩾0 = 1. Единственность доказана. Для доказательства существования решений используем метод последовательных приближений. Будем считать, что ξ (0) = x ∈ R. Такое решение обозначим ξx (t). Поло(0) жим ξx (t) = x, а для n > 0 8.5. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ РЕШЕНИЙ Zt Zt ¡ (n−1) ¢ ¡ ¢ a s, ξx (s) ds + b s, ξ(n−1) (s) dw (s). x 0 0 ξ(n) x (t) = x + 209 (8.26) (n−1) Если ξx (t) – непрерывный неупреждающий процесс, то из условий теоремы следу(n) (0) ет, что ξx (t) – непрерывный неупреждающий процесс. Поскольку ξx (t) = x есть (n) непрерывная неупреждающая функция, то последовательность ξx (t) есть последовательность непрерывных неупреждающих функций. Из условий теоремы следует, что для всех T > 0 существует константа KT такая, что для всех t ≤ T |a (t, x)| ⩽KT (1 + |x|) , |b (t, x)| ⩽KT (1 + |x|) . (8.27) Из (8.27) следует 2 t 2 t Z Z ¯ (n) ¯2 ¡ ¢ ¡ ¢ ¯ξx (t)¯ ⩽3x2 + 3 a s, ξ(n−1) (s) dw (s) . (s) ds + 3 b s, ξ(n−1) x x 0 0 Отсюда, применяя (8.27) и неравенства, используемые в (8.26), получаем ¯ (n) ¯2 ¯ξx (t)¯ ⩽3x2 + 3BT + LT Zt n¯ ¯2 o E ¯ξ(n−1) (s)¯ ds, x (8.28) 0 где BT и LT зависят только от T и KT . ½¯ ¯¾ ¯ (n) ¯2 Из этого неравенства следует, что функция E ¯ξx (t)¯ – локально ограниченная. Более того, из (8.28) следует Zt n¯ n¯ ¯2 o ¯2 o (k) 2 ¯ ¯ ¯ ds. sup E ξx (t) ⩽3x + BT + LT sup E ¯ξ(k) (s) x k⩽n 0 k⩽n Применяя лемму 8.2, получим n¯ ¯2 o ¡ 2 ¢ ¯ ⩽ 3x + BT eT LT , t⩽T. sup E ¯ξ(k) (t) x k⩽n (n) Покажем, что ξx (t) сходится в среднем квадратичном. Имеем Zt (n+1) (n) ξx (t) − ξx (t) = Zt + ¢¢ ¡ ¡ (n) ¢ ¡ (s) ds+ a s, ξx (s) − a s, ξ(n−1) x 0 ¡ ¡ (n) ¢ ¡ ¢¢ b s, ξx (s) − b s, ξ(n−1) (s) dw (s). x 0 Так же, как и при доказательстве необходимости, для t⩽T получаем Zt n n¯ ¯2 o ¯2 o ¯ (n+1) (n) (n−1) ¯ ¯ (s)¯ ds, E ξx (t) − ξx (t) ⩽CT E ¯ξ(n) x (s) − ξx 0 (8.29) 210 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ где CT зависит только от T и KT . t ½¯ Zt ¯2 ¾ Z ¯ (1) ¯ (0) Поскольку E ¯ξx (t) − ξx (t)¯ ⩽ E a (s, x) ds + b (∆, x) dw (s) ⩽ RT t 0 0 для t ⩽ T и RT зависит только от T , то по индукции из (8.29) получаем n¯ n+1 ¯2 o ¯ ⩽ RT CTn t E ¯ξ(n+1) (t) − ξ(n) . x x (t) (n + 1)! (0) Следовательно, ряд ξx (t) + ∞ X ¡ n=0 ¢ ξx(n+1) (t) − ξ(n) x (t) сходится равномерно в среднем (n) квадратичном. Его сумма ξx (t) = l.i.m. ξx (t) удовлетворяет равенству (8.24). Покаn→∞ жем это. Так же, как и в доказательстве необходимости, получаем при t ⩽ T t Zt Z E a (s, ξx (s)) ds + b(s, ξx (s))dw(s) − 0 02 Zt Zt Zt n ¯ ¯2 o (n) ¯ ds. − a(s, ξ(n) (s))ds − b(s, ξ (s))dw(s) ⩽ K E ¯ξx (s) − ξ(n) T x x x (s) 0 0 0 Тогда 2 Zt Zt E ξx (t) − x − a (s, ξx (s)) ds − b (s, ξx (s)) dw (s) = 0 0 2 Zt Zt ¡ (n−1) ¢ (n) ξx (t) − ξx (t) + a s, ξx (s) ds − a (s, ξ (s)) ds+ x 0 0 ⩽ =E Zt Zt ¡ (n−1) ¢ + b s, ξx (s) dw (s) − b (s, ξx (s)) dw (s) 0 0 ½¯ Zt n ¯2 ¾ ¯ ¯2 o ¯ ¯ (n) ¯ ds −→ 0. ⩽2E ¯ξx (t) − ξx (t)¯ + KT E ¯ξx (s) − ξ(n) x (s) n→∞ 0 ¤ 8.6. УПРАЖНЕНИЯ 1. Найти конечномерные распределения винеровского процесса. 2. Пусть ξ(1) (t) и ξ(2) (t), t ≥ 0, – независимые случайные процессы, каждый из которых является процессом с независимыми приращениями. Доказать, что их сумма ξ(t) = ξ(1) (t) + ξ(2) (t), t ≥ 0, также является процессом с независимыми приращениями, t ∈ R. 3. Пусть ξ(t) – случайный процесс с независимыми приращениями. Доказать, что если для некоторых t1 и t2 и некоторой постоянной P{ξ(t1 ) − ξ(t2 ) = a} = 1, то для любой пары u1 и u2 такой, что t1 ≤ u1 ≤ u2 ≤ t2 , существует постоянная b такая, что P{ξ(u1 ) − ξ(u2 ) = b} = 1. 8.6. УПРАЖНЕНИЯ 211 4. Пусть φ(t, z) – характеристическая функция однородного стохастически непрерывного процесса с независимыми приращениями ξ(t). Доказать, что φ(t, z) непрерывна как функция t. 5. Пусть ξ(t) – процесс с независимыми приращениями, φ(t, z) – его характеристическая функция. Доказать, что если φ(t, z) непрерывна по t в точке t0 , то ξ(t) стохастически непрерывен в точке t0 . 6. Пусть ξ1 , . . . , ξn – независимые случайные величины, t1 < t2 < . . . < tn – точки из X интервала [a, b). Положим ξ(t) = ξk . Доказать, что ξ(t) – процесс с независимыми приращениями. tk <t 7. Пусть ξ(t) – процесс с независимыми приращениями, φ(t, z) – его характеристическая функция. Доказать, что z|φ(t, z)| не возрастает как функция t. 8. Пусть ξ(t) – однородный случайный процесс с независимыми приращениями, ξ0 = 0, φ(t, z) – его характеристическая функция. Доказать, что для любых t и s φ(t + s, z) = φ(t, z)φ(s, z). 9. Пусть ξ(t) – процесс с независимыми приращениями. Доказать, что если ξ(t0 ) имеет абсолютно непрерывное распределение при некотором t0 , то ξ(t) имеет абсолютно непрерывное распределение при любом t ≥ t0 . 10. Пусть ξ(t) – процесс с независимыми приращениями. Доказать, что функция D{ξ(t)} не убывает по t. 11. Пусть ξ(t), a ≤ t ≤ b – однородный процесс с независимыми приращениями. Доказать, что ξ(t) стохастически непрерывен всюду на [a, b]. 12. Пусть ξ(t) – процесс с независимыми приращениями, η – некоторая случайная величина, определенная на том же вероятностном пространстве, что и ξ(t). Будет ли процесс ζt = ξ(t) + η процессом с независимыми приращениями? 13. Пусть ξ(t), t ≥ 0, – однородный процесс с независимыми приращениями, не равный почти наверное постоянной. Доказать, что ξ(t) не является стохастически ограниченным. 14. Пусть ξ(t), t ≥ 0, – процесс с независимыми приращениями. Доказать, что если при некотором t0 P{ξ(t0 ) = const} = 1, то P{ξ(t) = const} = 1 для t ≤ t0 . 15. Пусть ξ(t) – процесс с независимыми приращениями. Доказать, что если функция D{ξ(t)} непрерывна по t, то ξ(t) стохастически непрерывен. 16. Пусть ξ(t), t ≥ 0, – однородный невырожденный процесс с независимыми приращениями. Доказать, что для любого t > 0 и любого A > 0 P{|ξ(t)| > A} > 0. 17. Пусть w(t) – винеровский процесс. Найти совместную плотность распределения величин w(u) и w(v) 0 < u < v < 1 при условии, что w(1) = 0. 18. Пусть w(t) – винеровский процесс. Найти ковариацию величин w(s) и w(t), s < t < 1, при условии, что w(1) = 0. 19. Пусть w(t) – винеровский процесс. Найти корреляционную функцию процесса w(0) (t) = w(t) − tw(1), рассматриваемого на отрезке 0 ≤ t ≤ 1 (условный винеровский процесс). 20. Пусть w(0) (t), 0 ≤ t ≤ 1 – условный винеровский процесс, определенный в преды- 212 ГЛАВА 8. СЛУЧАЙНЫЕ ПРОЦЕССЫ С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ µ ¯ = (1 + t)w(0) дущем упражнении. Доказать, что процесс w(t) винеровский. ¶ t , t ≥ 0, – (1 + t) 21. Пусть w(t) – винеровский процесс. Доказать, что следующие процессы также вине µ ¶ √ t 0, µ ¶ t = 0, w(2) (t) = cw , t ≥ 0, 1 ровские: а) w(1) (t) = б) c tw , t > 0; c = const > 0. t 22. Пусть w(1) (t) и w(2) (t) – независимые винеровские процессы. Доказать, что процесс ¢ 1 ¡ √ w(1) (t)+w(2) (t) , t ≥ 0, также винеровский. ½ 2 w(t), t ≤ T, 23. Пусть w(t), t ≥ 0, – винеровский процесс. Положим w(0) (t) = 2w(T ) − w(t), t > T. Доказать, что w(0) (t) – винеровский процесс. 24. Доказать, что винеровский процесс не дифференцируем по вероятности. 25. Доказать, что винеровский процесс является марковским. Найти его переходную функцию. 26. Пусть w(t) – винеровский процесс. Найти условную плотность величины w(t), t1 < t < t2 , при w(t1 ) = A, w(t2 ) = B. 27. Пусть τ(z), z > 0, – случайный момент времени, в который винеровский процесс w(t) впервые достигает значения z. Найти плотность распределения τ(z). Показать, что математическое ожидание τ(z) бесконечно. 28. Пусть τ(z) – случайная величина, определенная в предыдущей задаче. Доказать, что композиция распределений случайных величин τ(z1 ) и τ(z2 ) совпадает с распределением случайной величины τ(z1 + z2 ). 29. Показать, что распределение случайной величины τ(z), определенной в упражнении 27, совпадает с распределением случайной величины z 2 τ(1). 30. Поток машин, движущихся по шоссе в одном направлении, представляет собой пуассоновский поток с интенсивностью λ. Человек, «голосуя», пытается остановить первую попавшуюся машину. Найти закон распределения времени T , которое ему придется ждать, а также E{T } и D{T }. 31. Пусть ξ и η – независимые неотрицательные случайные величины: P{ξ < x} = = 1 − e−ax , P{η < x} = G(x). Доказать, что P{ξ < u + η/ξ ≥ η} = 1 − e−au , u ≥ 0, в частности, для любого t ≥ 0: P{ξ < u + t/ξ ≥ η} = 1 − e−au , u ≥ 0. (Свойства отсутствия памяти у показательного распределения.) 32. Доказать, что случайный поток νt , полученный в результате наложения k (1) (k) с интенсивностями λ1 , . . . , λk независимых пуассоновских потоков vt , . . . , νt (k) (1) νt = νt + . . . + νt , является пуассоновским с интенсивностью λ = λ1 + . . . + λk . 33. Пусть задан пуассоновский поток с интенсивностью λ. Каждое требование этого поk X тока с вероятностью pi , i = 1, . . . , k, pi = 1 отнесем к i-му подпотоку независимо i=1 от остальных требований. Доказать, что i-й подпоток является пуассоновским с интенсивностью λp1 . Глава 9 МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 9.1. ЦЕПИ МАРКОВА. ОПРЕДЕЛЕНИЯ И ОСНОВНЫЕ СВОЙСТВА Будем рассматривать СП ξ(t) ∈ D ⊂ R, t ∈ T . Значения СП ξ(t) называются состояниями СП. Определение 9.1. СП ξ(t), t ∈ T , называется марковским процессом, если для любого натурального n, для любых точек t1 < t2 < . . . < tn < t, t1 , t2 , . . . , tn , t ∈ T , любых x1 , . . . , xn ∈ D и любого борелевского множества B ∈ B(R) верно равенство P{ξ(t) ∈ B|ξ(tn )} = xn , . . . , ξ(t1 ) = x1 } = P{ξ(t) ∈ B|ξ(tn )} = xn }. (9.1) Смысл этого соотношения состоит в следующем. Если момент tn рассматривать как настоящий момент, а момент t – будущий момент времени, то соотношение (9.1) означает, что поведение процесса в будущем зависит только от того, в каком состоянии находится процесс в настоящий момент времени и не зависит от того, как вел себя процесс в прошлом. Определение 9.2. СП ξ(t), t ∈ T , ξ(t) ∈ D ⊂ R, называется цепью Маркова, если он является марковским процессом и множество состояний D случайного процесса ξ(t) – конечное или счетное. В дальнейшем будем считать, что D = {0, 1, 2, . . .}. Если множество T является конечным или счетным, то ξ(t) называется цепью Маркова с дискретным временем. В этом случае полагают T = {0, 1, 2, . . .}. Если T = [0, ∞] или интервал на числовой прямой, то СП ξ(t) называется цепью Маркова с непрерывным временем. В пп. 9.1–9.4 будем рассматривать цепи Маркова с непрерывным временем t ∈ T = = [0, ∞]. Полученные результаты будут справедливы и для цепей Маркова с дискретным временем, только моменты времени нужно рассматривать как целочисленные величины. Обозначим: F≤t = σ(ξ(s), s ≤ t) – сигма-алгебра, порожденная множеством случайных величин {ξ(s) : s ≤ t}; F=t = Fξt – сигма-алгебра, порожденная случайной величиной ξ(t). Тогда соотношение (9.1) будет эквивалентно соотношению (tn < t): P{ξ(t) ∈ B|F≤tn } = P(ξ(t) ∈ B|F=tn ). (9.2) Теорема 9.1. Для цепей Маркова соотношение (9.1) эквивалентно следующему соотношению: для любых t1 < t2 < . . . < tn < s1 < . . . < sm , ti , sj ∈ T , i = 1, . . . , n, j = 1, . . . , m, x1 , . . . , xn ∈ D и любых борелевских множеств B1 , . . . , Bm ∈ B(R) P{ξ(sm ) ∈ Bm , . . . , ξ(s1 ) ∈ B1 |ξ(tn ) = xn , . . . , ξ(t1 ) = x1 } = = P{ξ(sm ) ∈ Bm , . . . , ξ(s1 ) ∈ B1 |ξ(tn ) = xn }. (9.3) Доказательство. Обозначим случайные события: Ck = {ξ(sk ) ∈ Bk }, An = = {ξ(tn ) = xn , . . . , ξ(t1 ) = x1 }, A(n) = {ξ(tn ) = xn }. Полагаем, что P{An } 6= 0. Преобразуем левую часть (9.3). Используя (9.1), получаем P{Cm Cm−1 . . . C1 |An } = P{C1 |A(n) }P{C2 |A(n) C1 } . . . P{Cm |A(n) C1 . . . Cm−1 }) = = P{C1 |A(n) }P{C2 |A(n) C2 } . . . P{Cm |A(n) C1 . . . Cm−1 } = P{Cm Cm−1 . . . C1 |A(n) }. ¤ 214 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Соотношение (9.3) равносильно соотношению P{ξ(sm ) ∈ Bm , . . . , ξ(s1 ) ∈ B1 |F≤tn } = P{ξ(sm ) ∈ Bm , . . . , ξ(s1 ) ∈ B1 |F=tn }, (9.4) где tn < s1 < . . . < sm . Обозначим: Pi (t) = P{ξ(t) = i} – вероятность i-го состояния цепи Маркова в мо(s) мент t; Pi = Pi (0) – вероятность начального состояния; Pij (t) = P{ξ(t + s) = j|ξ(s) = = i} – переходная вероятность цепи Маркова, т. е. вероятность перехода i → j в момент времени s за t шагов. (s) Из формулы полной вероятности следует, что переходные вероятности Pij (t) удовлетворяют соотношению X (s) (s) (s+t) Pij (t + u) = Pik (t)Pkj (u), k которое называется уравнением Колмогорова – Чепмена. Теорема 9.2. Конечномерные распределения цепи Маркова задаются вероятностя(s) ми начальных состояний {Pi } и переходными вероятностями {Pij (t)}. Доказательство. Результат следует из формулы умножения вероятностей и (9.1). Действительно, при t1 < t2 < . . . < tn для любых i1 , . . . , in ∈ D X (0) (t ) P{ξ(t1 ) = i1 , . . . , ξ(tn ) = in } = Pj Pji1 (t1 )Pi11i2 (t2 − t1 ) . . . Pin−1 in (tn − tn−1 ). j ¤ Определение 9.3. Цепь Маркова называется однородной, если переходные вероят(s) ности Pij (t) не зависят от s. Матрица P(t) = (Pij (t)) называется матрицей переходных вероятностей. Матрица P(t) при каждом t обладает следующими свойствами: 1) 0 ≤ Pij (t) ≤ 1, i, j ∈ D; t ∈ T ; X 2) Pij (t) = 1 для любого i ∈ D, t ∈ T . j Второе свойство следует из того факта, что за время t цепь Маркова с вероятностью единица из состояния i попадет в одно из состояний j. В матричном виде уравнение Колмогорова – Чепмена запишется в виде P(t + u) = P(u)P(t). Пользуясь формулой полной вероятности, получим равенство X Pj (t) = Pk Pkj (t), j ∈ D, t ∈ T. (9.5) k Теорема 9.3. Если цепь Маркова однородна, то для любых t1 < t2 < . . . < tn , s > 0 и любых i1 , i2 , . . . , in ∈ D P{ξ(tn + s) = in , . . . , ξ(t1 + s) = i1 |ξ(s) = i} = = P{ξ(tn ) = in , . . . , ξ(t1 ) = i1 |ξ(0) = i}. (9.6) 9.1. ЦЕПИ МАРКОВА. ОПРЕДЕЛЕНИЯ И ОСНОВНЫЕ СВОЙСТВА 215 Доказательство. Используя формулу умножения и (9.1), имеем цепочку равенств P{ξ(tn + s) = in , . . . , ξ(t1 + s) = i1 |ξ(s) = i} = = P{ξ(t1 + s) = i1 |ξ(s) = i}P{ξ(t2 + s) = i2 |ξ(t2 + s) = i1 } . . . P{ξ(tn + s) = = i2 |ξ(tn−1 + s) = in−1 } = P{ξ(t1 ) = i1 |ξ(0) = i}P{ξ(t2 ) = i2 |ξ(t1 ) = i1 } . . . P{ξ(tn ) = = in |ξ(tn−1 ) = in−1 } = P{ξ(tn ) = in , . . . , ξ(t1 ) = i1 |ξ(0) = i}. Для однородных цепей Маркова верна более общая теорема. ¤ Теорема 9.4. Если цепь Маркова однородна, то для любых t1 < t2 < . . . < tn < s1 < < s2 < . . . < sm , s > 0, любых борелевских множеств B1 , . . . , Bm ∈ B(R) P{ξ(sm + s) ∈ Bm , . . . , ξ(s1 + s) ∈ B1 |ξ(tn + s) = in , . . . , ξ(t1 + s) = i1 } = = P{ξ(sm ) ∈ Bm , . . . , ξ(s1 ) ∈ B1 |ξ(tn ) = in }. (9.7) Доказательство следует из однородности цепи Маркова ξ(t) и повторяет доказательство теоремы 9.1. Определение 9.4. СВ τ ≥ 0 называется марковским моментом, если событие {τ ≤ t} ∈ Ft = σ(ξ(s), s ≤ t). Теорема 9.5. Если ξ(t) – однородная, непрерывная справа цепь Маркова, τ – марковский момент, то для всех s1 , . . . , sm > 0, i1 , . . . , im ∈ D на множестве (τ < ∞) с вероятностью единица выполнено равенство P{ξ(τ + s1 ) = i1 , . . ., ξ(τ + sm ) = im |ξ(τ) = i} = = P{ξ(s1 ) = i1 , . . . , ξ(sm ) = im |ξ(0) = i}. (9.8) Равенство (9.8) называется строго марковским свойством. Доказательство. Рассмотрим вначале случай, когда τ = t1 , t2 , . . . , tk , . . . Обозначим Bτ = {ξ(τ + s1 ) = i1 , . . . , ξ(τ + sm ) = im }, Btk = {ξ(tk + s1 ) = i1 , . . . , ξ(tk + sm ) = im }. Из определения условного математического ожидания следует, что соотношение (9.8) эквивалентно соотношению: для любого события A ∈ Fξ(τ) E{11A 11Bτ } = E{11A P{B0 |ξ(0) = ξ(τ)}}. Используя свойства условного математического ожидания и (9.6), получаем X E{11A 11Bτ } = E{11A 11Bτ 11(τ=tk ) } = kX X = E{11A 11Btk 11(τ=tk ) } = E{11A 11(τ=tk ) P{Btk |Fξ(tk ) }} = k kX X E{11A 11(τ=tk ) P{B0 |ξ(0) = ξ(tk )}} = = E{11A 11(τ=tk ) P{Btk |ξ(tk )}} = k k X = E{11A 11(τ=tk ) P{B0 |ξ(0) = ξ(τ)}} = E{11A P{B0 |ξ(0) = ξ(τ)}}. k Рассмотрим общий случай. (9.9) 216 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Рассмотрим[последовательность τn = k/n, если (k − 1)/n < τ ≤ k/n. Поскольку (τ ≤ k/n) ∈ Ft , то τn – марковский момент, причем τn ≥ τ и при {τn ≤ t} = k≤nt n → ∞ τn ↓ τ. Для моментов τn имеем P{Bτn |ξ(τn ) = i} = P{B0 |ξ(0) = i}. (9.10) Поскольку случайные величины ξ(t) являются дискретными и процесс ξ(t) непрерывен справа, то при больших n ξ(τn ) = ξ(τ) и Bτn = Bτ с вероятностью 1. Переходя в ¤ соотношении (9.10) к пределу при n → ∞, получим (9.8). 9.2. СХОДИМОСТЬ ВЕРОЯТНОСТЕЙ ЦЕПИ МАРКОВА. СТАЦИОНАРНЫЕ ВЕРОЯТНОСТИ 1X |Pin (h) − Pjn (h)|, называемую коэффициРассмотрим функцию k(h) = 1 − sup i,j 2 n ентом эргодичности цепи Маркова. Из определения следует, что 0 ≤ k(h) ≤ 1. Теорема 9.6. Если для цепи Маркова ξ(t), t ∈ T , существует h > 0 такое, что k(h) > 0, то для всех t ∈ T : 1) существуют пределы: lim Pij (t) = Pj∗ , не зависящие от i, и lim Pj (t) = Pj∗ ; t→∞ t→∞ ¯ ¯ ¯ ¯ t t 2) ¯Pij (t) − Pj∗ ¯ ≤ (1 − k(h)) h −1 , ¯Pj (t) − Pj∗ ¯ ≤ (1 − k(h)) h −1 ; X 3) величины Pj∗ удовлетворяют равенствам Pj∗ = Pn∗ Pnj (t); n 4) если существуют h > 0, j0 , δ > 0 такие, что Pij0 (h) ≥ δ > 0 для всех i, то k(h) ≥ δ X и Pj∗ = 1. j Если величины Pj∗ удовлетворяют равенствам Pj∗ = X Pn∗ Pnj (t), X n j называются стационарными вероятностями цепи Маркова. Доказательство. Обозначим X+ X X− X an = an , an = an . n Тогда X X+ |an | = n Поскольку X n:an >0 n an + X− n an , n:an <0 X n an = n X+ n an − X− n (Pin (h) − Pjn (h)) = 1 − 1 = 0, то n X |Pin (h) − Pjn (h)| = n + X− k(h) = 1 − (Pin (h) − Pjn (h)) = 2 X+ n (Pin (h) − Pjn (h))+ n n Тогда X+ X+ n (Pin (h) − Pjn (h)). (Pin (h) − Pjn (h)). an . Pj∗ = 1, то они 217 9.2. СХОДИМОСТЬ ВЕРОЯТНОСТЕЙ ЦЕПИ МАРКОВА Обозначим Rj (t) = sup Pij (t), rj (t) = inf Pij (t). i i Покажем, что Rj (t) убывает по t, а rj (t) возрастает по t. Пусть t > 0, u > 0. Тогда, используя уравнение Колмогорова – Чепмена, получаем X Rj (t + u) = sup Pij (t + u) = sup Pin (t)Pnj (u) ≤ Rj (u); i i n X rj (t + u) = inf Pij (t + u) = inf Pin (t)Pnj (u) ≥ rj (u). i i n Оценим разность: Rj (t) − rj (t) = sup Pij (t) − inf Pij (t) = sup(Pij (t) − Plj (t)) = i i i,l à ! X X = sup Pin (h)Pnj (t − h) − Pln (h)Pnj (t − h) = à = sup i,l i,l X+ n n ! n X− (Pin (h) − Pln (h))Pnj (t − h) − (Pin (h) − Pln (h))Pnj (t − h) n à ! X+ ≤ sup (Pin (h) − Pln (h)) (Rj (t − h) − rj (t − h)) = i,l ≤ n = (1 − k(h))(Rj (t − h) − rj (t − h)) ≤ . . . ≤ µ µ µ · ¸ ¶¶ · ¸ ¶ t t t t h − rj t − h ≤ (1 − k(h)) h −1 . ≤ (1 − k(h))[ h ] Rj t − h h Поскольку k(h) > 0, rj (t) ≤ Pij (t) ≤ Rj (t), Rj (t) − rj (t) → 0, то существует Pj∗ такое, что lim Rj (t) = Pj∗ = lim rj (t) = lim Pij (t). t→∞ t→∞ t→∞ Из (9.5) и неравенств rj (t) ≤ Pj (t) ≤ Rj (t) получаем Pj∗ = lim Pj (t). Из предыдущих t→∞ неравенств получаем ¯ ¯ ¯Pij (t) − Pj∗ ¯ ≤ |Rj (t) − rj (t)| ≤ (1 − k(h)) ht −1 . Аналогично ¯ ¯ ¯Pj (t) − Pj∗ ¯ ≤ |Rj (t) − rj (t)| ≤ (1 − k(h)) ht −1 . Докажем теперь, что выполняется третье утверждение теоремы. Если X число состояний цепи Маркова конечно, то, переходя в равенстве Pij (u + t) = Pin (u)Pnj (t) к n X Pn∗ Pnj (t). Покажем, что это равенство будет пределу при u → ∞, получим Pj∗ = n верно, если число состояний цепи Маркова Xсчетно. Поскольку для любого N Pij (u + t) ≥ Pin (u)Pnj (t), то при u → ∞ получаем Pj∗ ≥ ≥ X n≤N Pn∗ Pnj (t). Следовательно, n≤N Pj∗ ≥ X n Pn∗ Pnj (t). (9.11) 218 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ X Pn∗ Pnj0 (t). Тогда, суммируя (9.11) по j, Предположим, что для некоторого j0 Pj∗0 > n X XX X получаем противоречие: Pj∗ > Pn∗ Pnj (t) = Pn∗ . j n j n Докажем, наконец, четвертое утверждение. Поскольку для всех i Pij0 ≥ δ > 0, то X rj0 (h) ≥ δ > 0 и, следовательно, Pj∗0 > 0. Тогда Pj∗ > 0. Докажем, что в условиях j четвертого утверждения k(h) ≥ δ. Это следует из соотношения X+ 1 − k(h) = sup (Pin (h) − Pjn (h)) ≤ 1 − δ. ij Покажем, что X n Pj∗ = 1. Предположим противное: X Pj∗ < 1. Возьмем вероятности j j X X Pj∗ начальных состояний Pj = P ∗ . Имеем Pj ≥ 0, Pj = 1 и Pj (t) = Pk Pkj (t) = Pn j k n Pj∗ 1 X ∗ = P ∗ Pk Pkj (t) = P ∗ = Pj . Поскольку {Pj∗ } не зависят от вероятностей наPn k Pn n n чальных состояний, то из предыдущего равенства получаем lim Pj (t) = Pj∗ = Pj . А это t→∞ X возможно, когда Pj∗ = 1. Теорема доказана. ¤ j 9.3. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ ЦЕПЕЙ МАРКОВА С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ Пусть ξ(t), t ≥ 0, – однородная цепь Маркова с непрерывным временем и непрерывными справа траекториями. Обозначим τ(i) – время, в течение которого цепь Mаркова будет находиться в состоянии i. Используя свойства строгой марковости процесса ξ(t) и однородности, получим P {τ(i) > t + s} = P {τ(i) > t}P {τ(i) > t + s|τ(i) > t} = P {τ(i) > t}P {τ(i) > s}. В силу стохастической непрерывности процесса ξ(t) имеем P {τ(i) > t} = e−λi t . (9.12) Обозначим πij – вероятность перехода цепи Маркова ξ(t) из состояния i в состояние j. Из (9.12) следует, что вероятность более двух переходов за время ∆t цепи Маркова будет o(∆t). Тогда Pij (∆t) = P {τ(i) < ∆t}πij + o(∆t) = λj πij ∆t + o(∆t) = λij ∆t + o(∆t), где λij = λi πij ; λij называется интенсивностью перехода процесса ξ(t) из состояния i в состояние j. Считая, что Pij (0) = δij , (9.13) получаем λij = lim ∆t→0 Pij (∆t) = Pij0 (0), ∆t i 6= j. (9.14) 219 9.3. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ ЦЕПЕЙ МАРКОВА С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ Из (9.12) и (9.13) следует: Pii (∆t) − Pii (0) eλi ∆t − 1 = lim = −λi . ∆t→0 ∆t→0 ∆t ∆t Pii0 (0) = lim Поскольку X Pij (∆t) = 1, X Pij (∆t) то j j6=i ∆t = 1 − Pii (∆t) . ∆t (9.15) (9.16) Если числоX состояний цепи Маркова конечно, то, переходя в (9.16) к пределу при ∆t → 0, получаем λij = λi . Положим λii = −λi . Тогда для всех i имеем j6=i X λij = 0. (9.17) j Из уравнения Колмогорова – Чепмена находим Pij (t + ∆t) = X Pik (∆t)Pkj (t), поэтому k Pij (t + ∆t) − Pij (t) 1 − Pii (∆t) X Pik (∆t) + Pij (t) = Pkj (t). ∆t ∆t ∆t k6=j (9.18) Если число состояний цепи Маркова конечно, то, переходя в (9.18) к пределу при ∆t → 0, получим X X λik Pkj (t). (9.19) Pij0 (t) − λi Pij (t) = λik Pkj (t), или Pij0 (t) = k6=i k Систему уравнений (9.19) называют системой обратных дифференциальных уравнений Колмогорова для переходных вероятностей цепи Маркова. В общем случае справедлива следующая теорема. Теорема 9.7. Если для однородной, стохастически непрерывной, с непрерывными справа траекториями цепи Маркова ξ(t) выполнено соотношение (9.17), то переходные вероятности Pij (t) удовлетворяют уравнениям (9.19). Доказательство. Для конечной цепи Маркова теорема доказана. В общем случае из (9.18) получаем Pij (t + ∆t) − Pij (t) 1 − Pii (∆t) X Pik (∆t) + Pij ≥ Pkj (t). ∆t ∆t ∆t k6=i k≤N Отсюда следует Pij (t + ∆t) − Pij (t) X ≥ λik Pkj (t). ∆t ∆t→0 k lim (9.20) С другой стороны, X Pik (∆t) Pij (t + ∆t) − Pij (t) 1 − Pii (∆t) X Pik (∆t) + Pij (t) ≤ Pkj (t) + . ∆t ∆t ∆t ∆t k6=i k>N Поскольку P (9.21) k≤N Pik (∆t) = 1, то, используя (9.13), имеем при N > i k X Pik (∆t) k>N ∆t = X Pik (t) X 1 1 − Pii (∆t) X Pik (∆t) − = − −→ λik −→ 0. N →∞ ∆t k≤N ∆t ∆t ∆t ∆t→0 k≤N k6=i k≤N 220 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Тогда, переходя в (9.21) к пределу при ∆t → 0, получаем Pij (t + ∆t) − Pij (t) X λik Pkj (t). ≤ ∆t→0 ∆t k lim (9.22) Из (9.20) и (9.22) следует (9.19). ¤ P Запишем уравнение Колмогорова – Чепмена в виде Pij (t + ∆t) = Pik (t)Pkj (∆t), k поэтому X Pij (t + ∆t) − Pij (t) 1 − Pjj (∆t) Pkj (∆t) + Pij (t) = Pik (t) . (9.23) ∆t ∆t ∆t k6=j Если цепь Маркова ξ(t) конечна, то, переходя в (9.23) к пределу при ∆t → 0, получаем X Pij0 (t) = Pik (t)λkj . (9.24) k Система дифференциальных уравнений (9.24) называется системой прямых дифференциальных уравнений Колмогорова для переходных вероятностей цепи Маркова ξ(t). Теорема 9.8. Если для однородной, стохастически непрерывной, с непрерывными справа траекториями существует константа C такая, что для всех i и j λij ≤ C и соотношение (9.14) выполняется равномерно по i и j, то справедливо (9.24). Доказательство. Равенство (9.18) представим в виде Pij (t + ∆t) − Pij (t) 1 − Pij (∆t) + Pij (t) = ∆t ∆t µ ¶ X X Pkj (∆t) Pik (t) = − λkj + Pik (t)λkj . ∆t k6=j k6=j (9.25) Из условий теоремы следует, что первое слагаемое в правой части (9.25) стремится к 0 при ∆t → 0, второе слагаемое конечно. Тогда, переходя в (9.25) к пределу при ∆t → 0, получим (9.24). ¤ 9.4. ВЕТВЯЩИЕСЯ ПРОЦЕССЫ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ Пусть в нулевой момент времени имеется одна частица. За время t она превращается в k частиц с вероятностью Pk (t), k = 0, 1, 2, . . . . Затем каждая из k частиц независимо от предыстории и других частиц за время t превращается в l частиц с вероятностью Pl (t), l = 0, 1, 2, . . . , и т. д. Каждая из обратившихся частиц независимо от предыстории и других частиц превращается в k частиц с вероятностями Pk (t), k = 0, 1, 2, . . . . Обозначим ξ(t) – число частиц в момент времени t. Случайный процесс ξ(t) является однородной цепью Маркова с непрерывным временем и называется ветвящимся процессом. Предположим, что при k 6= 1 и ∆t → 0 Pk (∆t) = λk ∆t + o(∆t). При этом полагаем P1 (∆t) = 1−λ1 ∆t + o(∆t), ½ 1, k = 0, Pk (0) = 0, k 6= 0. Из (9.26) имеем λk =Pk0 (0), k 6= 1. (9.26) 9.4. ВЕТВЯЩИЕСЯ ПРОЦЕССЫ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ 221 Обозначим Pkn (t) = P{ξ(t) = n|ξ(0) = k} – вероятность того, что за время t k частиц ∞ X превратятся в n частиц. Положим λ1 = −λ и предположим, что λk = 0. k=0 Тогда из теоремы 9.7 следует, что вероятности Pn (t) = P1n (t) удовлетворяют дифференциальному уравнению Колмогорова ∞ X Pn0 (t) = λk Pkn (t), n = 0, 1, . . . . (9.27) k=0 Введем производящие функции: ∞ X © ª F (t, z) = Pn (t)z n = E z ξ(t) , Fk (t, z) = n=0 ∞ X © ª Pkn z n = E z η(t) , n=0 где η(t) – число частиц, в которые превращаются k частиц за время t. Умножая правую и левую части (9.27) на z n и суммируя по n, получим ∞ X d F (t, z) = λk Fk (t, z). dt k=0 (9.28) Поскольку превращение частиц не зависит от других частиц, то η(t) = ξ1 (t) + . . . + ξk (t), где случайные величины ξ1 (t), . . . , ξn (t) независимы и имеют то же распределение, что и ξ(t). Тогда из свойств математического ожидания получим Fk (t, z) = F k (t, z). Подставляя это значение в (9.28), имеем F 0 (t, z) = ∞ X λk F k (t, z) (9.29) k=0 с начальным условием F (0, z) = z. Решение уравнения (9.29) равносильно решению уравнения X λk xk (9.30) x0 = k с начальным условием x(0) = z. ∞ X Обозначим f (x) = λk xk . Поскольку f 00 (x) ≥ 0, то функция f (x) является вогнуk=0 той; f (1) = 0, f (0) = λ0 . Возможно f (x) = 0 при x = α, где 0 < α < 1, т. е. график функции f (x) будет иметь вид, как представлено на рис. 9.1. Траектории решений дифференциального уравнения (9.30) будут иметь вид, представленный на рис. 9.2. Уравнение (9.30) будет иметь особые решения: x(t) ≡ 1, x(t) ≡ α. Исследуем поведение решений уравнения (9.30) в точке (0, 1). Вместо уравнения (9.30) рассмотрим эквивалентное ему дифференциальное уравнение для обратной функции t = t(x) к функции 1 dt x = x(t) : = . dx f (x) Решение этого уравнения имеет вид Zz du t= , 0 ≤ x ≤ 1. f (u) x 222 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ f(x) l 0 f(x) 0 1 a x Рис. 9.1. График функции f (x) x z2 1 a z1 0 Рис. 9.2. Графики интегральных кривых x(t), x(0) = z Рассмотрим интегральную кривую, проходящую через точку (t0 , x0 ): Zx t = t0 + du , 0 ≤ x < 1. f (u) x0 В случае, если для некоторой точки x0 , α < x0 < 1, выполняется равенство Z1 dx = −∞, f (x) (9.31) x0 всегда найдется значение x0 ≤ z < 1 такое, что Zz du t(z) = t0 + = 0, f (u) x0 т. е. все интегральные кривые пересекают ось t = 0 в некоторой точке (0, z), где 0 ≤ ≤ z < 1. Следовательно, прямая x(t) ≡ 1 является единственной интегральной кривой, проходящей через точку (0, 1). Если Z1 dx > −∞, (9.32) f (x) x0 9.5. КЛАССИФИКАЦИЯ СОСТОЯНИЙ ЦЕПИ МАРКОВА С ДИСКРЕТНЫМ ВРЕМЕНЕМ 223 то при достаточно большом t0 > 0 интегральная кривая Zx t = t0 + du f (u) x0 проходит по прямой x(t) ≡ 1 до точки (τ, 1), где Z1 τ = t0 + dx . f (x) x0 В этом случае через точку (0, 1) проходит целое семейство интегральных кривых xτ (t), каждая из которых отвечает своему значению τ ≥ 0. Среди них есть интегральная кривая x0 (t), отвечающая значению τ = 0 и лежащая ниже всех остальных интегральных кривых xτ (t), т. е. x0 (t) ≤ xτ (t), 0 ≤ τ < ∞. Обозначим γ = min(t : ξ(t) = 0). Заметим, что события {ξ(t) = 0} ∼ (r < t) = = (ξ(t) = 0) возрастают по t. Тогда по аксиоме непрерывности вероятностной меры P{γ < ∞} = lim P{ξ(t) = 0} = lim P0 (t) = lim F (t, 0) = α. t→∞ t→∞ t→∞ Следовательно, вероятность вырождения ветвящегося процесса (вероятность того, что настанет момент, когда не останется ни одной частицы) равна α. Рассмотрим так называемое явление взрыва, когда образуется бесконечно много частиц. Вероятность того, что взрыв произойдет до момента t, есть P{ξ(t) = ∞} = 1 − P {ξ(t) < ∞} = 1 − =1− ∞ X n=0 ∞ X P{ξ(t) = n} = n=0 Pn (t) = 1 − lim F (t, z). z→1 В случае выполнения соотношения (9.31) интегральная кривая x(t) ≡ 1 является единственной интегральной кривой, проходящей через точку (0, 1). Следовательно, limz→1 F (t, z) = 1. Тогда вероятность взрыва будет равна 0. В случае выполнения соотношения (9.32) lim F (t, z) = x0 (t), где функция x0 (t) опреz→1 делена выше. В этом случае P{ξ(t) = ∞} = 1 − x0 (t) > 0. 9.5. КЛАССИФИКАЦИЯ СОСТОЯНИЙ ЦЕПИ МАРКОВА С ДИСКРЕТНЫМ ВРЕМЕНЕМ Будем рассматривать однородную цепь Маркова с дискретным временем ξ(t), t ∈ T , ξ(t) ∈ D, где T = {0, 1, 2, . . .}, D = {0, 1, 2, . . .}. Обозначим P = P (1) = (Pij ) – матрица переходных вероятностей за один шаг. Тогда из уравнения Колмогорова – Чепмена следует P (n) = (Pij (n)) = P n . Поскольку время t дискретно, то процесс ξ(t) будем обозначать {ξ(n)}. 224 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Определение 9.5. Состояние i цепи Маркова {ξ(n)} называется несущественным, если есть такое состояние j и целое число k0 > 0, что Pij (k0 ) > 0, а Pji (k) = 0 для всех k. В противном случае состояние i называется существенным. Удалим из множества D все несущественные состояния. Тогда оставшееся множество существенных состояний обладает тем свойством, что, попав в него, цепь Маркова никогда из него не выйдет. Поэтому основной интерес представляют существенные состояния. Определение 9.6. Состояние j называется достижимым из состояния i, если существует m ≥ 0, что Pij (m) > 0 (обозначается i → j). Состояния i и j называются сообщающимися, если i → j и j → i (обозначается i ↔ j). Сообщающиеся состояния обладают следующим свойством транзитивности: если i ↔ j и j ↔ k, то i ↔ k. Из этого свойства следует, что все сообщающиеся состояния разбиваются на непересекающиеся классы сообщающихся состояний. Если класс Si состоит из одного состояния i, то это состояние называется поглощающим. Определение 9.7. Цепь Маркова, множество состояний которой образует один класс существенных состояний, называется неприводимой. В противном случае цепь называется приводимой. Из сказанного выше следует, что цепь Маркова, начиная из некоторого состояния ξ(0) = i0 , попадает в некоторый момент в один из классов существенных сообщающихся состояний и в нем будет находиться все оставшееся время. Поэтому изучение цепи Маркова сводится к изучению классов сообщающихся между собой состояний. В дальнейшем будем рассматривать один из классов сообщающихся между собой состояний. Это равносильно исследованию неприводимой цепи Маркова. Определение 9.8. Состояние i называется периодическим с периодом d(i), если d(i) есть наибольший общий делитель чисел n таких, что Pii (n) > 0. Определение 9.9. Состояние i называется нулевым, если Pii (n) → 0 при n → ∞, и ненулевым в противном случае. Обозначим: fi (n) = P {ξ(n) = i, ξ(n − 1) 6= i, . . . , ξ(1) 6= i|ξ(0) = i}. Fi = ∞ X fi (n), (9.33) (9.34) n=1 где fi (n) – вероятность того, что цепь Маркова, выйдя из состояния i, впервые попадет в него на n-м шаге; Fi (n) – вероятность того, что цепь Маркова, выйдя из состояния i, вновь когда-нибудь в него вернется. Определение 9.10. Состояние i называется возвратным, если Fi = 1, и невозвратным, если Fi < 1. Теорема 9.9. Состояние i возвратно тогда и только тогда, когда расходится ряд Pi = ∞ X Pii (n) = ∞. (9.35) n=1 Для невозвратного состояния i Pi . 1 + Pi Доказательство. По формуле полной вероятности имеем Fi = (9.36) Pii (n) = fi (1)Pii (n − 1) + fi (2)Pii (n − 2) + . . . + fi (n − 1)Pii (1) + fi (n). (9.37) 9.5. КЛАССИФИКАЦИЯ СОСТОЯНИЙ ЦЕПИ МАРКОВА С ДИСКРЕТНЫМ ВРЕМЕНЕМ 225 Введем производящие функции Pi (z) = ∞ X z n Pii (n), Fi (z) = n=1 ∞ X z n fi (n), |z| ≤ 1. n=1 Умножая обе части (9.37) на z n и суммируя по n = 1, 2, . . . , получаем Pi (z) = (1+ +Pi (z))Fi (z). Отсюда Fi (z) = Pi (z) , 1 + Pi (z) Pi (z) = Fi (z) . 1 − Fi (z) (9.38) Пусть Pi = ∞. Тогда Fi → 1 при z → 1, следовательно, Fi (z) → 1 при z → 1, т. е. Fi = 1. Если Fi = 1, тогда Fi (z) → 1 при z → 1. Следовательно, из (9.38) получаем Pi (z) → ∞ при z → 1. Значит, Pj = ∞. Если Pi < ∞, то при z = 1 из (9.38) получаем (9.36). ¤ Теорема 9.10 (теорема солидарности). В неприводимой цепи Маркова все состояния принадлежат одному типу: если хотя бы одно состояние возвратно, то все возвратны; если хотя бы одно периодично с периодом d, то и все периодичны с периодом d. Доказательство. Пусть i и j – два различных состояния. В силу неприводимости цепи {ξ(n)} существуют числа n и m такие, что α = Pij (n) > 0, β = Pij (m) > 0. Из уравнения Колмогорова – Чепмена получаем XX Pii (n + m + k) = Pil (n)Pls (k)Psj (k). l s Отсюда следует неравенство Pii (n + m + k) ≥ Pij (n)Pjj (k)Pij (m) = αβPjj (k). (9.39) 1 Pii (k + n + m) ≥ Pjj (k) ≥ αβPii (k − m − n). αβ (9.40) Следовательно, Из неравенств (9.40) следует, что асимптотические свойства при k → ∞ у Pii (k) и Pjj (k) одинаковы: если состояние i – нулевое, то и состояние j – нулевое. Если i – возвратно, то и j – возвратно. Пусть i – периодическое состояние с периодом d(i). Полагая в (9.39) k = 0, получаем Pii (n+m) ≥ αβ > 0. Следовательно, n+m делится на d(i). Если k – такое, что Pjj (k) > 0, то k должно делиться на d(j). При этом из (9.39) следует, что n + m + k делится на d(i). Поскольку m+n делится на d(i), то и k делится на d(i). Отсюда получаем, что d(i) ≤ d(j). Аналогично, в силу симметрии, получаем d(j) ≤ d(i). Следовательно, d(i) = d(j) = d. ¤ Теорема 9.11. Если цепь Маркова {ξ(n)} – неприводимая и периодическая с периодом d, то множество состояний цепи разбивается на d подклассов: D0 , D1 , . . . , Dd−1 таких, что с вероятностью единица за один шаг цепь из класса Dk , k < d − 1, переходит в класс Dk+1 , а из класса Dd−1 – в класс D0 . Доказательство. Выберем какое-нибудь состояние, например i, и построим классы D0 , D1 , . . . , Dd−1 следующим образом: j ∈ Dk , если существует такое целое l > 0, что Pij (ld + k) > 0. 226 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ Покажем, что построенные классы не пересекаются. Пусть j ∈ Dk и для некоторого m Pij (m) > 0. Покажем, что m можно представить в виде m = l1 d + k, где l1 > 0 – целое число. Поскольку цепь {ξ(n)} – неприводимая, то найдется такое m1 > 0, что Pji (m1 ) > 0. Тогда из неравенств Pii (ld+k +m1 ) ≥ Pij (ld+k)Pji (m1 ) > 0, Pii (m1 +m) = = Pij (m)Pji (m1 ) > 0 получаем, что ld + k + m1 и m + m1 делятся на d. Отсюда следует, что остаток от деления m на d равен k, т. е. m = l1 d + k. X X Пусть S ∈ Dk . Покажем, что Psj = 1, если k < d − 1, и Psj = 1, если j∈Dk+1 j∈D0 k = d − 1. Это равносильно тому, что Psj = 0, если S ∈ Dk , а j ∈ / Dk+1 , k < d − 1; S ∈ Dd−1 , j ∈ / D0 . (9.41) Предположим, что (9.41) не выполнено, т. е. Psj > 0, если s ∈ Dk , а j ∈ / Dk+1 . Тогда по определению класса Dk Pis (ld+k) > 0. Следовательно, Pij (ld+k +1) ≥ Pis (ld+k)Psj > 0, т. е. j ∈ Dk+1 , что противоречит тому, что j ∈ / Dk+1 . ¤ Построенные классы состояний D0 , D1 , . . . , Dd−1 периодической цепи {ξ(n)} называются циклическими подклассами. В случае d = 1 цепь Маркова называется непериодической. 9.6. ЭРГОДИЧЕСКИЕ ЦЕПИ МАРКОВА Определение 9.11. Дискретная цепь Маркова {ξ(n)}, n = 0, 1, 2, . . ., называется эргодической, если для любых i, j = 0, 1, . . . существуют независимые от i положительные пределы lim Pij (n) = Pj∗ > 0. n→∞ (9.42) Лемма 9.1. Если наибольший общий делитель чисел a1 > 0, . . . , an > 0 равен 1, то существует N такое, что для любого k ≥ N k = λ1 a1 + . . . + λn an , где λi > 0 – целые числа. Доказательство. Рассмотрим функцию L(x) = x1 a1 , . . . + xn an , где (x1 , . . . , xn ) – вектор с целыми координатами. Пусть d > 0 – минимальное натуральное число, для которого существует такой вектор x∗ , что d = L(x∗ ). Покажем, что любое натуральное число, представимое в виде L(x), делится на d. Предположим противное. Тогда существуют x, k и α, 0 < α < d, для которых L(x) = kd + α. В силу линейности функции L(x) получаем L(x − kx∗ ) = kd + α − kL(x∗ ) = kd + α − kd = α < d, что противоречит минимальности d. Все числа a1 , . . . , an также являются значениями функции L(x) и поэтому все делятся на d, а значит, по предположению d = 1. Пусть x0 = (x01 , . . . , x0n ) – вектор, для которого α(x∗ ) = 1, k – любое натуральное число. Обозначим θ – остаток от деления числа k на число a1 + . . . + an . Тогда k = = t(a1 + . . . + an ) + θ = t(a1 + . . . + an ) + θL(x0 ) = t(a1 + . . . + an ) + θ(x01 a1 + . . . + x0n an ) = = a1 (t + θx01 ) + . . . + an (t + θx0n ). При большом значении k t будет тоже велико. Следо¤ вательно, при большом k все t + θx0i > 0, i = 1, 2, . . . , n. В дальнейшем нам понадобится вспомогательное утверждение. Теорема 9.12. Для того чтобы конечная цепь Маркова была эргодической, необходимо и достаточно, чтобы она была неприводимой и непериодической. 9.7. УПРАЖНЕНИЯ 227 Доказательство. Необходимость. Поскольку число состояний цепи конечно и выполняется соотношение (9.42), то существует N такое, что Pij (n) > 0 при n ≥ N . Отсюда будет следовать неприводимость и непериодичность. Достаточность. Пусть цепь Маркова неприводима и непериодична. Тогда для каж³ ´ (i) (i) (i) дого состояния i найдутся числа n1 , . . . , nki такие, что Pii nl > 0, l = 1, . . . , ki , и их наибольший общий делитель будет равен 1. Тогда по лемме 9.1 найдутся целые числа (i) (i) (i) (i) l1 , . . . , lki и число Ni такие, что для любого k ≥ Ni : k = l1 n1 = . . . + lki nki . Из урав³ ³ ´´l1 ³ ³ ´´lk (i) (i) i нения Колмогорова – Чепмена получаем Pii (k) ≥ Pii n1 · . . . · Pii nki > 0. ∗ ∗ Положим N = max Ni . Тогда для k ≥ N и всех i Pii (k) > 0. Пусть i 6= j. В силу неприводимости цепи Маркова существует число nij такое, что Pij (nij ) > 0. Тогда из уравнения Колмогорова – Чепмена имеем: Pij (k + nij ) ≥ Pii (k)Pij (nij ) > 0 для всех k ≥ N ∗ . Полагая n = max(N ∗ , max nij ), получаем Pij (k) > 0 для всех k ≥ N . ij Тогда, используя теорему 9.6, получаем результат теоремы. ¤ 9.7. УПРАЖНЕНИЯ 1. Пусть ξ0 , ξ1 , . . . – последовательность независимых, одинаково распределенных целочисленных случайных величин. Доказать, что она образует цепь Маркова. Найти матрицу вероятностей перехода на n шагов. 2. Частица совершает случайное блуждание в плоскости по целочисленным точкам (i, j) таким, что 0 ≤ i, j ≤ n. Из любой внутренней точки указанного квадрата частица с равными вероятностями, независимо от ее предыдущего движения, переходит в одну из соседних (по вертикали или горизонтали) точек. При выходе на границу квадрата частица далее: а) движется по границе квадрата, детерминированного по часовой стрелке; б) возвращается в ту точку, из которой она вышла на границу; в) выбирает случайным образом направление на границе и движется по границе в выбранном направлении. Для каждого из указанных случаев определить, будет ли последовательность положений, занимаемых частицей, цепью Маркова. 3. В условиях предыдущего упражнения частица из каждой внутренней точки с равной вероятностью может переходить в одну из соседних (по горизонтали, вертикали или диагонали). Будет ли последовательность положений частицы цепью Маркова для каждого из трех указанных в предыдущем упражнении условий движения после выхода на границу? 4. В начальный момент времени в урне n0 белых и m0 черных шаров. Через каждую единицу времени из урны по схеме выбора без возвращения извлекается один шар. Пусть nk – число белых, а mk – число черных шаров в урне в момент времени k. Какие из указанных ниже последовательностей образуют цепь Маркова, а какие – нет: а) nk ; б) nk − mk ; в) nk + mk ; г) пара (nk , mk ); д) nk − mk + 1/(nk + mk + 2)? 5. Пусть случайные величины ξ0 , . . . , ξn образуют цепь Маркова. Доказать, что случайные величины η0 , . . . , ηn , где ηi = ξn−i , также образуют цепь Маркова. Образуют ли цепь Маркова случайные величины ζ0 , . . . , ζn , где ζ0 , . . . , ζn – произвольная перестановка ξ0 , . . . , ξn ? 228 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 6. Пусть ξ0 , ξ1 , . . . – последовательность независимых случайных величин. Образует ли цепь Маркова последовательность ξ0 + ξ1 , ξ1 + ξ2 , ξ2 + ξ3 , . . .? 7. Пусть ξ0 , ξ1 , . . . – последовательность случайных величин, образующих цепь Маркова. Будет ли цепью Маркова последовательность ξ0 + ξ1 , ξ1 + ξ2 , ξ2 + ξ3 , ξ4 + ξ5 , . . .? 8. Дана цепь Маркова с конечным числом состояний. Пусть ξ1 – состояние цепи на i-м шаге. Будет ли цепью Маркова последовательность η0 , η1 , . . ., где ( 1, если ξi = 1, η1 = 0, если ξi 6= 1. 9. Пусть ξ0 , ξ1 , . . . – последовательность независимых, одинаково распределенных случайных величин, принимающих значения −1 и +1 с вероятностями p и q = 1 − p соответственно. Положим: n Y а) ηn = ξn ξn+1 ; б) ηn = max ξi ; в) ηn = ξi . 0≤i≤n i=0 Будет ли последовательность η0 η1 , . . . цепью Маркова? 10. Пусть ξ0 , ξ1 , . . . – последовательность независимых целочисленных случайных величин, причем P {ξn = k} = pk , k = 0, ±1, ±2, . . . . Положим ηn = ξ0 + . . . + ξn . Доказать, что последовательность η0 , η1 , . . . образует цепь Маркова. Найти соответствующую матрицу вероятностей перехода за один шаг. 11. Пусть ξ0 , ξ1 , . . . и η0 η1 , . . . – две цепи Маркова. Будет ли цепью Маркова последовательность ξ0 + η0 , ξ1 + η1 , . . .? 12. Пусть ξ0 , ξ1 , . . . – независимые случайные величины с дискретным распределением, f0 , f1 , . . . – некоторые функции. Доказать, что последовательность случайных величин η1 , η2 , . . ., где ηk+1 = fk (ηk , ξk+1 ), образует цепь Маркова. 13. Матрица вероятностей перехода цепи Маркова с двумя состояниями имеет вид à ! 1−α α P = , β 1−β 0 ≤ α ≤ 1, 0 ≤ β ≤ 1. Доказать, что матрица вероятностей перехода за n шагов à ! à ! β α α −α (1 − α − β)n 1 (n) + , P = α+β β α α+β −β β и найти предел при n → ∞. 14. Человек либо ходит на работу пешком, либо приезжает на автомобиле. Если он идет пешком, то вероятность, что на следующий день поедет на автомобиле, равна 0, 6. Если едет на автомобиле, то вероятность поехать на автомобиле на следующий день равна 0, 7. Составьте матрицу вероятностей переходов для его ежедневных способов попадания на работу. Если он идет пешком в понедельник, то какова вероятность, что он поедет на автомобиле: 9.7. УПРАЖНЕНИЯ 229 а) в среду; б) в среду и в пятницу; в) в пятницу; г) в следующий вторник; д) в понедельник шестью неделями позже? Ответить на перечисленные вопросы, если в понедельник он идет пешком или едет на автомобиле. 15. Мышь передвигается между двумя соседними комнатами A и B без какого-либо риска. Если она покинет комнату A через наружную дверь, то ее поймает кошка. Если покинет комнату B через наружную дверь – попадет в мышеловку. Исходное положение – мышь в комнате B. Каждую минуту она передвигается, не оставаясь в одной комнате: из комнаты A в комнату B – с вероятностью 3/4, из комнаты B в комнату A – с вероятностью 7/8. Найти: а) вероятность, что мышь поймана кошкой; б) вероятность, что мышь поймана мышеловкой; в) среднее значение и дисперсию числа минут, оставшихся у мыши до гибели. 16. Указать существенные и несущественные состояния цепи Маркова с матрицей вероятностей перехода за один шаг: 1 1 1 1 1 0 0 2 2 4 4 0 0 2 1 1 1 1 0 0 1 0 0 2 2 . 3 3 а) P = 3 б) P = ; 1 0 0 1 1 1 0 0 0 2 2 2 2 1 1 0 0 0 1 0 0 0 2 2 17. Могут ли все состояния цепи Маркова быть несущественными, если: а) цепь Маркова имеет конечное число состояний; б) число состояний счетное? 18. Указать все пары сообщающихся состояний для цепи Маркова с матрицей вероятностей перехода за один шаг: 1 1 1 1 0 1 0 0 0 4 4 4 4 0 0 0, 2 0 0, 8 0 1 1 0 2 2 б) P = 0 0 0 0 1 . а) P = ; 1 1 0 0 0 1 0 0 0 2 2 0 1 0 0 0 1 0 0 0 За сколько шагов из первого состояния можно попасть в третье? 19. Цепь Маркова имеет N состояний. Доказать, что: а) если j-е состояние достижимо из i-го (i 6= j), то оно может быть достигнуто меньше, чем за N шагов; (n) б) если Pii > 0 для некоторого n, то возвращение может произойти за N или менее шагов. 230 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 20. Будет ли цепь Маркова с матрицей вероятностей перехода за один шаг периодической, если: 1 1 0 0 0 0 1 1 2 2 0 0 0 1 0 0 0 2 2 0 0 1 0 0 0 0 0 1 0 0 0 1 1 0 1 1 0 0 0 0 2 2 ; б) P = 0 0 0 1 0 ; в) P = а) P = . 2 2 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 2 2 1 0 0 0 0 1 1 0 0 0 0 0 1 0 0 2 2 1 0 0 0 0 0 Для периодических цепей указать период d. 21. Выделить циклические подклассы C0 , C1 , . . . , Cd−1 множества состояний периодических цепей Маркова в предыдущей задаче а), б). Для этого взять произвольное состояние k, выделить множество C0 состояний, которые достижимы из k за d шагов, затем множество состояний C1 , достижимых из состояния k за d + 1 шаг, и т. д. Показать, что эволюция состояний марковской цепи происходит следующим образом: C0 → C1 → C2 → . . . → Cd → C0 → C1 . . . . 22. Указать возвратные и невозвратные состояния цепи Маркова с матрицей вероятностей перехода за один шаг: 1 1 0 0 0 0 2 2 0 0 1 1 0 0 2 2 1 1 0 0 0 0 . 2 2 P = 1 1 0 0 0 0 2 2 1 1 0 0 0 0 2 2 0 0 0 0 0 1 23. Пусть цепь Маркова имеет периодические состояния. Доказать, что она не является эргодической. 24. Доказать, что цепь Маркова, имеющая по крайней мере два несообщающихся состояния, не является эргодической. 25. Доказать, что если цепь Маркова имеет по крайней мере одно несущественное состояние, то она не является эргодической. 26. Показать, что у неэргодической марковской цепи может существовать стационарное распределение, причем единственное. 231 9.7. УПРАЖНЕНИЯ 27. Доказать, что все состояния цепи Маркова с матрицей переходных вероятностей P возвратные, если: 1 à а) P = 1 0 0 1 ! ; 2 0 б) P = 1 2 0 0 1 2 0 1 2 1 0 2 1 0 2 ; 1 0 2 1 0 2 1 1 2 2 1 1 2 2 в) P = 0 0 0 0 0 0 0 1 2 1 2 0 ; 1 2 1 2 1 1 0 0 . . . n n 1 1 0 0 ... n n г) P = . 1 1 0 0 ... n n ... ... ... ... ... 28. Имеется цепь Маркова со счетным числом состояний и матрицей вероятностей перехода за один шаг: p1 1 − p1 0 0 0 ... p2 0 1 − p2 0 0 ... . P = p 0 0 1 − p3 0 . . . 3 ... ... ... ... ... ... Доказать, что если ряд ∞ X pi сходится, то все состояния этой цепи возвратны, в про- i=1 тивном случае – невозвратны. 29. Доказать, что для конечной цепи Маркова всегда существует стационарное распределение. 30. Пусть цепь Маркова имеет два состояния. Доказать, что имеет место один из трех случаев: а) цепь эргодична; б) состояния не сообщаются; в) цепь периодическая. 31. Доказать, что любая цепь Маркова с конечным числом состояний имеет по крайней мере одно возвратное состояние. 32. Доказать, что для конечной цепи Маркова состояние возвратно тогда и только тогда, когда оно существенно. Показать, что это неверно для цепей со счетным числом состояний. 33. Эргодическая цепь Маркова с двумя состояниями имеет предельные вероятности p и q = 1 − p. Найти матрицу вероятностей перехода за один шаг. 232 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 34. Эргодичны ли цепи Маркова со следующими матрицами вероятностей перехода за один шаг: à à à ! ! ! 1 1 1 1 0 1 1 0 1 0 а) ; б) ; в) ; г) 2 2 ; д) 2 2 ; 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 0 2 2 1 0 0 0 1 1 ; ж) е) ? 0 1 1 2 2 0 0 1 2 2 1 1 1 1 1 0 2 2 4 4 4 4 35. Матрица вероятностей перехода P и начальное распределение p(0) цепи Маркова ξn имеют вид 3 2 1 3 1 2 12 12 12 12 12 12 1 1 3 1 4 2 12 12 12 12 12 12 3 3 0 0 0 0 12 12 P = , 3 1 0 0 0 0 4 4 0 0 0 0 1 2 3 3 2 1 0 0 0 0 3 3 ¶ µ 1 1 000 . P (0) = 22 Найти: а) несущественные состояния; б) математическое ожидание времени τ до выхода из множества несущественных состояний; (α) (β) в) вероятности Pi , Pi попадания в классы состояний α = {3; 4}, β = {5; 6}; г) предельное при n → ∞ распределение n состояниям, т. е. величины πk = lim P{ξn =k}. n→∞ 36. Два автомобиля сдаются в аренду по одной и той же цене. Эти автомобили имеют следующие матрицы вероятностей перехода, соответствующие состояниям: 1 – работает хорошо и 2 – требует регулировки: à ! à ! 0, 9 0, 1 0, 8 0, 2 P1 = , P2 = . 0, 6 0, 4 0, 7 0, 3 Какую из машин следует арендовать? 9.7. УПРАЖНЕНИЯ 233 37. По двум урнам разложено N черных и N белых шаров так, что каждая урна содержит N шаров. Число черных шаров в первой урне в момент n = 0, 1, 2, . . . обозначим ξn . В каждый целочисленный момент времени случайно выбирают по одному шару из каждой урны и меняют их местами. Показать, что ξn является цепью Маркова со стационарным распределением ¡ ¢2 N πk = CNk /C2N , k = 0, 1, . . . , N. 38. Компания по прокату автомобилей выдает их на прокат в трех аэропортах: 1, 2 и 3. Клиенты возвращают автомобили в эти аэропорты в соответствии с матрицей вероятностей перехода за один шаг 0, 8 0, 2 0 P = 0, 2 0 0, 8 . 0, 2 0, 2 0, 6 1. Вычислить стационарные вероятности. 2. Компания планирует построить ремонтную станцию в одном из аэропортов. Какой из них вы порекомендовали бы? Почему? 39. В городе М каждый житель имеет одну из трех профессий: А, В и С. Дети отцов, имеющих профессии А, В, С, наследуют профессии отцов с вероятностями 3/5, 2/3, 1/4 соответственно и выбирают другую профессию из двух оставшихся с равными вероятностями. Найти: а) распределение по профессии в следующем поколении, если в данном поколении профессию А имеют 20 % жителей, В – 30 %, С – 50 %; б) предельное распределение по профессиям, когда число поколений растет; в) распределение по профессиям, не меняющееся при смене поколений. 40. Цепь Маркова имеет следующую матрицу вероятностей перехода за один шаг: p0 p1 pr . . . pm−1 pm−1 p0 p1 . . . pm−2 , P = ... ... ... ... ... p1 p2 p3 . . . p0 где 0 < p0 < 1, m X pi = 1. Доказать, что i=0 1 , i = 1, 2, . . . , m. m 41. Найти производящую функцию числа частиц в момент времени t для ветвящихся процессов с непрерывным временем и инфинитезимальными параметрами: lim P{ξn = i} = n→∞ а) λ0 = λ, λk = 0, k ≥ 2; б) λ0 = 0, λ2 = λ, λk = 0, k > 2. 42. В условиях предыдущего упражнения найти распределение вероятностей числа потомков частицы в момент времени t. 43. Найти производящую функцию числа частиц в момент времени t для ветвящегося процесса с непрерывным временем и производящей функцией инфинитезимальных параметров: √ а) f (z) = λ2 z 2 + λ1 z − (λ1 + λ2 ); б) f (z) = z k − z, k ≥ 2; в) f (z) = 1 − z − 1 − z. 234 ГЛАВА 9. МАРКОВСКИЕ СЛУЧАЙНЫЕ ПРОЦЕССЫ 44. В условиях предыдущего упражнения найти вероятность вырождения и вероятность взрыва. Следующие упражнения рассматриваем для ветвящихся процессов с дискретным временем. Математическая модель этого процесса следующая: в нулевой момент времени имеется одна частица. В следующий момент времени эта частица превращается в k частиц первого поколения, k = 0, 1, 2, . . . . В следующий момент каждая частица независимо от других частиц превращается в k частиц второго поколения и т. д. ∞ X 45. Пусть ξ(t), t = 0, 1, . . . , – ветвящийся процесс, φ(z) = E{z ξ } = z k P{ξ = k} – проk=0 изводящая функция числа потомков одной частицы, φn (z) – производящая функция числа частиц в n-м поколении. Показать, что φn+1 (z) = φ(φn (z)), n ≥ 0. 46. Найти производящую функцию и распределение вероятностей числа частиц в n-м поколении, если производящая функция числа потомков одной частицы равна: а) pz + 1 − p; б) (1 − p)/(1 − pz); в) 1 − p(1 − z)α , 0 < α < 1. 47. Пусть ξ(t), t = 0, 1, . . . – ветвящийся процесс, αn = P{ξ(n) = 0}. Доказать, что вероятность вырождения α = limn→∞ αn является корнем уравнения φ(z) = z. 48. Доказать, что уравнение из предыдущего упражнения имеет два действительных корня при φ(z) 6= z, причем один из корней равен 1. 49. Доказать, что в дискретном случае вероятность вырождения α < 1, если E{ξ(1)} > 1 и α = 1, если E{ξ(1)} ≤ 1. 50. Найти вероятности выражения для ветвящихся процессов с производящей функцией числа потомков одной частицы: а) (1 − p)(1 − pz); б) 1 − p(1 − z)α , 0 < α < 1; в) (1 + z + z 2 + z 3 )/4. 51. Найти распределение времени вырождения τ для ветвящихся процессов с производящей функцией числа потомков одной частицы: а) pz + 1 − p; б) (1 − p)(1 − z)α , 0 < α < 1. 52. Найти производящую функцию общего числа частиц в первых n поколениях, если производящая функция числа потомков в одной частицы равна pz + 1 − p. 53. Пусть ξ(0), ξ(1), . . . – ветвящийся процесс, E{ξ(1)} = a. Доказать, что E{ξ(n + k)/ξ(n)} = ak E{ξ(n)}. 54. Доказать, что если a = φ0 (1) = E{ξ(1)} и b = D{ξ(1)} конечны, то D{ξ(n)} = a2n D{ξ(0)} + ban−1 (an − 1) E{ξ(0)}. a−1 Г л а в а 10 МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ 10.1. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ Пусть на вероятностном пространстве (Ω, F, P ) задана последовательность СВ {ξn }, n ⩾ 0 и последовательность σ-алгебр F0 ⊂ F1 ⊂ F2 ⊂ . . . ⊂ Fn ⊂ . . . ⊂ F, F0 – тривиальная σ-алгебра. В дальнейшем будем предполагать, что случайные величины ξn Fn измеримы. Такую последовательность обозначают (ξn , Fn ). Определение 10.1. Последовательность (ξn , Fn ) называется мартингалом, если для всех n выполняются следующие условия: 1) E{|ξn |} < ∞, 2) E{ξn+1 |Fn } = ξn . (10.1) Определение 10.2. Последовательность {ξn , Fn } называется субмартингалом, если для всех n выполняются следующие условия: 1) E{|ξn |} < ∞, 2) E{ξn+1 |Fn } ≥ ξn . (10.2) Определение 10.3. Последовательность (ξn , Fn ) называется супермартингалом, если для всех n выполняются следующие условия: 1) E{|ξn |} < ∞, 2) E{ξn+1 |Fn } ≤ ξn . (10.3) Замечание 10.1. Если Fn =σ(ξ0 , . . ., ξn ) – σ-алгебра, порожденная случайными величинами ξ0 , . . ., ξn , и выполняются (10.1, 10.2, 10.3), то говорят, что сама последовательность образует мартингал, субмартингал и супермартингал соответственно. В дальнейшем будем считать, что для всех n E{|ξn |} < ∞. Теорема 10.1. Соотношения (10.1, 10.2, 10.3) эквивалентны соотношениям Z Z ξn+1 dP = ξn dP, A A Z Z ξn+1 dP ≥ A Z A (10.4) ξn dP, (10.5) Z ξn+1 dP ≤ ξn dP (10.6) A A соответственно для любого события A ∈ Fn . 236 ГЛАВА 10. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ Доказательство. По определению условного математического ожидания Z Z Z ξn+1 dP = E{ξn+1 |Fn }dP = ξn dP для всех A ∈ Fn . A A A Если верно (10.4), то из равенства Z A Z следует Z ξn+1 dP = ξn dP A Z E{ξn+1 |Fn }dP = ξn dP. A A Поскольку подынтегральные случайные величины Fn измеримы, то они равны, т. е. верно (10.1). Из этих соотношений получаем, что из (10.1) следует (10.4). Эквивалентность соотношений (10.2) и (10.5), (10.3) и (10.6) доказывается аналогично. ¤ Теорема 10.2. Соотношения (10.1), (10.2) и (10.3) эквивалентны соотношениям 1) E{ξn+1 η} = E{ξn η}; (10.7) 2) E{ξn+1 η} ≥ E{ξn η}; (10.8) 3) E{ξn+1 η} ≤ E{ξn η} (10.9) соответственно для любой ограниченной случайной величины η Fn –измеримой. Доказательство. Теорема 10.1 следует из теоремы 10.2, если в качестве случайной величины η взять индикатор события A, т. е. η = 11A . Обратное утверждение следует из свойств математического ожидания. Если верна теорема 10.1, то теорема 10.2 будет верна, если случайная величина η является индикатором события. В силу линейности математического ожидания теорема 10.2 верна для простых случайных величин η. Из теоремы о монотонной сходимости получим, что теорема 10.2 будет верна, если случайная величина η является неотрицательной. Представляя случайную величину η в виде η = η+ − η− , получим справедливость теоремы 10.2 для произвольных ограниченных Fn измеримых случайных величин. ¤ Теорема 10.3. Соотношения (10.1), (10.2), (10.3) эквивалентны соотношениям E{ξn |Fm } = ξm ; (10.10) E{ξn |Fm } ≤ ξm ; (10.11) E{ξn |Fm } ≥ ξm (10.12) соответственно для любых m ≤ n. Доказательство. Следует по индукции из равенства E{ξn |Fm } = E{E{ξn |Fn−1 }|Fm } = E{ξn−1 |Fm }. ¤ Определение 10.4. Случайная величина τ = 0, 1, 2. . . называется марковским моментом, если для всех n событие (τ = n) ∈ Fn . Если P(τ < ∞) = 1, то случайная величина τ называется моментом остановки. Пример 10.1. Пусть {ξn } – последовательность случайных величин, τ – первый момент достижения уровня B, B – борелевское множество, τ = min{n : ξn ∈ B}. Тогда (τ = n) = {ξ0 ∈ / B, ξ1 ∈ / B, . . . , ξn−1 ∈ / B, ξn ∈ B} ∈ Fn . 237 10.1. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ Теорема 10.4. Если τ и σ – марковские моменты, то τ + σ, min(τ, σ) = τ ∧ σ, max(τ, σ) = τ ∨ σ, τ = k, где k постоянная, являются марковскими моментами. Доказательство. Для каждого n ≥ 0 имеем (τ + σ = n) = n [ (τ = k)(σ = n − k) ∈ Fn ; k=0 (τ ∧ σ = n) = (τ = n) (τ ∨ σ = n) = (τ = n) n [ (σ = k) + (σ = n) n [ (τ = k); k=0 n [ k=0 n [ k=0 k=0 (σ = k) + (σ = n) (τ = k). Обозначим Fτ = {A ∈ F : для любого n ⩾ 0A(τ = n) ∈ Fn }. Если Fn – совокупность событий, наблюдаемых до момента времени n, то Fτ – совокупность событий, наблюдаемых до случайного момента времени τ. ¤ Теорема 10.5. Совокупность событий Fτ является σ-алгеброй. Доказательство. Поскольку Ω(τ = n) = (τ = n) ∈ Fn , то Ω ∈ Tτ . Для любых n, A1 , A2 ∈ Fτ выполняются соотношения: (A1 + A2 )(τ = n) = A1 (τ = n) + A2 (τ = n) ∈ Fn ; A1 A2 (τ = n) = A1 (τ = n)A2 (τ = n) ∈ Fn ; Ā(τ = n) = (τ = n)A(τ = n) ∈ Fn , т. е. события A1 + A2 , A1 A2 , A1 , A2 принадлежат Fτ . Если A1 , A2 , . . . ∈ Fτ , то = n) = ∞ [ An (τ = n) ∈ Fτ , т. е. n=1 ∞ [ Ã∞! [ (τ = n=1 A n ∈ Fτ . ¤ n=1 Теорема 10.6. Если (ξn , Fn ) – мартингал (субмартингал), то остановленная последовательность (ξn∧τ , Fn ) – мартингал (субмартингал). Доказательство. Случайные величины ξn∧τ − Fn –измеримы. Докажем, что для любого A ∈ Fn Z Z Z ξn+1∧τ dP = ξn∧τ dP или (ξn+1∧τ − ξn∧τ )dP = 0. A A A Поскольку ξn∧τ = ξn+1∧τ = n X n X ξk 11(τ=k) + ξn 11(τ>n) , k=1 ξn+1∧τ 11(τ=k) + ξn+1∧τ 11(τ>n) = k=0 n X ξk 11(τ>n) + ξn+1 11(τ>n) . k=0 Тогда Z A Z (ξn+1∧τ − ξn∧τ )dP = (ξn+1 − ξn )11(τ>n) dP = Z A A(τ>n) (ξn+1 − ξn )dP = 238 ГЛАВА 10. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ ½ = = 0, если (ξn , Fn ) − мартингал, ⩾ 0, если (ξn , Fn ) − субмартингал. ¤ Теорема 10.7 (о сохранении свойств мартингальности при замене времени на случайный момент). Пусть (ξn , Fn ) – мартингал (субмартингал), τ, σ – марковские моменты такие, что 0 ⩽ τ ⩽ σ ⩽ N . Тогда E{ξσ |Fτ } = ξτ (E{ξσ |Fτ } ≥ ξτ ). Доказательство. Рассмотрим вначале случай, когда σ − τ = 0 или σ − τ = 1. Тогда для любого события A ∈ Fτ " # Z Z Z N N N X X X ξτ dP = 1 = 11(τ=k) = ξτ dP = ξk dP = k=0 A N X = k=0 = N X k=0 k=0 Z A(τ=k)(σ=k) A(τ=k) Z ξk dP = ξk dP + A(τ=k)(σ>k) Z Z Z N Z X ξk+1 dP = ξσ I(τ=k) dP = ξσ dP. ξk dP + A(τ=k)(σ=k)∈Fk k=0 A(τ=k) k=0 A A(τ=k)(σ>k) A Общий случай. Рассмотрим последовательность марковских моментов τk = min(τ + k, σ), τ = τ0 ⩽ τ1 ⩽ . . . ⩽ τN = σ. Поскольку τk+1 − τk = 0, 1 и Fτ0 ⊂ Fτ1 ⊂ . . . ⊂ FτN , то E{ξσ |Fτ } = E{ξτN |Fτ0 } = E{E{ξτN |FτN −1 }|F0 } = ( ⩾ для субмартингалов) = = E{ξτN −1 |Fτ0 } = . . . = ξτ0 = ξτ . ¤ Следствие 10.1. Если {ξn , Fn } – мартингал (субмартингал), 0 ⩽ τ ⩽ σ ⩽ N , то E{ξ0 } = E{ξτ } = E{ξσ } = E{ξN } (E{ξ0 } ⩽ E{ξτ } ⩽ E{ξσ } ⩽ E{ξN }). 10.2. НЕРАВЕНСТВА ДЛЯ СУБМАРТИНГАЛОВ Теорема 10.8. Если (ξn , Fn ) – субмартингал, то справедливо ½ ¾ 1 P max ξn > λ ⩽ n⩽N λ Z ξN dP ⩽ 1 E{ξ+ N }. λ max ξn >λ n⩽N Доказательство. Рассмотрим случайную величину τ = min(n : ξn > λ). Если ξn ⩽ λ для любого n ⩽ N , то τ = N . Поскольку при всех n событие (τ = n) = = (ξ0 ⩽ λ, . . . , ξn−1 ⩽ λ, ξn > λ) ∈ Fn , то τ – марковский момент. Поскольку 0 ≤ τ ≤ N , то из следствия 10.1 и свойств математического ожидания имеем E{ξN } ⩾ E{ξτ } = E{ξτ }11max ξn >λ + E{ξτ }11max ξn ⩽λ ⩾ n⩽N n⩽N ½ ¾ ⩾ λP max ξn > λ + E{ξN }11max ξn ⩽λ , n⩽N n⩽N 239 10.2. НЕРАВЕНСТВА ДЛЯ СУБМАРТИНГАЛОВ следовательно, ½ ¾ λP max ξn > λ ⩽ E{ξN }11max ξn >λ = n⩽N Z ξN dP. n⩽N max ξn ≤λ n⩽N ¤ Следствие 10.2 (неравенство Колмогорова). Если ξ1 , ξ2 , . . . – независимые случайные величины и для всех n E{ξn } = 0, E{ξ2n } < ∞, Sn = ξ1 + . . . + ξn , то ½ ¾ N 1 X 1 2 }= 2 D{ξk }. P max |Sn | > λ ⩽ 2 E{SN n⩽N λ λ k=0 Доказательство. Поскольку последовательность (Sn , Fn ) – мартингал, то из неравенства Йенсена следует, что (Sn2 , Fn ) – субмартингал. Тогда по теореме 10.8 ½ ¾ ½ ¾ 1 1 2 2+ 2 2 P max |Sn | > λ = P max |Sn | > λ ⩽ 2 E{SN } = 2 E{SN }. n⩽N n⩽N λ λ ¤ ∞ Z xp−1 P{ξ ⩾ x}dx. Лемма 10.1. Если E{ξp } < ∞, ξ ⩾ 0, p ⩾ 1, то E{ξp } = p 0 Доказательство. Поскольку ∞ Z ∞ Z p x dFξ (x) < ∞, xp dFξ (x) −→ 0. то 0 < 0 y→∞ y Тогда ∞ Z ∞ Z p 0⩽ x dFξ (x) ⩾ y y p dFξ (x) = y p (1 − Fξ (y)) = y p P {ξ ⩾ y} −→ 0. y→∞ y Интегрируя по частям, получаем ∞ Z ∞ Z xp d (1 − Fξ (x)) = xp dFξ (x) = − 0 = −x p ∞ Z (1 − Fξ (x))|∞ 0 + 0 ∞ Z p P {ξ ⩾ x} pxp−1 dx. (1 − Fξ (x)) dx = 0 0 ¤ Теорема 10.9. Если (ξn , Fn ) – субмартингал, то: ½µ ¶p ¾ µ ¶p p 1. при p > 1; ξn ⩾ 0 E max ξn ⩽ E{ξpN }; n⩽N p−1 ½ ¾ e 2. если ξn ⩾ 0, то E max ξn ⩽ (1 + E{ξn ln tξn }). n⩽N e−1 240 ГЛАВА 10. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ Доказательство. Обозначим ηN = maxn ⩽ N ξn . По теореме 10.8 Z P {ηN > λ} = 1/λ ξN dP. ηN >λ à N X 1. Будем считать, что E{ξpN } < ∞. В этом случае ηpN ≤ !p ξn и n=1 E{ηpN } ≤ N p−1 N X E{ξpn } ≤ N p E{ξpN } < ∞. n=1 Поскольку ηpN ξpN , то в противном случае E{ηpN } = ∞. Тогда, используя лемму ≥ 10.1 и теорему Фубини, получаем ∞ Z ∞ Z E{ηpN } = p Z Ω 0 ∞ Z = p ξN P {ηn > x} x p−1 x p−2 dx ⩽ p Z ηZN Z ξN 11(ηN >x) dPdx = x 0 Ω xp−2 dxdP = 11(ηN >x) dxdP = p ξN 0 x p−1 1 p p−1 0 Ω Z ξN ηp−1 N −1 dP = Ω p−1 1 p p E{ξN ηp−1 (E{ξpN }) p (E{ηpN }) p . N } ⩽ p−1 p−1 2. Используя лемму 10.1 и теорему Фубини, получим ∞ Z © ª + E{ηN − 1} = E{ηN − 1} ⩽ E{ηN − 1} ⩽ P (ηN − 1)+ > x dx = = ∞ Z = = P {ηN − 1 > x} dx = 0 (ηNZ−1)+ Z ξN Ω Тогда 0 ∞ Z 0 P {ηN > 1 + x} dx ⩽ 0 1 dxdP = 1+x ∞ Z 1 1+x 0 Z + ξN 11(ηN >1+x) dPdx = Ω Z ξN ln(1 + x)|0(ηN −1) dP = Ω Z ξN ln+ ηN dP = E{ξN } ln+ ηN . Ω E{ηN } ⩽ 1 + E{ξN ln+ ηN }. Воспользуемся неравенством для a > 0, b > 0: a ln+ b ⩽ a ln+ a + be−1 . Тогда E{ηN } ⩽ ¢ e ¡ 1 + E{ξN ln+ ξN } . e−1 ¤ Пусть −∞ < a < b < ∞. Введем величины τ1 = min (n : ξn ≤ a); τ2 = min (n : ξn ≥ b, n > τ1 ); τ2m−1 = min (n : n > τ2m−2 , ξn ⩽ a); τ2m = min (n : n > τ2m−1 , ξn ⩾ b) . . . . Обозначим βn (a, b) – число пересечений уровней (a, b) снизу вверх последовательностью {ξn } на промежутке [0, n] βn (a, b) = max (m : τ2m ⩽ n). 241 10.3. ТЕОРЕМЫ О СХОДИМОСТИ Теорема 10.10 (неравенство Дуба о среднем числе пересечения уровней E{ξ+ n } + |a| субмартингалом). Если (ξn , Fn ) – субмартингал, то E{βn (a, b)} ⩽ . b−a Доказательство. Из неравенств Z Z Z Z Z Z + ξ+ dP ⩾ ξ dP ⩾ ξ dP ⩾ ξ dP = ξ 1 1 dP = ξ+ n+1 n n (ξ >0) n n+1 n+1 n dP A A(ξn >0) A(ξn >0) A A(ξn >0) A для A ∈ Fn следует, что если (ξn , Fn ) – субмартингал, то (ξ+ n , Fn ) – субмартингал. Если вместо субмартингала (ξn , Fn ) рассматривать последовательность ((ξn − a)+ , Fn ), то она тоже субмартингал. Заметим, что βn (a, b) = β∗n (a, b − a), где β∗n (a, b − a) – число пересечений уровней (0, b −½a) субмартингалом ((ξn − a)+ , Fn ) на промежутке [0, n]. 1, τm < i ⩽ τm+1 , если m нечетное, Введем величины φi = 0, τm < i ⩽ τm+1 , если m четное. Тогда n X (b − a) βn (a, b) ⩽ φi (ξi − ξi−1 ). i=1 Покажем, что случайные величины φi Fi−1 –измеримы, т. е. что событие (φi = 1) ∈ Fi−1 : (φi = 1) = n [ n [ (τ2k−1 < i ⩽ τ2k ) = (τ2k−1 < i; τ2k ⩾ i) ∈ Fi−1 , k=1 k=1 так как все τm – марковские моменты. Обозначим ξ∗n = (ξn − a)+ . Тогда (b − a)E{βn (a, b)} ⩽ = ⩽ n X i=1 n X n X E{φi (ξ∗i − ξ∗i−1 )} = i=1 E{E{φi (ξ∗i − ξ∗i−1 )}|Fi−1 } = i=1 n X E{φi (E{ξ∗i |Fi−1 } − ξ∗i−1 )} ⩽ i=1 E{E{ξ∗i |Fi−1 } − ξ∗i−1 } = n X (E{ξ∗i } − E{ξ∗i−1 }) ⩽ E{ξ∗n } ⩽ E{ξ+ n } + |a|. i=1 ¤ 10.3. ТЕОРЕМЫ О СХОДИМОСТИ Теорема 10.11. Если (ξn , Fn ) – субмартингал и sup E{ξ+ n } < ∞, то с вероятноn стью 1 существует limn→∞ ξn . Доказательство. От противного. Пусть предела не существует. Тогда ª © P limξn < limξn > 0. (10.13) ¡ ¢ Пусть ω ∈ limξn (ω) < limξn (ω) . Тогда найдутся рациональные числа a = a(ω) и b = b(ω) такие, что limξ © n (ω) ⩽ a < b ⩽ limξnª(ω). Покажем, что существуют постоянные c, d ∈ Q такие, что P limξn ⩽ c < d ⩽ limξn > 0. 242 ГЛАВА 10. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ © ª От противного. Пусть для любых a, b ∈ Q P limξn ⩽ a < b ⩽ limξn = 0. То[ ¡ ¢ ¢ ¡ гда limξn < limξn = limξn ⩽ a < b ⩽ limξn , где объединение счетное. Тогда © ª P limξn < limξn ≤ (a,b)∈Q X © ª P limξn ⩽ a < b ⩽ limξn = 0. Получили противоречие с a,b∈Q (10.13). Следовательно, ªесли выполняется (10.13), то существуют c, d ∈ Q такие, что © P limξn ⩽ c < d ⩽ limξn > 0. Тогда βn (c, d) −→ ∞ n→∞ ¡ ¢ на множестве ω limξn (ω) < limξn (ω) . В силу (10.13) и (10.14) (10.14) E {βn (c, d)} −→ ∞. (10.15) n→∞ С другой стороны, по неравенству Дуба E{βn (c, d)} ⩽ E{ξ+ sup E{ξ+ n } + |c| n} + c ⩽ < ∞. d−c d−c Получили противоречие с (10.13). ¤ Следствие 10.3. Если (ξn , Fn ) – субмартингал и ξn ⩽ 0, то существует lim ξn n→∞ почти наверное. + Доказательство. Cледует из того, что E{ξn } = 0. ¤ Следствие 10.4. Если (ξn , Fn ) – супермартингал и ξn ⩾ 0, то существует lim ξn n→∞ почти наверное. Доказательство. Если (ξn , Fn ) – супермартингал, то (−ξn , Fn ) – субмартингал и E{−ξ+ ¤ n } = 0. Замечание 10.2. Для мартингалов условие sup E{ξ+ n } < ∞ эквивалентно условию n sup E{|ξn |} < ∞. n − + + − + + Доказательство. Из равенства |ξn | = ξ+ n + ξn = ξn + ξn + ξn − ξn = 2ξn − ξn следует + + E{|ξn |} = 2E{ξ+ n } − E{ξn } = 2E{ξn } − E{ξ1 }, sup E{|ξn |} = 2 sup E{|ξn |} − E{ξ1 }. n n ¤ Определение 10.5. Мартингал (ξn , Fn ) называется регулярным, если существует случайная величина η такая, что E{|η|} < ∞ и ξn = E{η|Fn }. Теорема 10.12. Следующие условия на мартингал (ξn , Fn ) эквивалентны: 1. (ξn , Fn ) – регулярный мартингал. 2. Семейство {ξn } – равномерно интегрируемо. L 1 3. ξn −→ ξ (сходится в L1 ). п. н. 4. ξn −→ ξ∞ , причем ξn = E{ξ∞ |Fn }. Доказательство. Покажем, что верно 1) ⇒ 2) ⇒ 3) ⇒ 4) ⇒ 1). 1.Покажем, что из 1) следует 2). Пусть(ξn , Fn ) – регулярный мартингал. Тогда ξn = E{η|Fn }, E{|η|} < ∞. Надо показать, что Z sup |ξn |dP −→ 0 : l→∞ n (|ξn |>l) 243 10.3. ТЕОРЕМЫ О СХОДИМОСТИ Z Z sup Z |ξn |dP = sup n |E{η|Fn }|dP ⩽ sup n Z (|ξn |>l) = sup Z (|ξn |>l) (|ξn Z |>l) |η|dP ⩽ sup n |η|dP + sup n (|ξn |>l) |η|dP ⩽ n (|ξn |>l) Z (|ξn |>l) (|η| ⩽ b) n (|η|>b) b sup E{E{|η||Fn }} + l n |η|dP ≤ (|η|>b) (|ξn |>l) ≤ Z (|η|>b) b |η|dP ≤ sup E{|ξn |} + sup l n ⩽ b sup P{|ξn | > l} + sup n E{|η||Fn }dP = n Z Z b |η|dP ≤ E{|η|} + l (|η|>b) |η|dP. (10.16) (|η|>b) Z По теореме Лебега для любого ² < 0 существует b0 такое, что |η|dP ≤ ξ/2. Тогда (|η|>b0 ) можно подобрать l0 такое, что правая часть (10.16) будет меньше ² при l ≥ l0 . 2. Покажем, что из 2) следует 3). Пусть последовательность{ξn } равномерно интегрируема. Тогда sup E{|ξn |} < ∞. Из п. н. n теоремы 10.11 и замечания 10.2 будет следовать, что ξn −→ η (η – некоторая случайная величина). Тогда из теорем для равномерно интегрируемых случайных величин следует, L 1 что ξn −→ ξ. 3. Покажем, что из 3) следует 4). L 1 Имеем ξn −→ ξ. Докажем, что sup E{|ξn |} < ∞: n sup E{|ξn |} = sup E{|ξn − ξ + ξ|} ⩽ sup E{|ξn − ξ|} + E{|ξ|}. n n n Отсюда следует, что sup E {|ξn |} < ∞. Из теоремы 10.12 и замечания 10.2 следует, что n L 1 ξn → ξ∞ иZ ξ = ξ∞ . Теперь покажем, что ξn = E{ξ∞ |Fn }. Поскольку ξn −→ ξ∞ , то для Z любого A ξn dP −→ ξ∞ dP. Пусть m < n и A ∈ Fm . Тогда n→∞ A A Z Z E{ξn |Fm }dP = A Получим, что ξm dP. A Z Z ξm dP −→ ξ∞ dP. n→∞ A A Поскольку левая часть от n не зависит, то: Z Z Z ξm dP = ξ∞ dP = E{ξ∞ |Fm }dP. A A A Поскольку это верно для любого A ∈ Fm , то ξm = E{ξ∞ |Fm }. 4. Покажем, что из 4) следует 1). Доказательство следует из 4), если в качестве η взять ξ∞ . ¤ 244 ГЛАВА 10. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ Теорема 10.13 (теорема Леви). Пусть F1 ⊂ F2 ⊂ ... ⊂ Fn−1 ⊂ Fn ⊂ ... и случайная величина η такова, что E{|η|} < ∞. ∞ [ п. н. Тогда E{η|Fn } −→ E{η|F∞ }, где F∞ – σ-алгебра, порожденная Fi . n→∞ i=0 Доказательство. Положим ξn = E{η|Fn }, тогда {ξn , Fn } – регулярный мартингал п. н. L 1 по определению. Тогда теоремы ξn −→ ξ∞ и ξn −→ ξ∞ , следовательно, Z из предыдущей Z для любого A ∈ F, ξn dP → ξ∞ dP. Возьмем A ∈ Fm , m ≤ n, тогда A A Z Z ξm dP = ξ∞ dP. A С другой стороны, Z A Z Z ξm dP = E{η|Fm }dP = ηdP. A A A Значит, для любого A ∈ Fm Z Z ηdP = Это верно и для любого A ∈ [ A ξ∞ dP. (10.17) A Fm , т. е. для любого A ∈ F∞ . m Поскольку ξ∞ − F∞ –измерима, то для A ∈ F∞ из (10.17) получаем Z Z Z ηdP = E{η|F∞ }dP = ξ∞ dP. A A A Следовательно, E{η|F∞ } = ξ∞ = lim ξn = lim E{η|Fn }. n→∞ n→∞ ¤ Следствие 10.5 (закон «0 или 1»). Пусть СВ η1 , η2 , ... – независимые, одинаково \ ∞ распределенные случайные величины, Fn1 = σ(η1 , ..., ηn ), F∞ = F∞ n = σ(ηn , ...), F n . n ½ 1, Тогда для любого A ∈ F∞ P(A) = 0. Доказательство. Рассмотрим последовательность Fn1 ⊂ Fn+1 ⊂ ..., A ∈ F∞ , тогда 1 n ∞ ∞ ∞ по теореме Леви E{11A |F1 } → E{11A |F1 } = 11A , так как F ⊂ F1 , с другой стороны, так как η1 , η2 , ... независимы, тогда для любого n A и Fn1 независимы. По свойству условного математического ожидания E{11A |Fn1 } = E{11A } = P(A), а значит, P(A) либо 0, либо 1. ¤ Примеры. Пусть ξ1 , ξ2 , ... –½независимые случайные величины. Тогда: 0, 1. P{существования lim ξn } = 1. ½∞ ¾ ½ P 0, 2. P ξn < ∞ = 1. n=1 Sn . 3. Пусть Sn = ξ1 + . . . + ξn , E{ξn } = 0, D{ξn } = σ2 > 0, Sn0 = p D{Sn } ½ 0, Тогда P{существования lim Sn0 } = 1. 245 10.4. СХОДИМОСТЬ РЯДОВ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН 10.4. СХОДИМОСТЬ РЯДОВ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН Теорема 10.14. Если случайные величины ξ1 , ξ2 , . . . , ξn , . . . независимы, E{ξk } = 0, ∞ n X X и D{ξk } < ∞, то последовательность {Sn }, Sn = ξk , сходится почти наверное. k=1 k=1 Доказательство. Поскольку последовательность {Sn } образует мартингал, то достаточно доказать, что sup E{|Sn |} < ∞. (10.18) В условиях теоремы D{Sn } = n X ∞ X D{ξk } ≤ k=1 D{ξk } < ∞, то sup D{Sn } < ∞, n k=1 отсюда r sup E{|Sn |} ≤ n sup E{Sn2 } ≤ p n sup D{Sn } < ∞. ¤ Лемма 10.2. Пусть случайные величины ξ1 , ξ2 , . . . независимы, E{ξn } = 0, n = = 1, 2, 3, . . . , Fn = σ(ξ1 , ξ2 , . . . , ξn ), τ – конечный марковский момент относительно последовательности σ-алгебр, т. е. существует N такое, что P{τ ≤ N } = 1, ) )2 ( τ ( τ X X 2 D{ξk } . ξk =E (τ = n) ∈ Fn , тогда E k=1 k=1 Доказательство. Используя равенство N X N X ξ2k 11(τ≥k) + 2 ξl ξj 11(τ≥j) l<j=2 k=1 и независимость случайных величин ξ2k и 11(τ≥k) , а также ξl 11(τ≥j) и ξj , получим à !2 N N τ X X X E{ξl 11(τ≥j) }E{ξj } = D{ξk }P{τ ≥ k} + 2 ξk = E k=1 k=1 = N X D{ξk }P{τ ≥ k} = E l=j−1 τ X D{ξk }. k=1 k=1 ¤ ½ ¾ Лемма 10.3. Если существует a > 0 такое, что P sup |Sn | < a > 0, |ξk |≤C, E{ξk } = 0 для любого k, то ∞ X n D{ξk } < ∞. k=1 Доказательство. Рассмотрим марковский момент τ, τ = (k : |S1 | ≤ a, ..., |Sk−1 | ≤ a, |Sk | > a) = min(n : |Sn | > a), Sn = n X k=1 τ = ∞, если для любого n |Sn | ≤ a. τN = min(τ, N ) = τ ∧ N – ограниченный марковский момент. ξk , 246 ГЛАВА 10. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ По лемме 10.3 E (τ N X )2 ξk =E (τ N X k=1 ) D{ξk } . (10.19) k=1 Поскольку |SτN −1 | ≤ a, |SτN | ≤ a + c, то из (10.19) имеем (τ ) N X E D{ξk } ≤ (a + c)2 . k=1 Поскольку τN X D{ξk } возрастает по N и сходится к k=1 τ X D{ξk }, то k=1 E ( τ X ) D{ξk } ≤ (a + c)2 . k=1 Отсюда получаем 2 (a + c) ≥ E ( τ X ) D{ξk } ≥ P{τ = ∞} ∞ X D{ξk }. k=1 k=1 Поскольку по условию P{τ = ∞} > 0, то получаем ∞ X D{ξk } < ∞. ¤ k=1 Теорема 10.15 (теорема Колмогорова о трех рядах). Пусть ξ1 , ξ2 , ... – незави∞ X ξk < ∞ необходимо, чтобы симые случайные величины. Тогда для сходимости ряда k=1 при любом c сходились ряды: ∞ X P{|ξk | > c} < ∞; а) k=1 б) ∞ X E{ξck } < ∞; k=1 в) ∞ X k=1 ½ D{ξck } < ∞, где ξk = ξck , |ξk | ≤ c, , и достаточно, чтобы при некото0, |ξk | > c ром c сходились а)–в). Доказательство. Необходимость. Пусть c > 0 и ∞ X ξk < ∞. Рассмотрим Ak = k=1 = (|ξk | > c). Тогда по лемме Бореля – Кантелли P{limAk } = 0. Поскольку Ak – незави∞ X симы, то из закона «0 или 1» следует P{Ak } < ∞. k=1 Рассмотрим {ξ̄ck } – последовательность независимых СВ, не зависящих от СВ ξck ; их d распределения совпадают ξ̄ck = ξck для любого ) ( k. ∞ X c c Покажем, что существует такое a, что P (ξk − ξ̄k ) < a > 0. k=1 10.4. СХОДИМОСТЬ РЯДОВ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН 247 (∞ ) X Предположим противное, что для всех a P (ξck − ξ̄ck ) < a = 0. Тогда k=1 (∞ ) (∞ ) X X 1=P (ξck − ξ̄ck ) < ∞ = lim P (ξck − ξ̄ck ) < n = 0. n→∞ k=1 k=1 Противоречие. Используя лемму 10.3, получаем ∞ X D{ξck − ξ̄ck } = 2 k=1 ∞ X D{ξck } < ∞. k=1 Отсюда ∞ X D{ξck } < ∞. k=1 Покажем, что сходится ряд б). Из равенства ∞ X ξk = ∞ X (ξk − ξck ) + k=1 k=1 k=1 ∞ ∞ X X E{ξck } (ξck − E{ξck }) + (10.20) k=1 и теоремы 10.15 следует, что сходится ряд ∞ X (ξck −E{ξck }) < ∞. k=1 Из сходимости рядов ∞ X ξk < ∞ и ∞ X (ξck −E{ξck }) < ∞ следует k=1 k=1 ∞ X E{ξck } < ∞. k=1 Необходимость доказана. Достаточность. Пусть при некотором c сходятся a)–в). Тогда по теореме 10.15 сходится ряд ∞ X (ξck − E{ξck }) < ∞. k=1 Покажем, что сходится ряд ∞ X ∞ X k=1 k=1 (ξk − ξck ). Поскольку P{Ak } < ∞, то по лемме Бореля – Кантелли P{limAk } = 0, или P{limĀk } = 1. Тогда из определения нижнего предела следует, что для всех ω ∈ limĀk следует, что существует n = n(ω) такое, что при всех k ≥ n |ξk | < c. Тогда ξk − ξck = 0 при всех ∞ X k ≥ n(ω). Отсюда следует, что с вероятностью единица ряд (ξk −ξck ) < ∞. Поскольку ряды в правой части (10.20) сходятся, то ∞ X k=1 k=1 ξk < ∞. ¤ 248 ГЛАВА 10. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ 10.5. УПРАЖНЕНИЯ 1. Пусть ξ0 , ξ1 , . . . – последовательность независимых случайных величии с нулевыми математическими ожиданиями, Sn = ξ0 + . . . + ξn . Доказать, что последовательность {Sn } образует мартингал. 2. Пусть ξ0 , ξ1 , . . . – последовательность независимых случайных величин, E{ξn } = 1, n Y n = 0, 1, . . . , Xn = ξi . Доказать, что последовательность {Xn } образует мартингал. i=0 3. Пусть ξ – случайная величина с конечным математическим ожиданием, {Fn }n≥0 – неубывающая последовательность σ-алгебр. Положим ξn = E{ξ|Fn }. Доказать, что последовательность {ξn , F} образует мартингал. 4. Пусть {ξn } – мартингал, E{ξ2n } < ∞. Доказать, что {ξ2n } – субмартингал. 5. Пусть {ξn } – последовательность неотрицательных случайных величин, имеющих конечные математические ожидания Sn = ξ0 + . . . + ξn . Доказать, что последовательность {Sn } образует субмартингал. 6. Пусть {Xn , Fn } – мартингал, a g(x) – выпуклая функция такая, что E{g(Xn )} < ∞, n = 0, 1, . . . . Доказать, что последовательность {g(Xn ), Fn } образует субмартингал. 7. Пусть {ξn } и {ηn } – две последовательности случайных величин такие, что при каждом n существуют совместная плотность распределения случайных величин ξ1 , . . . , ξn − fn (x1 , . . . , xn ) и совместная плотность распределения случайных величин η1 , . . . , ηn − gn (x1 , . . . , xn ). Доказать, что последовательность ζn = gn (ξ1 , . . . , ξn ) , fn (ξ1 , . . . , ξn ) образует мартингал. 8. Пусть τ и σ – марковские моменты. Доказать, что событие (τ < σ) ∈ Fr ∩ Fσ . 9. Пусть {ξn }n≥0 – последовательность независимых, одинаково распределенных слуn Y чайных величин, P{ξi = 0} = P{ξi = 2} = 1/2, Xn = ξi . Показать, что не i=1 существует такой интегрируемой случайной величины ξ и неубывающего семейства σ-алгебр {Fn }, что Xn = E{ξ|Fn }. ЧАСТЬ 3 МАТЕМАТИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Г л а в а 11 ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Пусть проводится некоторый случайный эксперимент [9, 18, 30, 36], в котором измеряется N ⩾ 1 числовых величин ξ1 , . . . , ξN ∈ R1 . Математической моделью такого случайного эксперимента является вероятностное пространство (Ω, F, P ), на котором определен случайный N -вектор ξ = (ξ1 , . . . , ξN )T ∈ RN («T » – символ транспонирования), имеющий некоторую N -мерную функцию распределения вероятностей F (z; θ) ::= P{ξ1 < z1 , . . . , ξN < zN }, z = (z1 , . . . , zN )T ∈ RN , где θ = (θ1 , . . . , θm )T ∈ Θ ⊆ Rm – некоторый набор параметров (векторный параметр) распределения вероятностей. Пусть осуществлено n независимых случайных экспериментов и зарегистрированы результаты: x1 , x2 , . . . , xn ∈ RN – первого, второго, . . . , n-го эксперимента. Построенное таким образом множество результатов экспериментов X = {x1 , . . . , xn } называется случайной выборкой объема n из N -мерного распределения вероятностей F (·; θ). Число экспериментов n называется объемом выборки, результат i-го эксперимента xi = = (xi1 , . . . , xiN )T ∈ RN – i-м выборочным значением. Далее выборку X иногда будем представлять в виде составного вектора: X = = (xT1 , . . . , xTn )T ∈ RnN . Математической моделью выборки в таком представлении является случайный nN -вектор X ∈ RnN , определенный на составном вероятностном пространстве (Ωn , Fn , Pn ) и имеющий nN -мерную функцию распределения Ψ(X; θ) = n Y F (xi ; θ), X ∈ RnN , θ ∈ Θ. i=1 Отметим два важных свойства случайной выборки: независимость выборочных значений и их одинаковую распределенность. Любое измеримое по Борелю функциональное преобразование выборки X: t = t(X) = (t1 (X), . . . , tK (X))T ∈ RK , X ∈ RnN , не зависящее от функции распределения F (·; θ) или от ее параметра θ, называется статистикой. В частности, при тождественном преобразовании t(X) = X – выборка X также является статистикой. Выводы (решения, оценки, суждения), основанные на статистиках t = t(X), называются статистическими выводами. Предмет математической статистики – это всевозможные статистические выводы. Математическая статистика – раздел математики, изучающий методы построения оптимальных по заданным критериям статистических выводов и анализа их свойств. Математическая статистика разделяется на два подраздела [8, 16]: теорию статистического оценивания параметров и теорию статистической проверки гипотез. 252 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Пример 11.1. Пусть имеется некоторая коммерческая фирма, которая производит и реализует некоторый товар. Допустим, в установившемся режиме суточный доход этой фирмы x ∈ R1 является случайной величиной с некоторой функцией распределения вероятностей F (z; θ0 ), z ∈ R1 (N = 1). В фирму обратилось рекламное агентство, которое предлагает увеличить доход фирмы θ0 до θ > θ0 за определенную плату. Возникает вопрос: стоит ли это делать? Менеджер фирмы решает провести n пробных дней, в течение которых дается реклама и каждый день регистрируется объем продаж. В результате имеем выборку X = {x1 , . . . , xn }, по которой решается задача оценивания среднего дохода θ, что относится к теории статистического оценивания параметров. Необходимо также проверить гипотезу θ > θ0 об увеличении прибыли, что, в свою очередь, относится к теории статистической проверки гипотез. 11.1. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Пусть наблюдается случайная выборка X = (xT1 , . . . , xTn )T ∈ RnN объема n из некоторого N -мерного распределения вероятностей с функцией распределения F (z; θ0 ), z ∈ RN , θ0 = (θ01 , . . . , θ0m )T ∈ Θ ⊆ Rm . Пространство RnN часто называют выборочным пространством: каждая точка в нем – выборка; Θ – параметрическое пространство. Предполагается, что функция распределения F (·; θ0 ) задана с точностью до вектора параметров θ0 ∈ Θ. Задача статистического оценивания параметров заключается в том, чтобы по выборке X найти такое значение θ̂ = T (X) ∈ Θ, которое в определенном вероятностном смысле близко к θ0 . Таким образом, возникает задача построения функционального преобразования θ̂ = T (X) : RnN → Θ, которое будем предполагать борелевским. Оценка θ̂ = T (X) задается статистикой T (X) и поэтому называется статистической оценкой: T1 (X) θ̂1 .. ∈ Θ ⊆ Rm , X ∈ RnN , θ̂ = ... = T (X) = . Tm (X) θ̂m где θ̂j = Tj (X), j ∈ {1, . . . , m}, – статистическая оценка j-го параметра. Пример 11.2. Пусть X = {x1 , . . . , xn } – случайная выборка из одномерного (N = 1) нормального распределения N1 (θ01 , θ02 ): à ! z − θ01 0 F (z; θ ) = Φ p 0 , z ∈ R1 , θ0 = (θ01 , θ02 )T . θ2 Требуется оценить два параметра: математическое ожидание θ01 и дисперсию θ02 . Замечание 11.1. В теории вероятностей исходят из того, что модель точно задана, т. е. F (·; θ0 ) известна. В математической статистике вероятностная модель известна с точностью до значения вектора параметров θ0 или задано семейство допустимых вероятностных моделей. Замечание 11.2. В теории вероятностей принято случайные величины и их значения обозначать разными символами. Например, ξ – случайная величина, x – ее значение. В математической статистике и случайные величины, и их значения обозначаются одними и теми же символами. 253 11.1. ОСНОВНЫЕ ПОНЯТИЯ Графически процесс статистического оценивания иллюстрируется на рис. 11.1. Вероятностный смысл близости оценки θ̂ = T (X) к истинному значению θ0 определяется следующими тремя требованиями, предъявляемыми к статистике T (·). I. Состоятельность статистической оценки Определение 11.1. Статистическая оценка θ̂ = T (X) : RnN → Θ называется состоятельной, если, каково бы ни было истинное значение вектора параметров θ0 ∈ Θ, при n → ∞ имеет место сходимость оценки к истинному значению по вероятности: ∀θ0 ∈ Θ θ̂Pθ0 , n → +∞, (11.1) что эквивалентно соотношениям ∀θ0 ∈ Θ или ∀θ0 ∈ Θ, где θ̂i Pθ0i , i = 1, . . . , m, n → +∞, ∀² > 0 Pθ0 {|θ̂ − θ0 | > ²} → 0, n → +∞, Z dΨ(X; θ0 ), Pθ0 (A) = (11.2) Ψ(X; θ0 ) = n Y F (xi ; θ0 ), A ⊆ BnN ; i=1 A Pθ0 (·) – вероятностная мера в выборочном пространстве, вычисленная при фиксированном истинном значении вектора параметров θ0 ; BnN – борелевская σ-алгебра подмножеств из RnN [30]. Определение 11.2. Если в соотношениях (11.1) и (11.2) имеет место сходимость почти наверное, то говорят о сильной («строгой») состоятельности оценки: п. н. ∀θ0 ∈ Θ θ̂ −→ θ0 , n → +∞. Разумеется, из сильной состоятельности следует состоятельность по вероятности. II. Несмещенность статистической оценки Определение 11.3. Смещением статистической оценки θ̂ = T (X) называется уклонение математического ожидания этой оценки от истинного значения вектора параметров θ0 : Z 0 T 0 b(n; θ ) = (b1 , . . . , bm ) ::= Eθ0 {θ̂} − θ = (T (X) − θ0 )dΨ(X; θ0 ). RnN Определение 11.4. Если, каковы бы ни были истинное значение θ0 и объем выборки n, смещение равно нулю: ∀n ⩾ 1, ∀θ0 ∈ Θ b(n; θ0 ) = 0m , то оценка θ̂ = T (X) называется несмещенной. В противном случае – смещенной. Рис. 11.1. Схема статистического оценивания 254 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Определение 11.5. Если ∀θ0 ∈ Θ lim b(n; θ0 ) = 0m , n→∞ то оценка θ̂ = T (X) называется асимптотически несмещенной. Несмещенность означает отсутствие систематической погрешности при оценивании параметров. III. Точность статистической оценки Определение 11.6. Матрицей вариаций статистической оценки θ̂ = T (X) называется (m × m)-матрица, определяемая следующим матричным соотношением: 0 0 T V = V {θ̂} = (vjk )m j,k=1 = Eθ0 {(θ̂ − θ )(θ̂ − θ ) }, или покомпонентно (j, k = 1, . . . , m): Z vjk = Eθ0 {(θ̂j − θ0j )(θ̂k − θ0k )} = (Tj (X) − θ0j )(Tk (X) − θ0k )dΨ(X; θ0 ). RnN Свойства матрицы вариаций C1. Матрица вариаций симметрична: V = V T . C2. Диагональный элемент vjj = Eθ0 {(θ̂j − θ0j )2 } ⩾ 0, j ∈ {1, . . . , m}, – среднеквадратическая ошибка оценивания j-го параметра. C3. Пусть Σ = cov{θ̂, θ̂} = Eθ0 {(θ̂ − Eθ0 {θ̂})(θ̂ − Eθ0 {θ̂})T } – ковариационная матрица для θ̂. Тогда справедливо соотношение V = Σ + b(n; θ0 )bT (n; θ0 ), где b(n; θ0 ) – смещение оценки θ̂. C4. Если θ̂ – несмещенная оценка, то V = Σ. C5. Если tr(V ) → 0, то θ̂ – состоятельная оценка. В качестве меры точности оценки θ̂ используются характеристики {vjj , j = = 1, . . . , m}, tr(V ), |V |. Чем меньше их значения, тем точнее оценка θ̂. 11.2. ВЫБОРОЧНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ, ВЫБОРОЧНАЯ ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ, ВЫБОРОЧНЫЕ МОМЕНТЫ, ГИСТОГРАММА И ИХ СВОЙСТВА Рассмотрим некоторые важнейшие элементарные статистики T = T (X), используемые в дальнейшем для оценивания. Пусть наблюдается случайная выборка X = = (x1 , . . . , xn )T ∈ Rn объема n из некоторого, для простоты, одномерного распределения вероятностей с функцией распределения F (x) = P{xj < x}, x ∈ R (j ∈ {1, . . . , n}). Пусть определена характеристическая функция +∞ Z g(t) = E{e itxj eitx dF (x), t ∈ R, }= (11.3) −∞ где i – мнимая единица, и для некоторого k ⩾ 1 существует начальный момент k-го порядка: +∞ Z αk = E{xkj } = xk dF (x). (11.4) −∞ 11.2. ВЫБОРОЧНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ 255 Примем½ обозначения: 1, z > 0; I(z) = – единичная функция Хевисайда; 0, z ⩽ 0; ½ 1, z ∈ A; IA (z) = – индикатор множества A. 0, z 6∈ A; Если F (x) – абсолютно непрерывная функция распределения, то соответствующую ей d плотность распределения обозначаем f (x) = F (x). dx Рассмотрим задачу построения по выборке X статистических оценок для F (·), g(·), {αk } и f (·). Определение 11.7. Выборочной функцией распределения (эмпирической функцией распределения), построенной по выборке X объема n, называется статистика n F̂ (x) ::= Fn (x) = где Ln (x)= n X 1X Ln (x) 1(x 1 − xj ) = , x ∈ R, n j=1 n (11.5) n 1(x−x 1 j ) – число выборочных значений из {xj }j=1 , для которых xj < x. j=1 Для построения графика выборочной функции распределения воспользуемся вариационным рядом выборки X: x(1) ⩽ x(2) ⩽ . . . ⩽ x(n) , где x(j) – j-я порядковая статистика, j ∈ {1, . . . , n} (изучаемая в п. 11.3). График выборочной функции распределения представлен на рис. 11.2. Рис. 11.2. Выборочная функция распределения Определение 11.8. Выборочной характеристической функцией для выборки X называется комплекснозначная функция действительной переменной t: n ĝ(t) ::= gn (t) = 1 X itxj e , t ∈ R. n j=1 (11.6) Определение 11.9. Выборочным моментом k-го порядка для выборки X называется статистика n 1X k x . (11.7) α̂k ::= ak = n j=1 j 256 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Формально статистики (11.6) и (11.7) получаются подстановкой (11.5) в (11.3) и (11.4) d с учетом того, что I(z) ::= δ(z) – обобщенная δ-функция Дирака, для которой dz Z G(z − b)δ(z)dz = G(b), b ∈ R, R где G(·) – произвольная функция, определенная на R. Это проявление так называемого подстановочного принципа («plug-in») в статистике. Теорема 11.1. Выборочная функция распределения, выборочная характеристическая функция и выборочный момент k-го порядка являются сильно состоятельными, несмещенными оценками соответственно для F (·), g(·) и αk . Причем для вариаций оценок справедливы следующие соотношения: V {F̂ (x)} = E{(F̂ (x) − F (x))2 } = F (x)(1 − F (x)) , n V {α̂k } = α2k − α2k . n Доказательство. Для каждой из трех статистик доказательство проводится однотипно. Рассмотрим первую из статистик и по (11.5) представим ее в эквивалентном виде: n 1X F̂ (x) = ξj , ξj = 1(x 1 − xj ), n j=1 где {ξj } – случайные величины Бернулли, независимые в совокупности и одинаково распределенные, так как x – фиксированная величина; {xj } – выборочные значения, независимые в совокупности и одинаково расределенные с функцией распределения F (·). Здесь учтено, что независимость сохраняется при функциональном преобразовании. Вероятность «успеха»: p = P{ξj = 1} = E{ξj } = P{xj < x} = F (x). Выполняются условия усиленного закона больших чисел [30], следовательно, n 1 X п. н. ξj −→ p = F (x), n → +∞. n j=1 Далее E{F̂ (x)} = p = F (x), т. е. оценка является несмещенной. Вариация оценки V {F̂ (x)} = D{F̂ (x)} = p(1 − p) F (x)(1 − F (x)) 1 · n · D{ξ1 } = = . n2 n n ¤ Задание 11.1. Найти вариацию V {ĝ(t)}. Теорема 11.2. Выборочная функция распределения F̂ (x) и выборочный момент ak при n → +∞ являются асимптотически нормально распределенными статистиками, причем справедливы соотношения: 1) если 0 < F (x) < 1, то ( ) √ F̂ (x) − F (x) P np < z → Φ(z), n → +∞, z ∈ R, F (x)(1 − F (x)) где Φ(·) – функция распределения вероятностей стандартного нормального закона N1 (0, 1); 11.2. ВЫБОРОЧНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ 257 2) если момент порядка 2k ограничен: α2k < +∞, и α2k − α2k > 0, то P ( √ ak − αk np <z α2k − α2k ) → Φ(z), n → +∞, z ∈ R. Доказательство. Первое утверждение основано на теореме Муавра – Лапласа, второе – на центральной предельной теореме (ЦПТ) Леви – Линдеберга (см. п. 5.8). ¤ Задание 11.2. Исследовать статистику gn (t) = Re(gn (t)) + i · Im(gn (t)) на асимптотическую нормальность, применив многомерный аналог ЦПТ из п. 5.8 к (Re(gn (t)), Im(gn (t)))T ∈ R2 . d Рассмотрим теперь задачу оценивания плотности распределения f (x) = F (x), dx T x ∈ R, по выборке X = (x1 , . . . , xn ) . Используя принцип «plug-in», построим подстаноd вочную оценку f˜(x) = Fn (x). Легко видеть, что эта оценка неконструктивна: dx ½ n 1X 0, x ∈ / {x1 , . . . , xn }; f˜(x) = δ(x − xj ) = не существует, x ∈ {x1 , . . . , xn }. n j=1 Укажем другой способ статистического оценивания плотности f (x). Полагаем, что носителем плотности f (·) является [x− , x+ ], т. е. плотность распределения f (x) сосредоточена на отрезке [x− , x+ ], вне его она равна нулю. Зададим некоторое натуральное число K ⩾ 2 и осуществим разбиение [x− , x+ ) на K частей точками деления: x− = b0 < b1 < . . . < bK = x+ ; k-й ячейкой гистограммы назовем числовой промежуток Γk = [bk−1 , bk ), k = 1, . . . , K. Введем следующие обозначения: ∆k = µ(Γk ) = bk − bk−1 – n X «размер» (мера Лебега) k-й ячейки, νk = 11Γk (xj ) – число выборочных значений, j=1 попавших в k-ю ячейку. Определение 11.10. Гистограммой, или гистограммной оценкой плотности f (x), называется статистика K X νk fˆ(x) = 11Γk (x), x ∈ R. n∆ k k=1 График гистограммы с наложенным графиком истинной плотности распределения приведен на рис. 11.3. Рис. 11.3. Гистограмма Заметим, что гистограмма, как и плотность распределения, удовлетворяет условию нормировки ∞ ∞ Z Z fˆ(x)dx = f (x)dx = 1. −∞ −∞ 258 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Отметим также, что гистограмма есть, вообще говоря, смещенная и несостоятельная оценка плотности распределения. Для ее состоятельности необходимо, чтобы при n → +∞ ячейки «измельчались» специальным образом: K = Kn → +∞, max ∆k → 0. 1⩽k⩽Kn 11.3. ПОРЯДКОВЫЕ СТАТИСТИКИ, ИХ СВОЙСТВА И ПРИМЕНЕНИЕ В ТЕОРИИ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ Пусть X = (x1 , . . . , xn )T ∈ Rn – наблюдаемая случайная выборка объема n из некоторого абсолютно непрерывного распределения вероятностей с функцией распределения d F (x) и плотностью распределения f (x) = F (x), x ∈ R. Упорядочивая выборочные dx значения по возрастанию, построим вариационный ряд : x(1) ⩽ x(2) ⩽ . . . ⩽ x(n) , где x(j) – j-е по величине выборочное значение, которое называется j-й порядковой статистикой. В частности, x(1) = min xk , x(n) = max xk – минимальное и максимальное 1⩽k⩽n 1⩽k⩽n выборочные значения. Найдем распределение вероятностей j-й порядковой статистики L{x(j) }. Введем в рассмотрение неполную бета-функцию: Zy Γ(a + b) a−1 B(y; a, b) = t (1 − t)b−1 dt; Γ(a)Γ(b) (11.8) 0 0 ⩽ y ⩽ 1, a ⩾ 1, b ⩾ 1; B(1; a, b) ≡ 1. Неполная бета-функция (11.8) связана с биномиальным распределением вероятностей: n X B(p; a, n − a + 1) = Cnk pk (1 − p)n−k . (11.9) k=a Теорема 11.3. Пусть x(j) – j-я порядковая статистика (j ∈ {1, . . . , n}), построенная по случайной выборке X объема n из некоторого распределения вероятностей с абсолютно непрерывной функцией распределения F (x) и плотностью распределения d f (x) = F (x), тогда функция распределения и плотность распределения этой порядdx ковой статистики задаются следующими соотношениями: Fx(j) (x) = B(F (x); j, n − j + 1), x ∈ R; n! (F (x))j−1 (1−F (x))n−j f (x). (j − 1)!(n − j)! Доказательство. Действуем по определению: px(j) (x) = Fx(j) (x) = P{x(j) < x} = P{Ln (x) ⩾ j}, где Ln (x) = n X i=1 1(x 1 − xi ) = n X i=1 ξi . (11.10) (11.11) (11.12) (11.13) 11.3. ПОРЯДКОВЫЕ СТАТИСТИКИ 259 В (11.13) ξi = 1(x−x 1 i ), i = 1, . . . , n, – независимые в совокупности, одинаково распределенные случайные величины Бернулли с вероятностью «успеха» p = P{ξi = 1} = = P{xi < x} = F (x). Следовательно, Ln (x) – сумма n случайных величин Бернулли – распределена по биномиальному закону L{Ln (x)} = Bi(n, F (x)): P{Ln (x) = k} = Cnk (F (x))k (1 − F (x))n−k , k = 0, 1, . . . , n. Далее по (11.12) и (11.9) имеем Fx(j) (x) = n X P{Ln (x) = k} = k=j n X Cnk (F (x))k (1 − F (x))n−k = k=j = B(F (x); j, n − j + 1), что совпадает с (11.10). Соотношение (11.11) получаем дифференцированием (11.10) с учетом (11.8). ¤ Следствие 11.1. Распределение вероятностей первой порядковой статистики L{x(1) } задается соотношениями: Fx(1) (x) = 1 − (1 − F (x))n , px(1) (x) = n(1 − F (x))n−1 f (x). Доказательство. Полагая в (11.10) и (11.11) j = 1 и используя условие нормировки для биномиального распределения, получаем требуемые результаты. ¤ Следствие 11.2. Распределение вероятностей n-й порядковой статистики L{x(n) } задается соотношениями: Fx(n) (x) = (F (x))n , px(n) (x) = n(F (x))n−1 f (x). Теорема 11.4 (о распределении r порядковых статистик). Совместная плотность распределения вероятностей r ⩾ 2 порядковых статистик x(j1 ) , x(j2 ) , . . . , x(jr ) , 1 ⩽ j1 < j2 < . . . < jr ⩽ n, имеет вид px(j ) , ... ,x(j ) (z1 , . . . , zr ) = 1 = r n! × (j1 − 1)!(j2 − j1 − 1)! . . . (jr − jr−1 − 1)!(n − jr )! ×F j1 −1 (z1 )(F (z2 ) − F (z1 ))j2 −j1 −1 · . . . · (1 − F (zr ))n−jr f (z1 ) · . . . · f (zr ), −∞ < z1 < z2 < . . . < zr < ∞. Следствие 11.3. Совместная плотность распределения вероятностей всех n порядковых статистик имеет вид px(1) , ... ,x(n) (z1 , . . . , zn ) = n!f (z1 ) · . . . · f (zn ), z1 < . . . < zn . Задание 11.3. Доказать следствие 11.2, теорему 11.4 и следствие 11.3. Напомним понятие p-квантили, введенное в п. 3.11. Определение 11.11. Для некоторого p (0 < p < 1) p-квантилью функции распределения F (·) называется наименьший корень уравнения F (ζ) = p, обозначаемый через ζp (ζp ∈ R). 260 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Определение 11.12. Выборочной p-квантилью, вычисленной по выборке X, называется статистика ½ x(k) , np = k – целое, Zp = Zp (X) = (11.14) x(k+1) , k < np < k + 1. Отметим, что из (11.14), (11.5) следует Fn (Zp ) = p + O(1/n). Из данных определений и свойства состоятельности выборочной функции распределения имеем также состояP тельность выборочной p-квантили: Zp → tζp , n → +∞. Из теоремы 11.3 можно найти точный вид распределения L{Zp }. Для исследования асимптотических свойств выборочной p-квантили исследуем свойства L{Zp } при n → ∞. Теорема 11.5 (о распределении выборочной квантили). Пусть выполнены условия теоремы 11.3, ζp – p-квантиль (0 < p < 1), плотность f (x) – непрерывно дифференцируема в окрестности точки x = ζp , причем f (ζp ) > 0, тогда выборочная p-квантиль Zp при n → ∞ распределена асимптотически нормально: ) ( √ Z p − ζp L np f (ζp ) → N1 (0, 1). (11.15) p(1 − p) Доказательство. Введем в рассмотрение нормированную p-квантиль: ηn = √ Z p − ζp np f (ζp ), p(1 − p) (11.16) тогда утверждение (11.15) можно переписать в эквивалентном виде: Fηn (y) = P{ηn < y} → Φ(y), y ∈ R. Рассмотрим в (11.14) случай np = k, k = p. n (11.17) Согласно (11.14) в этом случае Zp = x(k) . (11.18) Заметим, что случай, когда k < np < k + 1 и, следовательно, Zp = x(k+1) , рассматривается аналогично. Предполагая (11.17), используя (11.18) и (11.16), получаем ( ) √ x(k) − ζp Fηn (y) = P np f (ζp ) < y = P{x(k) < yn }, y ∈ R, p(1 − p) где p p(1 − p) . yn = ζp + y √ nf (ζp ) (11.19) Воспользуемся очевидным свойством выборочной функции распределения Fn (·): ½ ¾ k Fηn (y) = P{x(k) < yn } = P Fn (yn ) ⩾ = P {Fn (yn ) ⩾ p} = n ( ) √ √ Fn (yn ) − F (yn ) p − F (yn ) =P np ⩾ np . (11.20) F (yn )(1 − F (yn )) F (yn )(1 − F (yn )) 11.3. ПОРЯДКОВЫЕ СТАТИСТИКИ 261 Исследуем асимптотическое поведение (n → +∞) знаменателя в (11.20). Из (11.19) имеем µ ¶ 1 yn = ζp + O √ , yn → ζp , F (yn ) → F (ζp ) = F (F −1 (p)) = p, n поэтому p p F (yn )(1 − F (yn )) → p(1 − p). Проанализируем числитель в (11.20), пользуясь линейной формулой Тейлора: µ µ µ ¶¶¶ √ √ 1 n(p − F (yn )) = n p − p + f (ζp )(yn − ζp ) + O = n p ¶ ¶ µ µ p √ y p(1 − p) 1 1 = − nf (ζp ) √ +O √ = −y p(1 − p) + O √ . nf (ζp ) n n Таким образом, переходя к пределу, из (11.20) в силу асимптотической нормальности Fn (·) получаем à p ! y p(1 − p) Fηn (y) → 1 − Φ − p = Φ(y), n → +∞. p(1 − p) ¤ Определение 11.13. Если при n → ∞ для некоторой статистической оценки Tn = Tn (X) некоторого параметра θ выполняется предельное соотношение: ½ ¾ Tn − θ P < y → Φ(y), y ∈ R, √ vn где vn → 0, то принято говорить, что Tn является асимптотически нормальной оценкой параметра θ, а vn называется асимптотической дисперсией этой оценки. Следствие 11.4. Выборочная p-квантиль Zp = Zp (X), определенная в (11.14), является состоятельной и асимптотически нормальной оценкой квантили ζp = F −1 (p), причем ее асимптотическая дисперсия vn = p(1 − p) → 0, n → +∞. nf 2 (ζp ) При p = 1/2 квантиль m ::= ζ1/2 = F −1 (1/2) называется медианой распределения вероятностей, а Z1/2 – соответственно выборочной медианой. Пользуясь теоремой 11.5, можно найти асимптотическое распределение для выборочной медианы, учитывая, что ½ x(k) , n = 2k, m̂ ::= Z1/2 = (11.21) x(k+1) , n = 2k + 1. Если n = 2k четно, то существует еще одно определение выборочной медианы: x(k) + x(k+1) m̂ ::= Z̃1/2 = . (11.22) 2 При n → ∞ свойства выборочных медиан (11.21) и (11.22) эквивалентны. Следствие 11.5. Если f (m) > 0, то Z1/2 , Z̃1/2 являются состоятельными, асимптотически несмещенными и асимптотически нормальными оценками истинного значения медианы m = ζ1/2 с асимптотической дисперсией vn = 4nf 2 1 ¡ ¢. ζ1/2 (11.23) 262 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Следствие 11.6. Если X = {x1 , . . . , xn } – случайная выборка объема n из гауссовского распределения вероятностей N1 (θ, σ2 ), то медиана совпадает с математическим ожиданием: m = θ, а выборочная медиана m̂ = Z1/2 является состоятельной и асимптотически нормальной оценкой истинного значения m = θ с асимптотической дисперсией π σ2 vn = . 2 n Доказательство. Этот результат непосредственно следует из п. 11.23 при подста√ новке f (θ) = 1/ 2πσ. ¤ Задание 11.4. Сравнить по асимптотической дисперсии две статистические оценки n 1X параметра θ по выборке X объема n из N1 (θ, σ2 ): выборочное среднее x = xk и n k=1 выборочную медиану m̂ = Z1/2 . Замечание 11.3. Выборочная медиана m̂ = Z1/2 считается более предпочтительной, чем выборочное среднее x, оценкой математического ожидания θ = E{xk } по отношению к распределениям вероятностей с «хвостами», более «тяжелыми», чем у нормального Так, для распределения Лапласа с плотностью f (x) = ! à распределения. √ 2 1 = √ exp − |x − θ| , убывающей на «хвостах» (при |x| → +∞) «значительно» σ 2σ µ ¶ 1 (x − θ)2 медленнее, чем плотность f (x) = √ нормального распределения exp − 2σ2 2πσ N1 (θ, σ2 ) с теми же значениями математического ожидания θ и дисперсии σ2 , выборочная медиана оказывается оценкой максимального правдоподобия для θ (п. 11.7), а выборочное среднее является таковой в случае распределения N1 (θ, σ2 ) (см. п. 11.7). Выборочная медиана обладает свойством робастности (см. п. 11.12). Задание 11.5. После ознакомления с п. 11.7 показать, что выборочная медиана m̂ = Z1/2 является оценкой максимального правдоподобия для математического ожидания распределения Лапласа. 11.4. РАНГОВЫЕ СТАТИСТИКИ И ИХ СВОЙСТВА Пусть X = (x1 , . . . , xn )T ∈ Rn – случайная выборка объема n из некоторого одномерного абсолютно непрерывного распределения вероятностей с функцией распределения d F (x) = P{xj < x}, x ∈ R, и плотностью распределения f (x) = F (x). dx Для выборки-вектора X ∈ Rn , у которого никакие две координаты не совпадают, обозначим ri = ri (X) – число координат, не превосходящих xi , т. е. номер xi в вариационном ряду x(1) < x(2) < . . . < x(n) . Обозначим еще Πn – множество n! всевозможных перестановок из n элементов множества {1, 2, . . . , n}. Определение 11.14. Статистика ri = ri (X) : Rn → {1, 2, . . . , n} называется рангом i-го выборочного значения xi . Вектор-столбец r = (r1 , r2 , . . . , rn )T ∈ Πn называется вектором рангов. Заметим, что это определение рангов корректно, если только вероятность совпадения для любой пары выборочных значений равна нулю. Это свойство для выборки X выполняется, так как по предположению F (·) – абсолютно непрерывная функция распределения. 263 11.4. РАНГОВЫЕ СТАТИСТИКИ И ИХ СВОЙСТВА n Лемма 11.1. Пусть X ∈ R – выборка из некоторого абсолютно непрерывного распределения, r = (r1 , . . . , rn )T ∈ Πn – ранговый вектор, а X(·) = (x(1) , . . . , x(n) )T – вектор n порядковых статистик, тогда X и статистики {X(·) , r} находятся во взаимнооднозначном соответствии. Доказательство. Если выборка X задана, то X(·) и r находятся единственным образом. Покажем, что справедливо и обратное. Действительно, если заданы X(·) , r, то выборка X = (x1 , . . . , xn )T однозначно восстанавливается согласно соотношению xi = x(ri ) , i = 1, . . . , n. (11.24) ¤ Теорема 11.6. Если выборка X = (x1 , . . . , xn )T есть случайный n-вектор с некоторой n-мерной плотностью q(x1 , . . . , xn ), то статистика X(·) имеет плотность X q(·) (y(1) , . . . , y(n) ) = q(y(j1 ) , . . . , y(jn ) ), J=(j1 ,...,jn )T ∈Πn y(1) < . . . < y(n) . (11.25) Условное распределение рангового вектора r при фиксированном векторе порядковых статистик имеет следующий вид: ¡ ¢ © ª q y(j1 ) , . . . , y(jn ) T T P r = (j1 , . . . , jn ) | X(·) = (y(1) , . . . , y(n) ) = , q(·) (y(1) , . . . , y(n) ) J = (j1 , . . . , jn )T ∈ Πn , y(1) < . . . < y(n) . (11.26) Доказательство. Обозначим: A – σ-алгебра борелевских подмножеств, порожденных n-векторами (y(1) , . . . , y(n) )T с упорядоченными (в порядке возрастания) компонентами. Тогда, используя лемму 11.1, по свойству кратного интеграла для любого A ∈ A имеем выражение вероятностной меры: Z X Z P{X(·) ∈ A} = q(y1 , . . . , yn )dy1 · . . . · dyn = q(y1 , . . . , yn )dy1 · . . . · dyn = J∈Πn X(·) ∈A = X Z r=J X(·) ∈A Z q(y(j1 ) , . . . , y(jn ) )dy(j1 ) · . . . · dy(jn ) = q(·) (y(1) , . . . , y(n) )dy(1) · . . . · dy(n) . J∈Πn A A Здесь учтено, что при фиксированном r преобразование (11.24) линейно и имеет единичный якобиан. Из последнего соотношения следует, что q(·) (·) вида (11.25) является плотностью распределения вероятностей X(·) . Рассуждая аналогично, для любых J ∈ Πn , A ∈ A получаем Z P{r = J, X(·) ∈ A} = q(y1 , . . . , yn )dy1 · . . . · dyn = r=J,X(·) ∈A Z = Z = A q(y(j1 ) , . . . , y(jn ) )dy(j1 ) · . . . · dy(jn ) = A q(y(j1 ) , . . . , y(jn ) ) q(·) (y(1) , . . . , y(n) )dy(1) · . . . · dy(n) . q(·) (y(1) , . . . , y(n) ) Отсюда и вытекает (11.26). ¤ 264 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Следствие 11.7. Если X ∈ Rn – случайная выборка объема n из некоторого абсолютно непрерывного распределения вероятностей с плотностью f (x), x ∈ R, то ранговый вектор r = (r1 , . . . , rn )T ∈ Πn и вектор порядковых статистик X(·) = = (x(1) , . . . , x(n) )T независимы. Ранговый вектор имеет равномерное распределение: P{r = J} = 1 , n! J ∈ Πn , (11.27) а плотность распределения X(·) имеет вид (см. следствие 11.3): qX(·) (y(1) , . . . , y(n) ) = n!f (y(1) ) · . . . · f (y(n) ), (y(1) , . . . , y(n) )T ∈ A. (11.28) Доказательство. По определению случайной выборки имеем q(x1 , . . . , xn ) = n Y f (xi ), x1 , . . . , xn ∈ R. i=1 Подставляя это выражение в (11.25), (11.26) и учитывая симметричность функции q(·), получаем (11.27), (11.28) и независимость r, X(·) . ¤ Ранговые статистики широко используются в непараметрической статистике. Например, проверка случайности выборки (независимости выборочных значений и их одинаковой распределенности) сводится к проверке факта равномерности распределения вероятностей (11.27) рангового вектора. 11.5. НЕРАВЕНСТВО ИНФОРМАЦИИ. НЕРАВЕНСТВО КРАМЕРА – РАО. ЭФФЕКТИВНЫЕ ОЦЕНКИ Как отмечалось ранее, оптимальную статистическую оценку θ̂ = T (X) для параметра θ ∈ R целесообразно строить исходя из критерия минимума вариации оценки: V {T (·)} = E{(T (X) − θ)2 } → min . T (·) В этом параграфе выясним, чему равен минимум вариации: V ∗ = minT (·) V {T (·)}. Если бы V ∗ = 0, то среднеквадратическая ошибка была бы нулевой, и оценка явп. н. лялась бы точной: θ̂ = θ. Но этот результат, оказывается, удается достичь лишь в вырожденных случаях. Далее будет показано, что вариация оценки ограничена снизу положительным числом: V ∗ ⩾ ², ² = ²(In ) > 0, где In – величина, определяющая количество информации, содержащейся в выборке X объема n о параметре θ. 11.5.1. Информационная матрица Фишера и ее свойства Сформулируем задачу статистического оценивания параметров в общем виде: пусть наблюдается выборка X = (xT1 , . . . , xTn )T ∈ RnN объема n из некоторого N -мерного распределения вероятностей с плотностью распределения p(x; θ), x ∈ RN , где θ = = (θ1 , . . . , θm )T ∈ Θ ⊆ Rm – неизвестное истинное значение векторного параметра, подлежащее оцениванию по X. 11.5. НЕРАВЕНСТВО ИНФОРМАЦИИ. ЭФФЕКТИВНЫЕ ОЦЕНКИ Обозначим: p(X; θ) = n Y p(xl ; θ), X ∈ RnN , – 265 (11.29) l=1 совместная плотность распределения выборки X, если параметр равен θ; P = {p(x; θ), x ∈ RN : θ ∈ Θ ⊆ Rm } – параметрическое семейство плотностей; Z Eθ {ψ(xl )} = ψ(x)p(x; θ)dx – RN математическое ожидание, вычисленное при истинном значении параметра θ. Аналогично: Z Eθ {Ψ(X)} = Ψ(X)p(X; θ)dX – RnN усреднение по распределению выборки при значении параметра θ; ∂p(x; θ) ∂θ1 .. ∈ Rm – градиент функции по θ в точке x; ∇θ p(x; θ) = . ∂p(x; θ) ∂θm ¶m µ 2 ∂ p(x; θ) 2 − (m × m) − матрица вторых производных. ∇θ p(x; θ) = ∂θj ∂θk j,k=1 Определение 11.15. Параметрическое семейство плотностей распределения вероятностей P называется регулярным, если выполнены следующие условия регулярности. R1. p(x; θ) – дважды дифференцируема по θ, ∀θ ∈ Θ, ∀x ∈ RN . R2. Существуют конечные математические ожидания: (µ ¯¾ ¶2 ) ½¯ 2 ¯ ∂ ln p(xl ; θ) ¯ ∂ ln p(xl ; θ) ¯ < +∞, ¯ Eθ < +∞, Eθ ¯ ∂θj ∂θj ∂θk ¯ j, k = 1, . . . , m, θ ∈ Θ, l = 1, . . . , n. R3. Допускается перестановка действий ∇jθ – дифференцирования j-го порядка по θ и интегрирования по X ∈ RnN : Z Z ∇jθ Ψ(X)p(X; θ)dX = Ψ(X)∇jθ p(X; θ)dX, j = 1, 2. RnN RnN Для формулировки четвертого условия регулярности введем некоторые дополнительные понятия. Определение 11.16. Информационной матрицей Фишера для l-го выборочного значения xl называется (m × m)-матрица I = (ijk )m j,k=1 , элементы которой вычисляются по формуле ¾ ½ ∂ ln p(xl ; θ) ∂ ln p(xl ; θ) · , j, k = 1, . . . , m, ijk = Eθ ∂θj ∂θk 266 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ или в матричном виде: I = Eθ {∇θ ln p(xl ; θ)(∇θ ln p(xl ; θ))T }. (11.30) Определение 11.17. Информационной матрицей Фишера для случайной выборки X объема n называется (m × m)-матрица In = Eθ {∇θ ln p(X; θ)(∇θ ln p(X; θ))T }. (11.31) Заметим, что математические ожидания в (11.30) и (11.31) существуют в силу условия R2. R4. Информационная матрица Фишера невырождена: |I| 6= 0 (|In | 6= 0). Следствие 11.8. Если выполнены условия регулярности R1–R4, то справедливо тождество Eθ {∇θ ln p(X; θ)} ≡ 0m . Доказательство. В силу (11.31), условия R3 при j = 1 и условия нормировки имеем ½ ¾ 1 Eθ {∇θ ln p(X; θ)} = Eθ ∇θ p(X; θ) = p(X; θ) Z Z Z 1 = ∇θ p(X; θ)p(X; θ)dX = ∇θ p(X; θ)dX = ∇θ p(X; θ)dX = ∇θ 1 = 0m . p(X; θ) RnN RnN RnN ¤ Свойства информационной матрицы Фишера C1. Информационная матрица Фишера – симметричная матрица: I = IT (In = ITn ). Доказательство. Следует из определений для информационных матриц (11.30), (11.31). ¤ C2. Для вычисления информационной матрицы Фишера могут быть использованы следующие формулы: © ª I = Eθ −∇2θ ln p(xl ; θ) ; (11.32) © ª 2 In = Eθ −∇θ ln p(X; θ) . (11.33) Доказательство. Докажем (11.32) (формула (11.33) доказывается аналогично). Пусть l ∈ {1, . . . , n} – произвольный номер случайного выборочного наблюдения xl ∈ RN . Вычислим и преобразуем правую часть (11.32) с использованием условий регулярности R1–R4 и свойств математического ожидания Eθ {·}: ½ µ ¶¾ 1 Eθ {−∇2θ ln p(xl ; θ)} = Eθ −∇θ ∇θ p(xl ; θ) = p(xl ; θ) ½ ¾ ½ ¾ 1 1 T 2 = Eθ ∇θ p(xl ; θ)(∇θ p(xl ; θ)) ∇ p(xl ; θ) = − Eθ (p(xl ; θ))2 p(xl ; θ) θ Z ª © 1 = Eθ ∇θ ln p(xl ; θ)(∇θ ln p(xl ; θ))T − ∇2 p(x; θ)p(x; θ)dx = p(x; θ) θ RN Z Z =I− ∇2θ p(x; θ)dx = I − ∇2θ p(x; θ)dx = I − ∇2θ 1 = I. RN RN ¤ 11.5. НЕРАВЕНСТВО ИНФОРМАЦИИ. ЭФФЕКТИВНЫЕ ОЦЕНКИ 267 C3. Информационная матрица Фишера In для всей выборки X объема n линейно зависит от n: In = nI. Доказательство. Воспользуемся соотношениями (11.33) и (11.29): ( ) n n Y X 2 In = Eθ −∇θ ln p(xl ; θ) = Eθ {−∇2θ ln p(xl ; θ)} = nI. l=1 l=1 ¤ C4. Информационная матрица Фишера I есть ковариационная матрица для случайного вектора ∇θ ln p(xl ; θ) ∈ Rm . Доказательство. По определению ковариационной матрицы имеем cov{∇θ ln p(xl ; θ), ∇θ ln p(xl ; θ)} = = Eθ {(∇θ ln p(xl ; θ) − Eθ {∇θ ln p(xl ; θ)})× ×(∇θ ln p(xl ; θ) − Eθ {∇θ ln p(xl ; θ)})T } = = Eθ {∇θ ln p(xl ; θ)(∇θ ln p(xl ; θ))T } = I, где учтено, что в силу следствия 11.8 Eθ {∇θ ln p(xl ; θ)} ≡ 0m . ¤ C5. Информационная матрица Фишера I в условиях регулярности R1–R4 есть матрица положительно определенная: I  0. Доказательство. В силу свойства C4 I – ковариационная матрица, а любая ковариационная матрица является неотрицательно определенной: I º 0. Согласно условию регулярности R4 |I| 6= 0, поэтому I  0. ¤ 11.5.2. Неравенство информации и его следствия. Эффективные оценки Прежде чем определить понятие эффективности статистической оценки, получим так называемое неравенство информации. Теорема 11.7 (неравенство информации). Пусть θ̂ = (θ̂k )m k=1 = T (X) = m = (Tk (X))m ∈ R – произвольная несмещенная статистическая оценка векторного k=1 m параметра θ = (θk )m ∈ R по случайной выборке X объема n из некоторого N -мерного k=1 m T распределения с плотностью p(·; θ) ∈ P, V = (vjk )j,k=1 = E{(θ̂ − θ)(θ̂ − θ) } – матрица вариаций оценки θ̂, а In – информационная матрица Фишера для всей выборки X. Тогда если выполнены условия регулярности R1–R4 для семейства P, то (m × m)-матрица −1 4 = (4jk )m j,k=1 ::= V − In неотрицательно определена: 4 = V − I−1 n º 0. (11.34) Доказательство. Введем в рассмотрение два вспомогательных случайных mвектора: U1 = T (X) − θ = θ̂ − θ – (11.35) случайное уклонение оценки θ̂; U2 = ∇θ ln p(X; θ). (11.36) 268 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Вычислим моменты первого и второго порядка для этих случайных векторов. В силу несмещенности оценки θ̂ Eθ {U1 } = 0m , (11.37) а из следствия 11.8 имеем Eθ {U2 } = 0m . (11.38) Вычислим ковариации для векторов (11.35) и (11.36): Aij = cov{Ui , Uj } = Eθ {Ui UjT }, i, j = 1, 2. Согласно (11.35), (11.36) имеем A11 = V, A22 = In , A21 = AT12 , © ª © ª © ª A12 = Eθ (T (X) − θ)U2T = Eθ T (X)U2T − θEθ U2T = ¾ ½ © ª 1 (∇θ p(X; θ))T = = Eθ T (X)(∇θ ln p(X; θ))T = Eθ T (X) p(X; θ) Z 1 = (∇θ p(X; θ))T dx = p(X; θ)T (X) p(X; θ) RnN Z = ∇θ T (X)p(X; θ)dX = ∇θ θ = Im , RnN где Im – единичная (m × m)-матрица. При помощи линейного преобразования над случайными векторами U1 , U2 построим случайный вектор −1 m Ξ = (ξk )m (11.39) k=1 = U1 − In U2 ∈ R . Из (11.37), (11.38) и (11.39) очевидно, что Eθ {Ξ} = 0m . Вычислим ковариационную матрицу для случайного вектора Ξ: n¡ © ª ¢¡ ¢T o −1 cov{Ξ, Ξ} = Eθ ΞΞT = Eθ U1 − I−1 U U − I U = 2 1 2 n n −1 T −1 −1 = A11 − A12 I−1 n − In A12 + In A22 In = −1 −1 −1 −1 = V − I−1 n − In + In In In = V − In = 4. Таким образом, 4 = cov{Ξ, Ξ}, а любая ковариационная матрица неотрицательно определена, следовательно, 4 º 0. ¤ ½³ ´2 ¾ Следствие 11.9. Вариация vkk = E θ̂k − θk оценки θ̂k = Tk (X) для параметра θk ограничена снизу положительным числом (k ∈ {1, . . . , m}): ¡ ¢ vkk ⩾ I−1 n kk > 0, (11.40) причем нижняя граница для вариации достигается тогда и только тогда, когда ∃dk1 , . . . , dkm ∈ R такие, что справедливо равенство п. н. Tk (X) − θk = m X j=1 dkj ∂ ln p(X; θ) . ∂θj При этом если (11.41) выполняется, то ¡ ¢ dkj = I−1 n kj , j = 1, . . . , m. (11.41) 269 11.5. НЕРАВЕНСТВО ИНФОРМАЦИИ. ЭФФЕКТИВНЫЕ ОЦЕНКИ Доказательство. Из теоремы 11.7 следует: ¡ ¢ ¡ −1 ¢ 4kk = V − I−1 n kk = vkk − In kk ⩾ 0, что приводит к (11.40). Неравенство (11.40) обращается в равенство тогда и только тогда, когда 4kk = E{ξ2k } = 0, а это, в свою очередь, равносильно тому, что ξk = п. н. = (T (X) − θ − I−1 ¤ n ∇θ ln p(X; θ))k = 0, что и означает (11.41). Следствие 11.10. Определитель матрицы вариаций ограничен снизу положительным числом: 1 |V | ⩾ > 0. (11.42) |In | Доказательство. Воспользуемся (11.34): 4 = V − I−1 n º 0. Умножим 4 слева на ³ ´T 1/2 1/2 1/2 , а справа – на матрицу In , где In – решение матричного уравнения матрицу In µ ³ ´T ¶ 1/2 1/2 Y T I−1 Y = I относительно Y I = I I [34, 11]. Для получившейся неотриn n m n n цательно определенной матрицы определим спектр собственных значений {λ1 , . . . , λm }. Составим характеристическое уравнение: ¯ ³¡ ¯ ´ ¯ 1/2 ¢T ¯ V I1/2 ¯ In n − Im − λj Im ¯ = 0, λj ⩾ 0, j = 1, . . . , m, или, что эквивалентно: ¯¡ ¯ ¯ 1/2 ¢T ¯ V I1/2 − µ I ¯ In ¯ = 0, µj = 1 + λj ⩾ 1, j = 1, . . . , m. j m n ´T ³ 1/2 1/2 При этом {µj }m V In . j=1 – характеристические числа матрицы In Воспользуемся свойством характеристических чисел матрицы и свойством определителя матрицы: m ¯¡ ¯ ¯¡ ¯ Y ¯ 1/2 ¯ ¯ 1/2 ¯ ¯¯¡ 1/2 ¢T ¯¯ ¯ 1/2 ¢T ¯ ¯ 1/2 ¢T ¯ ¯ ¯ ¯ ¯ V I1/2 = I |V | I = I I |V | = |I ||V | = µj ⩾ 1, ¯ In ¯ ¯ ¯ ¯ ¯ n n n n n n j=1 ¤ откуда и следует (11.42). Определение 11.18. Эффективностью несмещенной статистической оценки θ̂ = T (X) векторного параметра θ ∈ Rm называется величина En = inf T (·) |V | 1 = . |V | |V ||In | Из (11.42) следует, что 0 ⩽ En ⩽ 1. Определение 11.19. Несмещенная оценка θ̂ = T (X) называется эффективной, если ∀θ ∈ Rm , ∀n ⩾ 1 эффективность En = 1, иначе говоря, если неравенство (11.42) обращается в равенство. Следствие 11.11. Если выполнены условия регулярности R1–R4 и θ̂ = T (X) – эффективная оценка, то ее матрица вариаций имеет вид 1 V = I−1 . n Доказательство. Из хода доказательства следствия 11.10 заключаем: µj = 1 ⇒ λj = 0, j = 1, . . . , m. = I−1 Cледовательно, 4 = V n . Отсюда, воспользовавшись свойством информационной матрицы Фишера: In = nI, получаем доказываемое. ¤ − I−1 n = 0m ⇒ V 270 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Следствие 11.12 (критерий эффективности оценки). Для того чтобы в условиях регулярности R1–R4 несмещенная оценка θ̂ = T (X) была эффективной, необходимо и достаточно, чтобы существовала такая положительно определенная матрица D  0, для которой выполняется соотношение п. н. ∇θ ln p(X; θ) = D(T (X) − θ). (11.43) При этом если (11.43) выполняется, то D = In – информационная матрица Фишера для всей выборки. Доказательство. Из определения эффективной оценки и следствия 11.9, а именно из системы соотношений (11.41), имеем п. н. T (X) − θ = I−1 n ∇θ ln p(X; θ). Умножая левую и правую части на In , получаем (11.43). ¤ Следствие 11.13. В условиях регулярности R1–R4 эффективная оценка состоятельна. Доказательство. В силу следствия 11.11: V = 1 −1 I → 0, n → +∞ ⇒ θ̂Pθ. n n ¤ 11.5.3. Неравенство Крамера – Рао Неравенство Крамера – Рао – частный случай неравенства информации, когда оценивается одномерный (скалярный) параметр θ ∈ Θ ⊆ R1 , т. е. m = 1. Полагая m = 1 в первых двух пунктах данного параграфа, упростим ранее введенные обозначения: θ̂ = T (X) : RnN → R1 – некоторая несмещенная статистическая оценка параметра θ; V {θ̂} = Eθ {(θ̂ − θ)2 } ⩾ 0 – вариация оценки θ̂; ¶2 Z 2 Z µ ∂ ln p(x; θ) ∂ ln p(x; θ) I=− p(x; θ)dx = p(x; θ)dx > 0 – ∂θ2 ∂θ RN RN количество информации по Фишеру о параметре θ, содержащейся в отдельном выборочном значении xl ∈ RN (l = 1, . . . , n); In = nI – количество информации по Фишеру о параметре θ, содержащейся во всей выборке X объема n. Теорема 11.8 (неравенство Крамера – Рао). Если плотность распределения p(x; θ) удовлетворяет ранее приведенным условиям регулярности R1–R4, то вариация любой несмещенной статистической оценки θ̂ = T (X) ограничена снизу положительным числом: 1 1 = > 0. (11.44) V {θ̂} ⩾ In nI 11.6. МЕТОД МОМЕНТОВ 271 Доказательство. Положим m = 1 в теореме 11.7 либо в следствии 11.10. ¤ Замечание 11.4. В условиях регулярности при конечном объеме выборки n < +∞ невозможно оценить параметр θ безошибочно, т. е. 1 . nI Замечание 11.5. Увеличивая n, можно достичь наперед заданной точности оценивания, поскольку ² → 0 при n → ∞. Следствие 11.14. Для того чтобы несмещенная оценка θ̂ = T (X) ∈ R1 была эффективной, т. е. чтобы неравенство Крамера – Рао (11.44) обращалось в равенство, необходимо и достаточно, чтобы существовало такое число D > 0 такое, что справедливо соотношение ∂ ln p(X; θ) п. н. = D(T (X) − θ). (11.45) ∂θ При этом если (11.45) выполняется, то D = In = nI. Доказательство. Достаточно положить m = 1 в следствии 11.12. ¤ V {θ̂} ⩾ ² > 0, ² = 11.6. МЕТОД МОМЕНТОВ. ОЦЕНКИ ПО МЕТОДУ МОМЕНТОВ И ИХ СВОЙСТВА Метод моментов – простейший из методов построения статистических оценок, предложенный в 1900 г. английским статистиком К. Пирсоном. Пусть наблюдается случайная выборка X = (x1 , . . . , xn )T ∈ Rn объема n из некоторого, для простоты, одномерного распределения вероятностей с функцией распределения F (x; θ0 ), x ∈ R1 , θ0 ∈ Rm , где θ0 – истинное значение вектора параметров, которое неизвестно. Задача заключается в том, чтобы по выборке X построить статистическую оценку θ̂ = (θ̂1 , . . . , θ̂m )T = T (X) = (T1 (X), . . . , Tm (X))T ∈ Rm . Будем предполагать, что функция распределения F (·; θ) такова, что ∀θ = = (θ1 , . . . , θm )T ∈ Rm существуют начальные моменты этого распределения до m-го порядка включительно. Пусть αk – начальный момент k-го порядка: +∞ Z αk = αk (θ1 , . . . , θm ) ::= Eθ {xkl } = xk dF (x; θ), k = 1, . . . , m. (11.46) −∞ Будем дополнительно предполагать, что функции (11.46) задают взаимно-однозначное и непрерывное функциональное соответствие {θ1 , . . . , θm } ↔ {α1 , . . . , αm }. Если в (11.46) истинные значения моментов известны: α0k = αk (θ01 , . . . , θ0m ), k = 1, . . . , m, то решая систему уравнений αk (θ1 , . . . , θm ) = α0k , k = 1, . . . , m, относительно θ, однозначно определяем θ0 = (θ01 , . . . , θ0m )T . В качестве оценок начальных моментов будем использовать выборочные моменты (11.7): n 1X k α̂k = ak = x , k = 1, . . . , m, n l=1 l для которых ранее в теореме 11.1 была установлена сильная состоятельность: п. н. ak −→ αk , n → +∞, k = 1, . . . , m. Кроме того, эти оценки – несмещенные и асимптотически нормальные. (11.47) 272 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Определение 11.20 (принцип метода моментов). В качестве оценки θ̂ = T (X) надлежит принимать такое значение θ̂ = (θ̂1 , . . . , θ̂m )T , которое является решением системы из m уравнений αk (θ1 , . . . , θm ) = ak , k = 1, . . . , m. (11.48) Построенная таким образом оценка θ̂ = T (X) называется оценкой по методу моментов (ОММ). Теорема 11.9. Пусть функция распределения F (x; θ), x ∈ R1 , θ ∈ Rm , такова, что: 1) существуют начальные моменты αk = αk (θ), k = 1, . . . , m; 2) функциональное отображение α = α(θ) : Rm → Rm , задаваемое формулой (11.46), является взаимно-однозначным и непрерывным. Тогда ОММ θ̂ = T (X), определяемая (11.48), является состоятельной оценкой, т. е. имеет место сходимость по вероятности P θ̂ → θ0 , n → +∞. Доказательство. Результат теоремы вытекает из (11.47) и известного свойства P сходимости по вероятности: если ξn → ξ, n → +∞, и f (·) – непрерывная функция, то P f (ξn ) → f (ξ), n → +∞. ¤ Замечание 11.6. Если ∇θ α(θ)|θ=θ0 6= 0m , то ОММ θ̂ – асимптотически нормальная оценка. Замечание 11.7. Несмещенность и эффективность оценок по методу моментов в общем случае показать не удается. Они не обладают высокой точностью и на практике используются как начальные приближения. Задание 11.6. Наблюдается выборка X = (x1 , . . . , xn )T ∈ Rn из нормального распределения N1 (θ0 , σ2 ), где математическое ожидание θ0 ∈ R1 неизвестно, а дисперсия σ2 > 0 известна. Показать, что ОММ для θ0 имеет вид n θ̂ = T (X) = a1 = x = 1X xl . n l=1 11.7. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ И ЕГО СВОЙСТВА 11.7.1. Принцип максимального правдоподобия Метод максимального правдоподобия был предложен в 1930 г. английским статистиком Р. Фишером. Этот метод является универсальным для построения статистических оценок. Рассмотрим задачу статистического оценивания параметров в общем виде. Пусть наблюдается случайная выборка X = (xT1 , . . . , xTn )T ∈ RnN объема n из некоторого N мерного распределения вероятностей с плотностью распределения p(x; θ0 ), x ∈ RN , где θ0 = (θ01 , . . . , θ0m )T ∈ Θ ⊆ Rm – неизвестное истинное значение вектора параметров. Обозначим: Θ∗ – замыкание области Θ. Определение 11.21. Функцией правдоподобия Фишера называется плотность распределения выборки X, причем X считается фиксированной, а вектор параметров θ ∈ Θ∗ – переменной величиной: L = L(θ) ::= p(X; θ) = n Y k=1 p(xk ; θ) ⩾ 0, θ ∈ Θ∗ . (11.49) 11.7. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ И ЕГО СВОЙСТВА 273 Логарифмической функцией правдоподобия Фишера называется функция l = l(θ) ::= ln L(θ) = n X ln p(xk ; θ), θ ∈ Θ∗ . (11.50) k=1 В случае дискретного распределения вероятностей P (z; θ) = Pθ {xk = z}, z ∈ Z = = {z1 , . . . , zM }, функция правдоподобия строится аналогично (11.49): L(θ) = n Y P (xk ; θ), θ ∈ Θ∗ . (11.51) k=1 Выясним содержательный смысл функции правдоподобия. Из (11.51) видно, что L(θ) – это вероятность получить выборку X в предположении, что параметр равен θ. Эта величина рассматривается как степень правдоподобия зарегистрированной выборки X при данном θ (рис. 11.4) или степень правдоподобия θ при данной X. Рис. 11.4. Функция правдоподобия Если L(θ∗∗ ) > L(θ∗ ), то для данной выборки X значение параметра θ = θ∗∗ более правдоподобно, чем θ∗ . Пример 11.3. Менеджеру компьютерной фирмы предложили партию чипов. Поставщик утверждает, что доля годных чипов в этой партии составляет 95 %, т. е. θ0 = 0,95. У менеджера есть предположение, что на самом деле θ0 = 0,7. Чтобы разрешить этот спор, решено провести следующий эксперимент: открывают контейнер, наудачу выбирают n = 3 коробки и проверяют чипы до обнаружения первого брака. Допустим, x1 = 4, x2 = 6, x3 = 3 (xk – число извлеченных небракованных чипов до первого обнаружения брака из k-й коробки). Что же более правдоподобно: предположение поставщика или менеджера? Решение. Извлечение чипов – схема независимых испытаний Бернулли (см. п. 1.9). Случайная величина xk – случайное число попыток до первой неудачи (обнаружения первого брака в данном случае) – имеет следующее распределение вероятностей (известное как геометрическое распределение): Pθ {xk = z} = θz (1 − θ), z = 0, 1, 2, . . . ; θ ∈ Θ∗ = {0,95; 0,7}. Построим функцию правдоподобия (11.51): L(θ) = 3 Y ¡ ¢ θxk (1 − θ) = (1 − θ)3 θ13 ; k=1 L(0,95) = 6,4 · 10−5 , L(0,7) = 2,6 · 10−4 . Таким образом, предположение менеджера более правдоподобно, чем утверждение поставщика. 274 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Определение 11.22 (принцип максимума правдоподобия). В качестве статистической оценки параметра θ0 надлежит использовать такое значение θ̂ = T (X), при котором функция правдоподобия (11.49) (или (11.51)) достигает максимума: L(θ̂) = max∗ L(θ), θ̂ = arg max∗ L(θ), θ∈Θ θ∈Θ (11.52) или, что эквивалентно, достигается максимальное значение логарифмической функции правдоподобия (11.50): l(θ̂) = max∗ l(θ), θ̂ = arg max∗ l(θ). θ∈Θ θ∈Θ (11.53) Построенная таким образом статистическая оценка θ̂ = T (X) называется оценкой максимального правдоподобия (ОМП, МП-оценкой). 11.7.2. Вычисление МП-оценки В условиях регулярности R1–R4 функция l(θ) дважды непрерывно дифференцируема по θ = (θ1 , . . . , θm )T , поэтому для нахождения максимума в (11.53) можно использовать необходимые и достаточные условия максимума. Необходимое условие имеет вид или покомпонентно: ∇θ l(θ) = 0m , (11.54) ∂l(θ) = 0, ∂θ1 ... ∂l(θ) = 0. ∂θm (11.55) Определение 11.23. Система m уравнений (11.55) относительно m неизвестных θ1 , . . ., θm называется системой уравнений правдоподобия. Решая систему (11.55) (векторное уравнение (11.54)), находим стационарные точки, и чтобы среди них найти локальный максимум, необходимо проверить достаточное условие (отрицательную определенность матрицы вторых производных): ∇2θ l(θ)|θ=θ̂ ≺ 0. (11.56) Если локальных максимумов несколько, то глобальный максимум находится перебором значений функции l(·) в этих точках. Пример 11.4 (продолжение примера 11.3). Построить оценку доли годных чипов в партии по методу максимального правдоподобия, предполагая, что θ ∈ Θ = (0, 1), Θ∗ = [0, 1]. Решение. Логарифмическая функция правдоподобия имеет вид l(θ) = ln n Y (θxk (1 − θ)) = n ln(1 − θ) + nx ln θ, k=1 n x= 1X xk . n k=1 11.7. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ И ЕГО СВОЙСТВА 275 Воспользуемся (11.53), (11.54), (11.56), составим и решим уравнение правдоподобия (m = 1): nx n + = 0; ∇θ l(θ) = − 1−θ θ 13 x 13 3 θ̂ = = = ≈ 0,8. 13 x+1 16 +1 3 Поскольку ∇2θ l(θ)|θ=θ̂ < 0, то θ̂ – оценка максимального правдоподобия. Пример 11.5. Наблюдается случайная выборка X = (x1 , . . . , xn )T объема n из нормального распределения N1 (θ0 , σ2 ), где математическое ожидание θ0 неизвестно, а дисперсия σ2 известна. Построить МП-оценку для θ0 и исследовать ее свойства. Решение. Логарифмическая функция правдоподобия имеет вид l(θ) = ln n Y k=1 2 √ n (x −θ) 1 1 1 X − k e 2σ2 = n ln √ − 2 (xk − θ)2 . 2πσ 2πσ 2σ k=1 Составим и решим уравнение правдоподобия: n ∇θ l(θ) = 2 X (xk − θ) = 0; 2σ2 k=1 1 n(x − θ) = 0; σ2 n 1X θ̂ = x = xk . n k=1 Поскольку ∇2θ l(θ)|θ=θ̂ = −n/σ2 < 0, то θ̂ – оценка максимального правдоподобия. Таким образом, искомая МП-оценка построена. Проведем исследование ее свойств. Поскольку θ̂ = x – выборочное среднее, т. е. выборочный момент первого порядка, п. н. то θ̂ −→ θ0 при n → ∞, и имеем сильную состоятельность для найденной оценки. Далее Eθ0 (θ̂) = θ0 , что означает ее несмещенность. Исследуем полученную оценку на эффективность, для этого воспользуемся критерием эффективности: n ∂ ln p(X; θ) = ∇θ l(θ) = 2 (θ̂ − θ) = In (θ̂ − θ), ∂θ σ следовательно, θ̂ – эффективная оценка. Кроме того, In = n/σ2 – количество информации по Фишеру во всей выборке о параметре θ. Поскольку θ̂ линейно зависит от гауссовских случайных величин {xk }nk=1 , то эта оценка имеет гауссовское распределение: µ ¶ 2 0 σ Lθ0 {θ̂} = N1 θ , . n 276 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ 11.7.3. Свойства МП-оценки Приведем основные свойства МП-оценки. C1. Инвариантность МП-оценки. Пусть θ̂ = (θ̂1 , . . ., θ̂m )T – единственная МП-оценка для параметров (θ1 , . . . , θm )T , а (τ1 , . . ., τm )T – некоторый набор m «новых» параметров, которые связаны со «старыми» параметрами некоторым взаимно-однозначным функциональным преобразованием: τ1 = f1 (θ1 , . . . , θm ), ... (11.57) τm = fm (θ1 , . . . , θm ), тогда оценка максимального правдоподобия для (τ1 , . . . , τm )T также единственна и находится функциональным преобразованием оценки максимального правдоподобия «старых» параметров: τ̂1 = f1 (θ̂1 , . . . , θ̂m ), ... τ̂m = fm (θ̂1 , . . . , θ̂m ). Доказательство. Это свойство доказывается с помощью замены переменных (11.57) в экстремальной задаче (11.52), (11.53). ¤ C2. Связь МП-оценки с эффективной оценкой. Пусть выполнены условия регулярности R1–R4 и существует эффективная оценка θ̂∗ = T ∗ (X), тогда оценка максимального правдоподобия θ̂ совпадает с θ̂∗ : θ̂ = θ̂∗ = T ∗ (X). Доказательство. Воспользуемся критерием эффективности оценки: ∇θ l(θ) = In (θ̂∗ − θ). С другой стороны, ∇θ l(θ) = 0m – система уравнений правдоподобия. Так как In  0 и ∇2θ l(θ)|θ=θ̂∗ ≺ 0, то единственная оценка максимального правдоподобия – это θ̂ = θ̂∗ . ¤ Следствие 11.15. В условиях регулярности метод максимального правдоподобия является способом построения эффективных оценок. C3. Сильная состоятельность МП-оценки. Будем предполагать, что выполнены два дополнительных условия: а) Θ = Θ∗ , т. е. параметрическое пространство – компакт; б) θ0 ∈ Θ – внутренняя точка параметрического пространства. Определение 11.24. Информационной функцией Кульбака для случайного наблюдения xl ∈ RN с плотностью распределения p(x; θ), x ∈ RN , где θ ∈ Θ ⊂ Rm , называется функция 2m переменных: ½ ¾ Z p(xl ; θ0 ) p(x; θ0 ) 0 J(θ , θ) ::= Eθ0 ln = p(x; θ0 ) ln dx, θ0 , θ ∈ Θ. (11.58) p(xl ; θ) p(x; θ) RN Лемма 11.2. Справедливо неравенство J(θ0 , θ) ⩾ 0, θ0 , θ ∈ Θ, причем (11.59) Z J(θ0 , θ) = 0 ⇔ |p(x; θ) − p(x; θ0 )|dx = 0. RN (11.60) 11.7. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ И ЕГО СВОЙСТВА 277 Доказательство. Воспользуемся (11.58), неравенством Йенсена (см. п. 3.4) для выпуклой функции y = g(x) = − ln x и условием нормировки: ½ ¾ ½ ¾ p(xl ; θ) p(xl ; θ) 0 J(θ , θ) = Eθ0 − ln ⩾ − ln Eθ0 = p(xl ; θ0 ) p(xl ; θ0 ) Z p(x; θ) = − ln p(x; θ0 ) dx = − ln 1 = 0, p(x; θ0 ) RN т. е. выполняется неравенство (11.59). В силу неравенства Йенсена J(θ0 , θ) = 0 ⇔ p(xl ; θ) п. н. = 1, p(xl ; θ0 ) что эквивалентно (11.60). ¤ Определение 11.25. Если Z |p(x; θ) − p(x; θ0 )|dx = 0 ⇔ θ = θ0 , RN то значение параметра θ0 называется идентифицируемым, в противном случае – неидентифицируемым. Следствие 11.16. Если θ0 – идентифицируемое значение параметра, то θ0 = arg min J(θ0 , θ). θ∈Θ (11.61) Доказательство. Соотношение (11.61) следует из (11.59) и (11.60). ¤ Теорема 11.10 (о сильной состоятельности ОМП). Пусть θ0 – идентифицируемое значение параметра – является внутренней точкой Θ, а функция плотности распределения вероятностей p(x; θ), x ∈ RN , непрерывна по θ и такова, что ∀θ 6= θ0 существует Uθ ⊂ Θ – окрестность точки θ, для которой ¾ ½ p(xl ; θ0 ) Eθ0 ∗inf ln > −∞. (11.62) θ ∈Uθ p(xl ; θ∗ ) Тогда МП-оценка θ̂ сильно состоятельна: п. н. θ̂ −→ θ0 , n → ∞. (11.63) Доказательство. Представим оценку максимального правдоподобия в виде, эквивалентном (11.53): µ ¶ µ ¶ ¢ ¢ 1¡ 1¡ 0 θ̂ = arg max l(θ) − l(θ0 ) = arg min l(θ ) − l(θ) = arg min Jn (θ0 , θ), θ∈Θ θ∈Θ θ∈Θ n n где n 1 X p(xl ; θ0 ) . Jn (θ0 , θ) = ln n k=1 p(xl ; θ) Сравним этот результат с (11.61). По усиленному закону больших чисел имеем: п. н. Jn (θ0 , θ) −→ J(θ0 , θ), n → ∞. 278 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Из сходимости целевых функций, вообще говоря, не следует сходимость точек минимума (11.63). Для того чтобы это выполнялось, достаточно, чтобы имело место (11.62). ¤ Следствие 11.17. Оценка максимального правдоподобия состоятельна, т. е. P θ̂→θ0 , n → ∞. C4. Асимптотическая несмещенность и нормальность оценки максимального правдоподобия. Теорема 11.11. Пусть выполнены условия теоремы 11.10, а также условия регулярности R1–R4, причем условие R1 выполняется в усиленном смысле: p(x; θ), x ∈ RN , – трижды дифференцируема по θ и существует окрестность Uθ0 ⊂ Θ точки θ0 такая, что sup Eθ0 θ∈Uθ0 ¯¾ ½¯ 3 ¯ ∂ ln p(xl ; θ) ¯ ¯ ¯ ¯ ∂θi ∂θj ∂θk ¯ < +∞, i, j, k = 1, . . . , m. Тогда при n → ∞ оценка максимального правдоподобия θ̂ асимптотически нормально распределена с вектором математического ожидания θ0 и ковариацион−1 ной матрицей I−1 n = 1/nI , где I  0 – информационная матрица Фишера для отдельного наблюдения. Другими словами: L n¡ In1/2 ¢T o (θ̂ − θ0 ) → Nm (0m , Im ), n → +∞, µ 1/2 где In – решение матричного уравнения Y T I−1 n Y = Im по Y 1/2 In = In ³ 1/2 In ´T ¶ . Доказательство. Для простоты проведем доказательство в одномерном случае: п. н. m = 1, θ0 ∈ R1 . Поскольку выполняются условия теоремы 11.10, то θ̂ −→ θ0 , n → ∞, и, следовательно, ∃ n такое, что ∀n ⩾ n, θ̂ ∈ Uθ0 с вероятностью 1. Дальнейший анализ проводим именно для таких значений n ⩾ n. Запишем уравнение правдоподобия (m = 1): ∇θ l(θ) = d l(θ) = l(1) (θ) = 0, dθ причем в силу R1 функция l(1) (θ) дважды непрерывно дифференцируема. Применим к левой части этого уравнения квадратичную формулу Тейлора в окрестности Uθ0 : 1 l(1) (θ0 ) + (θ̂ − θ0 )l(2) (θ0 ) + (θ̂ − θ0 )2 l(3) (θ) = 0, 2 где l(k) (θ) – k-я производная по θ, а θ ∈ Θ – «промежуточная» точка: |θ − θ0 | < п. н. < |θ̂ − θ0 |, поэтому θ −→ θ0 при n → ∞. Выразим случайное уклонение θ̂−θ0 из полученного выше уравнения следующим образом: θ̂ − θ0 = l(1) (θ0 ) . 1 −l(2) (θ0 ) − (θ̂ − θ0 )l(3) (θ) 2 279 11.8. БАЙЕСОВСКИЙ МЕТОД ОЦЕНИВАНИЯ ПАРАМЕТРОВ Умножим левую и правую части полученного соотношения на знаменатель правой части – на 1/nI: √ √ nI, а числитель и 1 √ l(1) (θ0 ) nI µ ¶. nI(θ̂ − θ0 ) = 1 1 (2) 0 0 (3) −l (θ ) − (θ̂ − θ )l (θ) nI 2 Согласно усиленному закону больших чисел ¶ n µ 1 1X ∂ 2 ln p(xk ; θ0 ) п. н. − l(2) (θ0 ) = − −→ I; n n k=1 (∂θ0 )2 (11.64) 1 п. н. − l(3) (θ) −→ C, n п. н. где |C|< + ∞ – некоторая константа. Поскольку θ̂−θ0 −→0, то знаменатель сходится к 1 почти наверное. Числитель в (11.64) при n → ∞ распределен асимптотически нормально: ½ ¾ 1 (1) 0 Lθ0 √ l (θ ) → N1 (0, 1), nI в силу ЦПТ Леви – Линдеберга (см. п. 5.5). ¤ 11.8. БАЙЕСОВСКИЙ МЕТОД СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Пусть в пространстве RN определено параметрическое семейство плотностей распределения вероятностей: P = {p(x; θ), x ∈ RN : θ ∈ Θ ⊆ Rm }, где Θ – параметрическое пространство. Пусть θ0 = (θ01 , . . . , θ0m )T ∈ Θ – ненаблюдаемый случайный вектор параметров, определенный на вероятностном пространстве (Ω, F, P ); Π(θ), θ ∈ Θ, – априорная плотность распределения вероятностей случайного параметра θ0 , которая предполагается известной. Наблюдается случайная выборка X = = (xT1 , . . . , xTn )T ∈ RnN объема n из N -мерного распределения вероятностей с плотностью распределения p(·; θ0 ). Задача состоит в том, чтобы по выборке X построить статистическую оценку θ̂ = T (X) для θ0 . Определим условную плотность распределения выборки при условии θ0 = θ: p(X|θ) = p(X; θ) = n Y p(xl ; θ) = L(θ). l=1 Сформулированная модель статистического оценивания графически представлена на рис. 11.5. Существуют два способа построения статистической оценки θ̂ = T (X). Способ I. Применить метод максимального правдоподобия: L(θ) → max . θ∈Θ Недостатком этого способа является то, что он не учитывает априорную информацию о параметре θ0 , заключенную в Π(·). Способ II. Байесовский подход, учитывающий Π(·), который и рассматривается далее. 280 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Рис. 11.5. Схема байесовского статистического оценивания Определение 11.26. Функцией потерь (штрафа) в вышесформулированной задаче статистического оценивания параметров называется функция 2m переменных: w = w(θ∗ , θ∗∗ ), θ∗ , θ∗∗ ∈ Θ, где w(θ∗ , θ∗∗ ) ⩾ 0 – величина потерь, которые несет статистик или лицо, принимающее решение, в ситуации, когда истинное значение параметра θ0 = θ∗ , а используется значение оценки θ̂ = θ∗∗ . Укажем две наиболее распространенные функции потерь. Определение 11.27. Квадратичной функцией потерь называется функция w = w(θ∗ , θ∗∗ ) = c|θ∗ − θ∗∗ |2 , c > 0. (11.65) Определение 11.28. (0 − 1)-функцией потерь называется функция ½ 0, θ∗ = θ∗∗ , ∗ ∗∗ w = w(θ , θ ) = 1 − δθ∗,θ∗∗ = 1, θ∗ 6= θ∗∗ . Пусть θ̂ = T (X) – некоторая статистическая оценка (случайная величина). Тогда ей соответствует w = w(θ0 , θ̂) – случайная величина потерь. Определение 11.29. Функционалом риска для оценки θ̂ = T (X) называется математическое ожидание случайной величины потерь: Z Z n ³ ´o r = r(T ) = E w θ0 , θ̂ = w(θ, T (X))p(X, θ)dθdX ⩾ 0, (11.66) RnN Θ где p(X, θ) = p(X|θ)Π(θ) = p(X; θ)Π(θ) = L(θ)Π(θ) – совместная плотность распределения вероятностей выборки X и случайного параметра θ0 . Очевидно, что предпочтительнее та оценка θ̂ = T (X), для которой риск r(T ) меньше. Определение 11.30 (байесовский принцип оптимальности). В качестве статистической оценки случайного параметра θ0 надлежит использовать такую статистику θ̂ = T ∗ (X) : RnN → Θ, для которой функционал риска (11.66) принимает минимальное значение: r(T ∗ ) = min r(T ). (11.67) T (·) Построенная таким образом статистическая оценка θ̂ = T ∗ (X) называется байесовской оценкой параметра θ0 . 11.8. БАЙЕСОВСКИЙ МЕТОД ОЦЕНИВАНИЯ ПАРАМЕТРОВ ∗ 281 ∗∗ Теорема 11.12. Если функция потерь w = w(θ , θ ) является квадратичной (определяется соотношением (11.65)), а априорная плотность Π(·) такова, что существует конечное априорное математическое ожидание (априорное среднее) Z E{θ0 } = θΠ(θ)dθ, Θ 0 то байесовская оценка параметра θ единственна и является апостериорным математическим ожиданием (или апостериорным средним): Z ∗ 0 θ̂ = T (X) = E{θ |X} = θΠ(θ|X)dθ, (11.68) Θ где Π(θ|X) = Z p(X|θ)Π(θ) – (11.69) p(X|θ∗ )Π(θ∗ )dθ∗ Θ условная (апостериорная) плотность распределения случайного вектора θ0 при условии наблюдения выборки X. Доказательство. Запишем в явном виде экстремальную задачу (11.67) с учетом (11.65) и (11.66): Z Z r(T ) = c |θ − T (X)|2 p(X|θ)Π(θ)dθdX → min – T (·) RnN Θ экстремальная задача, которая относится к задачам вариационного исчисления. Для простоты ее решение проведем при m = 1: Z Z r(T ) = c (θ − T (X))2 p(X|θ)Π(θ)dθdX → min . T (·) RnN Θ Необходимое условие минимума – это равенство нулю первой вариации функционала r(T ): ¶ Z µZ δr(T ) = −2c (θ − T (X))p(X|θ)Π(θ)dθ δT (X)dX = 0, RnN Θ где δT (X) – произвольная вариация статистики T (X). В силу этого произвола равенство нулю возможно лишь, если Z (θ − T (X))p(X|θ)Π(θ)dθ = 0, Θ откуда и получаем (11.68), (11.69). Найденное решение соответствует минимуму, так как вторая вариация δ2 r(T )|T (·)≡T ∗ (·) > 0. ¤ Теорема 11.13. В условиях теоремы 11.12 и условиях регулярности R1–R4 байесовская оценка, определяемая (11.68), (11.69): θ̂ = T ∗ (X), при n → +∞ обладает теми же асимптотическими свойствами, что и оценка максимального правдоподобия, т. е. является сильно состоятельной, асимптотически несмещенной и асимптотически нормальной оценкой. 282 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Замечание 11.8. Вычисления по формулам (11.68), (11.69) затруднительны из-за кратного интегрирования, часто – в бесконечных пределах. Задание 11.7. Пусть X = (x1 , . . . , xn )T ∈ Rn – случайная выборка объема n из N1 (θ0 , σ2 ), где дисперсия σ2 > 0 задана, а θ0 – скалярная случайная величина с равномерным распределением на [α1 , α2 ], т. е. L{θ0 } = R[α1 , α2 ]. Построить по (11.68), (11.69) байесовскую оценку для θ0 . 11.9. ДОСТАТОЧНЫЕ СТАТИСТИКИ И ИХ СВОЙСТВА Рассмотрим задачу статистического оценивания параметров в общем виде, акцентируя внимание на вычислительной сложности. Пусть имеется параметрическое семейство плотностей P = {p(x; θ), x ∈ RN : θ ∈ Θ ⊆ Rm } и наблюдается случайная выборка X = (xT1 , . . . , xTn )T ∈ RnN объема n из некоторого распределения вероятностей с плотностью p(x; θ0 ), x ∈ RN , где θ0 ∈ Θ – неизвестное истинное значение вектора параметров. Необходимо построить статистическую оценку θ̂ = T (X) : RnN → Rm . Проанализируем эту задачу с точки зрения ее вычислительной сложности. Необходимо построить m функций, каждая из которых зависит от N n переменных. Упростим задачу следующим образом. Будем строить оценку в два этапа. Этап 1. Сжатие данных – вырожденное функциональное преобразование выборки X: t1 (X) .. : RnN → RK , K < nN. t = t(X) = (11.70) . tK (X) Этап 2. Построение оценки: ψ1 (t) θ̂ = ψ(t) = ... : RK → Rm . (11.71) ψm (t) Статистика, которая позволяет осуществить сжатие данных t = t(X) так, чтобы построенная на ее основе оценка θ̃ была так же точна, как и θ̂, называется достаточной статистикой. Теперь перейдем к строгому математическому определению достаточной статистики. Для обобщения поставленной задачи статистического оценивания предположим, что θ0 – случайный вектор с некоторой плотностью распределения вероятностей Π(θ), θ ∈ Θ. Определим условную плотность распределения вероятностей выборки: p(X|θ) = p(X; θ) = n Y p(xl ; θ). l=1 Вычислим аналогично (11.69) по формуле Байеса апостериорную плотность распределения вероятностей случайного вектора θ0 при условии, что наблюдается выборка X: p(X|θ)Π(θ) p(θ|X) = Z . (11.72) ∗ ∗ ∗ p(X|θ )Π(θ )dθ Θ 283 11.9. ДОСТАТОЧНЫЕ СТАТИСТИКИ И ИХ СВОЙСТВА 0 По аналогии с (11.72) найдем условную плотность распределения θ при условии наблюдения статистики t = t(X): q(θ|t) = Z q(t|θ)Π(θ) , (11.73) q(t|θ∗ )Π(θ∗ ) dθ∗ Θ где q(t|θ) – условная плотность распределения случайной величины t = t(X) при условии θ0 = θ. Определение 11.31. K-мерная статистика (11.70) называется достаточной статистикой для параметрического семейства P, если условные плотности (11.72) и (11.73) совпадают: q(θ|t(X)) = p(θ|X), X ∈ RnN , θ ∈ Θ. (11.74) При этом достаточная статистика с наименьшей размерностью K ∗ называется минимальной достаточной статистикой. Замечание 11.9. Минимальная достаточная статистика наибольшим образом сжимает данные. Замечание 11.10. Соотношение (11.74) означает, что статистика t = t(X) несет столько же информации о параметре θ, сколько и вся выборка X. Замечание 11.11. Если выборка X получена из дискретного распределения вероятностей, то это определение остается в силе, только вместо плотностей распределения необходимо везде использовать соответствующие вероятности. Теорема 11.14 (критерий факторизации Неймана – Фишера). Для того чтобы статистика t = t(X) : RnN → RK была достаточной статистикой для семейства плотностей распределения вероятностей P, необходимо и достаточно, чтобы совместная плотность распределения выборки допускала следующую факторизацию, т. е. следующее разделение переменных (X ∈ RnN , θ ∈ Θ): p(X; θ) = n Y p(xk ; θ) = g(X)h(t(X); θ), (11.75) k=1 где g(X) ⩾ 0 зависит только от выборки X, но не зависит от параметра θ, а h(t(X); θ) ⩾ 0 зависит от θ, но зависимость от выборки X имеет место только через статистику t(X). Доказательство. Необходимость. Пусть t = t(X) – достаточная статистика, тогда выполняется (11.74). Выразим условную плотность распределения вероятностей выборки с учетом (11.72)–(11.74): Z q(t|θ) , t = t(X). p(X|θ) = p(X; θ) = p(X; θ∗ )Π(θ∗ )dθ∗ Z q(t|θ∗ )Π(θ∗ )dθ∗ Θ Θ Легко видеть, что первый сомножитель не зависит от θ, а второй может выступать в качестве h(t(X); θ), так что выполняется факторизация (11.75). Достаточность. Пусть имеет место факторизация (11.75). Проверим выполнение (11.74). По (11.72) из (11.75) имеем p(θ|X) = Z g(X)h(t; θ)Π(θ) ∗ ∗ g(X)h(t; θ )Π(θ )dθ Θ =Z ∗ h(t; θ)Π(θ) ∗ ∗ h(t; θ )Π(θ )dθ Θ . ∗ (11.76) 284 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Вычислим апостериорную плотность q(θ|t), используя (11.73). Для этого сначала найдем q(t|θ). Воспользуемся методом функциональных преобразований случайных величин. Поскольку K < nN , то функциональное преобразование (11.70) – вырожденное. Введем вспомогательное преобразование: τ = τ(X) : RnN → RnN −K , причем функцию τ(·) подберем таким образом, чтобы составное функциональное преобразование X → (tT , τT )T было взаимно-однозначным, т. е. чтобы существовало единственное обратное преобразование X = f (t, τ) c якобианом преобразования J(t, τ) 6= 0. Тогда по правилам функционального преобразования случайных величин имеем Z Z q(t|θ) = p(f (t, τ); θ)|J(t, τ)|dτ = h(t; θ) g(f (t, τ))|J(t, τ)|dτ = h(t; θ)B(t), RnN −K RnN −K где Z B(t) = g(f (t, τ))|J(t, τ)| dτ. RnN −K Подставляя это выражение в (11.73), получаем искомую плотность: q(θ|t) = Z B(t)h(t; θ)Π(θ) ∗ ∗ B(t)h(t; θ )Π(θ )dθ =Z ∗ Θ h(t; θ)Π(θ) ∗ ∗ . h(t; θ )Π(θ )dθ (11.77) ∗ Θ Сравнивая (11.76) и (11.77), видим, что они совпадают, т. е. выполняется (11.74), следовательно, t = t(X) – достаточная статистика. ¤ Задание 11.8. Пусть X = (x1 , . . . , xn )T ∈ Rn – случайная выборка объема n из гауссовского распределения N1 (θ1 , θ2 ), θ = (θ1 , θ2 )T ∈ R2 . Построить достаточную статистику для θ. Решение. Воспользуемся критерием факторизации Неймана – Фишера и выполним факторизацию (11.75). 1. Построим совместную плотность распределения выборки: ¶ n µ Y 1 − 1 (x −θ )2 √ p(X; θ) = . e 2θ2 k 1 2πθ2 k=1 2. Найдем достаточную статистику t(X), осуществив разделение переменных X и θ с помощью эквивалентных преобразований: µ n n nθ2 ¶n µ ¶ n − 1 P θ P 1 1 2 2θ2 k=1 x2k + θ12 k=1 xk − 2θ21 p(X; θ) = √ = g(X)h(t(X); θ); e θ2 2π µ ¶n n X 1 , t(X) = (t1 (X), t2 (X))T , tl (X) = xlk , l = 1, 2; g(X) = √ 2π k=1 µ ¶ n t (x) θ 2 nθ 2 1 2 − 2θ + 1 t1 (x)− 1 θ2 2θ2 ⩾ 0. 2 h(t; θ) = e θ2 Таким образом, найденная достаточная статистика является двухмерной: t(X) = = (t1 (X), t2 (X))T (K = 2). Задание 11.9. Наблюдается выборка X = (x1 , . . . , xn )T ∈ Rn из R[θ1 , θ2 ]. Показать, что достаточной статистикой является следующая двухмерная статистика: t = t(X) = (t1 (X), t2 (X))T , t1 (X) = min xk = x(1) , t2 (X) = max xk = x(n) . 1⩽k⩽n 1⩽k⩽n 11.9. ДОСТАТОЧНЫЕ СТАТИСТИКИ И ИХ СВОЙСТВА 285 Свойства достаточной статистики C1. Эквивалентная формулировка критерия факторизации. Статистика t = t(X) является достаточной для семейства P тогда и только тогда, когда для ∀θ, θ∗ ∈ Θ, θ 6= θ∗ , отношение правдоподобия зависит от выборки X только через статистику t(X): p(X; θ) = H(t(X); θ, θ∗ ), X ∈ RnN . p(X; θ∗ ) (11.78) Доказательство. Покажем, что (11.78) эквивалентно критерию факторизации (11.75). Выберем произвольное θ∗ ∈ Θ и зафиксируем его. Тогда из (11.78) следует: p(X; θ) = p(X; θ∗ )H(t(X); θ, θ∗ ) = g(X)h(t(X); θ), что эквивалентно (11.75). ¤ C2. Свойство статистики t = t(X) быть достаточной не зависит от вида априорной плотности Π(·). Доказательство. Действительно, Π(·) не входит в критерий (11.75). ¤ C3. Инвариантность достаточной статистики. Достаточная статистика t = t(X) единственна с точностью до произвольной биекции. Другими словами, если φ = φ(t) : RK → RK – некоторая биекция, то φ(t(X)) : RnN → RK также является достаточной статистикой. Доказательство. Этот результат можно получить с помощью замены переменных в (11.75). ¤ C4. Если семейство P удовлетворяет условиям регулярности R1–R4 и существует эффективная оценка θ̂ = T (X) : RnN → Rm , то статистика T = T (X) является достаточной статистикой. Доказательство. Воспользуемся критерием эффективности оценки: ∇θ ln p(X; θ) = In (θ)(T (X) − θ). Проинтегрируем это векторное соотношение по θ. В результате получим следующее выражение для плотности: T p(X; θ) = eA (θ)T (X)+B(θ)+C(X) , (11.79) где C(X) – функция выборки, появившаяся в результате интегрирования, а A(θ) и B(θ) должны удовлетворять следующим условиям: ∇θ A(θ) = In (θ), ∇θ B(θ) = −In (θ)θ. Сравнивая (11.75) и (11.79), заключаем, что в качестве g(X) и h(T (X); θ) можно выбрать: g(X) = eC(X) ⩾ 0, T h(T (X); θ) = eA (θ)T (X)+B(θ) ⩾ 0. Следовательно, в силу выполнения критерия факторизации T = T (X) – достаточная статистика. ¤ 286 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ C5. Эквивалентное определение достаточной статистики. Статистика t = t(X) : RnN → RK является достаточной статистикой для семейства P тогда и только тогда, когда условная плотность распределения выборки X при условии t(X) = t∗ не зависит от параметра θ, т. е. p(X|t(X) = t∗ ; θ) = g̃(X; t∗ ) = invarθ . Задание 11.10. Доказать C5 . C6. Это свойство достаточной статистики сформулируем в виде теоремы. Теорема 11.15 (Дармуа). Плотность распределения вероятностей p(x; θ), x ∈ ∈ RN , с m-мерным параметром θ ∈ Rm , допускающая m-мерную достаточную статистику t = t(X) ∈ Rm , имеет вид à m ! X p(x; θ) = exp aj (θ)wj (x) + b(θ) + c(x) , (11.80) j=1 где {aj (·)}, b(·), c(·), {wj (·)} – функции указанных выше переменных. При этом достаточная статистика имеет следующий аддитивный вид: t = t(X) = (t1 (X), . . . , tm (X))T , tj (X) = n X wj (xk ), j = 1, . . . , m. (11.81) k=1 Определение 11.32. Семейство плотностей вида (11.80) называется экспоненциальным семейством. Следствие 11.18. Для экспоненциального семейства минимальная достаточная статистика является m-мерной и имеет вид (11.81). C7. Сформулируем теорему, которая позволяет улучшать оценки с помощью достаточных статистик. Теорема 11.16 (Колмогорова – Рао – Блекуэлла). Пусть θ̂ = T (X) : RnN → → R1 – некоторая несмещенная статистическая оценка параметра θ0 ∈ R1 по случайной выборке X, а t = t(X) : RnN → RK , K < nN , – достаточная статистика для семейства плотностей P. Пусть далее с помощью условного математического ожидания определена борелевская функция (11.71): ψ = ψ(t∗ ) ::= E{T (X)|t(X) = t∗ }, t∗ ∈ RK , ψ(·) ∈ R1 . (11.82) Тогда композиция функций θ̃ = ψ(t(X)) : RnN → R1 (11.83) определяет несмещенную оценку параметра θ0 , причем вариация этой оценки не превосходит вариации исходной оценки: V {θ̃} ⩽ V {θ̂}. Доказательство. С учетом (11.82), (11.83) и определения условного математического ожидания представим оценку (11.83) в эквивалентном виде: θ̃ = E{T (X)|t(X)}. Проверим условие несмещенности с использованием формулы полного математического ожидания: E{θ̃} = E{E{T (X)|t(X)}} = E{T (X)} = E{θ̂} = θ0 . 287 11.10. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И ЕГО СВОЙСТВА Сравним вариации оценок: V {θ̃} = E{(θ̃ − θ0 )2 } = E{(E{T (X) − θ0 |t(X)})2 } ⩽ ⩽ E{E{(T (X) − θ0 )2 |t(X)}} = E{(T (X) − θ0 )2 } = V {θ̂}. Здесь использованы известное свойство из п. 1.4: (E{ξ})2 ⩽ E{ξ2 }, и формула полного математического ожидания. ¤ 11.10. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И ЕГО СВОЙСТВА 11.10.1. Регрессионная модель. Принцип метода наименьших квадратов Метод наименьших квадратов (МНК) применяется для оценивания параметров стохастических зависимостей. Идея этого метода предложена немецким математиком К. Гауссом, а математические основы заложены русским математиком А. Марковым. Рассмотрим следующую математическую модель. Пусть наблюдается случайная величина η, которая зависит от некоторой другой величины x. Зависимость задается в виде следующего стохастического уравнения: η = f (x; θ0 ) + ², 0 (11.84) 0 где f (x; θ ) – некоторая функция, вид которой известен; θ = (θ01 , . . . , θ0m )T ∈ Θ ⊂ Rm – неизвестное истинное значение вектора параметров; η = (η1 , . . . , ηN )T ∈ RN – наблюдаемый случайный вектор, который часто называют вектором зависимых переменных, где ηi – i-я зависимая переменная (i = 1, . . . , N ); x = (x1 , . . . , xM )T ∈ RM – вектор-столбец M независимых переменных (предикторов, регрессоров). Относительно ненаблюдаемого случайного вектора ошибок наблюдений ² = (²1 , . . . , ²N )T ∈ RN , без потери общности, предполагаем: © ª E{²} = 0N , Σ = cov{², ²} = E ²²T  0. Определение 11.33. Функция η ::= E{η} = f (x; θ0 ), x ∈ RM , θ0 ∈ Θ, η ∈ RN , задающая зависимость математического ожидания η = E{η} от регрессоров x, называется функцией регрессии. При этом математическая модель наблюдений (11.84) называется регрессионной моделью наблюдений. Определение 11.34. В зависимости от значений размерностей M и N существует следующая классификация регрессионных моделей. 1. Если N > 1, регрессионная модель (11.84) называется многомерной. 2. Если N = 1, M > 1, регрессионная модель (11.84) называется множественной. 3. Если N = M = 1, регрессионная модель (11.84) называется простой. Определение 11.35. В зависимости от свойств функции f (·; θ0 ) существует следующая классификация регрессионных моделей: если функция f (·; θ0 ) линейна по параметру θ0 , то регрессионная модель – линейная, в противном случае – нелинейная. Пример 11.6. Рассмотрим коммерческую фирму, которая производит и продает некоторый товар. Доход фирмы за один месяц считаем случайной величиной η ∈ R1 . Через x ∈ R1 обозначим расходы фирмы на рекламу товара за прошлый месяц. Предположим, что средний доход за месяц линейно зависит от x: η = E{η} = f (x; θ0 ) = = θ01 + θ02 x, θ0 = (θ01 , θ02 )T . По приведенной классификации имеем простую линейную модель, а в результате экспериментов получаем множество точек, лежащих вблизи прямой η = θ01 + θ02 x (рис. 11.6). 288 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Рис. 11.6. Модель простой линейной регрессии Сформулируем статистическую задачу. Пусть проведена серия n независимых случайных экспериментов вида (11.84). Для простоты предполагаем, что N = 1, т. е. рассматриваем множественную регрессионную модель; i-й случайный эксперимент заключается в следующем: фиксируется некоторое значение независимых переменных x = xi ∈ RM , проводится эксперимент и регистрируется его результат η = yi ∈ R1 , причем между этими величинами имеет место соотношение вида (11.84), т. е. yi = f (xi ; θ0 ) + ²i , i = 1, . . . , n. (11.85) Предполагается, что ошибки измерения {²i } независимы в совокупности и E{²i } = 0, D{²i } = σ2 < +∞. Задача заключается в том, чтобы по имеющимся наблюдениям {yi } и значениям факторов {xi } построить статистические оценки параметра θ0 и дисперсии ошибок σ2 . Определение 11.36. Случайные эксперименты вида (11.85) называются активными, если экспериментатор имеет возможность выбирать значения факторов x1 , . . . , xn ∈ RM по своему усмотрению, в противном случае – пассивными. Попытаемся решить поставленную задачу, пользуясь методом максимального правдоподобия. Для этого дополнительно предположим, что случайные ошибки наблюдения подчиняются нормальному закону распределения вероятностей: L{²i } = N1 (0, σ2 ), i = 1, . . . , n. (11.86) Построим логарифмическую функцию правдоподобия. В силу формулы (11.85) и свойств нормального распределения из (11.86) имеем L{yi } = N1 (f (xi ; θ0 ), σ2 ), i = 1, . . . , n. Тогда логарифмическая функция правдоподобия à ! n (y −f (xi ;θ))2 Y 1 1 1 − i 2σ2 √ l(θ) = ln = − n ln(2πσ2 ) − 2 R2 (θ), e 2 2σ 2πσ i=1 где n n X X 2 R (θ) = (δyi ) = (yi − f (xi ; θ))2 ⩾ 0. 2 i=1 (11.87) (11.88) i=1 Определение 11.37. Величина δyi = yi − f (xi ; θ) называется невязкой (остатком) в i-м эксперименте (i = 1, . . . , n) при значении параметра θ, а функция R2 (θ), определяемая по (11.88), называется суммой квадратов невязок (остатков) при значении параметра θ. 11.10. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И ЕГО СВОЙСТВА 289 Оценка максимального правдоподобия θ̂ = arg max l(θ) θ с учетом (11.87) имеет вид θ̂ = arg min R2 (θ). θ (11.89) Определение 11.38 (принцип метода наименьших квадратов (МНК)). Принцип метода наименьших квадратов состоит в том, что в качестве оценки θ̂ вектора параметров θ0 принимается значение (11.89), которое минимизирует сумму квадратов остатков (11.88). Такая статистическая оценка θ̂ называется МНКоценкой. Укажем геометрический смысл МНК-оценки (рис. 11.7). В параметрическом семействе поверхностей F = {y = f (x; θ), x ∈ RM : θ ∈ Rm } с помощью (11.89) необходимо найти такую поверхность y = f (x; θ̂), x ∈ RM , для которой сумма квадратов отклонений (вдоль оси Y ) экспериментальных точек {yi } от этой поверхности минимальна. Рис. 11.7. Геометрический смысл МНК-оценки Замечание 11.12. Соотношение (11.89) определяет МНК-оценку без ограничений, т. е. для θ0 ∈ Rm . Если же θ0 ∈ Θ ⊂ Rm , то решается задача на условный минимум: R2 (θ) → min . θ∈Θ 11.10.2. Оптимальные свойства МНК-оценки для линейной множественной регрессионной модели Рассмотрим часто используемую на практике линейную множественную регрессионную модель. Определение 11.39. Линейная множественная регрессионная модель является частным случаем модели (11.84): η= m X xj θ0j + ², (11.90) j=1 где η – зависимая переменная; x = (x1 , . . . , xm )T ∈ Rm – m-вектор независимых переменных (факторов, предикторов, регрессоров), m = M . 290 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Замечание 11.13. Модель (11.90) линейна не только по θ, но и без потери общности линейна по {xj }, так как любая модель вида η= m X gj (x)θ0j + ² j=1 приводится к (11.90) заменой: xj ::= gj (x), j = 1, . . . , m. Модель наблюдений согласно (11.85), (11.90) примет вид yi = m X xij θ0j + ²i , i = 1, . . . , n, (11.91) i=1 где yi – значение зависимой переменной в i-м эксперименте; xij – значение j-го фактора в i-м эксперименте (xi = (xi1 , . . . , xim )T ); ²i – случайная ошибка в i-м эксперименте. Замечание 11.14. В п. 11.10.1 метод наименьших квадратов получен как частный случай метода максимального правдоподобия (в предположении гауссовости случайных ошибок {²i }), но на практике метод наименьших квадратов используют и тогда, когда {²i } не являются гауссовскими случайными величинами. С учетом замечания 11.14 в дальнейшем относительно {²i } предполагаем только следующее: 1) {²i } некоррелированы, т. е. E{²i ²j } = 0, i 6= j; 2) E{²i } = 0; 3) D{²i } = σ2 < ∞. Удобно перейти к следующим матричным обозначениям: Y = (y1 , . . . , yn )T ∈ Rn – вектор-столбец результатов наблюдений; E = (²1 , . . . , ²n )T ∈ Rn – вектор-столбец ошибок наблюдений; . . X = (x1 .. . . . ..xn )T – план эксперимента ((n × m)-матрица значений факторов); θ0 = (θ01 , . . . , θ0m )T ∈ Rm – вектор-столбец оцениваемых параметров. Тогда (11.91) можно переписать в матричном виде: Y = Xθ0 + E – (11.92) множественная линейная регрессионная модель, где относительно случайного вектора E предполагается E{E} = 0n , cov{E, E} = σ2 In . (11.93) Теорема 11.17. Пусть имеет место линейная множественная регрессионная модель (11.92), выполняются соотношения (11.93) и план эксперимента X – невырожденный: ¯ T ¯ ¯X X ¯ 6= 0. (11.94) Тогда МНК-оценка θ̂ вектора параметров θ0 единственна: ¡ ¢−1 T θ̂ = C0 Y, C0 = X T X X , – линейна по наблюдениям Y , несмещенная и имеет матрицу вариаций: ½³ ´³ ´T ¾ ¡ ¢−1 V = V {θ̂} = Eθ0 θ̂ − θ0 θ̂ − θ0 = σ2 X T X . (11.95) 291 11.10. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И ЕГО СВОЙСТВА Доказательство. Получим МНК-оценку из (11.89), (11.88) с учетом модели (11.92): R2 (θ) = (Y − Xθ)T (Y − Xθ) = Y T Y − θT X T Y − Y T Xθ + θT X T Xθ → min . θ Необходимым условием минимума является ∇θ R2 (θ) = 0m . (11.96) Воспользуемся свойствами оператора ∇. Для произвольной константы C, произвольного вектора b и матрицы A: ¡ ¢ ¡ ¢ ¡ ¢ ∇θ (C) = 0m , ∇θ bT θ = ∇θ θT b = b, ∇θ θT Aθ = 2Aθ. Из (11.96) получим ∇θ R2 (θ) = 0m − 2X T Y + 2X T Xθ = 0m . ¡ ¢−1 Умножая на X T X (X T X невырождена согласно (11.94)), имеем (11.95). Заметим, что ∇2θ R2 (θ) = 2X T X  0. Следовательно, найден единственный минимум. Подставим (11.92) в (11.95): θ̂ = (X T X)−1 X T (Xθ0 + E) = θ0 + C0 E. (11.97) Отсюда найдем смещение оценки: Eθ0 {θ̂ − θ0 } = Eθ0 {C0 E} = 0m , следовательно, оценка несмещенная. Аналогично вычислим матрицу вариаций: n o © ª © ª ¡ ¢−1 V = V θ̂ = Eθ0 C0 E(C0 E)T = C0 Eθ0 EET C0T = C0 σ2 In C0T = σ2 X T X . ¤ Обозначим: λmin (A), λmax (A) – соответственно наименьшее и наибольшее характеристические числа неотрицательно определенной матрицы A. Следствие 11.19. Если выполнено условие Эйкера: ¡ ¢ λmin X T X → +∞, n → +∞, (11.98) то МНК-оценка θ̂, определяемая (11.95), является состоятельной оценкой: P θ̂ → θ0 , n → +∞. (11.99) Доказательство. Оценим следующую величину: ½³ ½ µ³ ½¯ ¯2 ¾ ´T ³ ´¾ ´³ ´T ¶¾ ¯ ¯ Eθ0 ¯θ̂ − θ0 ¯ = Eθ0 θ̂ − θ0 θ̂ − θ0 = Eθ0 tr θ̂ − θ0 θ̂ − θ0 = ³ n o´ ³¡ ³¡ ¢−1 ´ ¢−1 ´ = tr V θ̂ = σ2 tr X T X ⩽ σ2 mλmax X T X . Известно свойство характеристических чисел матрицы [11, 34]: если выполняется ³¡ ¢−1 ´ T (11.98), то λmax X X → 0, следовательно: ½¯ ¯2 ¾ ¯ 0¯ Eθ0 ¯θ̂ − θ ¯ → 0, n → +∞, а значит, выполняется (11.99). ¤ 292 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Замечание 11.15. Не при любом плане эксперимента X МНК-оценка является состоятельной. Рассмотрим теперь задачу оценивания дисперсии σ2 . Определение 11.40. Остаточной суммой квадратов называется статистика n ³ ³ ´´2 ³ ´ X 2 = yi − f xi ; θ̂ Rmin = R2 θ̂ ⩾ 0, i=1 где θ̂ – МНК-оценка. Учитывая линейную модель (11.92), легко получить ³ ´T ³ ´ 2 Rmin = Y − X θ̂ Y − X θ̂ ⩾ 0. (11.100) Теорема 11.18. Если выполнены условия теоремы 11.17 и число наблюдений больше числа оцениваемых параметров: n > m, то несмещенной оценкой дисперсии σ2 является статистика 1 σ̂2 = R2 . (11.101) n − m min Доказательство. Используя теорему 11.17, имеем ³ ¡ ¢−1 T ´ Y − X θ̂ = Y − Xθ0 − XC0 E = E − XC0 E = In − X X T X X E. Подставляя в (11.100), получаем ³ ¡ ¢−1 T ´2 2 Rmin = ET I n − X X T X X E. Установим несмещенность оценки (11.101), учитывая (11.93) и легко проверяемое ¡ ¢−1 T свойство идемпотентности матрицы In − X X T X X [11]: ¶¾ ½ µ³ n o ¡ ¢−1 T ´2 T 1 E σˆ2 = E tr In − X X T X X EE = n−m ³ ¡ ¢−1 T ´ 1 σ2 = σ2 tr In − X X T X X = (n − m) = σ2 . n−m n−m ¤ Следствие 11.20. Несмещенной оценкой для матрицы вариаций V = V {θ̂} является следующая статистика: V̂ = 2 ¡ T ¢−1 Rmin X X . n−m Теорема 11.19 (Гаусса – Маркова). Если выполнены условия теоремы 11.17, то в семействе S всевозможных линейных несмещенных статистических оценок вектора параметров θ0 = (θ01 , . . . , θ0m )T ∈ Rm МНК-оценка, определяемая теоремой 11.17: θ̂ = (θ̂1 , . . . , θ̂m )T = C0 Y , характеризуется наименьшими вариациями. Доказательство. Определим семейство S, о котором говорится в теореме: n n o o S = θ̃ = CY : C − произвольная матрица, Eθ0 θ̃ = θ0 , ∀θ0 . Представим матрицу C в виде C = C0 + ∆, где ∆ = (∆ij ) – произвольная (m × n)матрица. По теореме 11.17 для МНК-оценки имеем n o θ̂ = C0 Y, Eθ0 θ̂ = θ0 , ∀θ0 ; 11.10. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И ЕГО СВОЙСТВА 293 ½³ n o ´³ ´T ¾ ¡ ¢−1 0 0 V θ̂ = (vij ) = Eθ0 θ̂ − θ θ̂ − θ = σ2 X T X . Отсюда следует, что θ̂ ∈ S. Получим ограничение на матрицу ∆, обусловленное несмещенностью МНК-оценки (11.95). Для любого θ0 ∈ Rm должно выполняться n o n o Eθ0 θ̃ = Eθ0 {(C0 + ∆) Y } = Eθ0 θ̂ + ∆Y = θ0 + ∆Eθ0 {Y } = θ0 + ∆Xθ0 = θ0 . Следовательно, ∆X = 0, и имеем эквивалентное представление для оценки θ̃ ∈ S: ¡ ¢ θ̃ = (C0 + ∆)Y = θ̂ + ∆ Xθ0 + E = θ̂ + ∆E. С учетом этого вычислим матрицу вариаций: ½³ n o ´³ ´T ¾ 0 0 Ṽ = (ṽij ) = V θ̃ = Eθ0 θ̃ − θ θ̃ − θ = = Eθ0 ¶¾ ½³³ ´ ´ µ³ ´T θ̂ − θ0 + ∆E θ̂ − θ0 + ET ∆T = (µ ) ½ ³ n o ´T ¾ ³ ´T ¶T © ª = V θ̂ + ∆E E θ̂ − θ0 +E ∆E θ̂ − θ0 + ∆Eθ0 EET ∆T . Учитывая (11.93) и представление (11.97) для МНК-оценки (11.95), полученное при доказательстве теоремы 11.17, имеем ½ ³ ´T ¾ © ª ¡ ¢−1 T 0 ∆E E θ̂ − θ = ∆Eθ0 EET C0T = σ2 ∆C0T = σ2 ∆X X T X X = 0. В результате получим Ṽ = (ṽij ) = V + σ2 ∆∆T , откуда имеем выражения для диагональных элементов: ṽii = vii + σ2 n X ∆2ij ⩾ vii , i = 1, . . . , m, j=1 причем равенство Ṽ = V выполняется тогда и только тогда, когда ∆ = 0 ⇔ θ̃ = θ̂. ¤ 11.10.3. Выравнивание экспериментальных данных прямой линией. Применение метода наименьших квадратов в эконометрике Необходимо построить прямую y = θ̂1 + θ̂2 x по методу наименьших квадратов для следующей линейной регрессионной модели: yi = θ1 + θ2 xi + ²i , i = 1, . . . , n. 294 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Сведем эту модель к модели из п. 11.10.2: xi1 := 1, xi2 := xi , получим модель из п. 11.10.2, в которой θ = (θ1 , θ2 )T – подлежащий оцениванию вектор параметров (m = 2). Для вычисления оценки метода наименьших квадратов определим: 1 x1 1 x2 X= ... ... ; 1 xn T X Y = à n X i=1 yi , n X !T xi y i ; −1 x i ¡ T ¢−1 i=1 ; X X =X n n X 2 xi xi n i=1 ¡ ¢−1 T θ̂ = X T X X Y; n X i=1 V n o θ̂ = σ2 (X T X)−1 . i=1 Пример 11.7 (оценивание производственной функции). Рассмотрим производственную функцию Кобба – Дугласа, часто используемую при моделировании экоβ β номики: Yi = β1 Ki 2 Li 3 , где i – номер года (i = 1, 2, . . . , n, . . .); Yi – суммарная стоимость ВВП за i-й год; Ki – суммарная стоимость капиталовложений в i-м году; Li – суммарная стоимость трудовых затрат в i-м году; β1 , β2 , β3 ⩾ 0 – неизвестные параметры. По данным {Yi , Ki , Li } за n лет необходимо оценить параметры β1 , β2 , β3 . Приведем эту модель к линейной регрессионной модели с помощью логарифмирования: yi = θ1 xi1 + θ2 xi2 + θ3 xi3 + ²i , m = 3, θ = (θ1 , θ2 , θ3 )T , где yi = ln Yi ; xi1 ≡ 1; xi2 = ln Ki ; xi3 = ln Li ; θ1 = ln β1 ; θ2 = β2 ; θ3 = β3 ; {²i } – случайные ошибки наблюдения. Вектор оценок θ̂ = (θ̂1 , θ̂2 , θ̂3 )T можно получить по (11.95) из теоремы 11.17. После того как модель построена, можно построить прогноз ВВП в (n + 1)-м году: θ̂ θ̂ 3 2 , Ln+1 Yn+1 = eθ̂1 Kn+1 где Kn+1 , Ln+1 – плановые значения капитальных вложений и трудовых затрат в (n + 1)-м году. Заметим, что иногда применяется нелинейный метод наименьших квадратов: n ³ X β β Yi − β1 Ki 2 Li 3 i=1 ´2 → min . β1 ,β2 ,β3 11.11. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ 11.11.1. Понятие об интервальном оценивании Рассмотрим следующую задачу статистического оценивания параметров. Пусть в RN наблюдается случайная выборка X = (xT1 , . . . , xTn )T ∈ RnN из некоторого абсолютно непрерывного распределения вероятностей с некоторой плотностью p(x; θ), x ∈ RN , где θ ∈ R1 – неизвестное значение параметра. Примем следующие обозначения: p(X; θ) = n Y k=1 p(xk ; θ) – 11.11. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ 295 совместная плотность распределения вероятностей всей выборки; Z Pθ (A) = p(X; θ)dX, A ⊆ BnN , – A вероятностная мера при условии, что параметр равен θ. Рассмотрим задачу оценивания θ по X. Геометрический смысл статистического оценивания (см. рис. 11.1) состоит в том, что по выборке X пытаются построить точку θ̂, где θ̂ = T (X) ∈ R1 – некоторая статистика. В силу того, что оценка интерпретируется точкой, такое оценивание называется точечным. В условиях регулярности известно следующее свойство точечных оценок (см. п. 11.5): ½¯ ¯2 ¾ 1 ¯ ¯ V {θ̂} = Eθ ¯θ̂ − θ¯ ⩾ > 0, nI где I > 0 – количество информации n oпо Фишеру. Отсюда следует, что Pθ θ̂ = θ = 0 – точечная оценка с вероятностью единица ³ ´ ошибочна! Однако если возьмем какой-либо интервал θ̂ − δ, θ̂ + δ длиной 2δ > 0, то n o Pθ θ̂ − δ < θ < θ̂ + δ > 0, ∀δ > 0. На этом факте и основана идея интервального оценивания. ¡ ¢ Определение 11.41. Пусть 0 < ² < 1/2. Случайный интервал θ, θ ⊂ R1 , границы которого θ = θ(X), θ = θ(X) (причем θ(X) < θ(X)) являются статистиками, называется доверительным интервалом для параметра θ, если этот интервал «накрывает» истинное значение θ с наперед заданной достаточно большой вероятностью 1 − ²: © ª ∀θ ∈ R Pθ θ < θ < θ = 1 − ². (11.102) При этом величина 1 − ² называется доверительной вероятностью (коэффициентом доверия, доверительным уровнем), а статистики θ(X) и θ(X) – соответственно нижней и верхней доверительными границами. На практике доверительные вероятности обычно выбираются стандартным образом: 1 − ² ∈ {0,8; 0,85; 0,9; 0,95; 0,99; 0,995; 0,999}. Определение 11.42. Интервальной оценкой параметра θ по выборке X называется основанное на (11.102) вероятностное утверждение следующего вида: ¡ ¢ с вероятностью 1 − ² θ ∈ θ, θ . Замечание 11.16. Иногда доверительным уровнем называется следующая величина: (1 − ²)100 %, т. е. доверительный уровень иногда измеряется в процентах. Запишем условие (11.102) в эквивалентном виде: © ª ∀θ ∈ R Pθ {θ ⩽ θ} = ²1 , Pθ θ ⩾ θ = ²2 , ²1 + ²2 = ². В зависимости от соотношения между ²1 и ²2 известна следующая классификация типов доверительных интервалов. Определение 11.43. Существуют три типа доверительных интервалов: 1) если ²1 = ², ²2 = 0, то интервальная оценка имеет вид: с вероятностью 1 − ² θ > θ, и доверительный интервал (θ, ∞) называется левосторонним доверительным интервалом; 296 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ 2) если ²1 = 0, ²2 = ², то интервальная оценка имеет вид: с вероятностью 1 − ² θ < θ, и доверительный интервал (−∞, θ) называется правосторонним доверительным интервалом; 3) если ²1 = ²2 = ²/2, то интервальная оценка принимает вид © ª ² ² ∀θ ∈ R, Pθ {θ ⩽ θ} = , Pθ θ ⩾ θ = ; (11.103) 2 2 ¡ ¢ при этом доверительный интервал θ, θ называется центральным доверительным интервалом (ЦДИ). 11.11.2. Методы построения доверительных интервалов Рассмотрим три основных метода построения доверительных интервалов. Основное внимание будет уделено центральным доверительным интервалам, определяемым (11.103). I. Метод обратной функции Пусть некоторым образом построена состоятельная точечная оценка параметра θ: θ̂ = Tn(X). Предположим, что для нее вычислена функция распределения F (z; θ) = o = Pθ θ̂ < z , z ∈ R, причем предполагаем, что F (·; θ) монотонна по θ. Будем искать доверительные границы в виде ³ ´ ³ ´ θ = θ(X) = f1 θ̂ , θ = θ(X) = f2 θ̂ , (11.104) где f1 (·), f2 (·) – некоторые, пока не известные, монотонно возрастающие функции. Подберем f1 (·), f2 (·) в (11.104) таким образом, чтобы выполнялись соотношения (11.103). Для первого из них имеем n ³ ´o n o ² ∀θ ∈ R Pθ {θ ⩽ θ} ≡ Pθ θ ⩽ f1 θ̂ = Pθ f1−1 (θ) ⩽ θ̂ = 1 − F (θ1 ; θ) = , 2 где θ1 = f1−1 (θ), что эквивалентно θ = f1 (θ1 ). ² Аналогично действуя со вторым соотношением, получаем F (θ2 +0; θ) = , θ = f2 (θ2 ). 2 Таким образом, функции f1 (·), f2 (·) однозначно определяются следующими уравнениями: ² F (θ1 ; θ) = 1 − , где θ = f1 (θ1 ); (11.105) 2 ² F (θ2 + 0; θ) = , где θ = f2 (θ2 ). (11.106) 2 Метод обратной функции порождает следующий алгоритм построения центрального доверительного интервала. 1. Строим состоятельную оценку θ̂ = T (X). 2. Находим функцию распределения этой оценки F (·; θ). 3. Составляем и решаем по θ следующие два уравнения: ³ ´ ² F θ̂; θ = 1 − ; 2 ³ ´ ² F θ̂ + 0; θ = . 2 4. Определяем доверительные границы: θ = θ(X) – наименьший из корней, θ = θ(X) – наибольший из корней. 11.11. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ 297 Пример 11.8 (ЦДИ для среднего при известной дисперсии). Пусть наблюдается случайная выборка X = (x1 , . . . , xn )T ∈ Rn из нормального распределения N (θ, σ2 ), где θ – неизвестное математическое ожидание, σ2 – известная дисперсия. Необходимо построить 90 % ЦДИ для θ (1 − ² = 0,9). Решение. Применим метод обратной функции. n X 1. Оценка θ̂ = x = 1/n xk – выборочное среднее. k=1 √ 2. L{x} = N1 (θ, σ2 /n) ⇒ F (z; θ) = Φ ((z − θ)/σ/ n) , где Φ(·) – функция распределения стандартного нормального закона. 3. Составляем и решаем уравнения (gα = Φ−1 (α) – квантиль уровня α): ¶ µ x−θ ² x−θ √ √ = g1− ² ; Φ =1− , 2 2 σ/ n σ/ n µ ¶ ² x−θ x−θ √ √ = g ² = −g1− ² . Φ = , 2 2 2 σ/ n σ/ n 4. Вычисляя по таблицам [7]: g0,95 ≈ 1,65, находим σ σ θ = x − 1,65 √ , θ = x + 1,65 √ . n n √ √ Таким образом, с вероятностью 0,95: x − 1,65σ/ n < θ < x + 1,65σ/ n. Теорема 11.20. Пусть θ̂ = T (X) – некоторая состоятельная асимптотически несмещенная и асимптотически нормальная оценка параметра θ с асимптотической дисперсией σ2n (θ) → 0, n → ∞, т. е. случайная величина τ = τ(X; θ) = (θ̂ − θ)/σn (θ) при n → ∞ распределена асимптотически нормально по закону N1 (0, 1): Fτ (z) = Pθ {τ < z} → Φ(z), z ∈ R. (11.107) Тогда при n → ∞ границы (1 − ²)100 % ЦДИ определяются из уравнений θ̂ − θ = ±g1− ² . 2 σn (θ) (11.108) Доказательство. Применим метод обратной функции и воспользуемся асимптотикой (11.107). Составим уравнения (11.105) и (11.106), найдем ( ) ¶ µ θ̂ − θ z−θ z−θ F (z; θ) = Pθ {θ̂ < z} = Pθ < = Fτ . σn (θ) σn (θ) σn (θ) Учитывая (11.105), (11.106) и используя (11.107), получаем асимптотические соотношения: à ! à ! ² ² θ̂ − θ θ̂ − θ Φ =1− ; Φ = . σn (θ) 2 σn (θ) 2 Действуя дальше аналогично примеру 11.8, получаем (11.108). n o ¤ Следствие 11.21. Если оценка θ̂ имеет нормальное распределение: L θ̂ = =N1 (θ, σ2n (θ)), то границы, определяемые (11.108), являются точными при любом n. Следствие 11.22. Если дисперсия σ2n (θ) = σ2n и не зависит от θ, то доверительные границы имеют явный вид: θ = θ̂ − g1− ² σn , 2 θ = θ̂ + g1− ² σn . 2 298 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Теорема 11.21 (интервальная оценка вероятности успеха). Пусть рассматривается схема n независимых испытаний Бернулли и X = (x1 , . . . , xn )T ∈ {0, 1}n – случайная выборка объема n из распределения Bi(1, θ), где θ ∈ (0, 1) – неизвестная n X вероятность успеха. Если m = xi – зарегистрированное число успехов в n испытаi=1 ниях, причем m ∈ {1, . . . , n − 1}, то (1 − ²)100 % ЦДИ имеет границы θ, θ, являющиеся корнями следующих уравнений: n X Cni θi (1 − θ)n−i = ² ; 2 (11.109) Cni θi (1 − θ)n−i = ² . 2 (11.110) i=m m X i=0 Доказательство. Применим метод обратной функции. Известна состоятельная m – относительная частота, для которой оценка для θ: θ̂ = n µ ¶ k−1 X k ; θ = Pθ {m < k} = Cni θi (1 − θ)n−i . L{m} = Bi(n, θ), F n i=0 Составляем уравнение (11.105): F ³m n ´ m−1 X X ² ;θ = Cni θi (1 − θ)n−i = 1 − Cni θi (1 − θ)n−i = 1 − , n 2 i=0 i=m откуда получаем (11.109). Запишем уравнение (11.106): F ³m m ´ X ² + 0; θ = Cni θi (1 − θ)n−i = , n 2 i=0 что совпадает с (11.110). ¤ Следствие 11.23. Если число успехов m = 0, то имеем правосторонний довери√ тельный интервал с вероятностью 1 − ² : 0 < θ < θ, где θ = 1 − n ². Следствие 11.24. Если число успехов m = n, то имеем левосторонний довери√ тельный интервал с вероятностью 1 − ² : θ < θ < 1, где θ = n ². II. Метод стьюдентизации Метод стьюдентизации был предложен английским статистиком В. Госсетом (псевдоним Student). Он обобщает метод обратной функции и состоит из следующих трех шагов. 1. Строится функция τ = τ(X; θ) такая, что выполняются два условия: а) L{τ} = invarθ – не зависит от параметра; б) τ(·; θ) – непрерывна и монотонна по θ. Например, в следствии 11.21 теоремы 11.20 была построена функция θ̂ − θ τ(X; θ) = q . Dθ {θ̂} 11.11. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ 299 Если θ̂ нормально распределена, то L{τ} = N1 (0, 1), так что условия а) и б) выполняются. 2. По заданному доверительному уровню 1 − ² выбираются два числа g− (²), g+ (²) такие, что (рис. 11.8) Pθ {g− (²) < τ < g+ (²)} = 1 − ², ∀θ ∈ R. Когда числа g− (²), g+ (²) находятся неоднозначно, используют еще одно дополнительное условие: g+ (²) − g− (²) → min. Рис. 11.8. Иллюстрация метода стьюдентизации Если τ имеет симметричное распределение вероятностей относительно τ = 0, то g± (²) = ±g(²). Например, если L{τ} = N1 (0, 1), то g(²) = Φ−1 (1 − ²/2). 3. Решаются два уравнения относительно θ: τ(X; θ) = g± (²). Нижняя доверительная граница θτ равна наименьшему из корней, а верхняя доверительная граница θτ равна наибольшему из корней. Пример 11.9 (ЦДИ для среднего при неизвестной дисперсии). Наблюдается случайная выборка X = (x1 , . . . , xn )T из N1 (θ, σ2 ); θ, σ2 – неизвестные параметры. Построить ЦДИ для θ при доверительном уровне 1 − ². Решение. Воспользуемся методом стьюдентизации. 1. Чтобы построить функцию τ = τ(X; θ), построим вначале несмещенные, состоятельные оценки для параметров θ, σ2 : n n 1 X 1X xi , s 2 = (xi − x)2 > 0. θ̂ = x = n i=1 n − 1 i=1 Введем следующие нормированные случайные величины: x−θ ξ1 = √ , L{ξ1 } = N1 (0, 1); σ/ n ξ2 = (n − 1)s2 , σ2 L{ξ2 } = χ2n−1 ; ξ1 , ξ2 – независимы. Построим случайную величину: τ = τ(X; θ) = r ξ1 ξ2 n−1 . 300 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ Известно, что L{τ} = tn−1 – распределение вероятностей Стьюдента с n − 1 степенью свободы; функция распределения в данном случае обозначается следующим образом: P{τ < y} = Ftn−1 (y), y ∈ R. Выразим τ(X; θ) через исходные статистики: τ(X; θ) = √ x−θ n s – непрерывная и монотонная по θ функция. 2. Функция Ftn−1 (y) есть функция распределения симметричной случайной величины: Ftn−1 (−y) = 1 − Ftn−1 (y), тогда получаем P{−g < τ < g} = Ftn−1 (g) − (1 − Ftn−1 (g)) = 2Ftn−1 (g) − 1 = 1 − ². ² Из последнего равенства имеем Ftn−1 (g) = 1 − , следовательно, g(²) = 2 ³ ²´ ² 1 − – квантиль уровня 1 − = Ft−1 распределения Стьюдента с n − 1 степенью n−1 2 2 свободы. 3. Из уравнений ³ √ x−θ ²´ 1 − n = ±Ft−1 n−1 s 2 получаем ³ ²´ s √ ; 1− θτ = x − Ft−1 n−1 2 n ³ ´ ² s √ . θτ = x + Ft−1 1− n−1 2 n ¢ ¡ Таким образом, ЦДИ θτ , θτ построен. Его длина ³ ´ ˜ = θτ − θτ = 2Ft−1 1 − ² √s . ∆ n−1 2 n Задание 11.11. Сравнить полученный результат с примером 11.8. Как значение дисперсии σ2 влияет на длину ЦДИ? III. Метод построения асимптотически наикратчайших доверительных интервалов Определение 11.44. Пусть с помощью некоторой функции τ = τ(X; θ) построен ЦДИ (θτ , θτ ) с доверительным уровнем 1 − ². Средней длиной этого доверительного интервала называется число © ª ∆ = ∆(τ(·)) ::= E θτ − θτ ⩾ 0. Возникает задача построения наикратчайшего доверительного интервала, имеющего минимальную длину: ∆(τ(·)) → min . τ(·) Приведем асимптотический результат. 11.12. РОБАСТНОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ 301 Теорема 11.22. Пусть в условиях регулярности рассматривается семейство цен¡ ¢ тральных доверительных интервалов доверительного уровня 1−² θτ , θτ , основанных на функции τ = τ(X; θ) следующего вида: 1 τ(X; θ) = p n X nDθ {h(x1 ; θ)} k=1 h(xk ; θ), где h(·; θ) – произвольная борелевская функция такая, что математическое ожидание Eθ {h(x1 ; θ)} = 0, дисперсия Dθ {h(x1 ; θ)} < +∞; при этом доверительные границы определяются из уравнений τ(X; θ) = ±g1− ² , 2 gα = Φ−1 (α). Тогда при n → ∞ асимптотически наикратчайший центральный доверительный интервал определяется функцией h(x; θ) = h∗ (x; θ) = ln p(x; θ), x ∈ RN , где p(·; θ) – плотность распределения вероятностей выборочных значений, а доверительные границы этого асимптотически наикратчайшего ЦДИ являются корнями уравнений 1 dl(θ) √ = ±g1− ² , 2 nI dθ где n X ln p(xk ; θ) – l(θ) = k=1 логарифмическая функция правдоподобия; ½ 2 ¾ d ln p(xk ; θ) I = Eθ − >0 – dθ2 количество информации по Фишеру. Отметим, что одномерные доверительные интервалы могут быть обобщены на многомерный случай: θ ∈ Rm , m ⩾ 1. Определение 11.45. Пусть 0 < ² < 1, тогда случайная область V² = V² (X) ⊂ ⊂ Rm , граница которой зависит от выборки X, называется доверительной областью для векторного параметра θ ∈ Rm , если эта область содержит θ с наперед заданной достаточно большой вероятностью 1 − ², т. е. ∀θ Pθ {θ ∈ V² (X)} = 1 − ². 11.12. РОБАСТНОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ Реальные наблюдения, которые подвергаются статистическому анализу и на основе которых строятся точечные и интервальные оценки параметров, как правило, лишь весьма приближенно соответствуют той математической модели, на основе которой построена используемая процедура статистического оценивания. Это связано с тем, что ¢T ¡ ∈ RnN , их на практике при регистрации наблюдений из выборки X = xT1 , . . . , xTn сборе и хранении зачастую возникают достаточно грубые ошибки, вызванные сбоями регистрирующей аппаратуры, невнимательностью наблюдателя, а также несоответствием «природы» регистрируемых наблюдений предполагаемой (гипотетической) модели. В связи с этим возникает необходимость в статистических процедурах, которые не 302 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ должны терять свои оптимальные свойства в условиях отклонений от гипотетической модели. Такие статистические процедуры, по предложению американского статистика Дж. Тьюки, называются устойчивыми или робастными (от англ. robust – крепкий, стойкий, дюжий), и их разработка является одним из основных направлений в современной статистике [35, 28]. Напомним гипотетическую модель, принятую в теории статистического оценивания ¡ ¢T параметров (далее – модель Mo ). Наблюдаемая случайная выборка X = xT1 , . . . , xTn ∈ ∈ RnN объема n описывается некоторым N -мерным гипотетическим распределением веT роятностей с плотностью p (x; θ0 ), x ∈ RN , где θ0 = (θ01 , . . . , θ0m ) ∈ Θ ⊆ Rm – неизвестное истинное значение вектора параметров. Чаще всего на практике в качестве модели наблюдений с искажениями используется модель Тьюки – Хьюбера [35] (модель M²h+ ), согласно которой наблюдения x1 , . . . , xn из выборки X объема n есть случайные N -векторы с искаженной (фактической) плотностью распределения вероятностей: p² (·; θ0 ) ∈ P(p(·; θ0 ), ²+ ); P(p(·; θ0 ), ²+ ) = {p² (x; θ0 ), x ∈ RN : p² (x; θ0 ) = (1 − ²)p(x; θ0 ) + ²h(x), 0 ⩽ ² ⩽ ²+ < 1}, (11.111) где ²+ – так называемый уровень искажений (при ²+ = 0 искажения отсутствуют и имеет место модель Mo ), а ² – текущий уровень искажений, имеющий смысл вероятности появления аномальных наблюдений в выборке: при регистрации наблюдения x ∈ RN , согласно модели (11.111), оно с вероятностью 1 − ² соответствует гипотетической модели Mo и описывается плотностью p(·; θ0 ), а с вероятностью ² является аномальным и определяется неизвестной плотностью «засоряющего» распределения h(·). Другая интерпретация искажений Тьюки – Хьюбера (11.111) заключается в следующем: выборку X объема n рассматривают как неоднородную выборку, состоящую из двух подвыборок, первая из которых содержит «в среднем» (1 − ²) · n наблюдений, имеющих гипотетическую плотность p(·; θ0 ), а вторая образована аномальными наблюдениями, описываемыми плотностью h(·), количество которых «в среднем» равно ² · n. Искажения типа (11.111) обычно обусловлены появлением в выборке X резко выделяющихся аномальных наблюдений-«выбросов» (от англ. outlier ), которые удалены от основной «массы» наблюдений и приводят к увеличению рассеяния и «утяжелению хвостов» вероятностного распределения наблюдений (рис. 11.9, N = 2). В качестве гипотетической модели Mo обычно используется гауссовская модель. Не ограничивая общности, рассмотрим здесь случай одномерных наблюдений (x ∈ R, N = 1) с гипотетической плотностью вида µ ¶ x − θ0 0 0 2 p(x; θ ) = n1 (x|θ , σ ) = φ , (11.112) σ где φ(·) – плотность распределения вероятностей стандартного нормального закона N1 (0, 1); θ0 ∈ R – неизвестное истинное гипотетическое значение математического ожидания («параметр сдвига»); σ2 – дисперсия в гипотетической модели (σ > 0 – «параметр масштаба», гипотетическое значение среднеквадратического отклонения). В качестве искаженной модели, соответствующей Mo из (11.112), рассмотрим частный случай модели (11.111): µ ¶ µ ¶ x − θ0 x − θ0 p² (x; θ0 ) = (1 − ²)φ + ²φ , 0 ⩽ ² ⩽ ²+ < 1, (11.113) σ kσ 11.12. РОБАСТНОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ 0 303 2 2 с плотностью «засоряющего» распределения h(x) = n1 (x|θ , k σ ), дисперсия которого k 2 σ2 в k 2 раз больше дисперсии σ2 гипотетического распределения (k > 1 – коэффициент увеличения среднеквадратического отклонения). Рис. 11.9. Диаграмма рассеяния искаженной выборки: • – гипотетические наблюдения; × – «выбросы» В качестве показателей увеличения рассеяния и «утяжеления хвостов» для модели (11.112), (11.113) вычисляют µ µ µ ¶ ¶¶ 3 P = P{|xt − θ0 | > 3σ} = 2 Φ(−3) + ² Φ − − Φ(−3) – (11.114) k вероятность появления «выброса» вне гипотетического интервала концентрации [θ0 −3σ, θ0 +3σ] (Φ(·) – функция распределения вероятностей стандартного нормального закона N1 (0, 1)); δ= D{xt } = 1 + (k 2 − 1)² – относительную дисперсию. σ2 (11.115) Значения характеристик (11.114), (11.115) для гипотетической модели Mo из (11.112) (при ² = 0 в (11.113)) равны соответственно: P = 2Φ(−3) ≈ 0,0027, δ = 1, и увеличиваются с ростом текущего уровня искажений ² и дисперсии выбросов (увеличением ко- 304 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ эффициента k). Так, например, при k = 5 и ² = 0,1 дисперсия наблюдений из выборки увеличивается в 3,4 раза (δ = 3,4). Одним из способов построения устойчивых оценок является подход, при котором для описания искажений в выборке используются распределения с «хвостами» более тяжелыми, чем у гипотетического распределения. Например, вместо модели (11.112), (11.113) для описания искаженной выборки используется распределение Лапласа, для которого МП-оценкой параметра «сдвига» является выборочная медиана, принадлежащая к классу так называемых L-оценок: θ̂L = θ̂L (X) = n X at g(x(t) ), (11.116) t=1 где x(1) ⩽ x(2) ⩽ . . . ⩽ x(n) – вариационный ряд выборки X = (x1 , . . . , xn )T ∈ Rn ; g(·) – некоторая функция; {at }nt=1 – весовые коэффициенты. Чаще всего используется частный случай (11.116): θ̂L,α = n−q X 1 x(t) n − 2q t=q+1 – (11.117) «усеченное» среднее, где q – наибольшее целое, не превосходящее α · n (0 < α < 1/2 задано). При 0 ⩽ α < 1/n из (11.117) получаем обычное арифметическое среднее: n θ̂L,α |0⩽α<1/n = 1X x(t) = x, n t=1 а при α → 1/2 – выборочную медиану: x(l+1) , n = 2l + 1, θ̂L,α |α→ 1 = x + x (l+1) (l) 2 , n = 2l. 2 Теперь вернемся к модели искажений Тьюки – Хьюбера общего вида (11.111). В качестве робастных статистических оценок параметра θ0 ∈ Θ ⊆ Rm швейцарский статистик П. Хьюбер предложил использовать так называемые M -оценки θ̂M = θ̂M (X), определяемые по выборке X = (xT1 , . . . , xTn )T ∈ RnN как решение экстремальной задачи (Θ∗ – замыкание Θ): n X φ(xt ; θ) → min∗ , (11.118) t=1 θ∈Θ где φ(·; θ) – некоторая функция, определяющая конкретный тип оценок и их точность. Очевидно, что M -оценка с функцией φ(·; θ) ≡ − ln p(·; θ) – обычная оценка максимального правдоподобия (МП-оценка) из п. 11.7, построенная для гипотетической модели Mo (когда искажения наблюдений в выборке отсутствуют). Более того, оценки вида (11.118) в условиях гипотетической модели Mo при определенных условиях на функции φ(·; θ) обобщают МП-оценки. Определение 11.46. Оценкой минимального контраста (ОМК, МК-оценкой) называется оценка, определяемая из соотношения (11.118) с функцией φ(·; θ) ≡ φ0 (·; θ), называемой функцией контраста и удовлетворяющей соотношению F (θ0 , θ0 ) < F (θ, θ0 ), ∀θ0 ∈ Θ, θ ∈ Θ∗ , θ 6= θ0 , (11.119) 11.12. РОБАСТНОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ где 305 Z F (θ, θ0 ) = φ0 (x; θ)p(x; θ0 )dx – RN математическое ожидание от φ0 (·; θ), вычисленное по гипотетической плотности p(·; θ0 ). В условиях гипотетической модели (при отсутствии искажений) МК-оценка (11.118), (11.119) при определенных условиях регулярности обладает почти всеми свойствами МП-оценки (за исключением разве что эффективности), например она строго состоятельна. При предполагаемом наличии искажений Тьюки – Хьюбера (модель M²h+ из (11.111)), основываясь на принципе «усечения» Хьюбера [35, 28], в качестве робастной M -оценки (11.118) можно предложить «усеченную» МК-оценку θ̂M,C = θ̂M,C (X) с функцией φ(·; θ) ≡ φC (·; θ) вида ( φ0 (x; θ), φ0 (x; θ) < C; C φ (x; θ) = (11.120) C, φ0 (x; θ) ⩾ C, где φ0 (·; θ) – гипотетическая функция контраста из (11.119), а C – параметр «усечения»: C ∈ (−∞; +∞], позволяющий ограничить влияние аномальных наблюдений«выбросов» на статистическую оценку (при C = +∞ получаем классическую ОМК (11.118), (11.119)). Для выбора значения параметра «усечения» C в (11.120) можно использовать так называемый минимаксный подход Хьюбера [35, 28], который состоит в следующем. В качестве оптимальной функции φ∗ (·; θ) ∈ Φ в (11.118) надлежит выбирать ту, которая на семействе функций φ(·; θ) ∈ Φ минимизирует «наихудшее» по модели M²h+ (p² (·; θ0 ) ∈ P(p(·; θ0 ), ²+ )) значение некоторого показателя погрешности оценки (например, асимптотической дисперсии V = V (φ(·; θ), p² (·; θ0 ))): φ∗ (·; θ) = arg min sup φ(·;θ)∈Φ p² (·;θ0 )∈P(p(·;θ0 ),² ) + V (φ(·; θ), p² (·; θ0 )). (11.121) Из условия типа (11.121) для семейства «усеченных» функций (11.120) находим оптимальное по Хьюберу значение параметра «усечения» C ∗ . Так, для параметра «сдвига» гауссовской гипотетической плотности (11.112) при наличии искажений типа (11.111) (считая ² = ²+ – зафиксированным, «параметр масштаба» σ – известным, а плотности «засоряющих» распределений – симметричными: h(x) = h(−x), x ∈ R), исходя из принципа минимакса асимптотической дисперсии (11.121) на классе всех произвольных функций φ(·; θ) в (11.118) (включающем в себя и «усеченные» функции) Хьюбер получил «усеченную» робастную оценку [35, 28], определяемую из следующего уравнения относительно θ: µ ¶ n X xt − θ ψb = 0, σ t=1 где © ª ψb (z) = max −b, min{z, b} , z ∈ R, а значение параметра «усечения» b = b(²+ ) > 0 является решением уравнения 2Φ(b) − 1 + 2φ(b) 1 = . b 1 − ²+ В «предельных» случаях при ²+ → 0 (b → +∞) имеем выборочное среднее, а при ²+ → 1 (b → 0) – выборочную медиану. 306 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ 11.13. УПРАЖНЕНИЯ 1. Пусть выборка X = (x1 , . . . , xn ) получена из нормального распределения вероятноn 1X 2 стей N1 (a, σ2 ). Вычислить математическое ожидание статистик σ̂2 = x − x̄2 и n i=1 i n n X X 2 2 s = 1(n − 1) (xi − x̄) , где x̄ = xi – выборочное среднее. i=1 i=1 2. Выборка X = (x1 , . . . , xn ) получена из экспоненциального распределения вероятностей с параметром λ > 0. Статистика Y = (y1 , . . . , yn ) построена следующим образом: yi = 1 − e−λxi , i = 1, . . . , n. Найти распределение вероятностей элементов статистики Y . 3. Пусть выборка X = (x1 , . . . , xn ) получена из распределения вероятностей с известной функцией распределения F (x), x ∈ R. Найти функцию распределения вероятностей первой порядковой статистики. 4. Выборка X = (x1 , . . . , xn ) получена из равномерного распределения вероятностей на отрезке [0, b], b > 0. Вычислить математическое ожидание и дисперсию n-й порядковой статистики. 5. Пусть выборка X = (x1 , . . . , xn ) получена из распределения вероятностей с функцией распределения F (x), x ∈ R. Найти совместную функцию распределения x(1) и x(n) . 6. Дана выборка X = (3, 0, 2, 4, 3, 6, 0, 3, 1). Построить по этой выборке эмпирическую функцию распределения F̂ (x), x ∈ R, и вычислить F̂ (3, 5) − F̂ (3). 7. Пусть F̂ (x) – эмпирическая функция распределения, построенная по выборке X = = (x1 , . . . , xn ). Пусть a ∈ R, a > 0. Является ли эмпирической функцией распределения функция F̂ (ax)? В случае положительного ответа привести выборку, которой она соответствует. 8. Пусть F̂ (x) – эмпирическая функция распределения, построенная по выборке X = = (x1 , . . . , xn ). Существует ли выборка, для которой F̂ (x3 ) является эмпирической функцией распределения? В случае положительного ответа указать такую выборку. 9. Пусть выборка X = (x1 , . . . , xn ) получена из распределения вероятностей с заданными дисперсией σ2 и четвертым центральным моментом µ4 . По выборке X построена оценка дисперсии – статистика σ̂2 . Вычислить ее дисперсию. 10. Выборка X = (x1 , . . . , xn ) получена из распределения вероятностей с заданным начальным моментом αk порядка k, k ∈ N. По выборке X построен выборочный момент ak порядка k. Вычислить математическое ожидание ak . 11. Выборка X = (x1 , . . . , xn ) получена из распределения вероятностей с заданными моментами до порядка k + s, s ∈ N, включительно: α1 , . . . , αk+s . Вычислить ковариацию выборочных моментов ak и as , построенных по выборке X. 12. Выполнить упражнение 9 в случае, когда выборка X получена из нормального распределения вероятностей с заданной дисперсией σ2 . 13. Пусть θ̂ – несмещенная оценка неизвестного параметра θ, имеющая конечную положительную дисперсию D{θ̂}. Является ли статистика (θ̂)2 несмещенной оценкой 11.13. УПРАЖНЕНИЯ 307 2 для θ ? В случае отрицательного ответа указать смещение. 14. Известно, что E{Tn } = θ + bn , D{Tn } = δn , где bn → 0, δn → 0. Доказать, что Tn n→∞ n→∞ является состоятельной оценкой параметра θ. Что можно сказать о несмещенности этой оценки? 15. По выборке X = (x1 , . . . , xn ) оценивается параметр θ равномерного распределения n+1 вероятностей на отрезке [0, θ]. Являются ли статистики θ̂1 = x(n) , θ̂2 = (n+1)x(1) n несмещенными оценками? Какую из них предпочтительнее использовать и почему? 16. Пусть выборка X = (x1 , . . . , xn ) получена из показательного распределения вероятностей с параметром λ > 0. Является ли оценка λ̂ = (x̄)−1 несмещенной? Найти смещение в случае отрицательного ответа. Является ли оценка состоятельной? 17. Выборка X = (x1 , . . . , xn ) получена из равномерного распределения вероятностей на отрезке [0, θ]. Найти минимальную достаточную статистику для параметра θ. 18. Пусть выборка X = (x1 , . . . , xn ) получена из равномерного распределения вероятностей на отрезке [θ1 , θ2 ]. Будут ли достаточнымиµ статистиками для параметра µ ¶ ¶ θ1 x(1) θ= следующие статистики: а) x̄; б) x(n) ; в) ? θ2 x(n) 19. Выборка X = (x1 , . . . , xn ) получена из равномерного распределения вероятностей на отрезке [−θ, θ]. Найти минимальную достаточную статистику для параметра θ. 20. Выборка X = (x1 , . . . , xn ) получена из показательного (экспоненциального) распределения вероятностей с параметром λ > 0. Найти минимальную достаточную статистику для этого параметра. 21. Выборка X = (x1 , . . . , xn ) получена из нормального распределения вероятностей N1 (µ, σ2 ). Вычислить количество информации по Фишеру, содержащееся в одном наблюдении о неизвестном параметре, если: а) параметр µ неизвестен, значение σ2 известно; б) дисперсия σ2 неизвестна, значение µ известно. 22. Выборка X = (x1 , . . . , xn ) получена из биномиального распределения вероятностей с параметрами N и p; значение p ∈ (0, 1) известно. Доказать, что статистика x̄ – минимальная достаточная статистика. 23. Пусть построена эффективная оценка t = t(X) по выборке X в классе оценок со смещением α · θ, α – заданная постоянная. Построить эффективную оценку в классе несмещенных оценок. 24. Построить оценку максимального правдоподобия для неизвестного значения дисперсии σ2 нормального распределения вероятностей N1 (µ, σ2 ), из которого получена выборка X = (x1 , . . . , xn ), если значение µ известно. 25. Выборка X = (x1 , . . . , xn ) получена из равномерного распределения вероятностей на отрезке [0, θ]; значение параметра θ > 0 неизвестно. Построить оценку максимального правдоподобия параметра θ. 26. Выборка X = (x1 , . . . , xn ) получена из показательного распределения вероятностей с неизвестным значением параметра λ > 0. Построить для λ оценку максимального правдоподобия. 308 ГЛАВА 11. ТЕОРИЯ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ 27. Выборка X = (x1 , . . . , xn ) представляет собой результаты n независимых испытаний Бернулли с неизвестной вероятностью «успеха» p. Построить для нее оценку максимального правдоподобия. 28. Построить оценку максимального правдоподобия параметра λ > 0 распределения Пуассона по выборке X = (x1 , . . . , xn ) из этого распределения вероятностей. 29. Выборка X = (x1 , . . . , xn ) получена из равномерного распределения вероятностей на отрезке [0, θ]. Построить оценку неизвестного значения параметра θ по методу моментов. Исследовать построенную оценку на несмещенность и состоятельность. Является ли построенная оценка эффективной? 30. В схеме независимых испытаний Бернулли с неизвестной вероятностью «успеха» произведено n испытаний, в которых «успех» наблюдался mn раз. Построить оценку вероятности θ по методу моментов. 31. Выборка X = (x1 , . . . , xn ) получена из распределения Пуассона с неизвестным значением параметра λ > 0. Построить оценку по методу моментов параметра λ и исследовать ее на несмещенность, состоятельность и эффективность. 32. Случайное число ξ столкновений частиц, получающихся при распаде ядра урана в результате бомбардировки его нейтронами, с молекулами газа в камере Вильсона имеет распределение вероятностей µ ¶ x 1 −θ1 θx1 −θ2 θ2 P{ξ = x} = e +e , x = 0, 1, 2, . . . , 0 < θ1 < θ2 , 2 x! x! т. е. так называемое «двойное» распределение Пуассона. Методом моментов оценить вектор неизвестных значений параметров θ = (θ1 , θ2 ). 33. Выборка X = (x1 , . . . , xn ) получена из показательного (экспоненциального) распре√ деления вероятностей с параметром 1/ λ. Построить оценку параметра λ > 0 по методу моментов. 34. Выборка X = (x1 , . . . , xn ) получена из нормального распределения вероятностей при неизвестном значении математического ожидания θ, значение дисперсии σ2 задано. Построить асимптотически наикратчайший центральный доверительный интервал уровня 0,9 для параметра θ. 35. Выборка X = (x1 , . . . , xn ) получена из экспоненционального распределения вероятностей при неизвестном значении параметра λ > 0. Построить асимптотически наикратчайший ЦДИ уровня 1 − ² для этого параметра. 36. В трех наудачу выбранных единицах товара обнаружена только одна бракованная. Построить 95 % доверительный интервал для вероятности p события, состоящего в том, что наудачу выбранная единица товара окажется годной. 37. При выборочной проверке 10 компаний, занимающихся разработкой программного обеспечения, налоговая инспекция не выявила ни одного нарушения налогового законодательства. Построить 80 %, 90 % и 99 % доверительные интервалы для доли нарушителей налогового законодательства, считая, что для описания числа нарушителей адекватна биномиальная модель. Г л а в а 12 ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ 12.1. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ Рассмотрим следующую статистическую задачу. Пусть имеется случайная выборка X = (xT1 , . . . , xTn )T ∈ X ⊆ RnN из некоторого N -мерного распределения вероятностей Pθ (·), заданного на измеримом пространстве (Ω, F), где θ ∈ Θ ⊆ Rm – неизвестное истинное значение векторного параметра; Θ – параметрическое пространство; X ⊆ RnN – выборочное пространство. Задано некоторое натуральное число K ⩾ 2 и определено некоторое разбиение параметрического пространства Θ на K областей: Θ= K−1 [ Θk , Θk ∩ Θl = ∅, k 6= l. k=0 Определение 12.1. Утверждение о неизвестном значении параметра θ, состоящее в том, что θ ∈ Θk , называется k-й гипотезой: Hk : θ ∈ Θk , k = 0, . . . , K − 1. Определение 12.2. Гипотеза Hk называется простой, если мощность |Θk | = 1, в противном случае – сложной (составной). Определение 12.3. Пусть на самом деле значение параметра θ ∈ Θν , где ν ∈ ∈ {0, . . . , K − 1}, тогда говорят, что гипотеза Hν истинна. Задача статистической проверки гипотез H0 , . . . , HK−1 состоит в том, чтобы по наблюдаемой выборке X неким оптимальным образом оценить номер ν истинной гипотезы: d = d(X) = k – выносим решение в пользу гипотезы Hk (d = d(X) – статистическая оценка для ν). Возможно K решений (k ∈ {0, 1, . . . , K − 1}). Множество возможных решений обозначим D = {0, 1, . . . , K − 1}, |D| = K, и назовем пространством решений. Определение 12.4. Решающим правилом (решающей функцией, критерием, тестом) в вышесформулированной задаче статистической проверки гипотез называется функциональное отображение выборочного пространства X в пространство решений D: d(·) X → D. (12.1) Схема принятия решений в задаче проверки гипотез представлена на рис. 12.1. Существуют два основных типа решающих правил (РП) (12.1). 310 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ Рис. 12.1. Иллюстрация задачи проверки гипотез Определение 12.5. Нерандомизированным РП называется отображение (12.1) следующего вида: X ∈ X0 , 0, . .. d = d(X) = K − 1, X ∈ XK−1 , где {X0 , . . . , XK−1 } – некоторое детерминированное борелевское разбиение выборочного пространства: K−1 [ Xk , Xk ∩ Xl = ∅, k 6= l. X= k=0 При этом, если выборка X фиксирована, то решение d = d(X) неслучайно. Определение 12.6. Рандомизированным РП называется случайное отображение (12.1) следующего вида: d = d(X, ω), ω ∈ Ω, X ∈ X, d ∈ D, причем если выборка X фиксирована, то решение d = d(X, ω) является дискретной случайной величиной с множеством значений D и некоторым дискретным распределением вероятностей: φi = φi (X) = P{d = i|X}, i ∈ D. При этом борелевские функции φi = φi (X), i ∈ D, удовлетворяют следующим ограничениям: X 0 ⩽ φi (X) ⩽ 1, i ∈ D; φi (X) = 1, X ∈ X, i∈D и называются критическими функциями. Укажем пошаговый алгоритм принятия решения с помощью рандомизированного решающего правила. 1. По выборке X вычисляем значения критических функций: φi = φi (X), i ∈ D, и определяем дискретное распределение вероятностей {φ0 (X), φ1 (X), . . . , φK−1 (X)}. 2. Проводим случайный эксперимент (жребий) со множеством исходов D и дискретным распределением вероятностей, найденным на шаге 1. 3. Регистрируем исход k этого жребия и принимаем решение d = k. Нерандомизированное решающее правило есть частный случай рандомизированного решающего правила, если критические функции принимают одно из двух возможных значений: φi (X) ∈ {0, 1}, X ∈ X; Xi = {X : φi (X) = 1}, i ∈ D. 12.2. РЕШАЮЩЕЕ ПРАВИЛО НЕЙМАНА – ПИРСОНА 311 12.2. РЕШАЮЩЕЕ ПРАВИЛО НЕЙМАНА – ПИРСОНА Рассмотрим задачу проверки двух гипотез (K = 2). Пусть имеется случайная выборка X = (xT1 , . . . , xTn )T ∈ RnN , образованная наблюдениями с плотностью распределения вероятностей p(x; θ), x ∈ RN , θ ∈ Θ, где θ – неизвестное истинное значение параметра. Обозначим: n Y p(X; θ) = p(xl ; θ) – l=1 совместная плотность распределения всей выборки X; Z Pθ (A) = p(X; θ)dX, A ∈ BnN , – A вероятностная мера, определенная при значении параметра θ. Пространство параметров Θ разбито на две непересекающиеся области: Θ = Θ0 ∪ Θ1 , Θ0 ∩ Θ1 = ∅. Определены две гипотезы: H0 : θ ∈ Θ0 , H1 : θ ∈ Θ1 . Поскольку H1 = H0 , то H1 называется альтернативой, а H0 – нулевой гипотезой. Задача заключается в построении решающего правила (теста) для проверки гипотез H0 , H1 по выборке X. Построим РП общего вида – рандомизированное решающее правило: d = d(X, ω), X ∈ RnN , ω ∈ Ω, d ∈ D = {0, 1}; (12.2) P{d(X, ω) = 1|X} = φ(X), P{d(X, ω) = 0|X} = 1 − φ(X), (12.3) где 0 ⩽ φ(X) ⩽ 1 – некоторая произвольная критическая функция. Существует бесконечно много РП d(·), различающихся критическими функциями φ(·). Как найти оптимальную критическую функцию φ∗ (·)? Сформулируем критерий оптимальности. Определение 12.7. Условимся говорить, что при принятии решений имеет место ошибка I рода, если на самом деле верна гипотеза H0 (ν = 0), а принято решение d = 1 в пользу H1 . При этом вероятностью ошибки I рода называется число α = α(θ) ::= Pθ {d(X, ω) = 1} = Z = Eθ {φ(X)} = φ(X)p(X; θ)dX, θ ∈ Θ0 . RnN Определение 12.8. Принято говорить, что имеет место ошибка II рода, если на самом деле верна гипотеза H1 (ν = 1), а принято решение d = 0 в пользу H0 . При этом вероятностью ошибки II рода называется число β = β(θ) ::= Pθ {d(X, ω) = 0} = Eθ {1 − φ(X)} = Z =1− φ(X)p(X; θ)dX, θ ∈ Θ1 . RnN 312 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ Определение 12.9. Мощностью решающего правила d = d(X, ω) называется вероятность правильного принятия альтеративы H1 (ν = d = 1): Z w = w(θ) = φ(X)p(X; θ)dX, θ ∈ Θ1 . RnN Отметим, что w(θ) = 1 − β(θ). Было бы целесообразно найти функцию φ∗ (·) так, что α = β = 0. Очевидно, что в условиях регулярности это невозможно (как и в п. 11.5 невозможно было построить статистическую оценку с нулевой вариацией V = 0). Как поступать в этой ситуации? Определение 12.10 (принцип оптимальности Неймана – Пирсона). Критическую функцию φ(X) в рандомизированном решающем правиле (12.2), (12.3) надлежит выбирать таким образом, чтобы вероятность ошибки I рода не превосходила некоторого наперед заданного числа ² ∈ (0, 1), а вероятность ошибки II рода была минимальной, т. е. выбирать как решение следующей экстремальной задачи: sup α(θ)⩽², sup β(θ) → θ∈Θ0 θ∈Θ1 min , 0⩽φ(·)⩽1 что эквивалентно sup α(θ)⩽², θ∈Θ0 inf w(θ) → max . θ∈Θ1 0⩽φ(·)⩽1 (12.4) При этом оптимальная критическая функция φ∗ (X) и соответствующее ей решающее правило d∗ (X, ω) называются соответственно критической функцией Неймана – Пирсона и решающим правилом Неймана – Пирсона, величина supθ∈Θ0 α(θ) – размером теста, а ² – уровнем значимости теста. Отметим, что экстремальная задача (12.4) – задача вариационного исчисления. Нейман и Пирсон решили эту задачу лишь для случая, когда H0 , H1 – простые гипотезы: Θ = {θ0 , θ1 }, а Θ0 = {θ0 } и Θ1 = {θ1 } – одноточечные множества. Упростим обозначения: Hi : θ = θi , i = 0, 1; θ0 , θ1 ∈ Θ, θ0 6= θ1 ; pi (X) = p(X; θi ), X ∈ RnN ; 1 Pi (B) = Pθi (B), Q(B) = (P0 (B) + P1 (B)), B ∈ BnN ; 2 Ei {·} ≡ Eθi {·}. Определение 12.11. Статистикой отношения правдоподобия для проверки простых гипотез H0 , H1 называется статистика L = L(X) = p1 (X) ⩾0. p0 (X) Теорема 12.1 (Неймана – Пирсона). Для вышесформулированной задачи проверки простых гипотез H0 , H1 справедливы следующие три утверждения: 1) для любого наперед заданного ², 0 < ² < 1, найдутся такие постоянные c∗ > 0, κ∗ ∈ [0, 1], что решающее правило (тест) Неймана – Пирсона d = d∗ (X, ω) с критической функцией 12.2. РЕШАЮЩЕЕ ПРАВИЛО НЕЙМАНА – ПИРСОНА 0, L(X) < c∗ ; κ∗ , L(X) = c∗ ; φ∗ (X) = 1, L(X) > c , ∗ 313 (12.5) имеет размер, в точности равный ²; 2) тест Неймана – Пирсона d = d∗ (X, ω), определяемый (12.5), имеет наибольшую мощность w∗ среди всех тестов, размер которых не превосходит ²; 3) тест d = d∗ (X, ω) – единственный с точностью до множества B нулевой меры: Q(B) = 0. Доказательство. Запишем экстремальную задачу (12.4) с учетом определений 12.7, 12.9 в явном виде: Z α= φ(X)p0 (X)dX⩽², Z RnN w= φ(X)p1 (X)dX → max . (12.6) φ(·) RnN Доказательство разобьем на три части. 1. Введем в рассмотрение функцию распределения статистики L = L(X) при верной гипотезе H0 : F0 (y) = P0 {L(X) < y}, y ⩾ 0. Считая произвольными c∗ и κ∗ , вычислим для теста (12.5) вероятность ошибки I рода: α = E0 {φ(X)} = κ∗ P0 {L = c∗ } + P0 {L > c∗ } = = κ∗ (F0 (c∗ + 0) − F0 (c∗ )) + (1 − F0 (c∗ + 0)). (12.7) В этом соотношении подберем произвольные константы c∗ , κ∗ таким образом, чтобы α = α∗ = ². Для этого выберем c∗ так, чтобы F0 (c∗ )⩽1 − ²⩽F0 (c∗ + 0). Возможны два случая: а) c∗ – точка непрерывности функции F0 (·); тогда c∗ = F0−1 (1 − ²), и из (12.7) имеем α∗ = ² ∀κ∗ ; б) c∗ – точка разрыва; в этом случае выберем κ∗ = F0 (c∗ + 0) − (1 − ²) . F0 (c∗ + 0) − F0 (c∗ ) Подставляя это значение в (12.7), получаем α∗ = ². 2. Для критической функции φ∗ (·) имеем Z α∗ = ², w∗ = φ∗ (X)p1 (X)dX. RnN (12.8) 314 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ Выберем произвольную критическую функцию φ̃(X), для которой обозначим Z Z α̃ = φ̃(X)p0 (X)dX ⩽ ², w̃ = φ̃(X)p1 (X)dX. RnN RnN Покажем, что: w̃ ⩽ w∗ . Легко проверить поточечно, используя (12.5), что ∆ = ∆(X) ::= (p1 (X) − c∗ p0 (X))(φ∗ (X) − φ̃(X)) ⩾ 0, ∀X ∈ RnN . Отсюда с учетом (12.8) получаем Z ∆(X)dX = w∗ − c∗ α∗ − w̃ + c∗ α̃ = w∗ − w̃ − c∗ (² − α̃) ⩾ 0. RnN Следовательно, w∗ ⩾ w̃ + c∗ (² − α̃) ⩾ w̃. 3. В экстремальной задаче (12.6) значения интегралов не изменятся, если значение φ∗ (X) изменить на множестве B: Q(B) = 0. ¤ Следствие 12.1. Если функция распределения F0 (·) статистики отношения правдоподобия L = L(X) при гипотезе H0 – непрерывная функция, то РП Неймана – Пирсона является нерандомизированным и имеет следующий вид: ½ 0, L(X) < c∗ , d = d∗ (X) = 1, L(X)⩾c∗ , где c∗ = F0−1 (1 − ²). Доказательство. Обратимся к первому пункту доказанной выше теоремы 12.1. Если F0 (·) непрерывна, то κ∗ можно выбирать произвольно на отрезке [0, 1], поэтому выберем κ∗ = 1, тогда согласно (12.5) φ∗ (X) ∈ {0; 1}, т. е. жребий исчезает и имеет место детерминированное (нерандомизированное) решающее правило. ¤ 12.3. БАЙЕСОВСКОЕ РЕШАЮЩЕЕ ПРАВИЛО Предположим, что параметр θ – случайная величина, принимающая одно из двух возможных значений: θ ∈ Θ = {θ0 , θ1 }; P{θ = θi } = Πi , 0 < Πi < 1, i = 0, 1; Π0 + Π1 = 1. Наблюдается случайная выборка X = (xT1 , . . . , xTn )T ∈ RnN объема n из некоторого распределения вероятностей с условной плотностью p(x|θ), x ∈ RN , θ ∈ Θ. Обозначим n Y pi (X) = p(xj |θi ), i = 0, 1, – j=1 условная плотность распределения выборки X при условии, что θ = θi . Истинное значение θ неизвестно, и определены две простые гипотезы: Hi : θ = θi , i = 0, 1. Задача заключается в построении теста для проверки H0 , H1 по выборке X. 12.3. БАЙЕСОВСКОЕ РЕШАЮЩЕЕ ПРАВИЛО 315 Эту задачу можно решить с помощью теста Неймана – Пирсона, но в таком случае игнорируется информация о {Πi }. Поэтому рассмотрим другой подход (см. для сравнения п. 11.8). Построим рандомизированное решающее правило: d = d(X, ω) ∈ D = {0, 1}, X ∈ RnN , ω ∈ Ω; P{d(X, ω) = 1|X} = φ(X), P{d(X, ω) = 0|X} = 1 − φ(X), (12.9) где φ(X) – произвольная критическая функция (0 ⩽ φ(X) ⩽ 1). Обозначим: ν = ν(ω) ∈ {0, 1} – случайная величина Бернулли – номер истинной гипотезы Hν . В силу случайности θ P(Hi ) = P{θ = θi } = Πi , i = 0, 1, поэтому Πi принято называть априорной вероятностью i-й гипотезы. Определение 12.12. Функцией потерь в рассматриваемой задаче проверки двух гипотез H0 , H1 называется функция двух переменных: w = w(i, j) ⩾ 0, i, j ∈ D = {0, 1}, где w(i, j) – величина потерь, которые несет статистик в ситуации, когда на самом деле ν = i (верна Hi ), а принято решение d = j в пользу гипотезы Hj . Определение 12.13. Принято говорить, что имеет место (0 − 1)-функция потерь, если ½ 0, i = j; w(i, j) = 1 − δij = 1, i 6= j. Функцию потерь удобно задавать в виде матрицы потерь: W = (wij ), wij = w(i, j). В случае (0 − 1)-матрицы потерь имеем µ ¶ 0 1 W = . 1 0 Определение 12.14. Функционалом риска называется математическое ожидание случайных потерь (средние потери) r = r(φ(·)) = E{w(ν, d(X, ω))}⩾0. (12.10) Определение 12.15 (байесовский принцип оптимальности). Критическую функцию φ(·) в рандомизированном решающем правиле (12.9) надлежит выбирать таким образом, чтобы функционал риска (12.10) достигал минимального значения: r(φ∗ (·)) = inf r(φ(·)). φ(·) (12.11) При этом критическая функция φ∗ (·), определяемая (12.11), называется байесовской критической функцией, а соответствующее решающее правило d∗ (X, ω), определяемое (12.9), – байесовским решающим правилом (БРП). Теорема 12.2. Пусть в сформулированной выше задаче проверки простых гипотез H0 , H1 функция потерь имеет следующий вид: 0, i = j, w0 , i = 0, j = 1, w(i, j) = (12.12) w , i = 1, j = 0, 1 316 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ где w0 > 0, w1 > 0 – некоторые заданные величины. Тогда байесовская критическая функция задается соотношением (X ∈ RnN ): 0, L(X) < C ∗ , ∗ κ ∗ , L(X) = C ∗ , φ (X) = (12.13) 1, L(X) > C ∗ , где p1 (X) Π0 w0 ⩾ 0, C ∗ = ⩾ 0, κ ∗ ∈ [0, 1]. (12.14) p0 (X) Π1 w1 Доказательство. Прежде всего заметим, что в силу произвола в выборе κ ∗ байесовская критическая функция неоднозначна. Сформулируем экстремальную задачу (12.11) в явном виде и решим ее. Из (12.10) и (12.12) имеем L(X) = r = r(φ(·)) = = 0 · P{d(X, ω) = ν} + w0 · P{ν = 0, d = 1} + w1 · P{ν = 1, d = 0} = = w0 · P{ν = 0} · P{d = 1|H0 } + w1 · P{H1 } · P{d = 0|H1 } = = w0 · Π0 · α + w1 · Π1 · β. Используя интегральные представления вероятностей ошибок α, β из п. 12.2, приходим к задаче: Z = Π0 w0 r = r(φ(·)) = Z φ(X)p0 (X)dX + Π1 w1 (1 − φ(X))p1 (X)dX = RnN Z = Π1 w1 − RnN φ(X)G(X)dX → min, φ(·) (12.15) RnN где G(X) = Π1 w1 p1 (X) − Π0 w0 p0 (X). Из (12.15) получаем эквивалентную экстремальную задачу: Z φ(X)G(X)dX → max, φ(·) RnN являющуюся линейной задачей вариационного исчисления, причем ограничения носят точечный, локальный характер: 0 ⩽ φ(X) ⩽ 1, X ∈ RnN , поэтому решение очевидно: 0, G(X) < 0, κ ∗ , G(X) = 0, φ∗ (X) = 1, G(X) > 0. С учетом обозначений (12.14) последнее соотношение эквивалентно (12.13). Найдем минимум риска, который при этом достигается: Z r∗ = r(φ∗ ) = Π1 w1 − G(X)dX. G(X)>0 ¤ 12.4. ПРОВЕРКА ГИПОТЕЗ О РАСПРЕДЕЛЕНИИ ВЕРОЯТНОСТЕЙ 317 Следствие 12.2. Среди байесовских решающих правил (12.13) существует нерандомизированное решающее правило: ½ 0, L(X) < C ∗ , ∗ d = d (X) = 1, L(X) ⩾ C ∗ . Доказательство. Для доказательства достаточно выбрать κ ∗ = 1. ¤ Следствие 12.3. Если имеет место (0 − 1)-функция потерь, т. е. w0 = w1 = 1, и гипотезы H0 , H1 равновероятны Π0 = Π1 = 1/2, то БРП имеет вид ½ 0, p0 (X) > p1 (X), d = d∗ (X) = (12.16) 1, p1 (X) ⩾ p0 (X). Доказательство. Из формулы (12.14) имеем C ∗ = 1, κ ∗ = 1. ¤ Заметим в заключение, что решающее правило (12.16) часто называют тестом максимального правдоподобия. 12.4. ПРОВЕРКА ГИПОТЕЗ О РАСПРЕДЕЛЕНИИ ВЕРОЯТНОСТЕЙ. КРИТЕРИИ СОГЛАСИЯ Пусть наблюдается случайная выборка X = (x1 , . . . , xn )T ∈ Rn из одномерного распределения вероятностей с неизвестной функцией распределения F (x), x ∈ R1 . Пусть F0 (x), x ∈ R1 , – некоторая гипотетическая (предполагаемая) функция распределения вероятностей. В связи с этим определены две гипотезы: H0 : F (·) ≡ F0 (·); H1 = H0 : F (·) 6≡ F0 (·). Нулевая гипотеза H0 – простая, альтернатива H1 – сложная гипотеза. Определение 12.16. Гипотеза H0 означает, что выборка X согласуется с распределением, задаваемым гипотетической функцией распределения вероятностей F0 (·), и поэтому называется гипотезой согласия; решающее правило d = d(X) для проверки гипотез H0 , H1 – критерием согласия. 12.4.1. χ2 -Критерий согласия Пирсона Воспользуемся той же схемой группировки выборки X, что и при построении гистограммы (см. п. 11.2). Разобьем числовую прямую на K ⩾ 2 ячеек точками деления −∞ = b0 < b1 < b2 < < . . . < bK = +∞: Γk = [bk−1 , bk ), k = 1, 2, . . . , K. Вычислим два набора величин: 1) теоретические вероятности попадания случайного наблюдения xi в ячейки {Γk } при условии, что верна H0 (k = 1, . . . , K): p0k = PH0 {xi ∈ Γk } = PH0 {bk−1 ⩽xi < bk } = F0 (bk ) − F0 (bk−1 ) > 0; K X k=1 p0k = 1; 318 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ 2) относительные и абсолютные частоты попадания в ячейки, вычисленные по выборке X: p̂k = νk , n νk = n X K X 11Γk (xi ), k = 1, . . . , K; i=1 νk = n, k=1 K X p̂k = 1. k=1 Определение 12.17. χ2 -Статистикой Пирсона называется статистика χ2 = K X (νk − np0 )2 k k=1 np0k =n K X (p̂k − p0 )2 k p0k k=1 ⩾ 0. (12.17) Из (12.17) видно, что χ2 – это с точностью до множителя n взвешенная с весами {1/p◦k } сумма квадратов уклонений частот {p̂k } от теоретических значений {p0k }. Лемма 12.1. Если верна гипотеза H0 , то при n → ∞ имеет место сходимость к χ2 -распределению с K−1 степенью свободы: LH0 {χ2 } → χ2K−1 , или PH0 {χ2 < y} → Fχ2K−1 (y), n → +∞, где Fχ2 K−1 y ⩾ 0, (12.18) (·) – функция χ2 -распределения с K−1 степенью свободы. Доказательство. Обозначим нормированные частоты, входящие в (12.17): ν∗k (n) = νk − np0k √ , k = 1, . . . , K; n K X ν∗k (n) ≡ 0. (12.19) k=1 Определим (K − 1)-вектор нормированных частот: ν∗ (n) = (ν∗1 (n), . . . , ν∗K−1 (n))T ∈ RK−1 . Заметим, что в силу условия нормировки в (12.19) ν∗K (n) линейно зависит от ν∗ (n): ν∗K (n) = − K−1 X ν∗l (n). (12.20) l=1 В асимптотике n → +∞ воспользуемся центральной предельной теоремой для ν∗ (n) (многомерный аналог теоремы Муавра – Лапласа [25]): LH0 {ν∗ (n)} → NK−1 (0K−1 , Σ), (12.21) где Σ = (σij ) – асимптотическая ковариационная матрица, для элементов которой справедлива формула (i, j = 1, . . . , K − 1) σij = p0i (δij − p0j ). Непосредственной проверкой можно убедиться, что в этом случае для обратной матрицы справедливо выражение Σ−1 = (σij ), σij = δij 1 + 0. 0 pK pi (12.22) 12.4. ПРОВЕРКА ГИПОТЕЗ О РАСПРЕДЕЛЕНИИ ВЕРОЯТНОСТЕЙ 319 2 Из (12.17), (12.19)–(12.22) имеем представление для χ -статистики в виде квадратичной формы: ÃK−1 !2 X ∗ νl (n) K−1 K−1 X (ν∗ (n))2 X l=1 k 2 χ = + = ν∗k (n)ν∗l (n)σkl = (ν∗ (n))T Σ−1 ν∗ (n). 0 0 p p K k k=1 k,l=1 Введем в рассмотрение случайный вектор ξ(n) = (ξk (n)) = (Σ1/2 )−1 ν∗ (n) ∈ RK−1 , где матрица Σ1/2 – решение по Y матричного уравнения Y T Σ−1 Y = IK−1 (Σ = = Σ1/2 (Σ1/2 )T ). Тогда χ2 -статистика представима в виде суммы квадратов: χ2 = ξT (n)ξ(n) = K−1 X ξ2k (n), k=1 причем в силу (12.21) LH0 {ξ(n)} → NK−1 (0K−1 , IK−1 ). Отсюда по определению χ2 -распределения получаем (12.18). ¤ Определение 12.18. χ2 -Критерий согласия Пирсона имеет вид −1 2 0, χ < Fχ2K−1 (1 − ²), (12.23) d = d(X) = 1, χ2 ⩾ F −1 (1 − ²), χ2 K−1 где Fχ−1 2 (1 − ²) – квантиль χ2 -распределения с K − 1 степенью свободы уровня 1 − ², K−1 0 < ² < 1. Теорема 12.3. При n → ∞ асимптотический размер теста Пирсона (12.23) совпадает с наперед заданным уровнем значимости ²: α = PH0 {d(X) = 1} → ², n → +∞. Доказательство. Основано на лемме 12.1 и состоит в вычислении α с использованием (12.18). ¤ Замечание 12.1. χ2 -Критерий согласия Пирсона справедлив и для N -мерных (N > 1) функций распределения F (x), x ∈ RN . Замечание 12.2. χ2 -Критерий Пирсона допускает обобщение для случая сложных гипотез согласия: H0 : F (·) ∈ F0 , где F0 = {F0 (x; θ), x ∈ RN : θ ∈ Θ ⊆ Rm } – некоторое параметрическое семейство функций распределения с m-мерным параметром θ. Появляется дополнительное ограничение: K > m + 1, и критерий согласия имеет вид χ2 (θ) < Fχ−1 (1 − ²), 2 0, inf θ K−m−1 0 d = d (X) = 1, inf χ2 (θ) ⩾ F −1 (1 − ²), χ2 θ K−m−1 320 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ где χ2 (θ) = K X (νk − npk (θ))2 k=1 npk (θ) ⩾ 0, pk (θ) = Pθ {xi ∈ Γk }, k = 1, . . . , K. Заметим также, что статистика θ̃ = arg min χ2 (θ) θ 2 называется χ -оценкой параметра θ. 12.4.2. Критерий Колмогорова Будем предполагать, что гипотеза согласия H0 : F (·) ≡ F0 (·) – простая, причем функция F0 (·) непрерывна. Построим по наблюдаемой выборке X выборочную функцию распределения, изученную в п. 11.2 (рис. 12.2): n n 1X 1X F̂ (x) = Fn (x) = 1(x 1 − xi ) = 1(x 1 − x(i) ), x ∈ R1 , n i=1 n i=1 где x(1) < x(2) < . . . < x(n) – вариационный ряд выборки. Как было установлено в п. 11.2, выборочная функция распределения – сильно состоятельная оценка истинной функции распределения: п. н. Fn (x) −→ F (x), n → +∞, x ∈ R1 . Рис. 12.2. Иллюстрация критерия Колмогорова Определение 12.19. Расстоянием Колмогорова между выборочной функцией распределения Fn (x) и гипотетической функцией распределения F0 (x) называется величина Dn = sup |Fn (x) − F0 (x)| (0 ⩽ Dn ⩽ 1). (12.24) −∞<x<+∞ Лемма 12.2. Если верна гипотеза H0 , то случайные величины u1 = F0 (x1 ), u2 = F0 (x2 ), . . . , un = F0 (xn ) независимы и одинаково распределены со стандартным равномерным распределением: LH0 {ui } = R[0, 1], i = 1, . . . , n. Доказательство. Независимость {ui } вытекает из независимости {xi } и соответствующей теоремы о борелевских функциональных преобразованиях. Вычислим функцию распределения для случайной величины ui при условии, что верна гипотеза H0 (0 ⩽ y ⩽ 1): Fui (y) ::= PH0 {ui < y} = PH0 {xi < F0−1 (y)} = F0 (F0−1 (y)) = y. 12.5. КРИТЕРИЙ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ 321 Это и есть функция распределения стандартного равномерного закона R[0, 1]. ¤ Теорема 12.4. Если верна нулевая гипотеза H0 , то распределение вероятностей статистики Колмогорова Dn , определяемой формулой (12.24), не зависит от гипотетической функции распределения F0 (·): LH0 {Dn } = L{Dn∗ }, Dn∗ = sup |Ψn (u) − u|; 0⩽u⩽1 n Ψn (u) = 1X 1(u 1 − ui ), n i=1 где {ui } – независимые в совокупности случайные величины, имеющие стандартное равномерное распределение: L{ui } = R[0, 1], i = 1, . . . , n. Доказательство. Вытекает из леммы 12.2 и замены переменных x = F0−1 (u), u = F0 (x) в экстремальной задаче (12.24). ¤ Теорема 12.5. Если верна гипотеза H0 , то при бесконечном увеличении объема √ выборки n (n → +∞) функция распределения нормированной статистики nDn сходится к распределению Колмогорова: +∞ X √ 2 2 PH0 { nDn < z} → K(z) = (−1)j e−2j z , z ⩾ 0. j=−∞ Определение 12.20. Пусть ² – некоторое число: 0 < ² < 1, а K −1 (1 − ²) – квантиль распределения Колмогорова уровня 1 − ². Тогда тест ( √ 0, nDn < K −1 (1 − ²), d = d(X) = (12.25) √ 1, nDn ⩾ K −1 (1 − ²) называется критерием согласия Колмогорова. Замечание 12.3. Распределение статистики Dn не зависит от гипотетической функции распределения F0 (·), в результате чего имеет место универсальность теста Колмогорова. Следствие 12.4. При n → ∞ асимптотический размер теста Колмогорова (12.25) совпадает с наперед заданным уровнем значимости ² ∈ (0, 1). Доказательство. Основывается на соотношениях (12.25), теореме 12.5 и заключается в проверке следующего факта: α → ², где α – вероятность ошибки I рода. ¤ 12.5. КРИТЕРИЙ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ ДЛЯ ПРОВЕРКИ СЛОЖНЫХ ГИПОТЕЗ В п. 12.4 были рассмотрены методы проверки специальных сложных гипотез – гипотез согласия. Рассмотрим теперь универсальный критерий проверки сложных гипотез – критерий отношения правдоподобия, суть которого состоит в следующем. Пусть наблюдается случайная выборка X ∈ RnN объема n из некоторого N -мерного распределения вероятностей с плотностью p(x; θ), x ∈ RN , θ ∈ Θ ⊆ Rm . Определены две, в общем случае сложные, гипотезы: H0 : θ ∈ Θ0 ⊂ Θ; H1 : θ ∈ Θ1 = Θ\Θ0 . 322 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ Аналогично критерию Неймана – Пирсона введем в рассмотрение статистику отношения правдоподобия: sup p(X; θ) Λ̃n = Λ̃n (X; Θ0 ) = θ∈Θ1 sup p(X; θ) , (12.26) θ∈Θ0 где p(X; θ) = n Y p(xk ; θ) = L(θ) – k=1 функция правдоподобия. Часто рассматривают эквивалентные статистики: sup p(X; θ) Λn = Λn (X; Θ0 ) = θ∈Θ sup p(X; θ) ⩾ 1; (12.27) θ∈Θ0 sup p(X; θ) θ∈Θ0 1 λn = λn (X; Θ0 ) = = ∈ [0, 1]. Λn (X; Θ0 ) sup p(X; θ) θ∈Θ Статистики (12.27) взаимно-однозначно функционально связаны между собой и статистикой отношения правдоподобия (12.26): ½ ¾ 1 Λn = max{1, Λ̃n }, λn = min 1, ∈ [0, 1]. Λ̃n Определение 12.21. Критерием отношения правдоподобия (КОП) в задаче проверки сложных гипотез H0 , H1 по выборке X объема n называется следующий статистический критерий (C ∈ [0, 1]): ( 0, λn (X; Θ0 ) > C, d = d(X) = 1, λn (X; Θ0 ) ⩽ C, или в эквивалентном виде ( d = d(X) = 0, −2 ln λn (X; Θ0 ) < δ, 1, −2 ln λn (X; Θ0 ) ⩾ δ, (12.28) где критическое (пороговое) значение δ ⩾ 0 выбирается так, чтобы критерий имел наперед заданный уровень значимости ²: Z Pθ {d(X) = 1} = p(X; θ)dX = λn (X;Θ0 ) ⩽ C = Pθ {−2 ln λn ⩾ δ} ⩽ ², ∀θ ∈ Θ0 . (12.29) Как было показано в п. 12.2 (теорема 12.1, известная как фундаментальная лемма Неймана – Пирсона), для простых гипотез КОП оптимален при любом n. Для сложных гипотез это, вообще говоря, не так. Тем не менее КОП широко применяется на практике. Оказывается, что он асимптотически оптимален при n → ∞. 323 12.5. КРИТЕРИЙ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ Рассмотрим вначале случай простой гипотезы H0 и сложной альтернативы H1 . Теорема 12.6. Пусть определены простая гипотеза H0 : θ = θ0 , где θ0 = (θ0i ) ∈ Θ – фиксированная точка m-мерной области Θ, и сложная альтернатива H1 : θ 6= θ0 , тогда при выполнении условий регулярности, принятых в теории оценок максимального правдоподобия (см. п. 11.7), асимптотический (n → ∞) размер КОП (12.28), в котором 2 δ = Fχ−1 2 (1 − ²) – квантиль уровня 1 − ² для χ -распределения с m степенями свободы, m совпадает с ²: (12.30) Pθ0 {d(X) = 1} = Pθ0 {−2 ln λn (X; θ0 ) ⩾ δ} → ². Доказательство. В силу (12.29) для доказательства (12.30) достаточно показать сходимость к χ2 -распределению: LH0 {−2 ln λn (X; θ0 )} → χ2m , n → ∞, где из (12.27) следует ³ ´ − 2 ln λn (X; θ0 ) = 2 l(θ̂) − l(θ0 ) ; (12.31) l(θ) = ln p(X; θ) – логарифмическая функция правдоподобия; θ̂ = arg max p(X; Θ) – θ∈Θ ОМП, которая в условиях регулярности обладает свойством сильной состоятельности: п. н. θ̂ −→ θ0 , n → ∞. Следовательно, ∀² > 0 ∃ n = n(²), что ∀n ⩾ n с вероятностью единица: |θ̂ − θ0 | ⩽ ². В силу условий регулярности применим к l(θ0 ) в (12.31) квадратичную формулу Тейлора с остаточным членом в форме Лагранжа (учитывая, что ∇θ l(θ)|θ=θ̂ = 0m ): µ ¶ 1 −2 ln λn (X; θ0 ) = n(θ̂ − θ0 )T − ∇2θ∗ l(θ∗ ) (θ̂ − θ0 ). n п. н. Здесь θ∗ – промежуточная точка: |θ∗ − θ0 | < |θ̂ − θ0 |, следовательно, θ∗ −→ θ0 . В силу условий регулярности выполняется усиленный закон больших чисел: n ¢ п. н. © ª 1 1 X¡ − ∇2θ l(θ∗ ) = −∇2θ∗ ln p(xk ; θ∗ ) −→ Eθ0 −∇2θ0 ln p(xk ; θ0 ) = I(θ0 ), n n k=1 где I = I(θ0 ) – информационная матрица Фишера для выборочного значения. Из свойств ОМП ´o n√ ³ ¡ ¢ n θ̂ − θ0 → Nm 0m , I−1 (θ0 ) , n → ∞, LH 0 и по свойствам линейного преобразования многомерного нормального распределения (см. п. 14.1) ½ ´T ³ ´¾ √ ³ 1 LH0 θ̂ − θ0 = L{ξn } → Nm (0m , Im ) = L{ξ}. n I 2 (θ0 ) В результате имеем © ª LH0 {−2 ln λn (X; θ0 )} → L ξT ξ = χ2m , n → ∞. ¤ Замечание 12.4. Если H0 является сложной гипотезой вида H0 : θ ∈ Θ0 , Θ0 = {θ : hj (θ) = 0, j = 1, . . . , m − s}, где 1 ⩽ s ⩽ m − 1, {hj (·)}m−s j=0 – фиксированные непрерывные функции, то результат теоремы 12.6 остается в силе, только δ = Fχ−1 (1 − ²). 2 m−s 324 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ 12.6. ПОНЯТИЕ О ПОСЛЕДОВАТЕЛЬНОМ АНАЛИЗЕ ВАЛЬДА Ранее рассмотренные статистические критерии Неймана – Пирсона, Байеса, χ-квадрат, Колмогорова, отношения правдоподобия характеризуются общим свойством: объем n наблюдаемой выборки Xn = (xT1 , . . . , xTn )T ∈ RnN фиксируется априори. Такая ситуация возникает при обработке ранее полученных (архивных) экспериментальных данных в так называемых пассивных экспериментах. Однако на практике часто встречаются ситуации, когда проверку гипотез необходимо осуществлять в ходе активного эксперимента и решать вопрос о его продолжении или прекращении (в режиме «on-line»). В 1950 г. американский статистик А. Вальд выдвинул идею о том, что априорно фиксировать объем выборки n необязательно. Целесообразно определять необходимый объем выборки в ходе самого эксперимента, так что сам объем выборки становится случайной величиной, зависящей от экспериментальных данных: n = n(X). Методы проверки гипотез, основанные на этой идее, получили название последовательного анализа. Рассмотрим простейшую модель последовательного анализа Вальда. Пусть определена случайная последовательность наблюдений x1 , x2 , . . . , xn , . . . ∈ ∈ RN – независимых в совокупности, одинаково распределенных случайных векторов, имеющих плотность p(x; θ), x ∈ RN , где θ ∈ Θ ∈ {θ0 , θ1 } – неизвестное истинное значение параметра, принимающего одно из двух различных возможных значений. Определены две простые гипотезы: H0 : θ = θ0 ; H1 : θ = θ1 . Обозначим: Xm = (xT1 , . . . , xTm )T ∈ RmN – составная выборка, полученная при проведении m экспериментов (m = 1, 2, . . .); dm ∈ D = {0, 1, 2} – возможное решение после проведения m экспериментов. Решение dm = 0(1) означает, что по результатам m экспериментов Xm принимается гипотеза H0 (H1 ), а решение dm = 2 – что для вынесения решения об истинности H0 или H1 данных, содержащихся в Xm , недостаточно, – и необходимо осуществить (m + 1)-й эксперимент. Последовательный анализ характеризуется схемой наблюдения и принятия решений, представленной на рис. 12.3. Рис. 12.3. Схема последовательного анализа Вальда Процесс увеличения числа экспериментов m продолжается до тех пор, пока для некоторого случайного n не будет принято «окончательное» решение dn ∈ {0, 1}. Задать последовательное решающее правило (последовательный критерий) – значит задать последовательность решающих правил: dm = dm (Xm ), Xm ∈ RmN , dm ∈ {0, 1, 2}, m = 1, 2, . . . . Точность последовательного критерия характеризуют условные вероятности ошибок I и II рода: α = Pθ0 {dn = 1}, β = Pθ1 {dn = 0}, 12.6. ПОНЯТИЕ О ПОСЛЕДОВАТЕЛЬНОМ АНАЛИЗЕ ВАЛЬДА 325 а также условные математические ожидания объемов выборок (средние длительности экспериментов): Wi = Eθi {n}, i = 0, 1. Определение 12.22 (принцип оптимальности Вальда). Последовательное решающее правило {dm = dm (Xm )} надлежит выбирать таким образом, чтобы вероятности ошибок I и II рода α и β не превосходили соответственно наперед заданных достаточно малых уровней α0 и β0 , а условные средние объемы выборок W0 , W1 были бы минимальны. Этому принципу, оказывается, удовлетворяет последовательный критерий отношения правдоподобия Вальда следующего вида: 0, Lm (Xm ) < B, 2, B⩽Lm (Xm ) < A, dm = dm (Xm ) = (12.32) 1, Lm (Xm )⩾A, где p(Xm ; θ1 ) Lm (Xm ) = – (12.33) p(Xm ; θ0 ) статистика отношения правдоподобия; m Y p(Xm ; θi ) = p(xj ; θi ), i = 0, 1, – (12.34) j=1 плотность распределения случайной выборки Xm при θ = θi (i = 0, 1); A, B ∈ R (B < A) – некоторые, пока не определенные числовые параметры правила, называемые соответственно верхним порогом и нижним порогом и выбираемые из принципа оптимальности Вальда. Решающее правило Вальда (12.32)–(12.34) допускает эквивалентное представление, удобное для дальнейшего анализа: 0, Zm < ln B, 2, ln B ⩽ Zm < ln A, (12.35) dm = dm (Zm ) = 1, Zm ⩾ ln A, где m X p(xj ; θ1 ) Zm = zj , zj = ln . p(xj ; θ0 ) j=1 Теорема 12.7. Пусть конечны условные дисперсии: ½ ¾ p(xj ; θ1 ) 2 0 < σi = Dθi ln < ∞, i = 0, 1, и | ln A| < ∞, | ln B| < ∞, p(xj ; θ0 ) тогда последовательный критерий Вальда (12.35) представляет собой шаговый процесс, заканчивающийся с вероятностью единица принятием одной из гипотез H0 или H1 . Доказательство. Пусть на самом деле верна гипотеза Hi (i ∈ {0, 1}). Тогда по условию теоремы существует условное математическое ожидание, определяемое с учетом (12.35): Z p(x; θ1 ) µi = Eθi {zj } = p(x; θi ) ln dx, p(x; θ0 ) RN 326 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ причем в силу свойства функции Кульбака из п. 11.7 µ1 > 0, µ0 < 0. К сумме Zm при m → ∞ применима ЦПТ Леви – Линдеберга из п. 5.5: ½ ¾ Zm − mµi √ Pθi < y → Φ(y), y ∈ R, (12.36) mσi где Φ(·) – функция распределения вероятностей закона N1 (0, 1). Исследуем асимптотику для вероятности Qm «незавершения шагового процесса принятия решений за m шагов». Согласно (12.35) Qm = Pθi {ln B⩽Z1 < ln A, ln B ⩽ Z2 < ln A, . . . , ln B ⩽ Zm < ln A} . В силу свойства вероятности (m ) \ P Ck ⩽ P{Cl }, l ∈ {1, . . . , m}, k=1 имеем Qm ⩽ Pθi {ln B ⩽ Zm < ln A}, и вероятность Qm «завершения шагового процесса за m шагов» оценивается с учетом (12.36) снизу следующим образом: Qm = 1 − Qm ⩾ 1 − Pθi {ln B ⩽ Zm < ln A} = ½ = 1 − Pθi ½ = 1 − Pθi ln B − mµi Zm − mµi ln A − mµi √ ⩽ √ < √ mσi mσi mσi ¾ = µi 1 ln B √ 1 ln A √ µi 0 √ · − m · ⩽ Zmi <√ · − m σi σi m σi m σi ¾ → 1. ¤ Важным вопросом является выбор пороговых значений A, B в (12.35). Можно показать, что если выбирать их по принципу Вальда, то A⩽ 1 − β0 , α0 B⩾ β0 . 1 − α0 При этом если берется знак «=», то α + β ⩽ α0 + β0 . Заметим, что точные выражения A = A(α0 , β0 ), B = B(α0 , β0 ) получить не удается. Условные средние объемы выборок правила Вальда при таком упрощенном выборе A, B определяются следующими соотношениями: 1 − β0 β0 (1 − α0 ) ln + α0 ln 1 − α0 α0 W0 = ; µ0 β0 ln W1 = β0 1 − β0 + (1 − β0 ) ln 1 − α0 α0 . µ1 327 12.7. УПРАЖНЕНИЯ 12.7. УПРАЖНЕНИЯ 1. Выборка X = (x1 , . . . , xn ) получена из распределения Пуассона с параметром λ, относительно которого имеются две простые гипотезы: H0 : λ = 1, H1 : λ = 3. Для проверки этих гипотез используется следующий статистический критерий: принимается H0 при x(n) ≤ 1, в противном случае принимается H1 . Указать минимальный объем выборки, при котором мощность этого критерия превышает заданное значение γ. 2. Выборка X = (x1 , . . . , xn ) получена из неизвестного дискретного распределения вероятностей, относительно которого имеются две гипотезы: H0 состоит в том, что наблюдались значения случайной величины, принимающей значения 0 и 1 с вероятностями p0 и p1 соответственно, p0 + p1 = 1; альтернатива H1 состоит в том, что наблюдаемая случайная величина принимает значения 1 и 2 с вероятностями q1 и q2 , q1 + q2 = 1; p1 , p2 , q1 , q2 > 0. Для статистической проверки гипотез H0 , H1 используется следующий критерий: принимается гипотеза H1 при xi ≥ 1, i = 1, . . . , n; в противном случае принимается нулевая гипотеза. Вычислить вероятности ошибок первого и второго рода такого критерия. 3. Выполнить упражнение 2 в случае, когда используется следующий статистический критерий: принимается гипотеза H1 , если хотя бы один из элементов выборки равен 2, иначе принимается гипотеза H0 . 4. Выборка X = (x1 , . . . , xn ) получена из распределения Пуассона при неизвестном значении параметра θ. Относительно этого значения имеются две гипотезы: H0 : θ ≤ θ0 и H1 : θ > θ0 . Построить равномерно наиболее мощный критерий размера ² для статистической проверки этих гипотез. 5. Выборка X = (x1 , . . . , xn ) получена из нормального распределения вероятностей n X N1 (a, θ); значение дисперсии θ неизвестно. Используя статистику 1/n (xi − a)2 , i=1 построить равномерно наиболее мощный критерий размера ² для проверки гипотезы H0 : θ = θ0 против альтернативы H1 : θ = θ0 . 6. Выборка X = (x1 , . . . , xn ) получена из показательного распределения вероятностей с параметром λ, значение которого неизвестно. Используя статистику x̄, построить при больших значениях n равномерно наиболее мощный критерий размера ² для проверки гипотезы H0 : λ = λ0 против альтернативы H1 : λ > λ0 . 7. Выборка X = (x1 , . . . , xn ) получена из нормального распределения вероятностей с неизвестным значением математического ожидания a и единичной дисперсией, а выборка Y = (y1 , . . . , ym ) – из распределения N1 (b, 1) при неизвестном значении b ≤ a. Выборки X и Y независимы. Проверяется гипотеза о равенстве математических ожиp даний a и b. Принимается гипотеза H0 : a = b, если nm/(n + m)(x̄ȳ) ≤ c, иначе принимается альтернатива H1 : a > b; c > 0 – заданный параметр критерия. Найти размер данного критерия в зависимости от c. 8. Наблюдается число разладок оборудования на одном из производственных участков за смену. За каждый час смены наблюдалось следующее число разладок: 16, 17, 19, 16, 24, 19, 17, 16 (всего 144 разладки). При уровне значимости 0,05 проверить гипотезу H0 о том, что число разладок подчиняется соответствующему равномерному распределению вероятностей. 328 ГЛАВА 12. ТЕОРИЯ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ 9. Выборка X = (x1 , . . . , xn ) получена из нормального распределения вероятностей N1 (a, θ), где значение параметра a известно, дисперсия – неизвестный параметр. Построить критерий Неймана – Пирсона для проверки гипотезы H0 : θ = θ0 против альтернативы H1 : θ = θ1 , θ1 > θ0 > 0, имеющий вероятность ошибки первого рода α. Вычислить для построенного критерия вероятность ошибки второго рода. 10. Выборка X = (x1 , . . . , xn ) получена из нормального распределения вероятностей N1 (θ, σ2 ) при неизвестных значениях параметров θ, σ2 . Относительно параметра θ имеются две простые гипотезы: H0 : θ = θ0 , H1 : θ = θ1 , θ1 > θ0 . Считая априорные вероятности гипотез равными, построить байесовское решающее правило проверки гипотез H0 , H1 . 11. Выборка X = (x1 , . . . , xn ) получена из геометрического распределения вероятностей с параметром p, где параметр p может принимать лишь значения 1/2 и 1/4 с вероятностями 1/3 и 2/3 соответственно. Построить байесовское решающее правило проверки двух простых гипотез H0 : p = 1/2, H1 : p = 1/4. 12. Выборка X = (x1 , . . . , xn ) получена из биномиального распределения вероятностей с праметрами N и p, где p может принимать лишь значения 1/3 и 2/3 с априорными вероятностями 1/5 и 4/5 соответственно, а значение параметра N известно и фиксировано. Построить байесовское решающее правило проверки нулевой гипотезы H0 : p = 1/3 против альтернативы H1 : p = 2/3. 13. Рассматривается задача контроля качества больших партий выпускаемой предприятием продукции. Партия считается годной, если доля дефектных изделий θ = 0, 01 (гипотеза H0 ), и бракованной, если доля дефектных изделий θ = θ1 > 0, 01 (гипотеза H1 ). Построить последовательный критерий отношения вероятностей Вальда для проверки изделий, если заданы значения вероятностей ошибок I и II рода: α = 0, 01, β = 0, 001. ЧАСТЬ 4 СТАТИСТИЧЕСКИЙ АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ Г л а в а 13 РАЗВЕДОЧНЫЙ АНАЛИЗ И СЖАТИЕ ДАННЫХ 13.1. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ И ЕГО ОСНОВНЫЕ ЭТАПЫ Пусть исследуется сложная система (объект или явление), относительно которой по имеющейся информации необходимо сделать научно обоснованные выводы. Определение 13.1. Прикладная статистика – это научная дисциплина, основанная на методах теории вероятностей и математической статистики, целью которой является формирование выводов и принятие решений относительно сложной системы посредством статистического анализа данных о ней. Статистический анализ данных можно условно разделить на следующие этапы. 1. Исследование сложной системы и сбор априорной информации. 2. Формирование предположений относительно системы и построение ее математической модели. 3. Планирование и проведение экспериментов с системой и сбор статистических данных. 4. Первичный (разведочный) анализ и сжатие данных. 5. Подбор методов и непосредственное проведение статистического анализа. 6. Анализ полученных результатов и проверка их адекватности. 7. Принятие решения об удовлетворительности полученных результатов или необходимости возврата на предыдущие этапы. Статистический анализ данных обычно проводится с использованием компьютеров и различных пакетов прикладных программ [32], в основу которых положены теоретически обоснованные статистические методы. 13.2. ВЫБОРКА ИЗ МНОГОМЕРНЫХ НАБЛЮДЕНИЙ КАК МОДЕЛЬ СТАТИСТИЧЕСКИХ ДАННЫХ Адекватной математической моделью статистических данных является выборка X = {x1 , . . . , xn } объема n ⩾ 1, где xt = (xt1 , . . . , xtN )T ∈ RN – случайный N -вектор, определенный на вероятностном пространстве (Ω, F, P ) и являющийся наблюдением над объектом ωt ∈ Ω (t = 1, . . . , n) или наблюдением над одним и тем же объектом ω ∈ Ω в различные моменты времени t = 1, . . . , n. Здесь предполагается, что с течением времени свойства объектов не меняются, т. е. они статичны. Случай, когда это не так, будет рассмотрен в части 5. Обычно используются две основные модели данных. Одновыборочная модель. Предполагается, что все наблюдения x1 , . . . , xn из выборки X являются независимыми в совокупности и одинаково распределенными случайными векторами с некоторой функцией распределения вероятностей F (x), x ∈ RN . 332 ГЛАВА 13. РАЗВЕДОЧНЫЙ АНАЛИЗ И СЖАТИЕ ДАННЫХ Многовыборочная модель. В этой модели исходная выборка X объема n ⩾ 2 считается неоднородной и представляется в виде совокупности из L подвыборок (2 ⩽ L ⩽ n): L [ X= X (i) ; X (i) ∩ X (j) = ∅, i 6= j, i, j = 1, . . . , L. i=1 (i) Каждая подвыборка X состоит из ni наблюдений с одной и той же функцией распределения Fi (x), x ∈ RN (i = 1, . . . , L; n1 + . . . + nL = n). По характеру компонент (признаков), из которых образованы векторы-наблюдения xt = (xt1 , . . . , xtN )T (t = 1, . . . , n), выделяют следующие модели данных: a) непрерывные, когда все N признаков имеют совместое абсолютно-непрерывное распределение вероятностей с некоторой плотностью f (x), x ∈ RN , которая однозначно определяет их совместную функцию распределения F (x), x ∈ RN [30]; б) дискретные, когда наблюдения являются дискретными случайными векторами; в) комбинированные, когда часть признаков – непрерывные случайные величины, а остальные – дискретные. 13.3. РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ Пусть имеется выборка X = {x1 , . . . , xn } объема n и предполагается, что образующие ее наблюдения {xt ∈ RN }nt=1 – независимые в совокупности, одинаково распределенные случайные N -векторы с функцией распределения F (x), x ∈ RN . Статистический анализ данных обычно начинается с разведочного анализа, при котором, как правило, исследуются одномерные (маргинальные) распределения вероятностей каждого признака по отдельности. Поэтому далее в этом параграфе, не ограничивая общности, выборку будем предполагать образованной из одномерных наблюдений (N = 1): xt ∈ R, t = 1, . . . , n, и считать, что она соответствует наблюдениям над какимлибо признаком из исходной выборки. Функция распределения в этом случае также одномерная: F (x), x ∈ R, и при абсолютно непрерывном распределении ей соответствуd ет плотность f (x) = F (x), x ∈ R. dx При разведочном анализе обычно вычисляют следующие статистические характеристики (см. также пп. 11.2–11.4). I. Характеристики положения 1. Вариационный ряд: x(1) ⩽ x(2) ⩽ . . . ⩽x(n) , где x− = x(1) = min xt , 1⩽t⩽n x+ = x(n) = max xt 1⩽t⩽n соответственно минимальное и максимальное значения. 2. Выборочное среднее: n 1X x= xt – n t=1 статистичеcкая оценка математического ожидания µ = E{xt }. – 333 13.3. РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ 3. Выборочная медиана: m̂ = x(k+1) , n = 2k + 1, x(k) + x(k+1) , n = 2k, 2 – статистическая оценка медианы m: F (m) = 1/2. II. Характеристики рассеяния 1. Выборочная дисперсия: s2 = n 1 X (xt − x)2 n − 1 t=1 – 2 оценка истинного значения дисперсии σ2p= D{xt } = pE{(xt − µ) } (при этом s – оценка среднеквадратического отклонения σ = D{xt } = E{(xt − µ)2 }). 2. Размах: x+ − x− . 3. Интервал концентрации: µ [x − 3s, x + 3s] 8 P{xt ∈ [µ − 3σ, µ + 3σ]} ⩾ 9 ¶ . III. Характеристики формы 1. Выборочная асимметрия: n 1X (xt − x)3 n t=1 – s3 оценка коэффициента асимметрии β1 = E{(xt − µ)3 }/σ3 . 2. Выборочный эксцесс: β̂1 = n β̂2 = 1X (xt − x)4 n t=1 −3 – s4 оценка истинного значения эксцесса β2 = E{(xt − µ)4 }/σ4 − 3. Последние две характеристики имеют особое значение при сравнении распределения статистических данных с нормальным распределением N1 (µ, σ2 ). Коэффициент асимметрии показывает, насколько распределение анализируемых данных отличается от симметричного относительно математического ожидания µ распределения вероятностей в ту или иную сторону: если β1 < 0, то P{xt ⩽µ} < 1/2; если β1 > 0, то P{xt ⩽µ} > 1/2. По значению эксцесса можно судить о том, насколько «хвосты» распределения «тяжелее» (β2 > 0) или «легче» (β2 < 0) «хвостов» нормального распределения. В случае нормального распределения (L{xt } = N1 (µ, σ2 )) обе эти характеристики равны нулю (β1 = β2 = 0). Далее в разведочном анализе пытаются «подогнать» распределение вероятностей, что сводится к проверке гипотез согласия (см. п. 12.4): H0 : F (·) ≡ F0 (·); H1 = H0 : F (·) 6≡ F0 (·), 334 ГЛАВА 13. РАЗВЕДОЧНЫЙ АНАЛИЗ И СЖАТИЕ ДАННЫХ где F0 (·) – предполагаемая (гипотетическая) функция распределения. Причем если она задана параметрически (например, предполагается нормальное распределение N1 (µ, σ2 )), то в качестве неизвестных параметров в F0 (·) используются их статистические оценки (для нормального распределения это будут выборочные среднее x и дисперсия s2 ). Для графической иллюстрации точности «подгонки» строят выборочную функцию распределения F̂ (·) и гистограмму fˆ(·) (см. п. 11.2) с «наложенными» на них соответственно «подогнанной» функцией распределения F0 (·) (см. рис. 12.2) и плотностью d f0 (x) = F0 (x) (см. рис. 11.3). dx Замечание 13.1. На практике, как правило, «подгоняют» данные нормальным распределением. Если это не удается, то предпринимают различные попытки нормализовать данные. В случае положительных выборочных значений самая распространенная из таких попыток – прологарифмировать наблюдения: xt := ln(xt ), t = 1, . . . , n. Если среди выборочных значений встречаются отрицательные либо нулевые (x− ⩽0), то это преобразование обобщают: xt := ln(xt + c), t = 1, . . . , n, где c > |x− | – некоторая положительная величина. 13.4. ПРОБЛЕМА СЖАТИЯ ДАННЫХ. МЕТОД ГЛАВНЫХ КОМПОНЕНТ Пусть в пространстве RN зарегистрирована случайная выборка X = {x1 , . . . , xn } объема n: xt ∈ RN , t = 1, . . . , n. Как правило, при сборе данных стараются определить максимальное количество признаков (характеристик) и размерность N пространства наблюдений оказывается достаточно большой. Возникает проблема сжатия данных. Необходимо преобразовать исходную выборку X = {x1 , . . . , xn } в сжатую выборку Y = {y1 , . . . , yn }: yt ∈ Rm , t = 1, . . . , n, с меньшим числом признаков m (m < N ), несущих информацию об исходных наблюдениях с минимальными (наперед заданными) потерями. Формально решение задачи сжатия данных сводится к поиску борелевского преобразования: y = B(x) : RN → Rm , (13.1) переводящего исходное наблюдение x = (x̃1 , . . . , x̃N )T ∈ RN в сжатое наблюдение y = = (ỹ1 , . . . , ỹm )T ∈ Rm . Выборка Y получается из выборки X преобразованием каждого из n наблюдений: yt = B(xt ), t = 1, . . . , n. Преобразование в (13.1), вообще говоря, нелинейное. Однако на практике обычно используют линейные преобразования: y = Bx : RN → Rm , где B – (m × N )-матрица. Проблема заключается в выборе матрицы B. Одним из способов ее решения является метод главных компонент, наиболее часто используемый на практике для сжатия данных. Согласно методу главных компонент случайный N -вектор-наблюдение x = = (x̃1 , . . . , x̃N )T ∈ RN с ковариационной (N × N )-матрицей © ª Σ = cov{x, x} = E (x − µ)(x − µ)T , 13.4. ПРОБЛЕМА СЖАТИЯ ДАННЫХ 335 N µ = E{x} ∈ R – вектор математического ожидания, подвергается следующему линейному преобразованию (y = (ỹ1 (x), . . . , ỹN (x))T ): ỹk = ỹk (x) = ΨTk x, k = 1, . . . , N, (13.2) где {Ψk }N k=1 являются ортонормированными собственными векторами ковариационной матрицы Σ, удовлетворяют соотношениям ΣΨk = λk Ψk , k = 1, . . . , N ; (13.3) ΨTk Ψl = δkl , k, l = 1, . . . , N, (13.4) N и соответствуют упорядоченным по убыванию собственным числам {λk }k=1 матрицы Σ: λ1 ⩾ λ2 ⩾ . . . ⩾ λN . Полученные таким образом случайные величины ỹ1 , . . . , ỹN называют главными компонентами для исходного наблюдения x = (x̃1 , . . . , x̃N )T . Исследуем вероятностные свойства главных компонент. Теорема 13.1. Главные компоненты ỹ1 , . . . , ỹN , удовлетворяющие (13.2)–(13.4), некоррелированы cov{ỹk , ỹj } = 0, k 6= j, k, j = 1, . . . , N, а их дисперсии равны соответствующим собственным числам D{ỹk } = λk , k = 1, . . . , N. (13.5) Доказательство. С учетом (13.2)–(13.4) вычислим ковариацию (k, j = 1, . . . , N ): cov{ỹk , ỹj } = E{(ỹk − E{ỹk })(ỹj − E{ỹj })} = © ª (x − µ)(x − µ)T Ψj = ΨTk ΣΨj = λj ΨTk Ψj = δkj λj . = ΨTk E ¤ Следствие 13.1. Суммарная дисперсия исходных признаков равна суммарной дисперсии главных компонент: N X D{x̃k } = k=1 N X D{ỹk } = k=1 N X λk . (13.6) k=1 Доказательство. Очевидно и следует из (13.5) и известного свойства матрицы [34, 11]: N N X X D{x̃k } = tr(Σ) = λk . k=1 k=1 ¤ Cоотношения (13.5), (13.6) позволяют предложить критерий выбора информативных признаковв пространстве главных компонент, который состоит в том, что признаки, имеющие малые дисперсии, отбрасываются, а рассматриваются лишь m (m ⩽ N ) первых главных компонент из ỹ1 , . . . , ỹm , . . . , ỹN (λ1 ⩽ . . . ⩽ λm ⩽ . . . ⩽ λN ). Число m обычно определяется по наперед заданной малой величине ² ∈ [0, 1): m = m(²) = min{k : 1 − κ(k) ⩽ ², k = 1, . . . , N }; k X κ(k) = i=1 N X j=1 λi , λj (13.7) 336 ГЛАВА 13. РАЗВЕДОЧНЫЙ АНАЛИЗ И СЖАТИЕ ДАННЫХ где 0 < κ(k) ⩽ 1 в (13.7) – относительная доля суммарной дисперсии первых k главных компонент. Чем ближе κ(k) к единице (а (1 − κ(k)) – к нулю), тем меньше потери информации при сжатии данных (κ(N ) = 1). Замечание 13.2. На практике обычно истинное значение ковариационной матрицы Σ неизвестно, и вместо нее в методе главных компонент используется оценка по исходной выборке X = {x1 , . . . , xn }: S= n 1 X (xt − x)(xt − x)T , n − 1 t=1 n x= 1X xt , n t=1 вероятностные свойства которой будут исследованы в следующих главах. Замечание 13.3. Метод главных компонент применяется не только для сжатия данных. Он позволяет декоррелировать их – строить выборки из наблюдений с некоррелироваными признаками. С его помощью также производят визуализацию многомерных данных: на плоскости (m = 2) и в трехмерном пространстве (m = 3). При этом учитывается информация, заключенная во всех исходных признаках, чего нельзя сказать о диаграммах рассеяния, на которых исходные признаки отображаются попарно (на плоскости) и тройками (в трехмерном пространстве). Замечание 13.4. Недостаток метода главных компонент состоит в том, что главные компоненты, по сравнению с исходными признаками, не имеют на практике физической интерпретации. С этой точки зрения лучше напрямую выбирать информативные признаки из множества исходных признаков и не производить их функциональных преобразований, т. е. осуществлять так называемый прямой отбор информативных признаков. Г л а в а 14 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ОЦЕНИВАНИЕ ЕГО ПАРАМЕТРОВ 14.1. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ЕГО ОСНОВНЫЕ СВОЙСТВА Пусть при проведении разведочного анализа установлено, что некоторые компоненты имеют нормальные распределения вероятностей. Следующее предположение состоит в том, чтобы считать, что эти компоненты имеют совместное многомерное нормальное распределение. Определение 14.1. Если компоненты непрерывного случайного N -вектора N x = (x̃j )N имеют конечные моменты второго порядка: E{(x̃j )2 }< + ∞, j=1 ∈ R j = 1, . . ., N , а его плотность распределения вероятностей задается соотношением ³ 1 ´ N 1 f (x) = nN (x|µ, Σ) = (2π)− 2 |Σ|− 2 exp − (x − µ)T Σ−1 (x − µ) , (14.1) 2 где µ = E{x} – N -вектор математического ожидания, а © ª Σ = E (x − µ)(x − µ)T – невырожденная ковариационная (N × N )-матрица (|Σ| 6= 0), то говорят, что x ∈ RN имеет невырожденное многомерное нормальное распределение, и кратко обозначают этот факт: L{x} = NN (µ, Σ). Замечание 14.1. В случае вырожденной ковариационной матрицы Σ (|Σ| = 0) иногда также определяют вырожденное многомерное нормальное распределение, которое, однако, не описывается плотностью (14.1). Считается, что случайный N -вектор x ∈ RN имеет вырожденное нормальное распределение NN (µ, Σ) (|Σ| = 0), если он может быть представлен в виде x = By + b, где случайный p-вектор y ∈ Rp (p < N ) имеет невырожденное p-мерное нормальное распределение, (p × N )-матрица линейного преобразования B – полный ранг: rank(B) = p; p-вектор сдвига b = µ − BE{y}. Согласно (14.1) многомерное нормальное распределение однозначно определяется своими параметрами – вектором математического ожидания µ = (µ̃j )N j=1 : µ̃j = E{x̃j } – математическое ожидание j-й компоненты, и ковариационной матрицей Σ = (σjk )N j,k=1 , где σjk = σkj = cov{x̃j , x̃k } = E{(x̃j − µ̃j )(x̃k − µ̃k )} – ковариация j-й и k-й компонент, а © ª σjj = D{x̃j } = E (x̃j − µ̃j )2 – дисперсия j-й компоненты (j, k = 1, . . . , N ). Все характеристики многомерного нормального распределения NN (µ, Σ) выражаются через его параметры µ и Σ, в том числе: 338 ГЛАВА 14. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ОЦЕНИВАНИЕ ПАРАМЕТРОВ а) коэффициент корреляции: cov{x̃j , x̃k } σjk ρjk = p =√ ∈ [−1, 1], j, k = 1, . . . , N ; σjj σkk D{x̃j }D{x̃k } б) центральные моменты третьего порядка: E{(x̃i − µ̃i )(x̃j − µ̃j )(x̃k − µ̃k )} = 0, i, j, k = 1, . . . , N ; в) центральные моменты четвертого порядка: E{(x̃i − µ̃i )(x̃j − µ̃j )(x̃k − µ̃k )(x̃l − µ̃l )} = σij σkl + σik σjl + σil σkj ; © ª E (x̃i − µ̃i )4 = 3σ2ii , i, j, k, l = 1, . . . , N. Для того чтобы исследовать другие свойства многомерного нормального распределения, вычислим его характеристическую функцию, однозначно определяющую распределение вероятностей. Теорема 14.1. Пусть случайный N -вектор x ∈ RN имеет невырожденное нормальное распределение NN (µ, Σ) (|Σ| 6= 0), тогда его характеристическая функция n o T φx (t) = E eit x , t ∈ RN , имеет вид 1 T T φx (t) = eit µ− 2 t Σt , (14.2) где i – мнимая единица. Доказательство. Воспользуемся видом плотности многомерного нормального распределения (14.1) и запишем характеристическую функцию: Z n T o T it x φx (t) = E e = eit x nN (x|µ, Σ)dx = = 1 (2π)N/2 |Σ|1/2 Z RN T 1 T −1 (x−µ) eit x− 2 (x−µ) Σ dx. RN Выделим полный квадрат в выражении, стоящем под экспонентой: 1 itT x − (x − µ)T Σ−1 (x − µ) = 2 1 = − (x − (µ + iΣt) + iΣt)T Σ−1 (x − (µ + iΣt) + iΣt) + itT x = 2 1 1 = − (x − (µ + iΣt))T Σ−1 (x − (µ + iΣt)) + itT µ − tT Σt. 2 2 Продолжим вычисление характеристической функции и с учетом условия нормировки получим Z 1 1 T 1 T −1 T φx (t) = e− 2 (x−(µ+iΣt)) Σ (x−(µ+iΣt))+it µ− 2 t Σt dx = (2π)N/2 |Σ|1/2 RN 1 tT Σt itT µ− 2 Z T 1 T nN (x|µ + iΣt, Σ)dx = eit µ− 2 t Σt , =e RN ¤ что совпадает с (14.2). Характеристическая функция позволяет исследовать поведение нормально распределенных наблюдений при линейных преобразованиях и определить маргинальные распределения вероятностей выбранных компонент. 339 14.1. ОСНОВНЫЕ СВОЙСТВА m Теорема 14.2. Пусть y = Cx + b ∈ R – линейное преобразование нормального случайного N -вектора x ∈ RN (m ⩽ N ) с невырожденным нормальным распределением NN (µ, Σ) (|Σ| 6= 0), где b ∈ Rm ; (m × N )-матрица линейного преобразования C имеет полный ранг: rank(C) = m, тогда случайный вектор y ∈ Rm имеет невырожденное m-мерное нормальное распределение: L{y} = Nm (Cµ + b, CΣC T ) (|CΣC T | 6= 0). Доказательство. Воспользуемся выражением (14.2) для характеристической функции φx (t), t ∈ RN , исходного случайного вектора x ∈ RN и найдем характеристическую функцию φy (τ), τ ∈ Rm , для его линейного преобразования y = Cx + b ∈ Rm : n T o n T o n T o ¡ ¢ T T T φy (τ) = E eiτ y = E eiτ (Cx+b) = E ei(C τ) x eiτ b = φx C T τ eiτ b = T T 1 T T T T T 1 T T = ei(C τ) µ− 2 (C τ) ΣC τ eiτ b = eiτ (Cµ+b)− 2 τ (CΣC )τ . Выражение в правой части полученного соотношения является характеристической функцией многомерного нормального распределения с m-вектором математического ожидания Cµ + b и ковариационной (m × m)-матрицей CΣC T , которая в силу невырожденности исходной ковариационной (N × N )-матрицы Σ и полного ранга матрицы C (rank(C) = m) имеет ранг m и, следовательно, невырождена. ¤ Следствие 14.1. Пусть случайный N -вектор x = (x̃1 , . . . , x̃N )T ∈ RN имеет невырожденное нормальное распределение NN (µ, Σ) (|Σ| 6= 0) и пусть x∗ = (x̃j1 , . . . , x̃jm )T ∈ ∈ Rm – m-вектор, образованный из каких-либо m ⩽ N его компонент (jk 6= jl ∈ ∈ {1, . . . , N }, k 6= l, k, l = 1, . . . , m). Тогда случайный m-вектор x∗ имеет невырожденное m-мерное маргинальное нормальное распределение с математическим ожиm данием µ∗ = (µ̃jk )m и ковариационной (m × m)-матрицей Σ∗ = (σjk ,jl )m k=1 ∈ R k,l=1 (|Σ∗ | 6= 0), образованными из соответствующих компонент исходных математичеN ского ожидания µ = (µ̃k )N и ковариационной (N × N )-матрицы Σ = (σkl )N k=1 ∈ R k,l=1 : ∗ ∗ ∗ L{x } = Nm (µ , Σ ). Доказательство. Представим m-вектор x∗ = (x̃j1 , . . . , x̃jm )T как линейное преобразование исходного N -вектора x ∈ RN : x∗ = Cx, где (m×N )-матрица C на пересечении k-й строки и jk -го столбца содержит единицы (jk ∈ {1, . . . , N }, k = 1, . . . , m), а остальные ее элементы равны нулю. Очевидно, что rank(C) = m, и из теоремы 14.2 с учетом вида матрицы C получаем доказываемое. ¤ N Следствие 14.2. Компоненты случайного N -вектора x = (x̃j )N ∈ R , распредеj=1 ленного по невырожденному многомерному нормальному закону NN (µ, Σ) (|Σ| 6= 0), имеют одномерные маргинальные нормальные распределения: L{x̃j } = N1 (µ̃j , σjj ) (σjj > 0), j = 1, . . . , N . Замечание 14.2. Если компоненты случайного вектора имеют одномерные нормальные распределения, то их совместное распределение, вообще говоря, не является многомерным нормальным. Оно будет таковым в случае их независимости (при этом некоррелированности компонент не достаточно!). N Следствие 14.3. Пусть случайный вектор x = (x̃j )N j=1 ∈ R , распределенный по многомерному нормальному закону NN (µ, Σ) (|Σ| 6= 0), разбит на вектор-блоки: ¡ . .. (K) T ¢T . Тогда случайные векторы {x(k) }K независимы тогда и x = (x(1) )T .. . . . .(x ) k=1 только тогда, когда они некоррелированы. © (k) ªK Доказательство. По следствию 14.1 случайные векторы x имеют норk=1 © (k) ª ¡ (k) (k) ¢ ¯ (k) ¯ (¯Σ ¯ 6= 0), k = 1, . . . , K, = NN (k) µ , Σ мальные распределения: L x являющиеся маргинальными по отношению к распределению исходного вектора x ∈ RN (N (1) + . . . + N (K) = N ). Но по известному критерию независимости [30] 340 ГЛАВА 14. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ОЦЕНИВАНИЕ ПАРАМЕТРОВ © (k) ªK x независимы тогда и только тогда, когда их совместная плотность распределеk=1 ния представима в виде произведения их плотностей: ¶ µ K Y ¡ (k) (k) (k) ¢ ¡ (1) ¢T .. .. ¡ (K) ¢T T nN (x|µ, Σ) = nN (k) x |µ , Σ , x= x ..... x ∈ RN . k=1 Исходя из вида (14.1) плотности многомерного нормального распределения, заключаем, что последнее соотношение выполняется тогда и только тогда, когда случайные векторы © (k) ªK © ª x некоррелированы: Σ = diag Σ(1) , . . . , Σ(K) . ¤ k=1 oK n (k) N (k) независимы в совоСледствие 14.4. Пусть случайные векторы x ∈ R k=1 купности распределения: © ª и имеют¡невырожденные ¢ ¡¯ (k) ¯нормальные ¢ ¯Σ ¯ 6= 0 , k = 1, . . ., K, тогда составной вектор L x(k) = NN (k) µ(k) , Σ(k) ¶ µ K X ¡ (1) ¢T .. .. ¡ (K) ¢T T ∈ RN , N = N (k) , также имеет невырожденное нор..... x x = x k=1 мальное распределение: L{x} = NN (µ,Σ), c вектором математического ожидания ¶ µ ¡ (1) ¢T .. .. ¡ (K) ¢T T © ª µ = µ .. . .. µ и ковариационной матрицей Σ = diag Σ(1) , . . . , Σ(K) (|Σ| = 6 0). С невырожденным многомерным нормальным распределением NN (µ, Σ) (|Σ| 6= 0) в силу вида его плотности (14.1) связывают метрику Махаланобиса: p ρ(x, z) = (x − z)T Σ−1 (x − z), x, z ∈ RN , которая позволяет построить в RN так называемый эллипсоид рассеяния с центром в математическом ожидании µ ∈ RN : Vr = {x : ρ(x, µ)⩽r, r > 0}. Воспользуемся известным в матричном анализе [34, 11] представлением для невырожденной ковариационной (N × N )-матрицы Σ, которая при этом в силу известного свойства неотрицательной определенности ковариационной матрицы положительно определена (Σ Â 0): Σ = Σ1/2 (Σ1/2 )T , где невырожденная (N × N )-матрица Σ1/2 определяется неоднозначно и является решениемµпо Y матричного ¶ уравнения Y T Σ−1 Y = IN . В частности, можно выбрать √ √ . . Σ1/2 = λ1 Ψ1 .. . . . .. λN ΨN , где {λk , Ψk }N – собственные числа и соответствующие k=1 им ортонормированные собственные векторы матрицы Σ, определенные в (13.3), (13.4). ¡ ¢−1 Введем в рассмотрение случайный N -вектор y = Σ1/2 (x−µ). Согласно теореме 14.1, L{y} = NN (0N , IN ), и случайная величина ρ2 (x, µ) = y T y является суммой квадратов N независимых в совокупности стандартных нормальных случайных величин и имеет χ2 -распределение с N степенями свободы. Поэтому вероятность попадания случайного вектора x в эллипсоид рассеяния Vr радиуса r равна: P{x ∈ Vr } = Fχ2N (r2 ). Этот факт позволяет по наперед заданному уровню вероятности P{x ∈ Vr } = 1 − α, где α ∈ (0, 1) – мало, определить радиус эллипсоида рассеяния: r r = r(α) = Fχ−1 2 (1 − α), N 14.2. ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ПАРАМЕТРОВ 341 2 где Fχ−1 2 (1 − α) – квантиль уровня 1 − α от χ -распределения с N степенями свободы. N Эллипсоид рассеяния Vr , r = r(α), является областью концентрации наблюдений вокруг своего математического ожидания, а область в RN вне эллипсоида рассеяния содержит наблюдения, описываемые «хвостом» распределения вероятностей: вероятность попадания в эту область мала и равна α. 14.2. ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ПАРАМЕТРОВ МНОГОМЕРНОГО НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ. ВЫБОРОЧНОЕ СРЕДНЕЕ И ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА Пусть имеется случайная выборка X = {x1 , . . . , xn } объема n из невырожденного N -мерного нормального распределения NN (µ, Σ) с неизвестными истинными значениями параметров: математического ожидания µ ∈ RN и ковариационной (N ×N )-матрицы Σ (|Σ| 6= 0). Воспользуемся методом максимального правдоподобия и построим их статистические оценки µ̂ и Σ̂ по выборке X. Теорема 14.3. Пусть наблюдения x1 , . . . , xn ∈ RN , образующие выборку X = = {xt }nt=1 объема n > N , являются независимыми в совокупности, одинаково распределенными случайными N -векторами с невырожденным нормальным распределением NN (µ, Σ) (|Σ| 6= 0), тогда единственными оценками максимального правдоподобия (МП-оценками) для вектора математического ожидания µ и ковариационной матрицы Σ являются соответственно выборочное среднее: n µ̂ = x = 1X xt , n t=1 (14.3) и выборочная ковариационная матрица: Σ̂ = 1 A, n A= n X (xt − x)(xt − x)T . (14.4) t=1 Доказательство. Воспользуемся видом (14.1) плотности nN (·|µ, Σ) многомерного нормального распределения NN (µ, Σ) и запишем логарифмическую функцию правдоподобия по выборке X = {xt }nt=1 для неизвестных значений параметров µ и Σ: l(µ, Σ) = ln n Y nN (xt |µ, Σ) = t=1 =− n nN n 1X ln(2π) − ln |Σ| − (xt − µ)T Σ−1 (xt − µ) = 2 2 2 t=1 n ¢ nN n 1 X ¡ −1 ln(2π) + ln |Σ−1 | − tr Σ (xt − µ)(xt − µ)T = 2 2 2 t=1 à ! n X n 1 nN −1 −1 T ln(2π) + ln |Σ | − tr Σ (xt − µ)(xt − µ) , =− 2 2 2 t=1 =− где использованы следующие свойства следа матрицы tr(·): а) c = tr(c), c ∈ R; б) tr(BC) = tr(CB); в) tr(B + D) = tr(B) + tr(D). 342 ГЛАВА 14. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ОЦЕНИВАНИЕ ПАРАМЕТРОВ Учтем очевидное тождество n X (xt − x) ≡ 0N (14.5) t=1 и преобразуем выражение n n X X (xt − µ)(xt − µ)T = (xt − x + x − µ)(xt − x + x − µ)T = t=1 t=1 = A + n(x − µ)(x − µ)T , где x и A определены соответственно в (14.3) и (14.4). Подставим правую часть последнего соотношения в выражение для логарифмической функции правдоподобия, воспользуемся приведенными выше свойствами следа матрицы и получим l(µ, Σ) = − nN n 1 ln(2π) + ln |Σ−1 | − tr(Σ−1 A) − 2 2 2 − n (x − µ)T Σ−1 (x − µ). 2 (14.6) Из вида (14.6) логарифмической функции правдоподобия l(µ, Σ) заключаем, что максимум по µ ∈ RN в ней достигается лишь на выборочном среднем µ̂ = x, которое и является МП-оценкой для вектора математического ожидания µ. Из (14.6) также видно, что вместо МП-оценки Σ̂ для ковариационной матрицы Σ −1 для обратной ковариационной матрицы Σ−1 . d целесообразно строить МП-оценку Σ В силу взаимно-однозначного соответствия между Σ и Σ−1 МП-оценкой для Σ будет −1 )−1 . d Σ̂ = (Σ Найдем МП-оценку для Σ−1 = (σ∗kj )N k,j=1 из решения задачи: l∗ (Σ−1 ) = l(x, Σ) = − nN n 1 ln(2π) + ln |Σ−1 | − tr(Σ−1 A) → max . 2 2 2 Σ−1 Вычислим частные производные от l∗ (Σ−1 ) по σ∗kj , k, j = 1, . . . , N , используя поэлементное представление матрицы A = (akj )N k,j=1 , разложение определителя по строке и известное в матричном анализе представление Крамера для элементов обратной матрицы [34, 11]: N n 1 ∂|Σ−1 | 1 ∂ X ∗ n 1 ∂l∗ (Σ−1 ) = − σ ali = σkj − ajk . ∂σ∗kj 2 |Σ−1 | ∂σ∗kj 2 ∂σ∗kj i,l=1 il 2 2 Согласно необходимому условию максимума полученные выражения для производных приравниваем к нулю и получаем МП-оценку Σ̂ = (σ̂kj )N k,j=1 для ковариационной матрицы Σ = (σkj )N : σ̂ = a /n, j, k = 1, . . . , N , откуда в силу симметричности kj jk k,j=1 A матрицы A: ajk = akj , j, k = 1, . . . , N , окончательно имеем Σ̂ = , что совпадает с n (14.4). Условие n > N обеспечивает невырожденность полученной оценки ковариационной матрицы: P{|A| = 0} = 0. ¤ 343 14.3. ВЕРОЯТНОСТНЫЕ СВОЙСТВА ОЦЕНОК 14.3. ВЕРОЯТНОСТНЫЕ СВОЙСТВА ВЫБОРОЧНОГО СРЕДНЕГО И ВЫБОРОЧНОЙ КОВАРИАЦИОННОЙ МАТРИЦЫ. НЕСМЕЩЕННАЯ ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА Пусть по выборке X = {x1 , . . . , xn } объема n > N из независимых в совокупности многомерных наблюдений с невырожденным N -мерным нормальным распределением NN (µ, Σ) (|Σ| 6= 0) в качестве оценок вектора математического ожидания µ ∈ RN и ковариационной (N × N )-матрицы Σ используются МП-оценки: µ̂ = x – выборочное A среднее и Σ̂ = – выборочная ковариационная матрица, полученные в теореме 14.3. n Как МП-оценки они обладают всеми их свойствами: сильная состоятельность, асимптотическая несмещенность и асимптотическая нормальность. Однако в силу специфики многомерного нормального распределения они имеют ряд дополнительных свойств. Сначала исследуем их распределения вероятностей. Определение 14.2. Говорят, что случайная (N × N )-матрица A имеет распредеm X ление Уишарта WN (Σ, m), если она распределена как матрица A = zj zjT , где слуj=1 чайные N -векторы {zj }m j=1 независимы в совокупности и одинаково распределены по невырожденному нормальному закону NN (0N , Σ) (|Σ| 6= 0). Распределение Уишарта обладает следующими очевидными свойствами. C1. Если случайные матрицы {Ak }K k=1 независимы в совокупности и имеют распределения Уишарта: L {Ak } ( = WN (Σ, = 1, . . . , K,!то их сумма также имеет рас)mk ), k à K K X X Ak = WN Σ, mk . пределение Уишарта: L k=1 k=1 C2. Если случайная матрица A имеет распределение Уишарта WN (Σ, m), то E{A} = mΣ, и L{cA} = WN (cΣ, m), где c > 0 – константа. A Теорема 14.4. В условиях теоремы 14.3 МП-оценки µ̂ = x и Σ̂ = , определенные n в (14.3) и (14.4), независимы и имеют следующие распределения вероятностей: ¶ µ 1 L{x} = NN µ, Σ , n L{nΣ̂} = L{A} = WN (Σ, n − 1). (14.7) Доказательство. Построим ортогональное преобразование выборки X = = {x1 , . . . , xn }. Через C = (cij )ni,j=1 обозначим специальную ортогональную (n × n)матрицу, обладающую свойством CC T = C T C = In (C −1 = C T ) [34, 11]. Наложим на матрицу C = (cij )ni,j=1 ограничение, положив элементы последней строки в ней равными 1 1 √ : cnj = √ , j = 1, . . . , n. Преобразуем выборку X = {xt }nt=1 в Z = {zt }nt=1 : n n zt = n X ctj xj , t = 1, . . . , n. (14.8) j=1 Случайные векторы {zt }nt=1 являются линейными преобразованиями нормально распределенных, независимых в совокупности случайных векторов {xt }nt=1 , имеющих по следствию 14.4 совместное нормальное распределение. По теореме 14.2 {zt }nt=1 также имеют совместное нормальное распределение и по следствию 14.1 нормально распределены: L{zt } = NN (νt , Σt ), t = 1, . . . , n. Найдем параметры этих распределений. 344 ГЛАВА 14. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ОЦЕНИВАНИЕ ПАРАМЕТРОВ Для математических ожиданий имеем ( n ) n X X νt = E{zt } = E ctj xj = ctj µ = j=1 = j=1 n X n X √ √ 1 √ nµ = ctj cnj nµ = δtn nµ, t = 1, . . . , n. ctj √ n j=1 j=1 Вместо вычисления ковариационных матриц {Σt }nt=1 решим более общую задачу – найдем ковариации векторов {zt }nt=1 : © ª cov{zt , zl } = E (zt − νt )(zl − νl )T = à !à n !T n n n X X X X =E ctj xj − ctj µ cli xi − cli µ = j=1 = j=1 n X i=1 i=1 © ª ctj E (xj − µ)(xi − µ)T cli = j,i=1 = n X ctj δji Σcli = j,i=1 n X ctj clj Σ = δtl Σ, t, l = 1, . . . , n, j=1 где учтено, что {xt }nt=1 независимы в совокупности, и использовано свойство ортогональной матрицы: CC T = In . Таким образом, случайные векторы {zt }nt=1 имеют совместное нормальное распределение, некоррелированы, имеют следующие нормальные распределения: √ L{zt } = NN (0N , Σ), t = 1, . . . , n − 1, L{zn } = NN ( nµ, Σ), (14.9) и по следствию 14.3 независимы в совокупности. Выразим теперь оценки x и Σ̂ через {zt }nt=1 . Из (14.8) и (14.3) получим zn = n X n √ 1 X cnj xj = √ xj = nx, n j=1 j=1 и выборочное среднее x допускает представление 1 x = √ zn , n (14.10) µ является линейным преобразованием zn и имеет нормальное распределение NN µ, ¶ Σ , n что доказывает первую часть (14.7). С учетом тождества (14.5) запишем выборочную ковариационную матрицу Σ̂ из (14.4): à n ! n 1 1X 1 X T T T Σ̂ = A = (xt − x)(xt − x) = xt xt − nx x . n n t=1 n t=1 14.3. ВЕРОЯТНОСТНЫЕ СВОЙСТВА ОЦЕНОК 345 Воспользовавшись вспомогательным соотношением !T à n n n X n X X X T cti xi = zt zt = ctj xj t=1 = n X n X t=1 j=1 ctj cti xj xTi = j,i=1 t=1 i=1 n X δji xj xTi = j,i=1 n X xt xTt , t=1 и доказанным выше представлением (14.10), получим n−1 Σ̂ = 1X T zt zt . n t=1 (14.11) Согласно (14.9) и определению распределения Уишарта: L{nΣ̂} = L{A} = WN (Σ, n−1), и (14.7) окончательно доказано. Независимость статистических оценок x и Σ̂ непосредственно следует из представлений (14.10) и (14.11), согласно которым x и Σ̂ не содержат общих случайных векторов n−1 из {zt }nt=1 : x определяется zn , а Σ̂ строится на основе {zt }t=1 . ¤ Теперь исследуем другие вероятностные свойства оценок x и Σ̂. Теорема 14.5. В условиях теоремы 14.3 выборочное среднее x из (14.3) является несмещенной оценкой для математического ожидания µ: E{x} = µ, n ⩾ 1, а выборочA ная ковариационная матрица Σ̂ = – асимптотически несмещенной: E{Σ̂} → Σ, n n → +∞. Несмещенной оценкой ковариационной матрицы является S= 1 A, n−1 (14.12) где матрица A = (akl )N k,l=1 определена в (14.4). Все оценки x, Σ̂ и S сильно состоятельны: п. н. п. н. п. н. x −→ µ, Σ̂ −→ Σ, S −→ Σ, n → +∞, µ ¶ 1 выборочное среднее x имеет нормальное распределение: L{x} = NN µ, Σ , n ⩾ 1, а n элементы выборочной ковариационной матрицы Σ̂ = (σ̂kl )N и несмещенной выборочk,l=1 N ной ковариационной матрицы S = (skl )k,l=1 – совместные асимптотически нормальные распределения с ковариациями, определяемыми элементами истинной ковариационной матрицы Σ = (σkl )N k,l=1 : lim n · cov{σ̂ij , σ̂kl } = lim n · cov{sij , skl } = σik σjl + σil σkj , n→+∞ n→+∞ i, j, k, l = 1, . . . , N. (14.13) Доказательство. Справедливость большинства утверждений теоремы следует из свойств МП-оценок, которыми являются µ̂ = x и Σ̂. Однако докажем их все, основываясь на представлениях для µ̂ = x и Σ̂, полученных при доказательстве теоремы 14.4. Несмещенность и нормальность выборочного среднего x (n ⩾ 1) уже доказаны в теореме 14.4. 346 ГЛАВА 14. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ОЦЕНИВАНИЕ ПАРАМЕТРОВ C учетом (14.11), (14.9) вычислим математическое ожидание выборочной ковариационной матрицы Σ̂: ( n−1 ) 1X T n − 1 © Tª n − 1 E{Σ̂} = E zt zt = E zt zt = Σ → Σ, n → +∞, n t=1 n n и асимптотическая несмещенность Σ̂ доказана. C учетом последнего соотношения для оценки S = (1 − n−1 )Σ̂ из (14.12) имеем E{S} = Σ, n ⩾ 1, что означает ее несмещенность. Сильная состоятельность оценок x, Σ̂ и S следует из усиленного закона больших чисел для независимых в совокупности, одинаково распределенных случайных векторов (n → +∞): n 1 X п. н. x= xt −→ µ; n t=1 Σ̂ = n−1 n − 1 1 X T п. н. zt zt −→ Σ; n n − 1 t=1 S= n−1 1 X T п. н. zt zt −→ Σ, n − 1 t=1 где {xt }nt=1 – независимы в совокупности и одинаково распределены с математическим ожиданием µ = E{xt }, а {zt ztT }n−1 t=1 – независимые в совокупности, одинаково распределенные случайные матрицы с E{zt ztT } = Σ. Доказательство последнего утверждения теоремы основано на использовании центральной предельной теоремы для одинаково распределенных случайных векторов [4]: пусть v1 , . . . , vm , vm+1 , . . . ∈ Rq – последовательность независимых в совокупности, одинаково распределенных случайных векторов с математическим ожиданием µv = E{vt } и ковариационной матрицей Σv = cov{vt , vt }, t = 1, . . . , m, m + 1, . . ., тогда ( ) m 1 X L √ (vt − µv ) → Nq (0q , Σv ), m → +∞. m t=1 Согласно (14.11): nΣ̂ = (n − 1)S = A = n−1 X zt ztT , где случайные N -векторы t=1 zt = (zt1 , . . . , ztN ), t = 1, . . . , n − 1, независимы в совокупности и согласно (14.9) распределены по закону NN (0N , Σ). Поэтому, будучи составленными в вектор, нормированные элементы ½ ¾N akl − (n − 1)σkl √ n−1 k⩾l=1 µ ½ ¾ ¶ n−1 X akl N матрицы A = (akl )k,l=1 : akl = ztk ztl учтено, что E = σkl и akl = alk , имеют n−1 t=1 асимптотически нормальное (n → +∞) совместное N (N + 1)/2-мерное распределение с нулевыми математическими ожиданиями и ковариациями: ¾ ½ aij − (n − 1)σij akl − (n − 1)σkl √ √ , = cov n−1 n−1 = cov{zti ztj , ztk ztl } = E{zti ztj ztk ztl } − E{zti ztj }E{ztk ztl } = = σij σkl + σik σjl + σil σkj − σij σkl = σik σjl + σil σkj , i, j, k, l = 1, . . . , N, где использована известная формула для моментов четвертого порядка многомерного нормального распределения из п. 14.1. 347 14.4. УПРАЖНЕНИЯ Очевидное соотношение (i, j, k, l = 1, . . . , N ) lim n · cov{σ̂ij , σ̂kl } = lim n · cov{sij , skl } = n→+∞ ½ ¾ aij − (n − 1)σij akl − (n − 1)σkl √ √ = lim cov , n→+∞ n−1 n−1 n→+∞ завершает доказательство. ¤ Замечание 14.3. В теореме 14.4 было установлено, что матрица A из (14.4), на A A основе которой строятся оценки Σ̂ = иS = для ковариационной матрицы Σ, n n−1 имеет распределение Уишарта: L{A} = WN (Σ, n − 1), и по свойству C2 µ распределе¶ Σ ния Уишарта оценки Σ̂ и S также имеют это распределение: L{Σ̂} = WN ,n − 1 , n ¶ µ Σ , n − 1 , и при этом не требуется асимптотика n → +∞. Однако, L{Ŝ} = WN n−1 несмотря на то что для плотности распределения Уишарта получено аналитическое представление [4], удобнее использовать более простое асимптотическое (n → +∞) нормальное распределение для элементов Σ̂ и S, полученное в теореме 14.5. Построенные в данной главе выборочное среднее x = (xk )N k=1 , выборочная ковариakl ационная матрица Σ̂ = (σ̂kl )N : σ̂ = и ее несмещенный аналог S = (skl )N kl k,l=1 k,l=1 : n akl skl = легко вычисляются покомпонентно по выборке X = {xt }nt=1 объема n, где n−1 xt = (xt1 , . . . , xtN )T ∈ RN , t = 1, . . . , n: n xk = 1X xtk , n t=1 akl = n X (xtk − xk )(xtl − xl ), k, l = 1, . . . , N, (14.14) t=1 и широко используются в многомерном статистическом анализе (см. пример в конце п. 15.4). Не предполагая нормальности наблюдений из выборки, их также можно рассматривать как оценки для вектора математического ожидания и ковариационной матрицы по многомерному аналогу метода моментов (п. 11.6). Однако при этом они как статистические оценки теряют ряд своих свойств. Например, в этом случае затруднительно установить их распределение вероятностей. 14.4. УПРАЖНЕНИЯ 1. Доказать соотношения для центральных моментов третьего и четвертого порядков многомерного нормального распределения, приведенные в пунктах б) и в) (п. 14.1). 2. Привести алгоритм вычисления матрицы Σ1/2 для невырожденной ковариационной матрицы Σ (Σ Â 0): Σ = Σ1/2 (Σ1/2 )T . 3. Пусть случайный вектор x = (x̃1 , x̃2 )T имеет двухмерное нормальное распределение µ N2 (µ, Σ), µ = µ̃1 µ̃2 ¶ µ ,Σ= σ11 σ12 σ12 σ22 ¶ . 348 ГЛАВА 14. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ОЦЕНИВАНИЕ ПАРАМЕТРОВ Показать, что его плотность может быть вычислена по формуле p(x) = n2 (x|µ, Σ) = µ × exp − где ρ = √ 1 2(1 − ρ2 ) µ 2π 1 p × σ11 σ22 (1 − ρ2 ) (x̃1 − µ̃1 )2 (x̃1 − µ̃1 )(x̃2 − µ̃2 ) (x̃2 − µ̃2 )2 √ − 2ρ + σ11 σ11 σ22 σ22 ¶¶ , σ12 – коэффициент корреляции между x̃1 и x̃2 . σ11 σ22 2 4. Пусть {x̃i }N i=1 независимы и x̃i ∼ N1 (β + γzi , σ ), где zi – заданные числа (i=1, . . ., N ) N X и zi = 0. i=1 а) Найти совместное распределение x = (x̃1 , . . . , x̃N )T . N X x̃i б) Найти совместное распределение x̃ = i=1 N и g= N X x̃i zi i=1 N X . zj2 j=1 5. Пусть (xi , yi )T (i = 1, 2, 3) независимы и одинаково распределены: õ ¶ à !! µ ¶ σ21 σ12 xi µ ∼ N2 , . yi ν σ21 σ22 а) Найти совместное распределение всех этих шести случайных величин. 3 3 X xi X yi , . б) Найти совместное распределение 3 i=1 3 i=1 6. Пусть x = (x̃1 , x̃2 , x̃3 )T ∼ N3 (µ, Σ), 0 5 2 3 µ = 1 , Σ = 2 3 0 . 2 3 0 2 Найти ковариационную матрицу случайного вектора y = (ỹ1 , ỹ2 )T ∈ R2 , где ỹ1 = = x̃1 + x̃2 , ỹ2 = x̃1 + x̃2 + x̃3 . Г л а в а 15 ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ 15.1. ИССЛЕДОВАНИЕ ПАРНОЙ ЗАВИСИМОСТИ ПРИЗНАКОВ. ВЫБОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ. Z-СТАТИСТИКА ФИШЕРА И ПРОВЕРКА ГИПОТЕЗ О ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ Пусть в пространстве из N ⩾ 1 признаков наблюдается выборка X = {x1 , . . . , xn } объема n, образованная наблюдениями с вектором математического ожидания µ = E{xt } ∈ RN и ковариационной (N × N )-матрицей Σ = (σkl )N k,l=1 = cov{xt , xt } (t = 1, . . . , n). Элементы ковариационной матрицы σkl , k, l = 1, . . . , N , описывают парные зависимости признаков между собой. Однако на практике для исследования парной зависимости признаков чаще используется коэффициент корреляции, называемый еще парной корреляцией (k, l = 1, . . . , N ): ρkl = √ σkl , σkk σll (15.1) и его статистическая оценка по выборке X – выборочный коэффициент корреляции: rkl = √ akl , akk all (15.2) получаемый из (15.1) подстановкой вместо неизвестных элементов ковариационной матрицы Σ = (σkl )N k,l=1 соответствующих элементов выборочной ковариационной матрицы Σ̂ = (σ̂kl )N k,l=1 : σ̂kl = akl /n, или несмещенной выборочной ковариационной матрицы N S = (skl )k,l=1 : skl = akl /(n − 1), где статистики akl , k, l = 1, . . . , N , определены в (14.14). Коэффициент корреляции ρkl и его оценка rkl обладают рядом удобных для проведения исследований простых свойств (k, l = 1, . . . , N ). C1. −1 ⩽ ρkl ⩽ 1, −1 ⩽ rkl ⩽ 1. C2. ρkl и rkl инвариантны относительно масштабного преобразования признаков в выборке, т. е. не изменяют своих значений при умножении признаков в наблюдениях xt = (xt1 , . . . , xtN )T на соответствующие константы: xt := (b1 xt1 , . . . , bN xtn )T (t = 1, . . . , n). C3. Если k-й и l-й признаки независимы, то ρkl = 0 (обратное, вообще говоря, неверно). Если |ρkl | = 1, то k-й и l-й признаки xtk и xtl связаны линейной зависимостью: п. н. xtk = bkl xtl + dkl , где bkl и dkl – константы (верно и обратное). Предположим теперь, что наблюдения из выборки X = {x1 , . . . , xn } независимы в совокупности и имеют невырожденное многомерное нормальное распределение NN (µ, Σ) (|Σ| 6= 0). Исследуем дополнительные свойства выборочного коэффициента корреляции (15.2), который в этом случае является оценкой максимального правдоподобия для коэффициента корреляции (15.1) (поскольку (15.2) – функциональное преобразование выборочной ковариационной матрицы, являющейся оценкой максимального правдоподобия). Нам понадобится следующая лемма [4]. 350 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ Лемма 15.1. Пусть U1 , . . . , Um ∈ RM – асимптотически нормальная, сходящаяся по вероятности последовательность M -мерных случайных векторов (m → +∞): √ P Um → b, L{ m(Um − b)} → NM (0M , W ), где b ∈ RM – некоторый M -вектор; а W = W T  0 – положительно определенная симметричная (M × M )-матрица. Пусть функция φ = φ(u) : RM → R1 имеет в окрестности точки u = b первую и вторую производные, и φb = ∇u φ(u)|u=b 6= 0M , тогда предельным распределением при √ m → +∞ для m(φ(Um ) − φb ) будет N1 (0, φTb W φb ). Доказательство. Основано на разложении функции φ = φ(u) в точке u = b в ряд Тейлора с остаточным членом в форме Лагранжа: φ(u) = φ(b) + (∇u φ(u)|u=b )T (u − b) + + O(|u − b|2 ), и на вычислении соответствующих моментов. ¤ Теорема 15.1. В условиях теоремы 14.3 выборочный коэффициент корреляции rkl из (15.2) имеет асимптотически нормальное распределение: √ L{ n − 1(rkl − ρkl )} → N1 (0, (1 − ρ2kl )2 ), n → +∞ (15.3) при условии, что соответствующее истинное абсолютное значение коэффициента корреляции не равно единице: |ρkl | 6= 1 (k, l = 1, . . . , N ). Доказательство. Воспользуемся леммой 15.1 и определим последовательность векторов {Um = (Um1 , Um2 , Um3 )T ∈ R3 } (m = n − 1), где 1 a (m) kk m skk (m) σ kk σkk 1 skl (m) akl (m) Um = √ , =m √ σkk σll σ kk σll s (m) ll 1 all (m) σll m σll а akl = akl (m), k, l = 1, . . . , N , определены в (14.14). Из сильной состоятельности несмещенной выборочной ковариационной матрицы S = (skl )N k,l=1 : skl = skl (m) = akl (m)/m, доказанной в теореме 14.5, заключаем, что последовательность векторов {Um } также сходится почти наверное, а тем более, по вероятности, при m → +∞ (n → +∞) к вектору b = (1, ρkl , 1)T . Согласно той же теореме и доказательству к ней в силу асимптотической нормальности элементов матрицы S = (skl )N k,l=1 из соотношений (14.13) имеем: √ L{ m(Um − b)} → N3 (03 , W ), m → +∞, где 2 2ρkl 2ρ2kl W = 2ρkl 1 + ρ2kl 2ρkl . 2ρ2kl 2ρkl 2 Выразим выборочный коэффициент корреляции rkl = rkl (m) из (15.2) через вектор Um2 Um = (Um1 , Um2 , Um3 )T : rkl = rkl (m) = φ(Um ) = √ . Um1√ Um3 Вычислим производные от функции φ(u) = u2 / u1 u3 по u = (u1 , u2 , u3 )T в точке u = b = (1, ρkl , 1)T : 1 −3 1 −1 − u1 2 u2 u3 2 − ρkl 2 1 1 ¯ 2 ¯ −2 −2 = 1 φb = u1 u3 ¯ 6= 03 . u=b 1 1 − 12 −3 − ρkl − u1 u2 u3 2 2 2 15.1. ВЫБОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ 351 Согласно лемме 15.1 подставим полученные выражения для W и φb в предельное распределение N1 (0, φTb W φb ) и получим доказываемое. ¤ Следствие 15.1. Пусть Ψ = Ψ(v) : R1 → R1 – дважды дифференцируема в точке d v = ρkl и Ψ(v)|v=ρkl 6= 0, тогда в условиях теоремы 15.1 для выборочного коэффициdv ента корреляции rkl выполняется (n → +∞): à µ ! ¶2 ¯ √ d ¯ 2 2 L{ n − 1(Ψ(rkl ) − Ψ(ρkl ))} → N1 0, Ψ(v)¯ (1 − ρkl ) . (15.4) dv v=ρkl Доказательство следует из результата теоремы 15.1 и леммы 15.1. ¤ Замечание 15.1. В соотношениях (15.3) и (15.4) вместо n − 1 можно использовать n (поскольку n → +∞), однако считается, что n − 1 «точнее». Выберем преобразование Ψ = Ψ(v) : R1 → R1 так, чтобы дисперсия предельного нормального распределения в (15.4) была единичной: µ ¶2 ¯ d ¯ (1 − ρ2kl )2 = 1. Ψ(v)¯ dv v=ρkl Получим дифференциальное уравнение: µ ¶ ¯ d 1 1 1 1 1 ¯ Ψ(v)¯ = = = + , dv 1 − ρ2kl (1 − ρkl )(1 + ρkl ) 2 1 + ρkl 1 − ρkl v=ρkl 1 1+v ln . 2 1−v Определение 15.1. Пусть rkl – выборочный коэффициент корреляции (15.2), тогда статистика 1 1 + rkl Z = Z(rkl ) = Ψ(rkl ) = ln (15.5) 2 1 − rkl называется Z-Статистикой Фишера, а преобразование Ψ(·) – Z-преобразованием Фишера. √ Следствие 15.2. В условиях теоремы 15.1 случайная величина n − 1(Z(rkl )− −Z(ρkl )) имеет при n → +∞ стандартное нормальное распределение N1 (0, 1). Z-статистика Фишера (15.5) имеет большое прикладное значение – с ее помощью проверяются гипотезы о значении коэффициента корреляции: решая которое, найдем Ψ(v) = H0 : ρkl = ρokl ; H1 = H0 : ρkl 6= ρokl , где ρokl – предполагаемое значение коэффициента корреляции. Воспользуемся следствием 15.2 и получим при n → +∞ следующий критерий для проверки гипотез H0 , H1 : ½ √ H0 : |√n − 1(Z(rkl ) − Z(ρokl ))| ⩽ ∆; (15.6) H1 = H0 : | n − 1(Z(rkl ) − Z(ρokl ))| > ∆, где порог критерия ∆ определяется по наперед заданному малому значению уровня значимости α = P{H1 |H0 } = 1 − P{H0 |H0 } ∈ (0, 1) (вероятность принять гипотезу H √1 при условии, чтоo верна гипотеза H0 ) с учетом того, что при верной H0 статистика n − 1(Z(rkl ) − Z(ρkl )) критерия (15.6) имеет стандартное нормальное распределение: ³ α´ – (15.7) ∆ = Φ−1 1 − 2 квантиль уровня 1 − α/2 стандартного нормального закона N1 (0, 1). 352 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ Замечание 15.2. Построенный критерий (15.6), (15.7) позволяет также определить доверительный интервал (п. 11.11) уровня 1 − α для ρkl : ½ µ µ ¶ ¶¾ ∆ ∆ P th Z(rkl ) − √ < ρkl < th Z(rkl ) + √ = 1 − α, n−1 n−1 ev − e−v где Ψ−1 (v) = v = th(v) – преобразование, обратное к преобразованию Фишера e + e−v 1 1+v Ψ(v) = ln . 2 1−v Замечание 15.3. На практике чаще всего проверяются гипотезы: H0 : ρkl = 0; H1 = H0 : ρkl 6= 0. Если принимается H0 , то k-й и l-й признаки (k 6= l = 1, . . . , N ) считаются некоррелированными, а в силу предположения их совместной нормальности – и независимыми. Поэтому гипотезу H0 иногда называют гипотезой независимости. Проверяются гипотезы H0 , H1 при помощи критерия (15.6), (15.7) (ρokl = 0 и Z(ρokl ) = Z(0) = 0). В случае выборки «малого объема» (асимптотика n → +∞ не предполагается) для проверки гипотез H0 , H1 считается целесообразным использование другого критерия: √ |rkl | : ⩽ ∆; n − 2p H0 2 1 − rkl √ |rkl | n − 2p > ∆, H1 = H0 : 2 1 − rkl где относительно статистики критерия в п. 15.4 (теорема 15.5, соотношение (15.20)) будет установлено, что при истинной гипотезе H0 она является модулем случайной величины, имеющей t-распределение Стьюдента c n − 2 степенями свободы и порог критерия ∆ = Ft−1 (1 − α/2) – соответствующая квантиль уровня 1 − α/2 n−2 (α = P{H1 |H0 } ∈ (0, 1)). Однако данный критерий «более чувствителен» к отклонениям распределения вероятностей выборочных значений компонент от нормального закона, и при «достаточно большом» объеме выборки n лучше использовать критерий (15.6), (15.7), основанный на Z-статистике Фишера (15.5). 15.2. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ: УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ И ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ N Пусть случайный N -вектор-наблюдение x = (x̃j )N j=1 ∈ R имеет невырожденное нормальное распределение NN (µ, Σ) (|Σ| 6= 0). Иногда необходимо исследовать зависимость определенного подмножества из m (m < N ) его признаков между собой при фиксированных (выбранных) значениях остальных N − m признаков. Не ограничивая общности, будем предполагать, что исследуемые m признаков расположены в начале N -вектора-наблюдения x ∈ RN , что порождает следующее разбиение его на два подвектора: µ (1) ¶ x ; x= x(2) x(1) = (x̃1 , . . . , x̃m )T ∈ Rm , x(2) = (x̃m+1 , . . . , x̃N )T ∈ RN −m , 353 15.2. ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ N а соответствующего ему N -вектора математического ожидания µ ∈ R и ковариационной (N × N )-матрицы Σ – на соответствующие блоки: µ (1) ¶ µ ¶ Σ11 Σ12 µ µ= , Σ= , Σ21 = ΣT12 . (15.8) Σ21 Σ22 µ(2) Вычислим условное распределение вероятностей случайного m-вектора x(1) при фиксированном значении компонент (N − m)-вектора x(2) . Теорема 15.2. Пусть случайный N -вектор x ∈ RN , имеющий невырожденное нормальное распределение NN (µ, Σ) (|Σ| 6= 0), разбит на два подвектора: µ ¶ ¡ (1) ¢T .. ¡ (2) ¢T T x= x . x , где x(1) ∈ Rm , x(2) ∈ RN −m (m < N ), тогда условное распределение случайного вектора x(1) при фиксированном значении вектора x(2) – m-мерное нормальное со следующими значениями параметров: © ª L x(1) |x(2) = Nm (µ1|2 , Σ11|2 ); (15.9) ¡ (2) ¢ T µ1|2 = µ(1) + Σ12 Σ−1 − µ(2) , Σ11|2 = Σ11 − Σ12 Σ−1 22 x 22 Σ12 . Доказательство. Перейдем от исходного случайного N -вектора-наблюдения µ ¶ µ ¶ ¡ (1) ¢T .. ¡ (2) ¢T T ¡ (1) ¢T .. ¡ (2) ¢T T N x= x . x ∈ R к вспомогательному вектору y = y . y ∈ RN , используя невырожденное линейное функциональное преобразование y = y(x) : RN → → RN следующего вида: y (1) = x(1) + Bx(2) , y (2) = x(2) , где (m×(N −m))-матрица преобразования так, чтобы случайные векторы © B выбирается ª y (1) и y (2) были некоррелированными: cov y (1) , y (2) = 0m×(N −m) – нулевая (m×(N −m))матрица. Чтобы выбрать матрицу B, вычислим ковариацию между y (1) и y (2) , предварительно введя в рассмотрение центрированные случайные векторы ẋ(j) = x(j) − µ(j) (j = 1, 2): n¡ © ª © ª¢ ¡ (2) © ª¢T o cov y (1) , y (2) = E y (1) − E y (1) y − E y (2) = =E n¡ ẋ(1) + B ẋ(2) ¢ ¡ (2) ¢T o ẋ = Σ12 + BΣ22 . Приравнивая правую часть полученного соотношения к 0m×(N −m) , получаем B = −Σ12 Σ−1 22 , где в силу невырожденности исходной матрицы Σ ее диагональный блок Σ22 также невырожден. ¶ µ ¡ (1) ¢T .. ¡ (2) ¢T T как линейное преОтметим, что случайный вектор y = y(x) = y . y образование нормального случайного вектора x также имеет нормальное распределение, а его подвекторы y (1) и y (2) – маргинальные нормальные распределения: Nm (µ(1) − (2) (2) −Σ12 Σ−1 22 µ , Σ11|2 ) и NN −m (µ , Σ22 ) соответственно, где Σ11|2 определена в (15.9) и явля(2) ется ковариационной матрицей вектора y (1) = x(1) −Σ12 Σ−1 22 x . Из некоррелированности (1) (2) y и y в силу их совместного нормального распределения следует их независимость. Поэтому плотность распределения вероятностей вектора y равна произведению плотностей распределения векторов y (1) и y (2) : ¢ ¡ (2) (2) ¢ ¡ (2) p̃(y) = nm y (1) |µ(1) − Σ12 Σ−1 22 µ , Σ11|2 nN −m y |µ , Σ22 . 354 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ Запишем плотность распределения вектора x = x(y) как преобразования y в x: (2) x(1) = y (1) + Σ12 Σ−1 22 y , x(2) = y (2) . Отметим, что преобразования здесь имеют единичный якобиан, и из известного соотношения для плотности при невырожденном преобразовании [30] имеем p(x) = p̃(y)|y=y(x) = ¢ ¡ ¡ (2) (2) ¢ (2) (2) (1) = nm x(1) − Σ12 Σ−1 − Σ12 Σ−1 22 µ , Σ11|2 nN −m x |µ , Σ22 = 22 x |µ ¡ ¢ ¡ ¢ = nm x(1) |µ1|2 , Σ11|2 nN −m x(2) |µ(2) , Σ22 , где m-вектор µ1|2 определен в (15.9). µ С другой стороны, случайный вектор x = ¡ (1) ¢T .. ¡ (2) ¢T x . x ¶T имеет N -мерное рас- пределение вероятностей с плотностью p(x) = nN (x|µ, Σ), а его подвектор x(2) – маргинальное нормальное распределение с плотностью nN −m (x(2) |µ(2) , Σ22 ). По известной формуле произведения плотностей [30] имеем ¡ ¢ ¡ ¢ p(x) = nN −m x(2) |µ(2) , Σ22 p x(1) |x(2) . Приравнивая правые части последних двух соотношений, находим условную плотность: ¡ ¢ ¡ ¢ p x(1) |x(2) = nm x(1) |µ1|2 , Σ11|2 , что и завершает доказательство. ¤ Следствие 15.3. В условиях теоремы 15.2 ковариационная (m × m)-матрица Σ11|2 = cov{x(1) , x(1) |x(2) } из (15.9) может быть записана поэлементно: Σ11|2 = = (σkl|m+1,...,N )m k,l=1 , где σkl|m+1,...,N = cov{x̃k , x̃l |x(2) } = σkl − σT(k) Σ−1 22 σ(l) – (15.10) условная ковариация k-й и l-й компонент (k, l = 1, . . . , m) при фиксированных значениях остальных компонент x(2) = (x̃m+1 , . . . , x̃N )T , а σT(k) = cov{x̃k , x(2) } – k-я строка матрицы Σ12 (k = 1, . . . , m). Полученные соотношения (15.9) и (15.10) позволяют определить характеристику парной взаимосвязи на множестве выбранных компонент при фиксированных значениях остальных компонент, которая к тому же не зависит от фиксируемых значений компонент. Определение 15.2. Частным коэффициентом корреляции между k-й и l-й компонентами x̃k и x̃l (k, l = 1, . . . , m) при фиксированных значениях компонент x(2) = = (x̃m+1 , . . ., x̃N )T называется величина ρkl|m+1,...,N = √ σkl|m+1,...,N , σkk|m+1,...,N σll|m+1,...,N (15.11) где условная ковариация σkl|m+1,...,N из (15.10) называется частной ковариацией, а σkk|m+1,...,N – частной дисперсией. Отметим, что частные корреляция, ковариация и дисперсия обладают всеми свойствами своих обычных (безусловных) аналогов. 15.3. МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ 355 15.3. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ: ПРОГНОЗИРОВАНИЕ, ФУНКЦИЯ РЕГРЕССИИ И МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ N Пусть случайный N -вектор x = (x̃j )N разбит на два подвектора: x = j=1 ∈ R µ ¶T ¡ (1) ¢T .. (2) T = x .(x ) и необходимо оценить неизвестные значения компонент из x(1) ∈ ∈ Rm по наблюдаемым компонентам x(2) ∈ RN −m (m < N ). Эта задача имеет большое прикладное значение при прогнозировании и оценивании («заполнении») пропущенных значений компонент в выборке. Воспользуемся результатами предыдущего параграфа, предположив, что N -вектор x ∈ RN по-прежнему имеет невырожденное нормальное распределение NN (µ, ³ Σ). ´m для Теорема 15.3. В условиях теоремы 15.2 среди всех прогнозов x̂(1) = x̃ˆj j=1 ³ ´m ¡ ¢ © ª (1) x(1) по x(2) прогноз x̂∗ = x̃ˆ∗j = µ1|2 x(2) , где µ1|2 = µ1|2 (x(2) ) = E x(1) |x(2) – j=1 так называемая функция регрессии, определенная в (15.9), обладает оптимальными свойствами (j = 1, . . . , m): ½³ ´2 ¾ n o x̃ˆ∗j = arg min E x̃ˆj − x̃j = arg max corr x̃ˆj , x̃j , ˆj x̃ ˆj x̃ причем ½³ E x̃ˆ∗j − x̃j ´2 ¾ = σjj|m+1,...,N ; s corr{x̃ˆ∗j , x̃j } = −1 σT(j) Σ22 σ(j) σjj , (15.12) (15.13) © ª где Σ22 =cov x(2) , x(2) – ковариационная матрица x(2) ; σjj =D{x̃j } – дисперсия © (2) вектора ª j-й компоненты; (N −m)-вектор σ(j) = cov x , x̃j определен в (15.10).¡ ¢ Доказательство. Оптимальность функции регрессии µ1|2 = µ1|2 x(2) из (15.9) ¡ ¢ (1) как прогноза x̂∗ = µ1|2 x(2) для x(1) по x(2) следует из общей теории стохастического прогнозирования, изложенной в п. 19.5.1. Осталось доказать формулы ³ ´m (15.12) и (15.13). Воспользуемся (15.9) и запишем опти(1) мальный прогноз x̂∗ = x̃ˆ∗j покомпонентно (j = 1, . . . , m): j=1 ¡ (2) ¢ x̃ˆ∗j = µ̃j + σT(j) Σ−1 − µ(2) , (15.14) 22 x n o © © ªª ª © = E {x̃j } = µ̃j , и где µ̃j = E {x̃j }; µ(2) = E x(2) . Учтем, что E x̃ˆ∗j = E E x̃j |x(2) вычислим ковариацию: n o n³ ´ o © ¡ (2) ¢ ª cov x̃ˆ∗j , x̃j = E x̃ˆ∗j − µ̃j (x̃j − µ̃j ) = E σT(j) Σ−1 − µ(2) (x̃j − µ̃j ) = σT(j) Σ−1 22 x 22 σ(j) . n o Отметим, что D{x̃j } = σjj , а для D x̃ˆ∗j имеем ½³ n o ´2 ¾ n¡ ¡ (2) ¢¢2 o ∗ ∗ ˆ ˆ D x̃j = E x̃j − µ̃j = E σT(j) Σ−1 − µ(2) = 22 x © (2) (2) ª −1 Σ22 σ(j) = σT(j) Σ−1 = σT(j) Σ−1 22 σ(j) . 22 cov x , x 356 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ Полученные соотношения и позволяют вычислить корреляцию в (15.13), а также доказать (15.12): ½³ ´2 ¾ n o n o n o ∗ ˆ E x̃j − x̃j = D x̃ˆ∗j − x̃j = D x̃ˆ∗j − 2cov x̃ˆ∗j , x̃j + D {x̃j } = = σjj − σT(j) Σ−1 22 σ(j) = σjj|m+1,...,N , ¤ где учтено (15.10). Следствие 15.4. Результаты теоремы 15.3 остаются верны, если не предполаµ ¶ ¡ (1) ¢T .. ¡ (2) ¢T T гать нормальность случайного вектора x = x . x , считая лишь, что он имеет вторые моменты и его ковариационная матрица Σ невырождена, а класс допустимых прогнозов для x(1) по x(2) ограничить линейными по x(2) несмещенными прогнозами: ³ ´m , x̃ˆj = bTj x(2) + dj ; x̂(1) = x̃ˆj j=1 © ª E x̂(1) − x(1) = 0m . (15.15) Доказательство. Воспользуемся условием несмещенности прогноза и найдем константы {dj }m j=1 в (15.4): dj = µ̃j − bTj µ(2) , j = 1, . . . , m. Вычислим среднеквадратическую ошибку прогноза (j = 1, . . . , m): ½³ ´2 ¾ n¡ ¡ ¢ ¢2 o ˆ E x̃j − x̃j = E bTj x(2) − µ(2) − (x̃j − µ̃j ) = bTj Σ22 bj − 2bTj σ(j) + σjj . С учетом последнего соотношения задача определения оптимального в смысле минимума среднеквадратической ошибки прогноза сводится к задаче bTj Σ22 bj − 2bTj σ(j) + σjj → minm , bj ∈R необходимое условие минимума для которой ¡ ¢ ∇bj bTj Σ22 bj − 2bTj σ(j) + σjj = 2Σ22 bj − 2σ(j) = 0m позволяет найти оптимальное значение вектора bj : bj = Σ−1 22 σ(j) . Достаточное условие максимума также выполняется: матрица вторых производных 2Σ22 положительно определена. Подставляя найденные значения dj и bj в (15.4), в качестве прогноза получаем (15.14), что является покомпонентной записью функции регрессии из (15.9), а для достигнутой среднеквадратической ошибки прогноза имеем (15.12). Для корреляции доказательство проводится аналогично. ¤ Определение 15.3. Множественным коэффициентом корреляции между компонентой x̃j (j = 1, . . . , m) и компонентами из множества {x̃m+1 , . . . , x̃N } называется величина s σT(j) Σ−1 22 σ(j) Rj,m+1,...,N = . (15.16) σjj 15.4. ОЦЕНИВАНИЕ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ 357 Свойства множественного коэффициента корреляции C1. 0 ⩽ Rj,m+1,...,N ⩽ 1, j = 1, . . . , m. Доказательство. Следует из определения (15.16) и соотношения (15.10): © ª D x̃j |x(2) = σjj|m+1,...,N = σjj − σT(j) Σ−1 22 σ(j) ⩾ 0, j = 1, . . . , m. ¤ C2. Rj,m+1,...,N = 0 тогда и только тогда, когда j-я компонента x̃j (j = 1, . . . , m) некоррелирована с компонентами из множества {x̃m+1 , . . . , x̃N }. Доказательство. © ª Из (15.16) видно, что Rj,m+1,...,N = 0 тогда и только тогда, когда σ(j) = cov x(2) , x̃j = 0N −m (j = 1, . . . , m). ¤ C3. Rj,m+1,...,N = 1 тогда и только тогда, когда j-я компонента x̃j представима в виде п. н. x̃j = bTj x(2) + dj , где bj ∈ RN −m , dj ∈ R1 – детерминированы (j = 1, . . . , m). Доказательство. Из (15.16), (15.13)n и свойств обычного коэффициета корреo ∗ ˆ ляции следует, что Rj,m+1,...,N = corr x̃j , x̃j = 1 тогда и только тогда, когда п. н. x̃j = b̃Tj x̃ˆ∗j + d˜j , где b̃j ∈ RN −m , d˜j ∈ R1 – детерминированы (j = 1, . . . , m). Подставим вместо x̃ˆ∗j его выражение через x(2) из (15.14) и получим доказываемое. ¤ ³ ´ 2 C4. Справедливо соотношение σjj|m+1,...,N = 1 − Rj,m+1,...,N σjj , связывающее частную дисперсию σjj|m+1,...,N из (15.10) и множественный коэффициент корреляции Rj,m+1,...,N (j = 1, . . . , m); чаcтная дисперсия σjj|m+1,...,N никогда не превосходит соответствующей безусловной дисперсии σjj : σjj|m+1,...,N ⩽ σjj . Доказательство следует из соотношения (15.10) и свойства С1. ¤ C5. Если N = 2, m = 1, то множественный коэффициент корреляции (15.16) совпадает с точностью до знака с парным коэффициентом корреляции из (15.1): R1,2 = |ρ12 |. Замечание 15.4. В теории множественной регрессии множественный коэффициент корреляции служит мерой оптимальности прогноза: чем он ближе к единице, тем точнее прогноз. 15.4. ВЫБОРОЧНЫЕ ЧАСТНЫЙ И МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ. ПРОВЕРКА ГИПОТЕЗ НЕЗАВИСИМОСТИ N имеет невырожденное норПусть случайный N -вектор признаков x = (x̃j )N j=1 ∈ R мальное распределение NN (µ, Σ) с неизвестным математическим ожиданием µ и неизвестной ковариационной матрицей Σ (|Σ| 6= 0) и имеется выборка X = {x1 , . . . , xn }, содержащая n > N наблюдений над ним. Оценим по выборке X частный коэффициент корреляции (15.11) и множественный ¶ µ ¢T . ¡ ¢T T ¡ коэффициент корреляции (15.16). Согласно разбиению вектора x = x(1) .. x(2) на подвекторы x(1) ∈ Rm и x(2) ∈ RN −m (m < N ), наряду с разбиением (15.8) N -вектора математического ожидания µ ∈ RN и ковариационной (N × N )-матрицы Σ построим соответствующее разбиение их статистических оценок – арифметического среднего x = (xk )N k=1 из (14.3), (14.14) и выборочной ковариационной матрицы Σ̂ = A/n 358 (A = (akl )N k,l=1 ) ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ из (14.4), (14.14): µ (1) ¶ µ ¶ µ ¶ 1 A11 A12 x Σ̂11 Σ̂12 , Σ̂ = = x= , A21 = AT12 . x(2) n A21 A22 Σ̂21 Σ̂22 (15.17) Обозначим akl|m+1,...,N = akl − aT(k) A−1 22 a(l) как (k, l)-й элемент матрицы A11|2 = −1 T T = (akl|m+1,...,N )m = A − A A A ; a 11 12 22 12 k,l=1 (k) – k-я строка матрицы A12 (k = 1, . . . , m). Теорема 15.4. Пусть наблюдения x1 , . . . , xn ∈ RN из выборки X = {xt }nt=1 объема n > N независимы в совокупности и имеют невырожденное нормальное распределение NN (µ, Σ) (|Σ| 6= 0), тогда оценками максимального правдоподобия для частного коэффициента корреляции (15.11) и множественного коэффициента корреляции (15.16) являются статистики: akl|m+1, ... ,N rkl|m+1,...,N = √ , k, l = 1, . . . , m, – (15.18) akk|m+1,...,N all|m+1, ... ,N выборочный частный коэффициент корреляции, s aT(j) A−1 22 a(j) Rj,m+1,...,N = , j = 1, . . . , m, ajj – (15.19) выборочный множественный коэффициент корреляции. Доказательство очевидно и основано на подстановке в (15.11), (15.16) с учетом обозначений (15.17) вместо неизвестной ковариационной матрицы Σ ее МП-оценки Σ̂ = A/n по выборке X, полученной в теореме 14.3 главы 14, условия которой здесь выполняются. ¤ Замечание 15.5. При вычислении выборочных частного (15.18) и множественного (15.19) коэффициентов корреляции вместо матрицы A = (akl )N k,l=1 можно использоN вать выборочную ковариационную матрицу Σ̂ = (σ̂kl )k,l=1 с элементами σ̂kl = akl /n, k, l = 1, . . . , N , или несмещенную выборочную ковариационную матрицу S = (skl )N k,l=1 : skl = akl /(n − 1), k, l = 1, . . . , N . T Найдем распределения вероятностей случайных матриц A11|2 = A11 − A12 A−1 22 A12 −1 T и A12 A22 A12 , элементы которых служат для определения выборочных соответственно частного (15.18) и множественного (15.19) коэффициентов корреляции. Докажем сначала известную лемму [4]. Лемма 15.2 (Андерсона). Предположим, что случайные векторы Y1 , . . . , Yp ∈ Rq независимы в совокупности и имеют нормальные распределения: L{Yα } = Nq (Γwα , Ψ), α = 1, . . . , p, где Γ – (q × r)-матрица, а {wα ∈ Rr }pα=1 – r-векторы такие, что (r × r)p X матрица H = wα wαT невырождена (|H| 6= 0). α=1 p Пусть G = X Yα wαT H −1 , тогда случайная матрица α=1 p−r на как матрица X p X Yα YαT − GHGT распределе- α=1 Uα UαT , где случайные q-векторы {Uα }p−r α=1 независимы в совокупно- α=1 сти, одинаково распределены по закону Nq (0q , Ψ) и не зависят от случайной матрицы p X GHGT . При Γ = 0q×r матрица GHGT распределена как Uα UαT , где все случайα=p−r+1 ные векторы {Uα }pα=1 независимы в совокупности и одинаково распределены по закону Nq (0q , Ψ). 359 15.4. ОЦЕНИВАНИЕ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ p Доказательство. По построению (r × r)-матрица H = X wα wαT симметрична: α=1 H T = H, и по условию – невырождена: |H| 6= 0, поэтому она положительно определена: H  0, и из матричной алгебры [34, 11] следует, что существует такая невырожденная квадратная (r × r)-матрица F (|F | = 6 0), что F HF T = Ir . .. .. Обозначим: W = (w1 . · · · .wp ) – (r×p)-матрица, столбцы которой – r-векторы {wα }pα=1 . p X T T T Положим E2 = F W , тогда E2 E2 = F W W F = F wα wαT F T = F HF T = Ir , строки α=1 (r × p)-матрицы E2 ортонормированы и их можно дополнить до ортонормированного базиса в Rp ((p − r) × p)-матрицей E1 (E1 E1T = Ip−r ): µ ¶ E1 E= , EE T = E T E = Ip . E2 Воспользуемся построенной выше ортогональной матрицей E = (eαβ )pα,β=1 и по аналогии с доказательством теоремы 14.4 осуществим ортогональное преобразование случайных векторов Y1 , . . . , Yp ∈ Rq в систему случайных векторов: Uα = p X eαβ Yβ , α = 1, . . . , p, β=1 которые некоррелированы: cov{Uα , Uγ } = E{(Uα − E{Uα })(Uγ − E{Uγ })T } = ( p ) p X X T =E eαi (Yi − E{Yi }) eγj (Yj − E{Yj }) = δij Ψ, i=1 j=1 и поэтому как линейные преобразования нормальных случайных векторов независимы. . . . . Построим матрицу U = (U1 .. · · · ..Up ), тогда U = Y E T , где Y = (Y1 .. · · · ..Yp ). Воспользуемся тем, что W = F −1 E2 , и найдем математическое ожидание для U : . . E{U } = E{Y E T } = ΓW E T = ΓF −1 E2 (E1T ..E2T ) = (0q×(p−r) ..ΓF −1 ). Из последних двух соотношений заключаем, что все случайные векторы {Uα }pα=1 имеют одинаковые ковариационные матрицы Ψ, а первые p−r из них {Uα }p−r α=1 – нулевые математические ожидания. Воспользовавшись соотношениями Y = U E и (F −1 )T H −1 F −1 = Ir , получим p X Yα YαT = Y Y T = U E(U E)T = U EE T U T = U Ip U T = U U T = α=1 p X Uα UαT α=1 и GHGT = (Y W T H −1 )H(Y W T H −1 )T = Y W T H −1 W Y T = = U E(F −1 E2 )T H −1 (F −1 E2 )(U E)T = U EE2T (F −1 )T H −1 F −1 E2 E T U T = µ ¶ p X . 0(p−r)×q = U EE2T E2 E T U T = U (0q×(p−r) ..Ir )U T = Uα UαT , Ir α=p−r+1 360 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ откуда следует независимость от GHGT матрицы p X Yα YαT − GHGT = α=1 p−r X Uα UαT , α=1 а также тот факт, что при Γ = 0q×r (влечет за собой E{U } = 0q×p ) случайная матрица p X GHGT распределена как Uα UαT , где все {Uα }pα=1 независимы в совокупности и α=p−r+1 одинаково распределены по закону Nq (0q , Ψ). ¤ Теорема 15.5. В условиях теоремы 15.4 справедливы следующие утверждения. T 1. Случайная матрица A11|2 = A11 − A12 A−1 22 A12 распределена как матрица n−(N −m)−1 X T Uα UαT и не зависит от матрицы A12 A−1 22 A12 , а при Σ12 = 0m×(N −m) матα=1 n−1 X T рица A12 A−1 22 A12 распределена как Uα UαT , где случайные m-векторы {Uα }n−1 α=1 α=n−(N −m) независимы в совокупности и одинаково распределены по закону Nm (0m , Σ11|2 ), Σ11|2 = T = Σ11 − Σ12 Σ−1 22 Σ12 . Другими словами, случайная матрица A11|2 имеет распределение Уишарта T Wm (Σ11|2 , n−(N −m)−1) и не зависит от матрицы A12 A−1 22 A12 , которая при Σ12 = −1 T = 0m×(N −m) также имеет распределение Уишарта: L{A12 A22 A12 |Σ12 =0m×(N −m) } = = Wm (Σ11|2 , N − m). 2. Выборочный частный коэффициент корреляции rkl|m+1,...,N (k, l = 1, . . . , m), вычисленный по выборке объема n, распределен так же, как соoтветствующий ему обычный выборочный коэффициент корреляции rkl , подсчитанный по выборке объема n − (N − m) с истинным значением коэффициента корреляции ρkl := ρkl|m+1,...,N , k, l = 1, . . . , m. 3. Для выборочного коэффициента корреляции rkl (k, l = 1, . . . , N ), определенного по выборке объема n, при нулевом истинном значении ρkl = 0, статистика √ |rkl | 2 1 − rkl n − 2p (15.20) распределена как модуль случайной величины, имеющей t-распределение Стьюдента с n − 2 степенями свободы. 2 n − (N − m) − 1 Rj,m+1,...,N 4. Cтатистика при нулевом истинном значении со2 N −m 1 − Rj,m+1,...,N ответствующего множественного коэффициента корреляции (Rj,m+1,...,N = 0) имеет F -распределение Фишера с N −m и n − (N − m) − 1 степенями свободы (j = 1, . . . , m): ( L ¯ 2 n − (N − m) − 1 Rj,m+1,...,N ¯ ¯Rj,m+1,...,N = 0 2 N −m 1 − Rj,m+1,...,N ) = FN −m,n−(N −m)−1 . (15.21) Доказательство основано на использовании леммы 15.2 и полученном при докаn−1 X зательстве теоремы 14.4 из главы 14 представлении для матрицы A: A = zt ztT , где t=1 случайные N -векторы {zt }n−1 t=1 независимы в совокупности и одинаково распределены по закону NN (0N , Σ). Докажем по очереди все утверждения теоремы. 361 15.4. ОЦЕНИВАНИЕ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ 1. В соответствии с (15.17) разобьем вектор zt на два подвектора: à ! n−1 (1) ³ ´T X zt (i) (j) тогда Aij = zt zt , i, j = 1, 2. zt = (2) , t = 1, . . . , n − 1, zt t=1 n on−1 (2) Из теоремы 15.2 заключаем, что при фиксированных zt случайные векторы t=1 n on−1 (1) zt независимы в совокупности и имеют условные нормальные распределения n ³t=1 ´on−1 (2) Nm Σ12 Σ−1 z , Σ . 11|2 22 t t=1 (1) (2) Чтобы применить лемму, в ней полагаем: p := n − 1, Yα := zα ; r := N − m, wα := zα , −1 Γ := Σ12 Σ−1 22 , Ψ := Σ11|2 , тогда H = A22 , G = A12 A22 , и далее непосредственно испольn on−1 (2) зуем результаты леммы, получая условные распределения, не зависящие от zt и t=1 совпадающие с соответствующими безусловными распределениями. 2. Сравним формулу (15.2) для вычисления выборочного коэффициента корреляции по выборке объема n (k, l = 1, . . . , N ): akl rkl = √ , akk all с формулой (15.18) для выборочного частного коэффициента корреляции rkl|m+1,...,N (k, l = 1, . . . , m). Отметим, что обе эти формулы различаются лишь тем, что испольm зуют элементы матриц A = (akl )N k,l=1 и A11|2 = (akl|m+1,...,N )k,l=1 . Но согласно теореме 14.4 и доказанному выше матрицы A11 и A11|2 имеют соответственно распределения Уишарта Wm (Σ11 , n − 1) и Wm (Σ11|2 , n − (N − m) − 1), что и доказывает утверждение. 3. С учетом формулы (15.2) преобразуем статистику из (15.20): √ √ |akl |/ all |akl | |rkl | r r = n − 2p = , 2 1 1 1 − rkl −1 2 (akk all − akl ) (akk − akl all akl ) n−2 n−2 где akl = n−1 X t=1 ztk ztl – (k, l)-й элемент матрицы A = (akl )N k,l=1 = n−1 X zt ztT , zt = (zt1 , . . . , ztN )T . t=1 n−1 Зафиксируем {ztl }n−1 t=1 , тогда случайные величины {ztk }t=1 независимы в совокупности и по теореме 15.2 имеют условные нормальные распределения {N1 (σkl σ−1 ll ztl , σkk − n−1 −σkl σ−1 σ )} . Применим лемму, положив: p := n − 1, Y := z ; r := 1, wα := zαl , kl α αk t=1 ll −1 −1 Γ := σkl σ−1 , Ψ := σ − σ σ σ , тогда H = a , G = a a . По аналогии с доказательkk kl kl ll kl ll ll ll ством первого утверждения с учетом того, что по условию ρkl = 0 и σkl = 0, устанавли√ 2 n−1 ваем, что случайные величины (akl / all ) и akk − akl a−1 ll akl при фиксированных {ztl }t=1 n−2 X независимы и распределены соответственно как случайные величины (Un−1 )2 и Uα2 , α=1 где {Uα }n−1 α=1 независимы в совокупности и одинаково распределены по закону N1 (0, σkk ). Разделим числитель и знаменатель в правой части полученного выше соотношения √ для статистики из (15.20) на σkk , в результате получим, что статистика из (15.20) распределена как ¯ ¯ ∗ Un−1 Uα ¯ ¯ , α = 1, . . . , n − 1, ¯v ¯, Uα∗ = √ u σkk n−2 u 1 X t (U ∗ )2 n − 2 α=1 α 362 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ где случайная величина под модулем имеет условное t-распределение Стьюдента с n − 2 степенями свободы, которое не зависит от {ztl }n−1 t=1 и совпадает с ее безусловным распределением. 4. Воспользуемся формулой (15.19) для вычисления выборочного множественного коэффициента корреляции и обозначениями из (15.17) и получим для статистики из (15.21) следующее представление (j = 1, . . . , m): 2 n − (N − m) − 1 Rj,m+1,...,N = 2 N −m 1 − Rj,m+1,...,N 1 aT A−1 a(j) N − m (j) 22 . 1 ajj|m+1,...,N n − (N − m) − 1 Но по условию теоремы Rj,m+1,...,N = 0, и σ(j) =0N −m . Далее по доказанному выше первому утверждению (положив в нем N := N − m + 1, m := 1) при фиксированных (2) −1 T {zt }n−1 t=1 получаем, что ajj|m+1,...,N и a(j) A22 a(j) независимы и распределены соот−1 T n − (N − m) − 1 a(j) A22 a(j) = = N −m ajj − aT(j) A−1 22 a(j) n−(N −m)−1 ветственно как X α=1 Uα2 и n−1 X n−1 Uα2 , где {Uα }α=1 независимые в совокуп- α=n−(N −m) ности и одинаково распределенные случайные величины с законом распределения N1 (0, σjj|m+1,...,N ). Разделив числитель и знаменатель последнего соотношения на n on−1 (2) σjj|m+1,...,N , получим при условии фиксированных zt распределение из (15.21), t=1 n on−1 (2) которое не зависит от zt и поэтому является также и безусловным распределеt=1 нием. ¤ Второе утверждение теоремы позволяет использовать для проверки гипотез о значении частного коэффициента корреляции (k, l = 1, . . . , m): ρkl|m+1,...,N = ρokl|m+1,...,N , все критерии из п. 15.1, заменив в них n на n − (N − m). Гипотеза независимости в данном случае: ρokl|m+1,...,N = 0, называется гипотезой условной независимости. Воспользуемся выборочным множественным коэффициентом корреляции (15.19) для проверки гипотез о некоррелированности j-го признака с группой из N − m выбранных признаков (j = 1, . . . , m): H0 : Rj,m+1,...,N = 0; H1 = H0 : Rj,m+1,...,N 6= 0. Гипотеза H0 в предположении нормальности также называется гипотезой независимости. 2 Учтем, что статистика в (15.21) монотонно убывает с уменьшением Rj,m+1,...,N (приближением его значения к нулю), и построим следующий критерий для проверки гипотез H0 , H1 : 2 n − (N − m) − 1 Rj,m+1,...,N ⩽ ∆; : H0 2 N −m 1 − Rj,m+1,...,N (15.22) 2 n − (N − m) − 1 Rj,m+1,...,N H = H : > ∆, 1 0 2 N −m 1 − Rj,m+1,...,N где порог критерия ∆ определяется с учетом (15.21) по наперед заданному малому значению уровня значимости α = P{H1 |H0 } ∈ (0, 1): ∆ = FN−1−m,n−(N −m)−1 (1 − α) – (15.23) 15.4. ОЦЕНИВАНИЕ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ 363 квантиль уровня 1−α от F -распределения с N −m и n−(N −m)−1 степенями свободы. Замечание 15.6. Критерий (15.22), (15.23) в множественном регрессионном анализе называется проверкой регрессии на значимость. Если гипотеза H0 отвергается, то регрессия j-го признака (j = 1, . . . , m) на выбранные N −m признаков считается значимой и возможно прогнозирование значения x̃j этого признака по x(2) ∈ RN −m при помощи подстановочной статистической оценки функции регрессии (15.9), (15.14): ¡ (2) ¢ x̃ˆj = xj + aT(j) A−1 − x(2) . (15.24) 22 x В качестве примера статистического анализа зависимостей рассмотрим ставшие уже классическими известные данные Хукера [4] по урожайности сена в центнерах на акр (первый признак, x̃1 ), весенним осадкам в дюймах (второй признак, x̃2 ) и по количеству весенних дней с температурой воздуха выше 42 град. по Фаренгейту (третий признак, x̃3 , характеризующий температуру воздуха весной) в Англии за 20 лет (n = 20). По этим данным получены следующие значения выборочных среднего и ковариационной матрицы (N = 3): 28,02 19,54 3,89 −150,28 1 1,21 −52,36 . x = 4,91 , Σ̂ = A = 3,89 n 594 −150,28 −52,36 7225,00 Для выборочной корреляционной матрицы имеем 1 r12 r13 1,00 0,80 −0,40 r21 1 r23 = 0,80 1,00 −0,56. r31 r32 1 −0,40 −0,56 1,00 Из полученных выборочных коэффициентов корреляции следует, что урожайность и количество осадков положительно коррелированы и находятся в прямой зависимости. Однако урожайность и температура воздуха, а также количество осадков и температура воздуха отрицательно коррелированы. Чтобы прояснить причины этого, вычислим выборочный частный коэффициент корреляции между урожайностью и температурой воздуха при фиксированном количестве осадков: r13|2 = 0, 097. Таким образом, если действие осадков не учитывать, то урожайность и температура воздуха положительно коррелированы и находятся в прямой зависимости, хотя значение частной корреляции очень мало. Проверим с уровнем значимости α = 0, 05 гипотезу об условной некоррелированности (независимости) урожайности и температуры воздуха при фиксированном количестве осадков: ρ13|2 = 0. Используем критерий, основанный на Z-статистике Фишера: p 20 − (3 − 2) − 1Z(0,097) = 0,040 < Φ−1 (1 − 0,05/2) = 1,96, и гипотеза о некоррелированности не отвергается. Следовательно, на урожайность при фиксированном количестве осадков температура воздуха практически не оказывает влияния, тогда как на урожайность влияние количества осадков существенно, а отрицательная безусловная корреляция между урожайностью и температурой воздуха объясняется, скорее всего, тем, что большее количество осадков наблюдается при низкой температуре. Оценим теперь регрессионную зависимость урожайности от количества осадков и температуры воздуха. Вычислим выборочный множественный коэффициент корреляции между ними: R1,2,3 = 0,802. Ясно, что корреляция значима, но для строгости проверим гипотезу независимости с уровнем значимости, например, α = 0,01. 364 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ Из (15.22), (15.23) будем иметь 2 20 − (3 − 1) − 1 R1,2,3 −1 = 15,3 > F3−1,20−(3−1)−1 (1 − 0,01) = 6,11, 2 3−1 1 − R1,2,3 и гипотеза независимости отвергается. Из (15.24) получаем соотношение x̃ˆ1 = 28,02 + 3,37(x̃2 − 4,91) + 0,00364(x̃3 − 594), позволяющее прогнозировать урожайность x̃1 по количеству осадков x̃2 и числу весенних дней x̃3 с температурой выше 42 град. (по Фаренгейту). 15.5. ПРОВЕРКА ОБЩИХ ГИПОТЕЗ О НЕЗАВИСИМОСТИ Пусть случайный N -вектор x ∈ RN , имеющий невырожденное нормальное распреn o (k) K деление NN (µ, Σ) (|Σ| = 0), разбит на 2 ⩽ K ⩽ N подвекторов-блоков x(k) ∈ RN k=1 (N (1) + . . . + N (K) = N ). Соответствующим образом разобьем также N -вектор математического ожидания µ ∈ RN и ковариационную (N × N )-матрицу Σ: x(1) µ(1) Σ11 Σ12 . . . Σ1K x(2) µ(2) .. .. . x = .. ; µ = .. , Σ = ... . . . . Σ Σ . . . Σ K1 K2 KK x(K) µ(K) По случайной выборке X = {x1 , . . . , xn } объема n > N , образованной независимыми в совокупности наблюдениями над случайным вектором x ∈ RN , необходимо проверить © ªK гипотезу о том, что подвекторы (группы признаков) x(k) k=1 независимы в совокупно© ªK сти между собой. В силу того что подвекторы x(k) k=1 имеют совместное нормальное распределение, их независимость: nN (x|µ, Σ) = K Y ¡ ¢ nN (k) x(k) |µ(k) , Σkk k=1 по следствию 14.3 эквивалентна их некоррелированности: © ª cov x(i) , x(j) = Σij = 0N (i) ×N (j) , i 6= j (i, j = 1, . . . , K), и гипотеза независимости сводится к гипотезе H0 : Σij = δij Σii , i, j = 1, . . . , K, (15.25) при альтернативе общего вида: H1 = H0 . Воспользуемся для проверки гипотез H0 , H1 , являющихся сложными гипотезами, критерием отношения правдоподобия (п. 12.5). Определим обобщенную статистику отношения правдоподобия: max LN (µ, Σ) (µ,Σ)∈Θ0 λ= ∈ [0, 1], (15.26) max LN (µ, Σ) (µ,Σ)∈Θ где à ! n 1X T −1 LN (µ, Σ)= nN (xt |µ, Σ)= (xt −µ) Σ (xt −µ) − 1 1 exp − 2 t=1 (2π) 2 nN |Σ| 2 n t=1 n Y 1 функция правдоподобия, вычисленная по выборке X объема n; (15.27) 365 15.5. ПРОВЕРКА ОБЩИХ ГИПОТЕЗ О НЕЗАВИСИМОСТИ Θ = {(µ, Σ) : µ ∈ RN , Σ = ΣT  0} – множество всех допустимых значений параметров, a © ª Θ0 = (µ, Σ) : µ ∈ RN , Σ = diag{Σ11 , . . . , ΣKK }, Σii = ΣTii  0, i = 1, . . . , K – множество значений параметров, соответствующее гипотезе H0 . Критерий отношения правдоподобия, основанный на статистике (15.26), имеет вид ½ H0 : λ ⩾ λo (α); (15.28) H1 = H0 : λ < λo (α), где порог критерия λo = λo (α) определяется по наперед заданному малому значению уровня значимости α = P{H1 |H0 } ∈ (0, 1). Разобьем вычисленные по выборке X объема n > N выборочное среднее (14.3): n x= 1X xt , n t=1 выборочную ковариационную матрицу (14.4): 1 Σ̂ = A, n n X A= (xt − x)(xt − x)T = (akl )N k,l=1 , t=1 а также выборочную корреляционную матрицу: akl R = (rkl )N rkl = √ , k, l = 1, . . . , N, k,l=1 , akk all на соответствующие блоки: x(1) Σ̂11 Σ̂12 . . . Σ̂1K x(2) .. .. ; Σ = 1 A , i, j = 1, . . . , K, x = .. , Σ̂ = ... ij ij . . n . Σ̂K1 Σ̂K2 . . . Σ̂KK (K) x A11 A12 . . . A1K R11 R12 . . . R1K .. .. ; R = .. .. .. . A = ... . . . . . AK1 AK2 . . . AKK RK1 RK2 . . . RKK Теорема 15.6. Пусть выборка X = {xt }nt=1 объема n > N образована независимыми в совокупности, одинаково распределенными нормальными случайными N -векторами с невырожденным распределением NN (µ, Σ) (|Σ| 6= 0), тогда критерий отношения правдоподобия для проверки гипотезы независимости H0 из (15.25) против альтернативы H1 = H0 может быть записан в виде ½ H0 : V ⩾ Vo (α); (15.29) H1 = H0 : V < Vo (α), где статистика критерия является V -статистикой [4]: V = |Σ̂| K Q k=1 |Σ̂kk | = |A| K Q k=1 |Akk | = |R| K Q k=1 |Rkk | ∈ [0, 1], (15.30) 366 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ а порог Vo = Vo (α) при n → +∞ определяется по уровню значимости α = P{H1 |H0 } ∈ ∈ (0, 1) из асимптотического соотношения: à ! Fχ−1 K 2 (1 − α) X ¡ (k) ¢2 1 f 2 , f = Vo (α) = exp − N − N , g 2 k=1 g = g(n) = n − 3 1 − 2 3 N3 − N2 − K ¡ P k=1 K P N (k) ¢3 , (15.31) 2 (N (k) ) k=1 2 Fχ−1 2 (·) – квантиль χ -распределения с f степенями свободы. f Доказательство. Воспользуемся теоремой 14.3, согласно доказательству которой выборочные среднее x и ковариационная матрица Σ̂ являются оценками максимального правдоподобия и максимизируют функцию правдоподобия LN (µ, Σ) (логарифмическую функцию правдоподобия l(µ, Σ) = ln LN (µ, Σ) – в доказательстве теоремы 14.3) по (µ, Σ) ∈ Θ: ³ ´ 1 −1 2 nN . max LN (µ, Σ) = LN x, Σ̂ = 1 nN 1n e (µ,Σ)∈Θ 2 2 (2π) |Σ̂| При истинной гипотезе H0 получим max LN (µ, Σ) = (µ,Σ)∈Θ0 = K Y K Y k=1 µ ¡ ¢ max LN (k) µ(k) , Σkk = (k) ,Σ kk K ³ ´ Y LN (k) x(k) , Σ̂kk = 1 1 µK Q 1 nN ¶ 12 n e 1 1 1 nN (k) |Σ̂kk | 2 n k=1 (2π) 2 k=1 = (2π) 2 −1 2 nN |Σ̂kk | e− 2 nN (k) = , k=1 где учтено, что x(k) и Σ̂kk являются оценками максимального правдоподобия для математического ожидания µ(k) и ковариационной матрицы Σkk маргинального нормального распределения NN (k) (µ(k) , Σkk ) и максимизируют соответствующую функцию правдоподобия LN (k) (µ(k) , Σkk ) (k = 1, . . . , K). Из последних двух соотношений для статистики отношения правдоподобия имеем n 2 max LN (µ, Σ) |Σ̂| (µ,Σ)∈Θ0 n λ= = K =V2 max LN (µ, Σ) Q (µ,Σ)∈Θ |Σ̂kk | – k=1 монотонно возрастающая функция от V -статистики V = |Σ̂| K Q k=1 , что приводит к эк- |Σ̂kk | вивалентной записи критерия отношения правдоподобия (15.28), (15.26) в виде (15.29), (15.30). 367 15.5. ПРОВЕРКА ОБЩИХ ГИПОТЕЗ О НЕЗАВИСИМОСТИ Покажем, что для V также справедливы представления V = |A| K Q |Akk | k=1 = |R| K Q . |Rkk | k=1 Первое из них очевидно и следует из того, что Σ̂ = A/n. Докажем второе представление. Воспользуемся соотношением, связывающим корреляционную матрицу R с матрицей A = (akl )N k,l=1 : ½ ¾ 1 1 R = CAC, C = diag √ , . . . , √ , a11 aN N и разобьем диагональную матрицу C на соответствующие блоки: C = diag{C11 , . . . , CKK }, |C| = K Y |Ckk |, k=1 тогда |R| K Q k=1 = |Rkk | |CAC| K Q k=1 |Ckk Akk Ckk | = |C|2 |A| K Q = |Ckk |2 |Akk | k=1 |A| K Q = V. |Akk | k=1 Осталось определить порог критерия Vo = Vo (α). В [4] установлено, что при n → +∞ в условиях гипотезы H0 для распределения вероятностей V -статистики справедливо асимптотическое разложение (g = g(n) → +∞): PH0 {−g ln(V ) ⩽ z} = Fχ2f (z) + O(g −2 ), z ∈ R, из которого по заданному уровню значимости α = P{H1 |H0 } ∈ (0, 1) и определяется ¤ порог (15.31). Следствие 15.5. В условиях теоремы 15.6 критерий отношения правдоподобия для проверки гипотезы о независимости всех N компонент между собой (K = N ; N (k) = 1, k = 1, . . . , N ) против общей альтернативы имеет вид ½ H0 : |R| ⩾ Vo (α); H1 = H0 : |R| < Vo (α), где |R| – определитель выборочной корреляционной матрицы, а для порога критерия Vo = Vo (α), α = P{H1 |H0 } ∈ (0, 1), при n → +∞ справедливо соотношение µ ¶−1 3 N +1 Fχ−1 Vo (α) = exp − n − − (1 − α). 2 2 3 N (N −1) 2 В качестве иллюстрации вернемся к примеру Хукера из предыдущего параграфа. По выборке объема n = 20 с уровнем значимости α = 0,01 проверим гипотезу о независимости урожайности x(1) ∈ R1 от количества осадков и температуры воздуха x(2) ∈ R2 (N = 3, K = 2, N (1) = 1, N (2) = 2). В данном случае, конечно, лучше использовать для проверки гипотезы независимости критерий, основанный на выборочном множественном коэффициенте корреляции, поскольку он не требует асимптотики n → +∞. Однако в случае, когда гипотеза независимости проверяется между более чем двумя группами признаков либо когда все группы содержат более одного признака, применение этого критерия невозможно и приходится использовать асимптотический критерий, 368 ГЛАВА 15. ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ описанный выше. Для него получаем ¯ ¯ ¯ ¯ ¯ 1 r12 r13 ¯ ¯ 1,00 0,80 −0,40¯ ¯ ¯ ¯ ¯ ¯r21 1 r23 ¯ ¯ 0,80 1,00 −0,56¯ ¯ ¯ ¯ ¯ ¯r31 r32 1 ¯ ¯−0,40 −0,56 1,00 ¯ |R| ¯ ¯ ¯ ¯ = 0,357, V = = ¯ 1 r23 ¯ = ¯ 1 |r11 ||R22 | −0,56¯¯ ¯ ¯ |1| ¯¯ ¯−0,56 r32 1 ¯ 1 ¯ что не превосходит значения порога Fχ−1 Fχ−1 2 (1 − 0,01) 2 (0,99) f = exp − 2 = 0,582, Vo (0,01) = exp − g 17 где f= ´ 1³ 2 3 − (12 + 22 ) = 2, 2 g = 20 − 3 1 33 − (13 + 23 ) − = 17, 2 3 32 − (12 + 22 ) и гипотеза независимости, как и критерием на основе выборочного множественного коэффициента корреляции, отвергается. 15.6. УПРАЖНЕНИЯ 1. Предложить альтернативный вариант доказательства п. 3 теоремы 15.5, воспользовавшись геометрическим подходом для определения распределения вероятностей выборочного коэффициента корреляции из [4] (§ 4.2 в [4]). 2. Доказать следствие 15.5, воспользовавшись результатом теоремы 15.6. 3. Пусть случайные величины x1 , x2 , . . . , xN имеют одно и то же математическое ожидание µ, общую дисперсию σ2 и коэффициент корреляции любой пары величин N X равен ρ. Показать, что −1/(N − 1) ≤ ρ ≤ 1 (для этого найти D{x̄}, x̄ = xi /N ). 4. Доказать, что ρ212 + ρ213 + ρ223 ≤ 1 + 2ρ12 ρ13 ρ23 . i=1 5. В условиях упражнения 6 к гл. 14 найти условное распределение x̃1 и x̃3 при x̃2 . 6. Пусть L{x} = N4 (µ, Σ), 0 15 3 1 0 1 3 16 6 −2 µ= 2 , Σ = 1 6 4 1 ; 3 0 −2 1 3 определены подвекторы: x(1) = (x̃1 , x̃2 )T , x(2) = (x̃3 , x̃4 )T . Найти функцию регрессии x(1) на x(2) и матрицу частных ковариаций Σ11|2 . 7. Определить R̄1,2,3 в упражнении 6 из гл. 14. 2 2 2 ≤ . . . ≤ R̄1,2,...,N . ≤ R̄1,2,3 8. Доказать, что R̄1,2 Г л а в а 16 ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ 16.1. ПРОВЕРКА ГИПОТЕЗ О ЗНАЧЕНИИ ВЕКТОРА МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ. T 2 -СТАТИСТИКА ХОТЕЛЛИНГА Пусть в пространстве RN наблюдается случайная выборка X = {x1 , . . . , xn } объема n из невырожденного N -мерного нормального распределения NN (µ, Σ) (|Σ| 6= 0). Истинные значения N -вектора математического ожидания µ ∈ RN и ковариационной (N × N )-матрицы Σ неизвестны. Необходимо проверить гипотезы о значении вектора математического ожидания: H0 : µ = µo ; (16.1) H1 = H0 : µ 6= µo , где µo ∈ RN – предполагаемое (гипотетическое) значение математического ожидания. Определение 16.1. Пусть n x= 1X xt , n t=1 S= n X 1 (xt − x)(xt − x)T , A, A = n−1 t=1 – выборочное среднее и несмещенная выборочная ковариационная матрица, построенные по выборке X = {x1 , . . . , xn } объема n > N , образованной N -мерными наблюдениями (xt ∈ RN , t = 1, . . . , n). T 2 -статистикой Хотеллинга называется следующая статистика: T 2 = T 2 (µ) = n(x − µ)T S −1 (x − µ) ⩾ 0, (16.2) где µ ∈ RN – фиксированный N -вектор. Очевидно, что T 2 (µ) = 0 тогда и только тогда, когда x = µ. Более того, нетрудно заметить, что при µ = µo с точностью до множителя n статистика T 2 (µo ) = T 2 (µ)|µ=µo является оценкой квадрата расстояния Махаланобиса ρ2 (µ, µo ) = (µ − µo )T Σ−1 (µ − µo ) между истинным значением вектора математического ожидания µ и его предполагаемым значением µo . Чем T 2 (µo ) меньше, тем «ближе» истинное значение математического ожидания µ (выборочное среднее x является оценкой µ) к гипотетическому значению µo . Эти соображения позволяют предложить следующий критерий для проверки гипотез (16.1): ½ H0 : T 2 (µo ) ⩽ To2 (α); (16.3) H1 = H0 : T 2 (µo ) > To2 (α), где To2 (α) – пороговое значение критерия, подлежащее определению по наперед заданному уровню значимости α = P{H1 |H0 } ∈ (0, 1). Найдем распределение вероятностей T 2 -статистики (16.2) в случае, когда верна гипотеза H0 (при µ = µo ). 370 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ Лемма 16.1. Пусть N -вектор y ∈ RN имеет невырожденное нормальное распределение NN (0N , Σ) (|Σ| 6= 0), а (N × N )-матрицa W – распределение Уишарта WN (Σ, m) (m ⩾ N ), тогда случайная величина T̃ 2 = y T W −1 y с учетом нормировки имеет F -распределение Фишера с N и m − N + 1 степенями свободы: ½ ¾ m−N +1 2 T̃ = FN,m−N +1 . L N Доказательство. Согласно условию леммы и определению распределения Уишарm X та матрица W распределена как zt ztT , где случайные N -векторы {zt }m t=1 независимы t=1 в совокупности и одинаково распределены по закону NN (0N , Σ). В силу невырожденности для ковариационной матрицы Σ (Σ Â 0) справедливы представления, которые уже использовались ранее в п. 14.1: Σ = Σ1/2 (Σ1/2 )T , (Σ1/2 )T Σ−1 Σ1/2 = IN ; Σ−1 = (Σ−1/2 )T Σ−1/2 , Σ−1/2 = (Σ1/2 )−1 , где Σ1/2 – невырожденная (N × N )-матрица. Выполним преобразования: y ∗ = Σ−1/2 y, W ∗ = Σ−1/2 W (Σ−1/2 )T . m X Очевидно, что W ∗ распределена как zt∗ (zt∗ )T , где случайные N -векторы {zt∗ = t=1 = Σ−1/2 zt }m t=1 независимы в совокупности и одинаково распределены по закону NN (0N , IN ), и имеет место соотношение (y ∗ )T (W ∗ )−1 y ∗ = y T W −1 y = T̃ 2 . Выполним теперь ортогональное преобразование: ỹ ∗ = Qy ∗ , W̃ ∗ = QW ∗ QT , T T где в случайной ортогональной (N ×N )-матрице Q = (qij )N i,j=1 : QQ = Q Q = IN первая строка выбрана следующим образом: q1j = p yj∗ (y ∗ )T y ∗ , j = 1, . . . , N ; y ∗ = (yj∗ )N j=1 . После этого преобразования также выполняется (ỹ ∗ )T (W̃ ∗ )−1 ỹ ∗ =(y ∗ )T (W ∗ )−1 y ∗ =T̃ 2 , m X где матрица W̃ ∗ распределена как z̃t∗ (z̃t∗ )T , а случайные N -векторы {z̃t∗ = Qzt∗ }m t=1 t=1 по-прежнему независимы в совокупности и одинаково распределены по закону NN (0N , IN ). Для компонент вектора ỹ ∗ = (ỹi∗ )N i=1 имеем ỹ1∗ = N X q1j yj∗ = p (y ∗ )T y ∗ ; j=1 ỹi∗ = N X j=1 qij yj∗ = p (y ∗ )T y ∗ N X j=1 qij q1j = 0, i = 2, . . . , N, 16.1. ГИПОТЕЗЫ О ЗНАЧЕНИИ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 371 и для T̃ 2 получаем T̃ 2 = (ỹ ∗ )T (W̃ ∗ )−1 ỹ ∗ = (ỹ1∗ )2 w̃∗11 , где w̃∗11 – первый элемент матрицы ∗ ∗ N (W̃ ∗ )−1 = (w̃∗ij )N i,j=1 , обратной по отношению к матрице W̃ = (w̃ij )i,j=1 . ∗ Представим W̃ в блочном виде: ∗ ∗ T w̃11 (w̃(1) ) , W̃ ∗ = ∗ ∗ w̃(1) W̃22 воспользуемся известным соотношением для обращения невырожденной блочной матрицы [34, 11]: ! µ ¶−1 à (E − F H −1 G)−1 E −1 F (GE −1 F − H)−1 E F , = G H (GE −1 F − H)−1 GE −1 (H − GE −1 F )−1 и получим µ w̃ ∗11 = ∗ w̃11 − ¡ ¢T ∗ w̃(1) ³ ∗ W̃22 Для T̃ 2 окончательно имеем T̃ 2 = ´−1 ¶−1 ∗ w̃(1) ¡ ∗ ¢−1 = w̃11|2 . (y ∗ )T y ∗ . ∗ w̃11|2 При фиксированной матрице Q согласно первому утверждению теоремы 15.5 случай∗ ∗ ∗ T ∗ −1 ∗ ∗ ная величина w̃11|2 = w̃11 −(w̃(1) ) (W̃22 ) w̃(1) имеет условное распределение L{w̃11|2 |Q} = 2 = W1 (1, m − (N − 1)) = χm−N +1 . Случайная величина в числителе – распределение L{(y ∗ )T y ∗ |Q} = χ2N . Полученные условные распределения не зависят от Q и поэтому яв∗ ляются также и безусловными распределениями для случайных величин w̃11|2 и (y ∗ )T y ∗ . Кроме того, эти случайные величины независимы. ¤ Следствие 16.1. Пусть выборка X = {xt }nt=1 объема n > N образована независимыми в совокупности, одинаково распределенными случайными N -векторами с невырожденным нормальным распределением NN (µ, Σ) (|Σ| 6= 0), тогда T 2 -статистика T 2 = = T 2 (µ) из (16.2) с учетом нормировки имеет F -распределение c N и n − N степенями свободы: ½ ¾ n−N 2 L T (µ) = FN,n−N . (16.4) N (n − 1) Доказательство. Согласно теореме 14.4 выборочное среднее x и выборочная ковариационная матрица S независимы и имеют распределения L{x} = NN (µ, Σ/n) и √ L{nΣ̂} = WN (Σ, n − 1). Поэтому будут независимыми статистики y := n(x − µ) и W := (n − 1)S, имеющие соответственно распределения NN (0N , Σ) и WN (Σ, m), ¤ m := n − 1. Далее применяем лемму 16.1 к T̃ 2 := T 2 (µ)/(n − 1). Соотношение (16.4) позволяет найти порог критерия (16.3), вычислив вероятность ошибки первого рода: P{H1 |H0 } = P{T 2 (µo ) > To2 |µ = µo }=1 − P{T 2 (µo ) ⩽ To2 |µ = µo } = µ ¶ n−N 2 = 1 − FN,n−N T := α, N (n − 1) o откуда N (n − 1) −1 (1 − α), (16.5) F n − N N,n−N −1 где FN,n−N (1 − α) – квантиль уровня 1 − α от F -распределения Фишера c N и n − N степенями свободы. To2 = To2 (α) = 372 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ Замечание 16.1. Порог To2 = To2 (α) позволяет также построить доверительную область (см. п. 11.11) уровня 1 − α для вектора математического ожидания: ½ ¾ To2 (α) N T −1 Mα = µ ∈ R : (x − µ) S (x − µ) ⩽ , n являющуюся случайным N -мерным эллипсоидом в RN с центром в точке x, форма и «объем» (мера Лебега) которого определяются матрицей S −1 и вероятностью 1 − α, с которой в него «попадает» истинное значение вектора математического ожидания µ: P{µ ∈ Mα } = 1 − α. Исследуем вероятностные свойства критерия (16.3), (16.5), называемого еще T 2 -критерием Стьюдента. Теорема 16.1. T 2 -критерий (16.3), (16.5), построенный по выборке X = {xt }nt=1 объема n > N , образованной независимыми в совокупности, одинаково распределенными N -векторами-наблюдениями с невырожденным нормальным распределением NN (µ, Σ) (|Σ| 6= 0), является критерием отношения правдоподобия для проверки гипотез (16.1) о значении вектора математического ожидания H0 : µ = µo , H1 = H0 , при неизвестной ковариационной матрице Σ, и при любом фиксированном уровне значимости α = P{H1 |H0 } ∈ (0, 1) является равномерно наиболее мощным критерием среди всех критериев для проверки гипотез (16.1), мощность которых w = P{H1 |H1 } зависит лишь от величины n(µ − µo )T Σ−1 (µ − µo ). Доказательство. Аналогично доказательству теоремы 15.6. Построим критерий отношения правдоподобия для проверки гипотез (16.1): ½ H0 : λ ⩾ λo (α); H1 = H0 : λ < λo (α), где статистика отношения правдоподобия max LN (µ, Σ) λ= (µ,Σ)∈Θ0 max LN (µ, Σ) (µ,Σ)∈Θ определяется функцией правдоподобия LN (µ, Σ) из (15.27), максимальное значение которой на множестве всех допустимых значений параметров Θ = {(µ, Σ) : µ ∈ RN , Σ = = ΣT  0} уже было вычислено при доказательстве теоремы 15.6 из главы 15: max LN (µ, Σ) = LN (x, Σ̂) = (µ,Σ)∈Θ 1 1 1 e (2π) 2 nN |Σ̂| 2 n −1 2 nN , Σ̂ = 1 A. n На множестве значений параметров Θ0 , которому соответствует гипотеза H0 из (16.1): Θ0 ={(µo , Σ): Σ=ΣT Â0}, воспользовавшись ходом доказательства теоремы 14.3 из главы 14, имеем max LN (µ, Σ) = max LN (µo , Σ) = LN (µo , Σ̂0 ) = Σ=ΣT Â0 (µ,Σ)∈Θ0 где n Σ̂0 = 1 −1 2 nN , 1 nN 1n e 2 2 (2π) |Σ̂0 | 1 1X (xt − µo )(xt − µo )T = A + (x − µo )(x − µo )T . n t=1 n 16.1. ГИПОТЕЗЫ О ЗНАЧЕНИИ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ 373 С учетом полученного соотношения преобразуем статистику отношения правдоподобия: ¯¯ ¯¯ n2 µ ¶n o 2 L(µ , Σ̂0 ) ¯Σ̂¯ |A| λ= = ¯¯ ¯¯ = . o o T |A + n(x − µ )(x − µ ) | L(x, Σ̂) ¯Σ̂0 ¯ Воспользуемся известными формулами для вычисления определителя блочной матрицы [34, 11]: ¯ ¯ ¯E F ¯ −1 ¯ ¯ ¯G H ¯ = |E||H − GE F |, |E| 6= 0; ¯ ¯ ¯E F ¯ −1 ¯ ¯ ¯G H ¯ = |H||E − F H G|, |H| 6= 0. √ √ Положим E := 1, F := n(x−µo )T , G := − n(x−µo ), H = A и получим соотношение ¯ ¯ √ ¯ n(x − µo )T ¯¯ ¯ √ 1 ¯− n(x − µo ) ¯= A ¡ √ ¢ √ |1||A − − n(x − µ0 ) 1−1 n(x − µ0 )T | = = |A + n(x − µo )(x − µo )T | = |A||1 + n(x − µo )T A−1 (x − µo )|, с учетом которого статистика отношения правдоподобия n 2 λ= 1 2 o T (µ ) 1+ n−1 – строго убывающая функция от T 2 -статистики T 2 (µo ) из (16.2), поэтому критерий отношения правдоподобия на ее основе эквивалентен T 2 -критерию Стьюдента (16.3), (16.5). Доказательство того, что T 2 -критерий (16.3), (16.5) является равномерно наиболее мощным [4], носит технический характер и основано на анализе распределения вероятностей T 2 -статистики в случае, когда гипотеза H0 неверна. ¤ На практике иногда по выборке X = {x1 , . . . , xn } объема n из невырожденного нормального распределения NN (µ, Σ) (|Σ| 6= 0) необходимо проверить еще одну гипотезу о значении вектора математического ожидания – гипотезу симметрии, которая состоит в предположении о том, что значения компонент вектора математического ожидания µ = (µ̃j )N j=1 равны между собой при альтернативе общего вида: H0 : µ̃1 = . . . = µ̃N ; H1 = H0 : ∃i 6= j ∈ {1, . . . , N }, µ̃i 6= µ̃j . (16.6) Пример 16.1. Пусть одна и та же операция на производстве выполняется N различными работниками, относительно которых нельзя сказать, что они работают независимо друг от друга. Фиксируется значение некоторого показателя качества выполнения операции каждым работником. Необходимо проверить, что все они выполняют свою работу одинаково эффективно. Очевидно, что гипотеза симметрии H0 из (16.6) может быть записана в виде µ = = µ̃1N , где µ̃ ∈ R – произвольное общее значение компонент, а 1N – N -вектор, составленный из единиц. 374 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ Сведем гипотезы из (16.6) к гипотезам о значении вектора математического ожидания (16.1). Для этого введем в рассмотрение произвольную ((N − 1) × N )-матрицу C полного ранга: rank(C) = N − 1, строки которой линейно независимы между собой и ортогональны к единичному N -вектору 1N : C1N = 0N −1 . Осуществим линейное преобразование выборки X = {x1 , . . . , xn } в выборку Y = {y1 , . . . , yn }: yt = Cxt , t = 1, . . . , n. Наблюдения из выборки Y имеют невырожденное нормальное распределение: L{yt } = = NN −1 (Cµ, CΣC T ) (|CΣC T | 6= 0), и при истинной гипотезе H0 , по построению, их математическое ожидание – нулевой (N − 1)-вектор: Cµ = µ̃C1N = µ̃0N −1 = 0N −1 . Поэтому проверка гипотез (16.6) эквивалентна проверке гипотезы о том, что математическое ожидание наблюдений из выборки Y = {y1 , . . . , yn } – нулевое, против альтернативы общего вида. Остается лишь воспользоваться T 2 -критерием (16.3), (16.2), (16.5), положив в нем N := N − 1; xt := Cxt , t = 1, . . . , n; µo := 0N −1 . Получим следующий критерий для проверки гипотез (16.6): (N − 1)(n − 1) −1 : nxT C T (CSC T )−1 Cx ⩽ F (1 − α); H0 n − (N − 1) N −1,n−(N −1) (N − 1)(n − 1) −1 F (1 − α), H1 = H0 : nxT C T (CSC T )−1 Cx > n − (N − 1) N −1,n−(N −1) где α = P{H1 |H0 } ∈ (0, 1) – наперед заданный уровень значимости. Мощность полученного критерия зависит от матрицы линейного преобразования C: w = w(C) = P{H1 |H1 }, и его можно оптимизировать по мощности, выбирая соответствующим образом матрицу C. 16.2. СРАВНЕНИЕ ВЕКТОРОВ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ ПО ДВУМ ВЫБОРКАМ. МНОГОМЕРНАЯ ПРОБЛЕМА БЕРЕНСА – ФИШЕРА 16.2.1. Сравнение векторов математических ожиданий при неизвестной одинаковой ковариационной матрице наблюдений RoN имеются две случайные выборки X (1) = o n nПусть в пространстве (2) (2) (1) (1) (2) = x1 , . . . , xn1 и X = x1 , . . . , xn2 соответственно объемов n1 > N и n2 > N . n o ni (i) Наблюдения xt из выборки X (i) (i = 1, 2) независимы в совокупности и одиt=1 наково распределены по нормальному закону NN (µi , Σ) с математическим ожиданием µi ∈ RN и невырожденной ковариационной (N × N )-матрицей Σ (|Σ| 6= 0). Выборка X (1) не зависит от выборки X (2) . Необходимо проверить гипотезу о совпадении векторов математических ожиданий µ1 и µ2 против альтернативы общего вида: H0 : µ1 = µ2 ; H1 = H0 : µ1 6= µ2 , (16.7) при неизвестном значении одинаковой для обеих выборок ковариационной матрицы Σ. Для проверки гипотез (16.7) воспользуемся предложенной в п. 16.1 T 2 -статистикой, а точнее – леммой 16.1. По выборкам X (1) и X (2) определим статистику: y=r 1 1 1 + n1 n2 (x(1) − x(2) ), (16.8) 375 16.2. СРАВНЕНИЕ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ а также построим оценку для общей ковариационной матрицы Σ, которая учитывает все n1 + n2 наблюдений из выборок X (1) и X (2) : S= ¡ ¢ 1 (n1 − 1)S(1) + (n2 − 1)S(2) , n1 + n2 − 2 (16.9) где n x(i) = i 1 X (i) x , ni t=1 t S(i) = ni ³ ´³ ´T 1 X (i) (i) xt − x(i) xt − x(i) ni − 1 t=1 – выборочные среднее и ковариационная матрица для выборки X (i) (i = 1, 2). Согласно теореме 14.4, x(i) и S(i) независимы и имеют распределения: µ ¶ 1 L{x(i) } = NN µi , Σ ; ni L{(ni − 1)S(i) } = WN (Σ, ni −1), i = 1, 2, поэтому в силу независимости выборок X (1) и X (2) статистики y и S также независимы, а по свойствам многомерного нормального распределения и распределения Уишарта L{y} = NN r 1 1 1 + n1 n2 (µ1 − µ2 ), Σ ; L{(n1 + n2 − 2)S} = WN (Σ, n1 + n2 −2). Если через µy обозначить µy = E{y} = r 1 (µ1 − µ2 ), 1 1 + n1 n2 то гипотезы (16.7) примут вид H0 : µy = 0N ; H1 = H0 : µy 6= 0N . 2 Введем в рассмотрение обобщенную T -статистику: 2 T = y T S −1 y, основанный на ней критерий для проверки гипотез (16.7) имеет вид ( 2 2 H0 : T ⩽ T o; 2 2 H1 = H0 : T > T o , 2 2 (16.10) (16.11) где порог T o = T o (α) определяется по наперед заданному малому значению уровня значимости α = P{H1 |H0 } ∈ (0, 1). 376 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ 2 2 2 Найдем пороговое значение T o = T o (α), применив лемму 16.1 к T -статистике, задаваемой соотношениями (16.10), (16.8), (16.9): n 2 o 2 P{H1 |H0 } = 1 − P{H0 |H0 } = 1 − P T ⩽T o | H0 = ( 2 2 T n1 + n2 − N − 1 To n1 + n2 − N − 1 ⩽ =1−P N n1 + n2 − 2 N n1 + n2 − 2 à ! 2 n1 + n2 − N − 1 To = 1 − FN,n1 +n2 −N −1 := α, N n1 + n2 − 2 ) = откуда получаем 2 2 T o = T o (α) = N (n1 + n2 − 2) −1 F (1 − α). n1 + n2 − N − 1 N,n1 +n2 −N −1 (16.12) В п. 16.4.1 будет также установлено, что критерий (16.11), (16.12) является критерием отношения правдоподобия. 16.2.2. Сравнение векторов математических ожиданий при различных ковариационных матрицах. Многомерная проблема Беренса – Фишера n o ni (i) Обобщим задачу из п. 16.2.1. Пусть наблюдения из выборки X (i) = xt объема t=1 ni > N (i = 1, 2) независимы в совокупности и одинаково распределены по нормальному закону NN (µi , Σi ) с математическим ожиданием µi ∈ RN и невырожденной ковариационной (N × N )-матрицей Σi (|Σi | = 6 0). Сами выборки X (1) и X (2) также независимы. Необходимо проверить гипотезы (16.7) о совпадении векторов математических ожиданий при условии, что ковариационные матрицы Σ1 и Σ2 , вообще говоря, различны, а их значения неизвестны. Рассмотрим два случая. Выборки равного объема (n1 = n2 = n). Образуем новую выборку X = {xt }nt=1 : (1) (2) xt = xt − xt , t = 1, . . . , n, где {xt }nt=1 независимы в совокупности и одинаково распределены (t = 1, . . . , n): L{xt } = NN (µ1 − µ2 , Σ1 + Σ2 ). Обозначим µ = E{xt } = µ1 − µ2 , тогда гипотезы (16.7) примут эквивалентный вид H0 : µ = 0N ; H1 = H0 : µ 6= 0N . Построим выборочную ковариационную матрицу по выборке X: n 1 X S= (xt − x)(xt − x)T = S(1) + S(2) , n − 1 t=1 где x = x(1) − x(2) , а x(1) , x(2) и S(1) , S(1) – выборочные средние и выборочные ковариационные матрицы из (16.9), вычисленные по выборкам X (1) , X (2) . 16.2. СРАВНЕНИЕ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ = {xt }nt=1 2 377 2 Далее применяем к выборке X T -критерий Стьюдента (16.3), (16.5) из п. 16.1. Положив в нем µo := 0N , для T -статистики из (16.3) получим соотношение T 2 = nxT S −1 x = n(x(1) − x(2) )T (S(1) + S(2) )−1 (x(1) − x(2) ), а сам T 2 -критерий (16.3) имеет вид ½ H0 : T 2 ⩽ To2 (α); H1 = H0 : T 2 > To2 (α), где пороговое значение To2 (α) вычисляется по уровню значимости α = P{H1 |H0 } ∈ (0, 1) из соотношения (16.5): N (n − 1) −1 To2 (α) = F (1 − α). n − N N,n−N Выборки различного объема (n1 6= n2 ; пусть n1 < n2 ). В этом случае можно из выборки большего объема отбросить наблюдения, чтобы ее объем стал равен объему меньшей выборки, и воспользоваться критерием, полученным выше для случая равных объемов. Однако чтобы учесть все наблюдения, целесообразнее поступить следующим обраn1 зом [4]. Ввести в рассмотрение новую выборку X = {xt }t=1 : à ! r n2 n1 n1 1 X (2) 1 X (2) (1) (2) xt = xt − xj − xt − x , t = 1, . . . , n1 , n2 j=1 n2 n1 i=1 i n 1 где {xt }t=1 некоррелированы: ( cov{xt , xl } = cov n (1) xt − 2 1 X (2) x − n2 j=1 j r n1 n2 à (2) xt − ! n1 1 X (2) x ; n1 i=1 i !) r à n2 n1 1 X n1 1 X (2) (2) (2) x − xl − x = n2 j=1 j n2 n1 i=1 i ( ! r à n2 n1 1 X n1 1 X (2) (2) (2) = δtl Σ1 + cov x + xt − x ; n2 j=1 j n2 n1 i=1 i !) r à n2 n1 n1 1 X 1 X (2) (2) (2) x + xl − x = n2 j=1 j n2 n1 i=1 i µ ¶X n1 n2 r n 1 1 1 X 1 (2) (2) (2) = δtl Σ1 + cov xt + −√ xj + x ; n2 n2 n1 n2 j=1 n2 j=n +1 j 1 µ ¶X r n1 n2 1 1 1 X n1 (2) (2) (2) = xl + −√ xj + xj n2 n2 n1 n2 n2 (1) xl − j=1 µ j=n1 +1 ¶2 n1 1 1 n1 1 1 n1 Σ2 + Σ2 + 2 −√ Σ2 + −√ n2 n2 n1 n2 n2 n2 n1 n2 µ µ ¶2 ¶ n1 1 (n2 − n1 )Σ2 = δtl Σ1 + Σ2 , t, l = 1, . . . , n1 , + n2 n2 = δtl Σ1 + δtl ¶r µ 378 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ имеют нормальное распределение: µ ¶ n1 L{xt } = NN µ1 − µ2 , Σ1 + Σ2 , t = 1, . . . , n1 , n2 и поэтому независимы в совокупности. n1 По построенной выборке X = {xt }t=1 объема n1 вычислим T 2 -статистику из (16.3) o (µ := 0N , n := n1 ): T 2 = n1 xT S −1 x, где n 1 1 X x= xt , n1 t=1 n1 1 X S= (xt − x)(xt − x)T n1 − 1 t=1 – n 1 выборочные среднее и ковариационная матрица по X = {xt }t=1 . n1 Далее для проверки гипотез H0 , H1 применяем к выборке X = {xt }t=1 T 2 -критерий Стьюдента (16.3), (16.5): ½ H0 : T 2 ⩽ To2 (α); H1 = H0 : T 2 > To2 (α), To2 (α) = N (n1 − 1) −1 F (1 − α), α = P{H1 |H0 } ∈ (0, 1). n1 − N N,n1 −N Замечание 16.2. Для построенных в п. 16.2.2 критериев не показано, что они являются оптимальными по мощности. В этом и состоит многомерная проблема Беренса – Фишера. Поэтому если заранее известно, что ковариационные матрицы в выборках совпадают, то лучше использовать критерий из п. 16.2.1, являющийся критерием отношения правдоподобия. 16.3. ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО ПАРАМЕТРОВ МНОГОМЕРНОГО НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ В пространстве RN наблюдается случайная выборка X = {x1 , . . . , xn } объема n > N из невырожденного нормального распределения NN (µ, Σ) с неизвестными значениями параметров: вектора математического ожидания µ ∈ RN и ковариационной (N × N )матрицы Σ (|Σ| 6= 0). Рассмотрим всевозможные гипотезы относительно µ и Σ. 16.3.1. Проверка гипотез о значении вектора математического ожидания Пусть ковариационная матрица Σ (|Σ| 6= 0) неизвестна. Необходимо проверить гипотезы о том, что математическое ожидание µ совпадает с наперед заданным вектором µo ∈ RN : H0 : µ = µo ; H1 = H0 : µ 6= µo . Данная задача была решена в п. 16.1. 379 16.3. ПРОВЕРКА ГИПОТЕЗ О НОРМАЛЬНОМ РАСПРЕДЕЛЕНИИ 16.3.2. Проверка гипотез о значении ковариационной матрицы Пусть вектор математического ожидания µ ∈ RN неизвестен. Необходимо проверить гипотезы: H0 : Σ = Σo ; H1 = H0 : Σ 6= Σo , где Σo – наперед заданная невырожденная ковариационная (N × N )-матрица (Σo = = (Σo )T  0). Воспользуемся критерием отношения правдоподобия ½ H0 : λ ⩾ λo (α); H1 = H0 : λ < λo (α), где статистика отношения правдоподобия вычисляется по функции правдоподобия LN (µ, Σ) из (15.27) аналогично доказательству теоремы 16.1: max LN (µ, Σo ) λ= µ max LN (µ, Σ) µ,Σ = LN (x, Σo ) LN (x, Σ̂) = à (2π) = x= n X − nN 2 o −n/2 |Σ | ! n 1X T o −1 (xt − x) (Σ ) (xt − x) exp − 2 t=1 nN nN (2π)− 2 |Σ̂|−n/2 e− 2 µ ¶ ³ e ´ nN ¢ 1 ¡ 2 = |Σo |−n/2 |A|n/2 exp − tr (Σo )−1 A , n 2 = xt /n – выборочное среднее, Σ̂ = A/n – выборочная ковариационная матрица: t=1 A= n X (xt − x)(xt − x)T . t=1 Построим критерий, эквивалентный критерию отношения правдоподобия: ½ H0 : −2 ln λ ⩽ ∆; H1 = H0 : −2 ln λ > ∆, где относительно статистики −2 ln λ установлено [4]: LH0 {−2 ln λ} → χ2f , n → +∞, – N (N + 1) степенями свободы. Этот факт позволяет при «боль2 шом» объеме выборки n (n → +∞) по наперед заданному уровню значимости α = = P{H1 |H0 } ∈ (0, 1) найти пороговое значение ∆ = ∆(α): χ2 -распределение с f = ∆(α) = Fχ−1 2 (1 − α), f f= N (N + 1) . 2 380 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ 16.3.3. Проверка гипотез о совпадении многомерного нормального распределения с наперед заданным многомерным нормальным распределением Необходимо проверить гипотезы: H0 : µ = µo , Σ = Σo ; H1 = H0 : µ 6= µo и/или Σ 6= Σo , где µo и Σo – наперед заданные гипотетические значения N -вектора математического ожидания (µo ∈ RN ) и ковариационной (N × N )-матрицы (Σo = (Σo )T  0). Критерий отношения правдоподобия имеет вид ½ H0 : λ ⩾ λo (α); H1 = H0 : λ < λo (α), где LN (µo , Σo ) LN (µo , Σo ) = = max LN (µ, Σ) LN (x, Σ̂) µ,Σ Ã ! n X 1 − nN o T o −1 o (2π) 2 |Σo |−n/2 exp − (xt − µ ) (Σ ) (xt − µ ) 2 t=1 λ= = = nN nN (2π)− 2 |A/n|−n/2 e− 2 ¶ µ ³ e ´ nN 1 2 = |Σo |−n/2 |A|n/2 exp − (xt − µo )T (Σo )−1 (xt − µo ) = n 2 ¶ µ ³ e ´ nN 1 ¡ o −1 ¢ n 2 o T o −1 o o −n/2 n/2 = |Σ | |A| exp − tr (Σ ) A − (x − µ ) (Σ ) (x − µ . n 2 2 Используем эквивалентный критерий ½ H0 : −2 ln λ ⩽ ∆; H1 = H0 : −2 ln λ > ∆, где для статистики −2 ln λ также установлено предельное распределение [4]: LH0 {−2 ln λ} → χ2f , f = N (N + 1) + N, 2 n → +∞, что позволяет определить при n → +∞ пороговое значение ∆ = ∆(α), α = P{H1 |H0 } ∈ ∈ (0, 1): N (N + 1) + N. ∆(α) = Fχ−1 f= 2 (1 − α), 2 f 16.4. ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО НЕСКОЛЬКИХ ВЫБОРОК ИЗ МНОГОМЕРНЫХ НОРМАЛЬНЫХ РАСПРЕДЕЛЕНИЙ Пусть в пространстве RN наблюдается L ⩾ 2 независимых в совокупности случайных (i) (i) выборок X (i) = {x1 , . . . , xni }, i = 1, . . . , L. Выборка X (i) объема ni > N (i = 1, . . . , L) образована независимыми в совокупности, одинаково распределенными N -вектораминаблюдениями, имеющими невырожденное нормальное распределение NN (µi , Σi ) с математическим ожиданием µi ∈ RN и ковариационной (N × N )-матрицей Σi (|Σi | 6= 0). 381 16.4. ГИПОТЕЗЫ ОТНОСИТЕЛЬНО НЕСКОЛЬКИХ ВЫБОРОК 16.4.1. Гипотеза о совпадении векторов математических ожиданий при неизвестной одинаковой ковариационной матрице Проверим гипотезу о равенстве между собой векторов математических ожиданий µ1 , . . . , µL против альтернативы общего вида H0 : µ1 = . . . = µL ; H1 = H0 , при неизвестном значении одинаковой для всех выборок ковариационной матрицы Σ1 = . . . = ΣL = Σ (|Σ| = 6 0). Запишем функцию правдоподобия для объединенной выборки X = L [ X (i) объема i=1 n= L X ni : i=1 L({µi , Σi }Li=1 ) = − nN 2 = (2π) L Y |Σj | j=1 (i) LN (µi , Σi ) = i=1 ni ³ L XX ! ´T ³ ´ 1 (i) (i) −1 x − µi Σi xt − µi , exp − 2 i=1 t=1 t à −nj /2 L Y где учтено, что выборки {X (i) }Li=1 независимы между собой, а функция правдоподобия для i-й выборки имеет вид (i) LN (µi , Σi ) = à ni Y ³ ´ (i) nN xt |µi , Σi = t=1 ! ni ³ ´T ³ ´ 1X (i) (i) exp − = x − µi Σ−1 xt − µi . i 1 1 2 t=1 t (2π) 2 ni N |Σi | 2 ni Воспользуемся критерием отношения правдоподобия и определим статистику отношения правдоподобия: max L({µi = µ, Σi = Σ}Li=1 ) µ,Σ λ= = max L({µi , Σi = Σ}Li=1 ) 1 µ1 ,...,µL ,Σ nN ¯ ! n2 ï L ¯ ¯−n/2 − nN − ¯X ¯ . (2π) 2 ¯ n1 A¯ e 2 ¯ ¯ Ai ¯ |A| , = = ¯ nN ¯ ¯−n/2 nN ¯ ¯ L i=1 ¯ ¯ P − − e 2 (2π) 2 ¯¯ n1 Ai ¯¯ i=1 где L n i 1 XX (i) x= x n i=1 t=1 t – выборочное среднее, Σ̂0 = 1 A, n A= ni ³ L X ´³ ´T X (i) (i) x t − x xt − x , i=1 t=1 – 382 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ выборочная ковариационная матрица, вычисленные по объединенной выборке X объема n и являющиеся при истинной гипотезе H0 оценками максимального правдоподобия для общих вектора математического ожидания µ и ковариационной матрицы Σ; n x(i) = i 1 X (i) x , i = 1, . . . , L, ni t=1 t – выборочные средние, n 1X Ai , Σ̂ = n i=1 ni ³ ´³ ´T X (i) (i) Ai = xt − x(i) xt − x(i) , i = 1, . . . , L, – t=1 выборочная ковариационная матрица, являющиеся оценками максимального правдоподобия для математических ожиданий {µi }Li=1 и общей для всех выборок {X (i) }Li=1 ковариационной матрицы Σ в общем случае (когда гипотеза H0 , вообще говоря, неверна). Вместо статистики λ воспользуемся так называемой U -статистикой: ¯ L ¯ ¯X ¯ . 2 ¯ ¯ U = λn = ¯ Ai ¯ |A|, ¯ ¯ i=1 для которой известно [4]: LH0 {−g ln U } → χ2f , где g = n − L − ni → ∞, i = 1, . . . , L (n → +∞), N −L − 1, f = N (L − 1). Тогда критерий отношения правдоподобия 2 ½ H0 : λ ⩾ λo (α); H1 = H0 : λ < λo (α), запишется в эквивалентном виде: ½ H0 : −g ln U ⩽ ∆(α); H1 = H0 : −g ln U > ∆(α), где порог критерия ∆ = ∆(α) определяется по наперед заданному уровню значимости α = P{H1 |H0 } ∈ (0, 1): ∆(α) = Fχ−1 2 (1 − α), f = N (L − 1). f В случае двух выборок (L = 2), воспользовавшись соотношениями A1 + A2 = A + n1 (x − x(1) )(x − x(1) )T + n2 (x−x(2) )(x − x(2) )T ; nx = n1 x(1) + n2 x(2) и формулой блочного определителя, по аналогии с доказательством теоремы 16.1 для U -статистики получим |A1 + A2 | = U= |A| = |A1 + A2 | = |A1 + A2 − n1 (x − x(1) )(x − x(1) )T − n2 (x − x(2) )(x − x(2) )T | 383 16.4. ГИПОТЕЗЫ ОТНОСИТЕЛЬНО НЕСКОЛЬКИХ ВЫБОРОК |A1 + A2 | ¯= = ¯¯ ¯ n n 1 2 T¯ ¯A1 + A2 − (x − x )(x − x ) (1) (2) (1) (2) ¯ ¯ n1 + n2 = |A1 + A2 | ¯ ¯= ¯ ¯ n n 1 2 T −1 ¯ |A1 + A2 | ¯1 + (x(1) − x(2) ) (A1 + A2 ) (x(1) − x(2) )¯¯ n1 + n2 = 1 2 T 1+ n1 + n2 − 2 – 2 выражается через обобщенную T -статистику из (16.10), и построенный ранее в п. 16.2.1 на ее основе критерий (16.11), (16.12) также является критерием отношения правдоподобия. Более того, он обладает очевидным преимуществом перед критерием, использующим U -статистику: пороговое значение (16.12) в нем не требует асимптотики по объемам выборок. Поэтому для проверки гипотезы о совпадении векторов математических ожиданий в случае двух выборок целесообразнее использовать критерий из п. 16.2.1. 16.4.2. Гипотеза о равенстве ковариационных матриц Проверим гипотезы о равенстве ковариационных матриц H0 : Σ1 = . . . = ΣL ; H1 = H0 . Статистика отношения правдоподобия в этом случае имеет вид max λ= µ1 ,...,µL ,Σ L({µi , Σi = Σ}Li=1 ) max {µi ,Σi }L i=1 max = µ1 ,...,µL ,Σ L Q L({µi , Σi }Li=1 ) ¯ . ¯¯−n/2 nN L ¯P ¯ e− 2 ¯ Ai n¯ − nN 2 ¯ L({µi , Σi = Σ}Li=1 ) (2π) = (i) max LN (µi , Σi ) i=1 µi ,Σi = = nN n 2 i=1 L Q ni N ni N (2π)− 2 |Ai /ni |−ni /2 e− 2 i=1 L Q = |Ai |ni /2 i=1 ¯n/2 . ni N ¯ L ¯ ¯P ni 2 ¯ A i ¯ ¯ ¯ i=1 L Q i=1 Введем в рассмотрение «подправленную» статистику, предложенную Бартлеттом [4]: ∗ λ = mN m 2 L Q i=1 mi N mi 2 L Q |Ai |mi /2 i=1 ¯m/2 , ¯ L ¯ ¯P ¯ Ai ¯ ¯ ¯ i=1 384 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ где mi = ni − 1 (i = 1, . . . , L), m = L X mi = n − L, и построим критерий, асимптотически i=1 эквивалентный критерию отношения правдоподобия: ½ H0 : −2ρ ln λ∗ ⩽∆(α); H1 = H0 : −2ρ ln λ∗ > ∆(α), где ρ=1− à L X 1 1 − mi m i=1 ! 2N 2 + 3N − 1 6(N + 1)(L − 1) и установлено [4]: LH0 {−2ρ ln λ∗ } → χ2f , f = L−1 N (N + 1), 2 ni → ∞, i = 1, . . . , L, что позволяет по уровню значимости α = P{H1 |H0 } ∈ (0, 1) определить порог: ∆(α) = Fχ−1 2 (1 − α), f= f L−1 N (N + 1). 2 16.4.3. Гипотеза об эквивалентности нормальных распределений (гипотеза однородности) Проверим гипотезы о том, что наблюдения из всех выборок имеют одно и то же нормальное распределение: H0 : µ1 = . . . = µL , H1 = H0 . Σ1 = . . . = ΣL ; Запишем статистику отношения правдоподобия: max L({µi =µ, Σi =Σ}Li=1 ) λ= µ,Σ max {µi ,Σi }L i=1 L({µi , Σi }Li=1 ) nN = nN (2π)− 2 |A/n|−n/2 e− 2 L Q ni N ni N = (2π)− 2 |Ai /ni |−ni /2 e− 2 i=1 L Q nN n 2 = L Q i=1 |Ai |ni /2 i=1 ni N ni 2 |A|n/2 . Определим соответствующую «подправленную» статистику: ∗ λ = mN m 2 L Q i=1 mi N mi 2 L Q |Ai |mi /2 i=1 |A|m/2 и построим критерий, асимптотически эквивалентный критерию отношения правдоподобия и имеющий вид ½ ∗ H0 : −2ρ∗ ln λ ⩽∆(α); ∗ H1 = H0 : −2ρ∗ ln λ > ∆(α), 385 16.5. ОПТИМАЛЬНОЕ (БАЙЕСОВСКОЕ) РЕШАЮЩЕЕ ПРАВИЛО где à L X 1 1 − m m i i=1 ∗ ρ =1− ! 2N 2 + 3N − 1 1 N −L+2 − , 6(N + 3)(L − 1) m N + 3 и также установлено [4]: L−1 N (N + 3), ni → ∞, i = 1, . . . , L, 2 что позволяет по α = P{H1 |H0 } ∈ (0, 1) определить порог: ∗ LH0 {−2ρ∗ ln λ } → χ2f , f = ∆(α) = Fχ−1 2 (1 − α), f= f L−1 N (N + 3). 2 16.5. ЗАДАЧИ СТАТИСТИЧЕСКОЙ КЛАССИФИКАЦИИ. ОПТИМАЛЬНОЕ (БАЙЕСОВСКОЕ) РЕШАЮЩЕЕ ПРАВИЛО Пусть в пространстве RN регистрируются случайные наблюдения x = x(ω) ∈ RN над объектами ω ∈ Ω, принадлежащими к L ⩾ 2 классам {Ω1 , . . . , ΩL }: [ Ωi = Ω. Ωi ∩ Ωj = ∅, i 6= j, i, j ∈ S, S = {1, . . . , L}; i∈S o Истинный номер класса d ∈ S, к которому принадлежит наблюдение x = x(ω), является дискретной случайной величиной, принимающей значения из множества номеров классов S: X do = do (ω) = i11Ωi (ω), ω ∈ Ω, i∈S и имеющей распределение вероятностей P{do (ω) = i} = πi > 0, i ∈ S; π1 + . . . + πL = 1, (16.13) где {πi }i∈S – так называемые априорные вероятности классов. При фиксированном номере класса do = i, i ∈ S, наблюдение x ∈ RN описывается условными распределениями вероятностей, которые будем предполагать абсолютно непрерывными с условными плотностями pi (x) = p(x|do = i), i ∈ S, (16.14) называемыми плотностями распределения классов. Исходя из (16.13), (16.14), наблюдение x ∈ RN имеет безусловную плотность X p(x) = πi pi (x), i∈S называемую плотностью-смесью. Таким образом, классы {Ωi }i∈S однозначно определяются своими вероятностными характеристиками {πi , pi (·)}i∈S из (16.13), (16.14). Задача статистической классификации заключается в отнесении объекта ω ∈ Ω к одному из классов {Ωi }i∈S по наблюдению x = x(ω) над ним, т. е. в оценивании неизвестного (ненаблюдаемого) номера класса do = do (ω) ∈ S для ω по x = x(ω) ∈ RN . Рассмотрим класс рандомизированных решающих правил(п. 12.1): D = {d(x), x ∈ ∈ RN }, являющихся случайными функциями со значениями из множества S. При фиксированном x решающее правило (РП) d(x) есть дискретная случайная величина с распределением P{d(x) = i} = φi (x) ⩾ 0, x ∈ RN , i ∈ S, 386 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ где критические функции {φi (·)}i∈S удовлетворяют условию нормировки φ1 (x) + . . . + φL (x) = 1, x ∈ RN . Таким образом, решение о принадлежности наблюдения x к классу с номером d(x) выносится с помощью «жребия», определяемого набором критических функций {φi (x)}i∈S . Если φi (x) ∈ {0, 1}, ∀x ∈ RN , i ∈ S, то РП d(x) называется нерандомизированным и принадлежит к классу нерандомизированных решающих правилD∗ (очевидно, что D∗ ⊂ D). Оптимальность (точность) РП d(·) ∈ D будем характеризовать функционалом риска (п. 12.3), имеющим смысл вероятности ошибочной классификации: r = r(d(·)) = P{d(x) 6= do } = 1 − P{d(x) = do } = X =1− P{do = i}P{d(x) = i|do = i} = = 1− X i∈S Z πi i∈S φi (x)pi (x)dx = 1 − Z X πi φi (x)pi (x)dx. i∈S RN RN Из правой части последнего соотношения очевидно, что минимум риска на классе всех рандомизированных решающих правил достигается на РП do (x) = arg max(πi pi (x)), x ∈ RN , i∈S (16.15) которое является нерандомизированным и имеет минимальную вероятность ошибки: Z o ro = P{do (x) 6= d } = min r(d(·)) = 1 − max(πi pi (x))dx. (16.16) i∈S d(·)∈D RN ¡ ¢ Причем, если выполняется: µ {x : πi pi (x) = πj pj (x)} = 0, i 6= j, i, j ∈ S, то это РП является единственным оптимальным с точностью до множества меры Лебега µ = µ(·) нуль. РП (16.15) известно как байесовское решающее правило (БРП), а достигнутое на нем минимально возможное значение риска (16.16) называется байесовским риском. Проясним смысл БРП (16.15). Введем в рассмотрение так называемые апостериорные вероятности классов: Pi (x) = P{do = i|x} = πi pi (x) πi pi (x) , i ∈ S; =X p(x) πj pj (x) j∈S P1 (x) + . . . + PL (x) = 1, x ∈ RN , Pi (x) ∈ [0, 1] – вероятность того, что фиксированное наблюдение x ∈ RN принадлежит классу Ωi (i ∈ S). Тогда БРП (16.15) может быть записано через {Pi (·)}i∈S : do (x) = arg max Pi (x), x ∈ RN , i∈S – относит наблюдение x к тому классу, апостериорная вероятность которого больше остальных. На практике анализ значений апостериорных вероятностей позволяет сказать, насколько «уверенно» выносится решение: идеальным является случай, когда апостериорная вероятность класса, в пользу которого выносится решение для данного наблюдения, «сильно доминирует» по значению над остальными (близка к 1). 16.5. ОПТИМАЛЬНОЕ (БАЙЕСОВСКОЕ) РЕШАЮЩЕЕ ПРАВИЛО 387 Пусть теперь характеристики {πi , pi (·)}i∈S классов {Ωi }i∈S , определенные в (16.13), (16.14), частично или полностью неизвестны. И в RN регистрируется случайная выборка X = {x1 , . . . , xn } объема n, образованная из n независимых в совокупности N -векторов-наблюдений x1 , . . . , xn , принадлежащих L ⩾ 2 классам {Ω1 , . . . , ΩL }. Наблюдение xt = x(ωt ) принадлежит классу со случайным номером dot = do (ωt ), определяемым дискретным распределением вероятностей (16.13), и при фиксированном dot ∈ S имеет условную плотность pdot (·) (t = 1, . . . , n). Вектор истинной классификации Do = = (do1 , . . . , don )T ∈ Sn выборки X может быть как известен, так и неизвестен (не наблюдается). В зависимости от этого выделяют две задачи. Задача кластерного анализа (кластер-анализа) состоит в классификации выборки X, т. е. в построении статистической оценки D̂ = D̂(X) = (dˆ1 , . . . , dˆn )T ∈ Sn для неизвестного n-вектора истинной классификации Do ∈ Sn по X объема n. Кроме того, может также ставиться задача классификации вновь поступающих наблюдений xn+1 , xn+2 , . . ., не зависящих от выборки X, по которой восполнялась неизвестная информация о классах {Ωi }i∈S (оценивались их неизвестные характеристики {πi , pi (·)}i∈S ). В дискриминантном анализе решается задача классификации вновь поступающих наблюдений xn+1 , xn+2 , . . . при наличии классифицированной обучающей выборки X объема n, для которой вектор истинной классификации Do ∈ Sn также наблюдается. Широко используется подход, основанный на построении так называемых подстановочных решающих правил (plug-in-rules). Обычно строится подстановочное БРП, которое получается в результате подстановки в БРП do (·) вместо неизвестных характеристик {πi , pi (·)}i∈S классов {Ωi }i∈S их статистических оценок {π̂i , p̂i (·)}i∈S , вычисленных по X объема n и Do ∈ Sn : ˆ = arg max(π̂i p̂i (x)), x ∈ RN . dˆ = d(x) (16.17) i∈S В кластерном анализе подстановочные РП типа (16.17) также используются, однако специфика их построения заключается в том, что оценивание неизвестных характеристик классов и принятие решений (классификация выборки) здесь производятся «одновременно», преимущественно с использованием итерационных вычислительных процедур. Отметим также, что задача кластер-анализа, вообще говоря, может быть решена лишь с точностью до переобозначения номеров классов: находя оценку D̂ = D̂(X) ∈ Sn для вектора истинной классификации Do ∈ Sn , мы на самом деле определяем последовательность из L! возможных решений: D̂(1) := D̂, D̂(2) , . . . D̂(L!) , образованных всевозможными L! перестановками (переобозначениями) в D̂ ∈ Sn номеров 1, . . . , L классов {Ω1 , . . . , ΩL }. Чтобы избежать неоднозначности, далее везде будем предполагать, что классы {Ωi }i∈S упорядочены: Ω1 ≺ Ω2 ≺ . . . ≺ ΩL , где «≺» – символ лексикографического сравнения, и решена так называемая проблема соотнесения. Данное предположение говорит о том, что среди возможных L! решений D̂(j) ∈ Sn , j = 1, . . . , L!, выбрано то, в котором нумерация классов 1, . . . , L совпадает с истинной {Ω1 , . . . , ΩL }. При данном предположении эффективность дискриминантного и кластерного анализа можно оценить при помощи следующей эмпирической характеристики: n γn = 1X (1 − δdˆt ,do ) – t n t=1 (16.18) доли ошибочных решений, где dˆt – решение, выносимое для наблюдения xt (t = 1, . . . , n). 388 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ Эта характеристика может рассматриваться как оценка риска, и для нее справедливо соотношение n 1X E{γn } = P{dˆt 6= dot }⩾ro . n t=1 Разумеется, чтобы использовать характеристику (16.18) для оценивания эффективности в кластер-анализе, для выборки X необходимо знать истинное значение вектора классификации Do . 16.6. СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ МНОГОМЕРНЫХ НОРМАЛЬНЫХ НАБЛЮДЕНИЙ 16.6.1. Байесовское решающее правило и его риск Пусть теперь условные плотности {pi (·)}i∈S из (16.14), описывающие классы {Ωi }i∈S , – многомерные нормальные: pi (x) = nN (x|µi , Σi ), x ∈ RN , i ∈ S, (16.19) где наблюдения x ∈ RN из класса Ωi (do = i) описываются условными: математическим ожиданием µi = E{x| do = i} (так называемый центр i-го класса) и невырожденной ковариационной (N × N )-матрицей Σi = E{(x − µi )(x − µi )T | do = i} (|Σi | 6= 0). В приложениях при решении реальных задач часто наблюдения, подлежащие классификации, адекватно определяются частным случаем модели (16.13), (16.19) – моделью Фишера: pi (x) = nN (x|µi , Σ), x ∈ RN , i ∈ S, (16.20) с общей для всех классов невырожденной ковариационной (N × N )-матрицей Σ = = E{(x − µi )(x − µi )T | do = i} (i ∈ S, |Σ| 6= 0), описывающей статистический характер ошибок наблюдения: x = µdo + ξ, где распределение вероятностей N -вектора ошибок ξ не зависит от номера класса do , к которому принадлежит наблюдение x, и является N -мерным нормальным вектором с нулевым математическим ожиданим и ковариационной матрицей Σ (L{ξ} = NN (0N , Σ)). Построим байесовское решающее правило. Теорема 16.2. Пусть классы {Ωi }i∈S определяются моделью (16.13), (16.19) с априорными вероятностями {πi }i∈S и невырожденными нормальными распределениями {NN (µi , Σi ), |Σi | 6= 0}i∈S , тогда БРП (16.15) допускает представление (x ∈ RN ): ¡ ¢ do (x) = arg min (x − µi )T Σ−1 (16.21) i (x − µi ) + ln |Σi | − 2 ln πi , i∈S и для модели Фишера (16.13), (16.20): ¡ ¢ do (x) = arg min (x − µi )T Σ−1 (x − µi ) − 2 ln πi . i∈S (16.22) Доказательство. Очевидно и следует из соотношения do (x) = arg max(πi pi (x)) = arg max ln(πi pi (x)) = arg min(−2 ln(πi pi (x))), i∈S i∈S i∈S и вида плотности многомерного нормального распределения (14.1). ¤ Следствие 16.2. В условиях модели Фишера (16.13), (16.20) при равновероятных классах: πi = 1/L, i ∈ S, БРП имеет вид do (x) = arg min ρ(x, µi ), x ∈ RN , i∈S (16.23) 16.6. КЛАССИФИКАЦИЯ МНОГОМЕРНЫХ НАБЛЮДЕНИЙ где ρ(x, y) = p (x − y)T Σ−1 (x − y), x, y ∈ RN , – 389 (16.24) метрика Махаланобиса. Следствие 16.3. Для модели Фишера (16.13), (16.20) в случае двух классов (L = 2) байесовский риск ro из (16.16) может быть вычислен из соотношения µ ¶ ¶ µ ∆ h h ∆ ro = π1 Φ − − + π2 Φ − + , 2 ∆ 2 ∆ h = ln π1 π1 = ln , π2 1 − π1 и при равновероятных классах (π1 = π2 = 1/2) µ ¶ ∆ , ro = Φ − 2 где Φ(·) – функция распределения p вероятностей стандартного нормального закона N1 (0, 1); ∆ = ρ(µ1 , µ2 ) = (µ1 − µ2 )T Σ−1 (µ1 − µ2 ) – межклассовое расстояние Махаланобиса (расстояние Махаланобиса между «центрами» классов). Доказательство. В случае двух классов (L = 2) БРП (16.22) может быть записано в виде ( 1, B(x) < 0, do (x) = 2, B(x) ⩾ 0, ¡ ¡ ¢¢ где B(x) = 1/2 (x−µ1 )T Σ−1 (x−µ1 )−2 ln π1 − (x−µ2 )T Σ−1 (x−µ2 ) − 2 ln π2 =bT x−H – линейная по x ∈ RN функция с коэффициентами b = Σ−1 (µ2 − µ1 ), 1 H = (µ1 + µ2 )T Σ−1 (µ2 − µ1 ) + h. 2 Для байесовского риска ro из (16.16) имеем ro = π1 P{do (x) = 2|do = 1} + π2 P{do (x) = 1|do = 2} = = π1 P{B(x) ⩾ 0|do = 1} + π2 P{B(x) < 0|do = 2}. Найдем условные распределения вероятностей случайной величины B(x) при фиксированном номере класса do = i для наблюдения x. Учтем, что при do = i согласно модели Фишера случайный N -вектор-наблюдение x ∈ RN имеет многомерное нормальное распределение NN (µi , Σ), и по теореме 14.2 B(x) = bT x − H ∈ R1 также имеет условное нормальное распределение: L{B(x)|do = i} = N1 (mi , σ2i ), i ∈ S. Найдем математическое ожидание mi и дисперсию σ2i (i ∈ S, S = {1, 2}): mi = E{B(x)|do = i} = bT µi − H = 1 = (µ2 − µ1 )T Σ−1 µi − (µ1 + µ2 )T Σ−1 (µ2 − µ1 ) − h = 2 1 ∆2 = − (µ1 + µ2 − 2µi )T Σ−1 (µ2 − µ1 ) − h = (−1)i − h; 2 2 σ2i = D{B(x)|do = i} = cov{bT x − H, bT x − H|do = i} = = bT cov{x, x|do = i}b = bT Σb = (µ2 − µ1 )T Σ−1 ΣΣ−1 (µ2 − µ1 ) = ∆2 . 390 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ Продолжим преобразования риска ro и получим ½ ¾ ½ ¾ B(x) − m1 −m1 o B(x) − m2 −m2 o r o = π1 P ⩾ | d = 1 + π2 P < |d =2 = ∆ ∆ ∆ ∆ µ ¶¶ ¶ µ ¶ µ µ ³m ´ −m2 −m1 −m2 1 = π1 1 − Φ + π2 Φ = π1 Φ + π2 Φ = ∆ ∆ ∆ ∆ µ ¶ µ ¶ h ∆ h ∆ = π1 Φ − − + π2 Φ − + , 2 ∆ 2 ∆ где учтено свойство функции распределения стандартного нормального закона: Φ(z) = = 1 − Φ(−z), z ∈ R. ¤ Замечание 16.3. Как видно из доказательства, в условиях модели Фишера БРП может быть выражено через функции, линейные по классифицируемому наблюдению, чего не скажешь о случае, когда ковариационные матрицы условных нормальных распределений, описывающих классы, различны. В связи с этим БРП для модели Фишера называется линейным, а при различных ковариационных матрицах – квадратичным. 16.6.2. Квадратичный и линейный дискриминантный анализ Решим задачу дискриминантного анализа для модели (16.13), (16.19), когда классы {Ωi }i∈S описываются неизвестными априорными вероятностями {πi }i∈S и невырожденными нормальными распределениями {NN (µi , Σi ), |Σi | 6= 0}i∈S с неизвестными значениями параметров {µi , Σi }i∈S . Наличие классифицированной обучающей выборки X = {x1 , . . . , xn } объема n, для которой известен вектор истинной классификации Do = (do1 , . . . , don )T ∈ Sn , позволяет построить несмещенные оценки неизвестных характеристик {πi , µi , Σi }i∈S классов {Ωi }i∈S (i ∈ S): n X ni (16.25) π̂i = , ni = δdot ,i , – n t=1 доля наблюдений, попавших, согласно вектору истинной классификации Do ∈ Sn , в i-й класс; n 1 X µ̂i = x(i) = δdo ,i xt – (16.26) ni t=1 t арифметическое среднее наблюдений из выборки X, попавших в i-й класс (оценка «центра» i-го класса); n 1 X Σ̂i = S(i) = δdo ,i (xt − µ̂i )(xt − µ̂i )T – (16.27) ni − 1 t=1 t выборочная ковариационная матрица для i-го класса. Несмещенность оценок априорных вероятностей (16.25) очевидна: ( n ) 1X 1 E{π̂i } = E δdot ,i = nP{dot = i} = πi , i ∈ S. n t=1 n Оценки µ̂i и Σ̂i из (16.26) и (16.27) при фиксированном Do ∈ Sn согласно теореме 14.5 являются условно несмещенными оценками параметров многомерного нормального распределения NN (µi , Σi ), построенными по подвыборке X (i) ={xt ∈X : dot =i} объема ni : E{µ̂i |Do } = µi , E{Σ̂i |Do } = Σi , где условные математические ожидания не зависят от Do , что означает безусловную несмещенность оценок (16.26) (16.27). 16.6. КЛАССИФИКАЦИЯ МНОГОМЕРНЫХ НАБЛЮДЕНИЙ 391 Подстановочное БРП, соответствующее (16.21) и основанное на оценках (16.25) – (16.27) имеет вид (x ∈ RN ) ³ ´ (16.28) dˆo (x) = arg min (x − µ̂i )T Σ̂−1 i (x − µ̂i ) + ln |Σ̂i | − 2 ln π̂i , i∈S и определяет процедуру квадратичного дискриминантного анализа (применяется, если |Σ̂i | 6= 0, i ∈ S). В случае модели Фишера (16.13), (16.20) (Σi = Σ, i ∈ S) можно продолжать пользоваться квадратичным РП (16.28), но с точки зрения точности оценивания лучше проводить линейный дискриминантный анализ, основанный на БРП (16.22) (x ∈ RN ): ³ ´ dˆo (x) = arg min (x − µ̂i )T Σ̂−1 (x − µ̂i ) − 2 ln π̂i , (16.29) i∈S где в (16.29) вместо оценок ковариационных матриц {Σ̂i }i∈S используется несмещенная оценка общей для всех классов ковариационной матрицы Σ: n 1 X Σ̂ = (xt − µ̂dot )(xt − µ̂dot )T , (16.30) n − L t=1 вычисляемая по всем n наблюдениям из выборки X (применяется, если |Σ̂| = 6 0). Несмещенность оценки (16.30) следует из того, что при фиксированном векторе истинной классификации Do матрица (n − L)Σ̂ является суммой L независимых случайных матриц Уишарта: X X (xt − µ̂i )(xt − µ̂i )T ; (n − L)Σ̂ = A i , Ai = i∈S xt ∈X (i) o L{Ai |D } = WN (Σ, ni − 1), i ∈ S, а значит, по свойствам распределения Уишарта à ! X o L{(n − L)Σ̂|D } = WN Σ, (ni − 1) = WN (Σ, n − L) i∈S o o и E{Σ̂|D } = Σ не зависит от D , поэтому E{Σ̂} = Σ. Замечание 16.4. Перед проведением дискриминантного анализа целесообразно проверить гипотезу однородности (см. пп. 16.4.3): µ1 = . . . = µL , Σ1 = . . . = ΣL . Если она принимается, то выборка считается однородной, и дискриминантный анализ не проводится. В противном случае проверяется гипотеза о совпадении ковариационных матриц (см. п. 16.4.2): Σ1 = . . . = ΣL . Ее принятие или отклонение позволяет соответственно сделать выбор в пользу линейного (модель Фишера) или квадратичного дискриминантного анализа. 16.6.3. Кластерный анализ. Метод L-средних Пусть теперь вектор истинной классификации Do = (do1 , . . . , don )T ∈ Sn для выборки X = {x1 , . . . , xn } неизвестен. Для его оценивания по X в случае моделей (16.13), (16.19) и (16.13), (16.20) можно предложить итерационную процедуру, основанную на многократном повторении соответствующей процедуры дискриминантного анализа. Изложим ее в виде шагов. 392 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ Шаг 0. Из выборки X = {xn1 , . . .o , xn } выбираем какие-либо L ⩾ 2 наблюдений в каче(0) стве начальных приближений µ̂i для «центров» классов {µi }i∈S , а начальные приi∈S (0) ближения априорных вероятностей классов полагаем равными между собой: π̂i = 1/L, i ∈ S. В качестве начального приближения для ковариационных матриц {Σi }i∈S (общей (0) ковариационной матрицы Σ в модели Фишера) выбираем единичную матрицу: Σ̂i = IN , (0) i ∈ S (Σ̂ = IN ). Шаг k. Для классификации выборки на k-м шаге (k = 1, 2, . . .) используем подстановочное БРП (t = 1, . . . , n): ¶ µ³ ¯ ¯ ´T ³ ´−1 ³ ´ ¯ (k−1) ¯ (k−1) (k−1) (k) (k−1) (k−1) − 2 ln π̂ ; + ln ¯Σ̂i dˆt = arg min xt − µ̂i Σ̂i xt − µ̂i ¯ i i∈S µ µ³ ¶¶ ´T ³ ´−1 ³ ´ (k) (k−1) (k−1) (k−1) (k−1) ˆ dt = arg min xt − µ̂i − 2 ln π̂i xt − µ̂i Σ̂ i∈S ³ ´T (k) (k) и получаем оценку D̂(k) = dˆ1 , . . ., dˆn ∈ Sn вектора истинной классификации D o ∈ Sn . Уточняем оценки для {πi , µi }i∈S : (k) π̂i (k) = ni , n (k) µ̂i = n 1 X (k) ni t=1 δ ˆ(k) xt , dt ,i (k) ni = n X t=1 δ ˆ(k) , i ∈ S, dt ,i и ковариационных матриц: (k) Σ̂i = 1 n X (k) ni − 1 t=1 à (k) Σ̂ δ ˆ(k) dt ,i ³ ´³ ´T (k) (k) xt − µ̂i xt − µ̂i , i ∈ S; ¶µ ¶T ! n µ 1 X (k) (k) = xt − µ̂ (k) xt − µ̂ (k) . n − L t=1 dˆt dˆt Шаг-остановка. При D̂(k) = D̂(k−1) (k ⩾ 2) останавливаем итерационный процесс и (k) (k) полагаем: µ̂i := µ̂i , i ∈ S, – оценки центров классов {µi }i∈S ; π̂i := π̂i , i ∈ S, – оценки (k) априорных вероятностей {πi }i∈S ; Σ̂i := Σ̂i , i ∈ S, – оценки ковариационных матриц (k) {Σi }i∈S (Σ̂ := Σ̂ – оценка общей ковариационной матрицы Σ); D̂ := D̂(k) – оценка вектора истинной классификации Do ∈ Sn . Однако на практике чаще используют упрощенный вариант приведенной выше процедуры кластер-анализа, основанный на модели Фишера и использовании решающего правила (16.23), в котором в качестве метрики наряду с метрикой Махаланобиса (16.24) может использоваться и любая другая метрика (например, евклидова). Данный подход известен как метод L-средних. Опишем его для метрик Махаланобиса и Евклида. Шаг 0. Из выборки X = {x1n, . . . ,o xn } выбираем какие-либо L ⩾ 2 наблюдений в каче(0) для «центров» классов {µi }i∈S . При использостве начальных приближений µ̂i i∈S вании метрики Махаланобиса в качестве начального приближения для ковариационной матрицы Σ выбираем единичную матрицу: Σ̂(0) = IN . Шаг k (k = 1, 2, . . .). Классифицируем наблюдения из выборки по «близости» к «центрам» классов: ³ ´ (k−1) (k) , t = 1, . . . , n, dˆt = arg min ρ xt , µ̂i i∈S 393 16.6. КЛАССИФИКАЦИЯ МНОГОМЕРНЫХ НАБЛЮДЕНИЙ где либо ³ ρ (k−1) xt , µ̂i r³ ´ = (k−1) xt − µ̂i ´T ³ Σ̂(k−1) ´−1 ³ ´ (k−1) xt − µ̂i − метрика Махаланобиса, либо ³ ρ (k−1) xt , µ̂i ´ ¯ ¯ r³ ´T ³ ´ ¯ (k−1) ¯ (k−1) (k−1) = ¯xt − µ̂i xt − µ̂i xt − µ̂i – ¯= метрика Евклида. ³ ´T (k) (k) Получаем D̂(k) = dˆ1 , . . . , dˆn ∈ Sn – оценка вектора истинной классификации Do ∈ Sn на k-м шаге. Уточняем оценки «центров» классов: (k) µ̂i = n 1 X (k) ni t=1 δ ˆ(k) xt , dt ,i (k) ni = n X δ ˆ(k) , i ∈ S, t=1 dt ,i и ковариационной матрицы, если используется метрика Махаланобиса: ¶µ ¶T n µ 1 X (k) (k) Σ̂(k) = xt − µ̂ (k) xt − µ̂ (k) . n − L t=1 dˆt dˆt Шаг-остановка. При D̂(k) = D̂(k−1) (k ⩾ 2) итерационный процесс останавливаем и (k) полагаем: µ̂i := µ̂i , i ∈ S, – оценки «центров» классов {µi }i∈S ; Σ̂ := Σ̂(k) – оценка ковариационной матрицы Σ при использовании метрики Махаланобиса; D̂ := D̂(k) – оценка вектора истинной классификации Do ∈ Sn . Замечание 16.5. Эффективность всех методов кластер-анализа существенно зависит от межклассовых расстояний ρ(µi , µj ), i 6= j ∈ S: чем они больше, тем меньше доля ошибочных решений (16.18) и ниже «чувствительность» метода к выбору начальных приближений для «центров» классов и метрики (в методе L-средних). С методом L-средних связана еще одна характеристика – псевдо-F -статистика Фишера: 1 X ni |µ̂i − x|2 L−1 i∈S PFS(L) = ; n 1 X 2 |xt − µ̂dˆt | n − L t=1 µ̂i = n n X 1 X δdˆt ,i xt , ni = δdˆt ,i , i ∈ S; ni t=1 t=1 x= X ni i∈S n n µ̂i = 1X xt , n t=1 которая при истинном числе классов L и D̂ := Do имеет F -распределение Фишера с L−1 и n − L степенями свободы. Но более важно другое ее свойство: она имеет глобальный максимум на истинном числе классов. Это позволяет использовать ее для оценивания неизвестного числа классов L, задавая верхнюю границу L+ и проводя кластер-анализ при каждом значении L = 2, . . . , L+ : L̂ = arg max PFS(L). 2⩽L⩽L+ 394 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ 16.6.4. Статистический анализ данных Фишера Рассмотрим типичные для задач статистической классификаци известные данные Фишера по ирисам [4] (Fisher Iris Data, 1936), представляющие собой наблюдения x = (x̃1 , x̃2 , x̃3 , x̃4 )T над четырьмя признаками (N = 4): x̃1 , x̃2 – длина и ширина чашелистика, x̃3 , x̃4 – длина и ширина лепестка цветка ириса. Всего 150 наблюдений (n = 150), принадлежащих к L = 3 классам (n1 = n2 = n3 = 50): Ω1 – ирис цветной (Iris versicolor ), Ω2 – ирис махровый (Iris setosa), Ω3 – ирис чистый (Iris virginica). Согласно замечанию 16.4 сначала решаем вопрос о целесообразности проведения классификации, проверяя гипотезу однородности (она отклоняется с уровнем значимости α = 0,05). Затем устанавливаем, что ковариационные матрицы по классам совпадают (с уровнем значимости α = 0,05), что приводит нас к модели Фишера и линейному дискриминантному анализу, проведя который, вычисляем долю ошибочных решений: γn = 3/150 = 0, 02. На рис. 16.1 данные Фишера отображены в пространстве первых Рис. 16.1. Диаграмма рассеяния данных Фишера в пространстве двух главных компонент: ¤ – Iris versicolor ; ◦ – Iris setosa; ¦ – Iris virginica двух главных компонент, вычисленных на основе построенной при дискриминантном анализе оценки ковариационной матрицы, а в табл. 16.1 приведен фрагмент полученной классификации с вычисленными оценками апостериорных вероятностей классов. Видно, что на ошибочных решениях (помечены «∗») доминирующее значение апостериорной вероятности далеко от единицы. Проведя кластер-анализ методом L-средних в метрике Евклида, имеем долю ошибочных решений: γn = 16/150 = 0, 11, которая больше, чем в дискриминантном анализе, но по-прежнему приемлема. Полученные в кластер-анализе оценки «центров» классов показаны на рис. 16.2. Видно, что по каждому признаку они «достаточно» различаются. Отметим также, что для этих данных в предположении неизвестного числа классов псевдо F -статистика Фишера, подсчитанная по результатам метода L-средних при различных предполагаемых значениях числа классов, имеет глобальный максимум на истинном числе классов L = 3. 16.6. КЛАССИФИКАЦИЯ МНОГОМЕРНЫХ НАБЛЮДЕНИЙ Таблица 16.1 Классификация данных Фишера Номер Истинная Апостериорные вероятности наблюдения классификация Setosa Versicolor Virginica 1 Setosa 1,000000 0,000000 0,000000 2 Virginica 0,000000 0,000003 0,999997 3 Versicolor 0,000000 0,995590 0,004410 4 Virginica 0,000000 0,000001 0,999999 ∗5 Virginica 0,000000 0,729388 0,270612 6 Setosa 1,000000 0,000000 0,000000 7 Virginica 0,000000 0,000428 0,999572 8 Versicolor 0,000000 0,959573 0,040427 ∗9 Versicolor 0,000000 0,253228 0,746772 10 Setosa 1,000000 0,000000 0,000000 11 Versicolor 0,000000 0,998093 0,001907 ∗ 12 Versicolor 0,000000 0,143392 0,856608 13 Virginica 0,000000 0,003146 0,996854 14 Versicolor 0,000000 0,999997 0,000003 15 Virginica 0,000000 0,006084 0,993916 16 Virginica 0,000000 0,001078 0,998922 17 Virginica 0,000000 0,000001 0,999999 18 Setosa 1,000000 0,000000 0,000000 19 Versicolor 0,000000 0,998502 0,001498 20 Virginica 0,000000 0,000013 0,999987 21 Virginica 0,000000 0,000002 0,999998 Рис. 16.2. Графики средних для данных Фишера по результатам кластер-анализа: ¤ – Iris versicolor ; ◦ – Iris setosa; ¦ – Iris virginica 395 396 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ 16.7. ДИСПЕРСИОННЫЙ АНАЛИЗ К задачам статистической проверки гипотез и классификации легко сводятся задачи так называемого дисперсионного анализа. Пусть имеется некоторый скрытый фактор, который может изменяться при переходе от одной серии экспериментов к другой и который неким неизвестным образом влияет на значения наблюдаемого показателя. Проn o (i) (i) (i) водится L ⩾ 2 серий экспериментов: результат i-й серии – выборка X = x1 , . . ., xni (i) объема ni (xt ∈ R, t = 1ni ; i = 1, . . . , L). Необходимо решить следующие задачи статистического анализа выборок X (1) , . . ., X (L) : 1) проверить гипотезы об однородности всех L выборок; n n ooL (i) 2) оценить средние значения µi = E xt - показателя в каждой выборке и поi=1 строить для них доверительные интервалы; 3) построить доверительные интервалы для попарных разностей средних значений {µi − µj }Li6=j=1 наблюдаемого показателя. Задачи такого типа относятся к области однофакторного дисперсионного анализа. Пример 16.2. Пусть имеется возможность выбора одного из L поставщиков некоторого изделия. Тогда измеряемая величина, характеризующая качество изделия, может быть различной у разных поставщиков. И по результатам выборочного обследования: X (i) – ni изделий поставщика номер «i», i = 1, . . . , L, необходимо выяснить, различается ли качество изделий у этих поставщиков, и выбрать оптимального по качеству поставщика. Сформулируем математическую модель однофакторного дисперсионного анализа. (i) Результат t-го эксперимента в i-й выборке – наблюдение xt = µi + ²it , t = 1, . . . , ni , i = = 1, . . . , L, где µi – неизвестное математическое ожидание (среднее значение) наблюдений в i-й серии, а ²it – случайная ошибка наблюдений: L{²it } = N1 (0, σ2 ). Эквивалентная запись: (i) xt = µ + αi + ²it , L L X ni 1X ni ni µi = µi – взвешенное среднее для всех L выборок; – доля n i=1 n n i=1 à ! L X наблюдений из i-й выборки n = ni ; αi = µi − µ – влияние скрытого фактора в i-й где µ = выборке (i-й эффект). i=1 L X ni αi ≡ 0. n Сформулируем математические задачи однофакторного дисперсионного анализа: 1) проверить гипотезу однородности: Заметим, что по построению выполняется тождество i=1 H0 : µ1 = . . . = µL или H0 : α1 = . . . = αL = 0, означающую, что скрытый фактор или одинаков, или не влияет на наблюдаемый показатель, против альтернативы общего вида H1 = H0 ; 2) построить точечные статистические оценки для µ, {αi }Li=1 , σ2 ; 3) построить доверительные интервалы для {µi }Li=1 , {µi − µj }Li6=j=1 . Определим основные статистики: ni 1 X (i) x = µ̂i – выборочное среднее для i-й выборки; x(i) = ni t=1 t 397 16.7. ДИСПЕРСИОННЫЙ АНАЛИЗ ni L X X L X 1 ni (i) xt = x(i) = µ̂ – общее выборочное среднее; n i=1 t=1 n i=1 α̂i = x(i) − x – оценка i-го эффекта; ni L 1 XX (i) s2вн. гр = (x − x(i) )2 = σ̂2 – внутригрупповая дисперсия; n − L i=1 t=1 t x= s2м. гр = F = L 1 X ni (x(i) − x)2 – межгрупповая дисперсия; L − 1 i=1 s2м. гр – F -статистика. s2вн. гр Статистический критерий для проверки гипотез H0 , H1 имеет вид ½ H0 : F ⩽δ; H1 = H0 : F > δ, −1 где порог критерия δ = FL−1,n−L (1 − ²) – квантиль уровня 1 − ² от F -распределения Фишера с L − 1 и n − L степенями свободы; ² – уровень значимости. Пусть задан доверительный уровень ². Тогда границы доверительного интервала для µi имеют вид (i = 1, . . . , L): s ³ ´ s2вн. гр ² 1 − x(i) ± Ft−1 , n−L 2 ni где Ft−1 (1−²/2) – квантиль уровня 1−²/2 от t-распределения Стьюдента с n−L степеn−L нями свободы. Границы доверительного интервала для µi − µj при сравнении двух средних µi и µj имеют вид (i 6= j = 1, . . . , L): sµ ¶ ³ 1 ²´ 1 −1 (x(i) − x(j) ) ± Ftn−L 1 − + s2вн. гр . 2 ni nj Рассмотренная выше модель однофакторного дисперсионного анализа допускает обобщение по числу факторов. Например, двухфакторный дисперсионный анализ, в котором предполагается влияние двух скрытых факторов: r – число эффектов по первому фактору, а c – по второму. Тогда (ij) xt = µij + eijt = µ + αi + βj + (αβ)ij + eijt – наблюдение номер «t» в (ij)-й серии экспериментов (i = 1, . . . , r, j = 1, . . . , c), где eijt – случайная ошибка: L{eijt } = N1 (0, σ2 ); r µ= c 1 XX µij , r·c i=1 j=1 c αi = а 1X µij − µ, c j=1 à (αβ)ij = µij + µ − r βj = r c 1X 1X µij + µij r i=1 c j=1 величина, описывающая эффект взаимодействия факторов. 1X µij − µ, r i=1 ! – 398 ГЛАВА 16. ПРОВЕРКА ГИПОТЕЗ И СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ 16.8. УПРАЖНЕНИЯ 1. Проанализировать поведение многомерных критериев из пп. 16.1–16.4 в случае одномерного пространства наблюдений (N = 1) и сравнить их с известными одномерными критериями. 2. Минимизацией риска на классе всех рандомизированных решающих правил получить байесовское решающее правило (16.15) и соотношение для его риска (16.16). 3. По аналогии с однофакторным дисперсионным анализом рассмотреть подробно модель двухфакторного дисперсионного анализа из п. 16.7. Сформулировать и решить основные, связанные с ней статистические задачи [32]. 4. Используя распределение x̄ и свойства S, доказать, что если µ = µ0 , то величина T 2 асимптотически распределена как χ2 с N степенями свободы (при n → +∞). 5. Пусть T 2 = nx̄T S −1 x̄, где x̄ и S определены по выборке объема n из распределения NN (µ, Σ). Показать, что распределение T 2 не изменится, если заменить µ на λ = (τ, 0, . . . , 0)T , где τ2 = µT Σ−1 µ, и Σ заменить на IN . 6. Используя данные Фишера при уровне значимости 0,05: а) проверить гипотезу H0 : µ1 = µ2 = µ3 , предполагая, что Σ1 = Σ2 = Σ3 ; б) проверить гипотезу H0 : Σ1 = Σ2 = Σ3 ; в) проверить гипотезу H0 : µ1 = µ2 = µ3 , Σ1 = Σ2 = Σ3 . Данные Фишера. Наблюдается случайный вектор x ∈ R4 . Каждая выборка состоит из 50 наблюдений и вычислены: 5, 94 5, 01 6, 65 2, 77 3, 43 2, 83 x̄(1) = 4, 26 , x̄(2) = 1, 46 , x̄(3) = 5, 68 ; 1, 33 0, 25 2, 07 13, 06 4, 17 8, 96 2, 73 4, 17 4, 83 4, 05 2, 02 ; A1 = 8, 96 4, 05 10, 82 3, 58 2, 73 2, 02 3, 58 1, 92 6, 08 4, 86 0, 80 0, 51 19, 81 4, 59 14, 86 2, 41 4, 86 7, 04 0, 57 0, 46 4, 59 5, 10 3, 50 2, 33 A2 = 0, 80 0, 57 1, 48 0, 30 ; A3 = 14, 86 3, 50 14, 92 2, 39 . 0, 51 0, 46 0, 30 0, 54 2, 41 2, 33 2, 39 3, 70 ЧАСТЬ 5 СТАТИСТИЧЕСКИЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ Г л а в а 17 ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ВРЕМЕННЫХ РЯДОВ 17.1. СЛУЧАЙНАЯ ФУНКЦИЯ КАК МОДЕЛЬ СТАТИСТИЧЕСКИХ НАБЛЮДЕНИЙ В ДИНАМИКЕ. КЛАССИФИКАЦИЯ СЛУЧАЙНЫХ ФУНКЦИЙ В математической статистике используются две основные модели для описания наблюдений. 1. Случайная выборка X = {x1 , . . . , xn } объема n ⩾ 1, где xt ∈ RN , t = = 1, . . . , n, – независимые в совокупности, одинаково распределенные случайные N -векторы-наблюдения с функцией распределения F (x), x ∈ RN (модель, рассмотренная в предыдущих главах). 2. Наблюдения в динамике над одним и тем же объектом, свойства которого изменяются во времени. Адекватной моделью такой ситуации является случайная функция, статистическому анализу которой посвящены последующие главы. Определение 17.1. Случайной функцией называется параметрическое семейство случайных векторов: x = x(t) = x(ω, t) ∈ RN , определенных на одном и том же вероятностном пространстве (Ω, F, P ), ω ∈ Ω, где t ∈ T ⊆ Rm – параметр, изменяющийся на множестве T. В зависимости от значений N и m размерностей пространства наблюдений и пространства значений параметра принята приведенная в табл. 17.1 классификация случайных функций (в скобках приводится пример). Таблица 17.1 Классификация случайных функций Размерность пространства наблюдений, N N =1 N >1 Размерность пространства значений параметра, m m=1 m>1 Cлучайный процесс Cлучайное поле (цена акций [6], рис. 17.1; (экран монитора показатель солнечной в черно-белом активности [5], рис. 17.2) режиме, m = 2) Векторный Векторное случайный процесс случайное поле (несколько отведений (радиационная карта электрокардиограммы, местности с несколькими обычно N = 8) радиоизотопами, m = 2) 402 ГЛАВА 17. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ВРЕМЕННЫХ РЯДОВ Если множество T значений параметра t дискретно (конечно или счетно), то такой случайный процесс обычно называют временным рядом или случайной последовательностью, а одномерный параметр понимают как время. Векторный случайный процесс при этом называют векторным временным рядом. Рис. 17.1. Цена на акции IBM к закрытию биржи, ежедневно с 17 мая 1961 по 2 ноября 1962 г. Рис. 17.2. Данные солнечной активности (число Вольфа) по ежегодным измерениям с 1749 по 1924 г. 17.2. ВРЕМЕННЫЕ РЯДЫ И ИХ ОСНОВНЫЕ ХАРАКТЕРИСТИКИ 403 17.2. ВРЕМЕННЫЕ РЯДЫ И ИХ ОСНОВНЫЕ ХАРАКТЕРИСТИКИ Дадим определение временного ряда и связанных с ним характеристик. Определение 17.2. Под временным рядом (ВР) понимаются упорядоченные во времени статистические наблюдения над одним и тем же объектом в динамике. Другими словами, ВР – это случайная функция x = x(t) = x(ω, t) ∈ R, где t ∈ T ⊆ R – называется временем. Определение 17.3. Отсчетом ВР называется случайное значение x(t) этого ВР в некоторый фиксированный момент времени t ∈ T. Определение 17.4. Реализация ВР – это совокупность всех отсчетов при фиксированном эксперименте ω ∈ Ω: x = x(t) = x(ω, t), t ∈ T, ω = const. Определение 17.5. Совокупность всех реализаций ВР называется ансамблем реализаций: {x = x(t) = x(ω, t), t ∈ T}ω∈Ω . Основные характеристики временного ряда 1. Совместное распределение вероятностей отсчетов. Пусть выбраны n ⩾ 1 отсчетов ВР x(t1 ), . . . , x(tn ) в моменты времени t1 ⩽ t2 ⩽ . . . ⩽ tn , тогда под совместным распределением вероятностей ВР понимается совместное распределение вероятностей отсчетов как случайных величин, однозначно определяемое совместной функцией распределения (y1 , . . . , yn ∈ R): Fn (y1 , . . . , yn ; t1 , . . . , tn ) = P{x(t1 ) < y1 , . . . , x(tn ) < yn }. (17.1) Для того чтобы описать ВР, достаточно определить все возможные совместные распределения вероятностей отсчетов. Если совместное распределение вероятностей отсчетов ВР абсолютно непрерывно, то вместо (17.1) можно использовать совместную плотность распределения: pn (y1 , . . . , yn ; t1 , . . . , tn ). 2. Математическое ожидание ВР: m(t) = E{x(t)}, t ∈ T. (17.2) 3. Дисперсия ВР: D(t) = D{x(t)} = E{(x(t) − m(t))2 }, t ∈ T. (17.3) 4. Ковариационная функция ВР, под которой понимается ковариация двух любых его отсчетов: σ(t1 , t2 ) = cov{x(t1 ), x(t2 )} = = E{(x(t1 ) − m(t1 ))(x(t2 ) − m(t2 ))}, t1 , t2 ∈ T. 5. Корреляционная функция ВР (корреляция отсчетов): σ(t1 , t2 ) ρ(t1 , t2 ) = corr{x(t1 ), x(t2 )} = p . D(t1 )D(t2 ) (17.4) 404 ГЛАВА 17. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ВРЕМЕННЫХ РЯДОВ Свойства ковариационной и корреляционной функций p C1. |σ(t1 , t2 )| ⩽ D(t1 )D(t2 ). C2. |ρ(t1 , t2 )| ⩽ 1. C3. Ковариационная функция является неотрицательно определенной функцией, т. е. для любого n ⩾ 1, для любых y1 , . . . , yn ∈ R и для любых моментов времени n X t1 , . . . , tn ∈ T выполняется σ(ti , tj )yi yj ⩾ 0. i,j=1 Доказательство. Рассмотрим ковариационную (n×n)-матрицу Σ=(σ(ti , tj ))ni,j=1 , образованную ковариациями (17.4). Поскольку любая ковариационная матрица неотриn X цательно определена, то σ(ti , tj )yi yj = y T Σy ⩾ 0, где y = (y1 , . . . , yn )T – произвольная точка в Rn . i,j=1 ¤ 17.3. СТАЦИОНАРНЫЕ ВРЕМЕННЫЕ РЯДЫ. СПЕКТРАЛЬНАЯ ПЛОТНОСТЬ СТАЦИОНАРНОГО В ШИРОКОМ СМЫСЛЕ ВРЕМЕННОГО РЯДА В теории временных рядов важным является понятие стационарности. Определение 17.6. ВР x = x(t), t ∈ T, называется стационарным в узком смысле, если для любых n ⩾ 1 его отсчетов совместная функция распределения вероятностей (17.1) этих отсчетов не зависит от сдвига во времени, т. е. для любого n ⩾ 1, для любых t1 ⩽ t2 ⩽ . . . ⩽ tn ∈ T и для любого τ ∈ T : Fn (y1 , . . . , yn ; t1 , . . . , tn ) = Fn (y1 , . . . , yn ; t1 + τ, . . . , tn + τ). (17.5) Определение 17.7. ВР x = x(t), t ∈ T , называется стационарным в широком смысле, если выполняются следующие условия: 1) отсчеты ВР как случайные величины имеют первый и второй моменты: n¡ ¢2 o |E{x(t)}| < +∞, E x(t) < +∞; 2) математическое ожидание ВР не зависит от времени: m(t) = µ, µ ∈ R, ∀t ∈ T; 3) для ковариационной функции выполняется σ(t1 , t2 ) = σ(t1 + τ, t2 + τ), ∀t1 , t2 ∈ T, ∀τ ∈ T. Установим связь между стационарностью в узком и широком смысле. Теорема 17.1. Пусть ВР x = x(t), t ∈ T, является стационарным в узком смысле и пусть существуют первый и второй моменты отсчетов этого ВР, тогда данный ВР является стационарным в широком смысле. Доказательство. Воспользуемся свойством (17.5) стационарности в узком смысле и запишем математическое ожидание ВР (17.2): Z Z m(t) = ydF1 (y; t) = ydF1 (y; 0) = µ ∈ R, R R что совпадает со вторым условием стационарности в широком смысле. Аналогично рас- 17.3. СТАЦИОНАРНЫЕ ВРЕМЕННЫЕ РЯДЫ 405 сматривается двухмерное распределение вероятностей для получения третьего условия стационарностей в широком смысле. ¤ Отметим, что, как видно из теоремы 17.1, при определенных условиях из стационарности в узком смысле следует и стационарность в широком смысле. Однако из стационарности в широком смысле, вообще говоря, не следует стационарность в узком смысле. На практике известен следующий важный класс ВР – гауссовские (нормальные) ВР, для которых понятия стационарности в узком и широком смысле эквивалентны. Определение 17.8. ВР x = x(t), t ∈ T, называется гауссовским, если любые n ⩾ 1 его отсчетов имеют совместное нормальное распределение, т. е. ∀n ⩾ 1, ∀t1 ⩽ ⩽ t2 ⩽ . . . ⩽ tn ∈ T : pn (y1 , . . . , yn ; t1 , . . . , tn ) = nn (y1 , . . . , yn |M, Σ), где nn (y1 , . . . , yn |M, Σ) – плотность n-мерного нормального распределения c математическим ожиданием M = (m(t1 ), . . . , m(tn ))T ∈ Rn и ковариационной (n × n)матрицей Σ = (σ(ti , tj ))ni,j=1 , вычисленная в точке y = (y1 , . . . , yn )T ∈ Rn . Замечание 17.1. Третье условие стационарности в широком смысле можно записать в другом виде, а именно: σ(t, t + τ) = σ(τ), ∀t, τ ∈ T, либо σ(t1 , t2 ) = = σ(t2 − t1 ), ∀t1 , t2 ∈ T. Доказательство. Положив сдвиг τ = −t1 , получаем σ(t1 , t2 ) = σ(t1 + τ, t2 + τ) = = σ(0, t2 − t1 ). ¤ Таким образом, ковариационная функция для стационарного в широком смысле ВР зависит лишь от одного аргумента – расстояния между отсчетами по времени, называемого лагом, и для нее легко доказать следующие свойства. C1. Ковариационная функция стационарного в широком смысле ВР является четной (симметричной) функцией: σ(τ) = σ(−τ), τ ∈ T. C2. |σ(τ)|⩽σ(0), τ ∈ T, где σ(0) = D(0) – дисперсия ВР, определенная в (17.3). Со стационарностью в широком смысле связана еще одна характеристика – cпектральная плотность ВР. Пусть имеется стационарный в широком смысле ВР x = x(t), t ∈ T. Зафиксируем моменты времени, в которые производятся наблюдения: . . . , t−1 , t0 , t1 , t2 , . . . ∈ T. Будем предполагать, что наблюдения проводятся по времени с одинаковым шагом δ = tj+1 −tj , j ∈ Z, Z = {0, ±1, ±2, . . .}, тогда промежуток времени δ для нас не важен, и время можно заменить последовательностью целых чисел . . . , −1, 0, 1, 2, . . . (t ∈ Z). Исходный ВР x = x(t), t ∈ T, можно в этом случае записать как {xt = x(t)}+∞ t=−∞ . Определение 17.9. Спектральной плотностью f (λ), λ ∈ [−π, π], стационарного в широком смысле ВР {xt }+∞ t=−∞ , имеющего ковариационную функцию σ(τ), τ ∈ Z, называется прямое преобразование Фурье от ковариационной функции (λ ∈ [−π, π]) : f (λ) = +∞ +∞ 1 X 1 X exp(iλτ)σ(τ) = cos(λτ)σ(τ), 2π τ=−∞ 2π τ=−∞ (17.6) при условии, что оно существует (i – мнимая единица). Отметим, что спектральная плотность в виде (17.6) является явным выражением спектральной плотности, определенной в п. 7.7. Для существования спектральной плотности необходимо потребовать выполнения определенных дополнительных условий. Получим эти условия. Оценим спектральную +∞ 1 X плотность (17.6) сверху: f (λ) = |f (λ)| ⩽ |σ(τ)|, λ ∈ [−π, π]. 2π τ=−∞ 406 ГЛАВА 17. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ВРЕМЕННЫХ РЯДОВ Cледовательно, для существования спектральной плотности достаточно выполнения условия +∞ X |σ(τ)| < +∞. (17.7) τ=−∞ Если сходится ряд (17.7), то спектральная плотность f (λ) из (17.6) существует, так как в этом случае она является равномерно сходящимся рядом по λ ∈ [−π, π]. Заметим, что поскольку ковариационная функция является симметрической функ+∞ X цией, то при σ(0) = D(0) < +∞ условие (17.7) эквивалентно условию |σ(τ)| < +∞. τ=1 Используя аппарат математического анализа, можно доказать следующие свойства спектральной плотности. C1. f (λ) ⩾ 0, λ ∈ [−π, π]. C2. f (λ) = f (−λ), λ ∈ [−π, π]. Установим связь между значениями ковариационной функции и спектральной плотности. Очевидно, что ковариационная функция может быть однозначно восстановлена по спектральной плотности обратным преобразованием Фурье. Теорема 17.2. Пусть стационарный в широком смысле ВР имеет спектральную плотность f (λ), λ ∈ [−π, π], тогда его ковариационная функция σ(τ), τ ∈ Z, однозначно восстанавливается по f (·) обратным преобразованием Фурье : Zπ Zπ σ(τ) = exp(−iλτ)f (λ)dλ = cos(λτ)f (λ)dλ, τ ∈ Z. −π −π Доказательство. Очевидно и следует из свойств обратного преобразования Фурье и симметричности спектральной плотности. ¤ Замечание 17.2. Как следует из теоремы 17.2, если спектральная плотность существует, то она находится во взаимно-однозначном соответствии с ковариационной функцией, что говорит об избыточности спектральной плотности в теоретическом плане. Более того, как будет показано в следующей главе, ее статистические оценки проигрывают по свойствам и простоте построения оценкам ковариационной функции. На практике спектральная плотность используется в основном для определения пе2π риода: T ∗ = ∗ , λ∗ = arg max f (λ). λ∈[0,π] λ Величина T ∗ еще называется главным периодом и в некоторых случаях достаточно адекватно характеризует промежуток времени, через который свойства временного ряда «статистически повторяются». Замечание 17.3. Случай одного ВР легко обобщается на случай нескольких ВР. Подходящей математической моделью такой ситуации является векторный ВР x = x(t) = (x̃1 (t), . . . , x̃N (t))T ∈ RN , t ∈ T, где N ⩾ 1 – число компонент векторного ВР : x̃j = x̃j (t), j = 1, . . . , N , – j-я компонента (одномерный ВР). Для векторного ВР по аналогии с одномерным ВР можно определить математическое ожидание: m(t) = E{x(t)} ∈ RN , t ∈ T, и матричную ковариационную функцию: Σ = Σ(t1 , t2 ) = cov{x(t1 ), x(t2 )} = E{(x(t1 ) − m(t1 ))(x(t2 ) − m(t2 ))T }, t1 , t2 ∈ T, являющиеся соответственно N -вектором и (N × N )-матрицей, а также ввести понятие стационарности в широком смысле (аналогично определению 17.7) и определить матричную спектральную плотность (по аналогии с (17.6)). Г л а в а 18 НЕПАРАМЕТРИЧЕСКОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ХАРАКТЕРИСТИК СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ 18.1. ВЫБОРОЧНОЕ СРЕДНЕЕ СТАЦИОНАРНОГО ВРЕМЕННОГО РЯДА И ЕГО СВОЙСТВА Пусть для наблюдений в динамике в качестве математической модели используется стационарный в широком смысле ВР {xt }+∞ t=−∞ . Для данного ВР определены характеристики: а) математическое ожидание µ = E{xt }, t ∈ Z; б) ковариационная функция σ(τ) = E{(xt − µ)(xt+τ − µ)}, t, τ ∈ Z; в) спектральная плотность +∞ f (λ) = 1 X cos(λτ)σ(τ), 2π τ=−∞ λ ∈ [−π, π], которая существует, если +∞ X |σ(τ)| < +∞. (18.1) τ=1 На практике обычно математическое ожидание и ковариационная функция неизвестны, а для ВР {xt }+∞ t=−∞ наблюдается его реализация X = {x1 , . . . , xT } длительности T ⩾ 1, по которой необходимо оценить математическое ожидание, ковариационную функцию и спектральную плотность. Оценим сначала математическое ожидание. Определение 18.1. Выборочным средним для ВР{xt }+∞ t=−∞ , вычисленным по реализации X = {x1 , . . . , xT } длительности T ⩾ 1, называется статистика T x= 1X xt . T t=1 (18.2) Теорема 18.1. Пусть {xt }+∞ t=−∞ – стационарный ВР с математическим ожиданием µ = E {xt }, t ∈ Z, тогда выборочное среднее (18.2) является несмещенной оценкой для µ : E{x} = µ. Если ВР {xt }+∞ t=−∞ является стационарным в широком смысле, то для дисперсии выборочного среднего (18.2) справедливо соотношение: µ ¶ T −1 1 X |τ| D{x} = 1− σ(τ), (18.3) T T τ=−(T −1) 408 ГЛАВА 18. НЕПАРАМЕТРИЧЕСКОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ где σ(τ) – ковариационная функция. Если вдобавок к стационарности в широком смысле сходится ряд (18.1), то выборочное среднее (18.2) является состоятельной в среднеквадратическом оценкой для µ : E{(x − µ)2 } → 0, T → +∞, и для его дисперсии справедливо асимптотическое соотношение : lim (T D{x}) = T →+∞ +∞ X σ(τ). (18.4) τ=−∞ Доказательство. Докажем несмещенность оценки (18.2): ( ) T 1X 1 E{x} = E xt = T µ = µ. T t=1 T Для стационарного в широком смысле ВР существуют моменты первого и второго порядков. С учетом доказанной несмещенности вычислим дисперсию x: ( ) T T 1 X 1 X 2 (xt − µ) (xt − µ) = D{x} = E{(x − µ) } = E T t =1 1 T t =1 2 1 = 2 T T 1 X 1 X E{(x σ(t1 − t2 ) = − µ)(x − µ)} = t t 1 2 T 2 t ,t =1 T 2 t ,t =1 1 2 1 2 à ! T −1 X 1 = 2 T σ(0) + 2 σ(τ)(T − τ) . T τ=1 Учтено, что значение ковариационной функции σ(t1 − t2 ) = σ(t2 − t1 ), t1 6= t2 , в ковариационной (T × T )-матрице Σ = (σ(t1 − t2 ))Tt1 ,t2 =1 встречается 2(T − |t1 − t2 |) раз, а значение σ(0) (при t1 = t2 ) – T раз. Далее, воспользовавшись симметричностью ковариационной функции, получаем соотношение (18.3). Пусть теперь ряд (18.1) сходится, тогда в силу несмещенности x для состоятельности в среднеквадратическом достаточно показать, что дисперсия D{x} → 0, T → +∞. Оценим D{x} сверху: ¯ ¯ T −1 1 X ¯¯ |τ| ¯¯ 1 − |σ(τ)| ⩽ D{x} = |D{x}| ⩽ ¯ T T ¯ τ=−(T −1) ⩽ 1 T T −1 X |σ(τ)| → 0, T → +∞. τ=−(T −1) Для доказательства (18.4) оценим разность: ¯ ¯ +∞ ¯ ¯ X ¯ ¯ σ(τ)¯ = ¯T D{x} − ¯ ¯ τ=−∞ ¯ ¯ ¯X ¯ µ ¶ T −1 X ¯ +∞ ¯ |τ| ¯ σ(τ) − 1− =¯ σ(τ)¯¯ = T ¯τ=−∞ ¯ τ=−(T −1) 409 18.2. ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ ФУНКЦИЯ ¯ ¯ ¯ ¯ T −1 T −1 X +∞ ¯ ¯ X X 2 ¯¯ X 2 ¯¯X ¯ ¯ σ(τ) + σ(τ) + = ¯T τσ(τ)¯ = ¯ σ(τ)¯ ⩽ ¯ T ¯ ¯ T ¯ τ⩾T τ=1 s=1 τ=s+1 τ⩾1 à ! T −1 X +∞ X 2 X ⩽ |σ(τ)| + |σ(τ)| → 0, T → +∞. T τ⩾1 s=1 τ=s+1 Справедливость последнего соотношения следует из сходимости ряда (18.1), в силу которой можно записать: ∃M < +∞ : +∞ X |σ(τ)| < M, ∀ l ⩾ 1; τ=l ∀² > 0, ∃T² : +∞ X ² , T > T² , 4 |σ(τ)| < τ=T откуда ∀T > T² : 2 T 2 = T à X τ⩾1 à X |σ(τ)| + ! |σ(τ)| = s=1 τ=s+1 τ⩾1 |σ(τ)| + T −1 X +∞ X TX +∞ ² −1 X s=1 τ=s+1 µ <2 T −1 X +∞ X |σ(τ)| + ! |σ(τ)| < s=T² τ=s+1 ¶ T² M ² + , T 4 и при T > T̃² , T̃² = max{T² , 4T² M/²}: ! à T −1 X +∞ X 2 X |σ(τ)| + |σ(τ)| < ². T τ⩾1 s=1 τ=s+1 ¤ Следствие 18.1. В условиях теоремы 18.1, если выполняется (18.1), то выборочное среднее (18.2) является состоятельной оценкой для математического ожидания µ: P x → µ, T → +∞. 18.2. ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ ФУНКЦИЯ СТАЦИОНАРНОГО В ШИРОКОМ СМЫСЛЕ ВРЕМЕННОГО РЯДА И ЕЕ СВОЙСТВА Рассмотрим стационарный в широком смысле временной ряд {xt }+∞ t=−∞ . Для данного ВР существуют математическое ожидание µ = E{xt }, t ∈ Z, и ковариационная функция σ(τ) = E{(xt − µ)(xt+τ − µ)}, t, τ ∈ Z. Определение 18.2. Выборочной ковариационной функцией для ВР{xt }+∞ t=−∞ , вычисленной по реализации X = {x1 , . . . , xT } длительности T ⩾ 1, в случае известного математического ожидания µ называется следующая статистика (τ ∈ {0, 1, . . . , T − 1}) : T −τ 1 X cτ = (xt − µ)(xt+τ − µ), T − τ t=1 c−τ = cτ . (18.5) 410 ГЛАВА 18. НЕПАРАМЕТРИЧЕСКОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ Определение 18.3. Выборочной ковариационной функцией для ВР {xt }+∞ t=−∞ по реализации X = {x1 , . . . , xT } длительности T ⩾ 1 при неизвестном математическом ожидании µ называется статистика (τ ∈ {0, 1, . . . , T − 1}) c∗τ = T −τ 1 X (xt − x)(xt+τ − x), T − τ t=1 c∗−τ = c∗τ . (18.6) Исследуем свойства выборочной ковариационной функции (18.5). Это можно сделать и в общем случае для всех стационарных в широком смысле ВР, однако достаточно простыми аналитическими характеристиками она обладает только для гауссовских ВР. Теорема 18.2. Пусть {xt }+∞ t=−∞ – стационарный гауссовский ВР с математическим ожиданием µ = E{xt } и ковариационной функцией σ(τ) = E{(xt − µ)(xt+τ − µ)} (t, τ ∈ Z), тогда выборочная ковариационная функция cτ из (18.5) является несмещенной оценкой для σ(τ) : E{cτ } = σ(τ), τ ∈ {0, 1, . . . , T − 1}, и справедливы следующие соотношения (h, g ∈ {0, 1, . . . , T − 1}) : cov{ch , cg } = T −h T −g 1 X X¡ 1 σ(t1 − t2 )σ(t1 − t2 + h − g)+ T − h T − g t =1 t =1 1 2 ¢ +σ(t1 − t2 + h)σ(t1 − t2 − g) ; (18.7) µ ¶ TX −h−1 1 |τ| 1− × T −h T −h τ=−(T −h−1) ¡ ¢ × σ2 (τ) + σ(τ − h)σ(τ + h) . (18.8) D{ch } = Если сходится ряд (18.1), то выборочная ковариационная функция (18.5) является состоятельной в среднеквадратическом оценкой для σ(·), и для ее дисперсии справедливо асимптотическое соотношение : lim (T D{ch }) = T →+∞ +∞ X ¡ ¢ σ2 (τ) + σ(τ − h)σ(τ + h) . (18.9) τ=−∞ Доказательство. Докажем несмещенность (τ ∈ {0, 1, . . . , T − 1}): ( ) T −τ 1 X E{cτ } = E (xt − µ)(xt+τ − µ) = T − τ t=1 1 (T − τ)cov{xt , xt+τ } = σ(τ). T −τ Вычислим ковариацию ch и cg (h, g ∈ {0, 1, . . . , T − 1}): = cov{ch , cg } = E{ch cg } − E{ch }E{cg } = ( =E ) T −g T −h 1 X 1 X (xt − µ)(xt1 +h − µ) (xt − µ)(xt2 +g − µ) − σ(h)σ(g) = T − h t =1 1 T − g t =1 2 1 2 18.2. ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ ФУНКЦИЯ = 411 T −h T −g ¢ 1 1 X X¡ E{(xt1 − µ)(xt1 +h − µ)(xt2 − µ)(xt2 +g − µ)} − σ(h)σ(g) = T − h T − g t =1 t =1 1 = 2 T −g T −h X X ¡ ¢ 1 1 σ(t1 −t2 )σ(t1 −t2 + h − g)+σ(t1 −t2 + h)σ(t1 −t2 − g) . T − h T − g t =1 t =1 1 2 Выше использовано следующее известное свойство: пусть случайные величины ξ1 , ξ2 , ξ3 и ξ4 имеют совместное нормальное распределение, тогда E{(ξ1 − E{ξ1 })(ξ2 − E{ξ2 })(ξ3 − E{ξ3 })(ξ4 − E{ξ4 })} = = cov{ξ1 , ξ2 }cov{ξ3 , ξ4 } + cov{ξ1 , ξ3 }cov{ξ2 , ξ4 }+ +cov{ξ1 , ξ4 }cov{ξ2 , ξ3 }. Положив в (18.7) g = h, получаем (18.8). Пусть теперь ряд (18.1) сходится, тогда, поскольку оценка несмещенная, для состоятельности в среднеквадратическом достаточно показать, что дисперсия сходится к нулю. Заметим, что сходимость ряда (18.1) влечет сходимость ряда +∞ X ¡ ¢2 σ(τ) < +∞. τ=1 ¯ ¯ à ! 12 N N N ¯X ¯ X X ¯ ¯ Используя неравенство Коши – Шварца – Буняковского ¯ ai bi ¯ ⩽ a2i b2j , ¯ ¯ i=1 i=1 j=1 оценим дисперсию сверху: D{ch } ⩽ +∞ X ¡ ¢2 1 b σ(τ) → 0, T → +∞, b = const. T − h τ=1 Доказательство соотношения (18.9) аналогично доказательству соотношения (18.4) из теоремы 18.1. ¤ Замечание 18.1. Из результатов теоремы (выражение (18.8)) видно, что точность оценивания ковариационной функции σ(h) «падает» с увеличением лага h. Это связано с уменьшением числа слагаемых в (18.5). Хуже всего, если значение h приближается к T − 1. Замечание 18.2. Для оценки (18.6) можно получить похожие результаты. В этом случае c∗h , h ∈ {0, 1, . . . , T − 1}, будет асимптотически несмещенной и состоятельной. Замечание 18.3. Для состоятельности в среднеквадратическом выборочных среднего и ковариационной функции требовалась сходимость ряда (18.6), необходимым (но не достаточным!) условием которой является: σ(τ) → 0, τ → +∞. Иными словами, ковариационная функция σ(τ) (корреляционная функция ρ(τ) = = σ(τ)/σ(0)) «затухает» с ростом лага τ. Это условие используют на практике как эмпирическое правило для выявления временных рядов, подозрительных на стационарность. Для таких ВР выборочная ковариационная (корреляционная) функция должна «затухать». На рис. 18.1 и 18.2 приведены выборочные корреляционные функции для ВР, изображенных соответственно на рис. 17.1 и 17.2. Видно, что данные солнечной активности могут оказаться стационарными, чего нельзя сказать о цене акций IBM. 412 ГЛАВА 18. НЕПАРАМЕТРИЧЕСКОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ Рис. 18.1. Выборочная корреляционная функция для цены акций IBM Рис. 18.2. Выборочная корреляционная функция для данных солнечной активности 18.3. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ СПЕКТРАЛЬНОЙ ПЛОТНОСТИ 413 18.3. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ СПЕКТРАЛЬНОЙ ПЛОТНОСТИ Пусть для стационарного в широком смысле ВР {xt }+∞ t=−∞ существует спектральная плотность f (λ), λ ∈ [−π, π]. Рассмотрим задачу оценивания спектральной плотности f (·) по реализации X = {x1 , . . . , xT } длительности T ⩾ 1. Введем вспомогательные статистики (λ ∈ [−π, π]): T A(λ) = 2X (xt − µ) cos(λt), T t=1 A∗ (λ) = 2X (xt − x) cos(λt), T t=1 T B(λ) = 2X (xt − µ) sin(λt); T t=1 T T B ∗ (λ) = 2X (xt − x) sin(λt), T t=1 T 1X где x = xt – выборочное среднее. T t=1 Определение 18.4. Спектрограммой называется следующая статистика, определенная на реализации X = {x1 , . . . , xT } длительности T ⩾ 1 (λ ∈ [−π, π]) : R2 (λ) = A2 (λ) + B 2 (λ) – в случае известного математического ожидания µ; 2 2 2 R∗ (λ) = A∗ (λ) + B ∗ (λ) – в случае неизвестного математического ожидания µ. Определение 18.5. Выборочной спектральной плотностью для ВР {xt }+∞ t=−∞ , вычисленной по реализации X = {x1 , . . . , xT } длительности T ⩾ 1, называется статистика (λ ∈ [−π, π]) : T 2 I(λ) = R (λ) – 8π в случае известного математического ожидания µ; T ∗2 R (λ) – 8π в случае неизвестного математического ожидания µ. Замечание 18.4. На практике λ ∈ [−π, π] как аргумент спектральной плотности f (λ) не может меняться непрерывно. Обычно рассматривают сетку: I ∗ (λ) = λ= 2πj , T T j = 0, ±1, . . . , ± . 2 В узлах этой сетки выполняется: 2 A(λ) = A∗ (λ), B(λ) = B ∗ (λ), R2 (λ) = R∗ (λ). Замечание 18.5. Коэффициенты A(λ), A∗ (λ), спектрограмма и выборочная спектральная плотность – четные функции, а коэффициенты B(λ), B ∗ (λ) – нечетные. Теорема 18.3. Пусть через c̃τ , τ ∈ {0, 1, . . . , T − 1}, обозначены специальным образом отнормированные значения выборочной ковариационной функции (18.5): µ ¶ |τ| c̃τ = c̃−τ = 1 − cτ , T 414 ГЛАВА 18. НЕПАРАМЕТРИЧЕСКОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ тогда для выборочной спектральной плотности справедливо представление 1 2π I(λ) = T −1 X c̃τ cos(λτ), λ ∈ [−π, π], (18.10) τ=−(T −1) и по ней можно однозначно восстановить выборочную ковариационную функцию (τ ∈ {0, 1, . . . , T − 1}) : Zπ c̃τ = c̃−τ = cos(λτ)I(λ)dλ. (18.11) −π Доказательство. Справедливость соотношения (18.11) очевидна и следует из взаимосвязи прямого и обратного преобразований Фурье. Получим выражение (18.10) для выборочной спектральной плотности: I(λ) = T 2 T R (λ) = (A2 (λ) + B 2 (λ)) = 8π 8π T T T 4 X X (xt − µ)(xt2 − µ) cos(λt1 ) cos(λt2 ) + = 8π T 2 t =1 t =1 1 1 + T T X X 2 (xt1 − µ)(xt2 − µ) sin(λt1 ) sin(λt2 ) = t1 =1 t2 =1 T = T 1 XX (xt − µ)(xt2 − µ) cos(λ(t1 − t2 )) = 2πT t =1 t =1 1 1 = 1 2πT 2 T −1 X X (xt − µ)(xt+τ − µ) cos(λτ), τ=−(T −1) t∈Sτ © ª где Sτ = {1, . . . , T − τ}, τ ⩾ 0; {1 − τ, . . . , T }, τ < 0 . Учитывая, что мощность множества Sτ равна T − |τ|, получаем требуемое. ¤ Замечание 18.6. В случае неизвестного математического ожидания µ результаты аналогичны. Исследуем свойства выборочной спектральной плотности. Теорема 18.4. Пусть {xt }+∞ t=−∞ – стационарный гауссовский ВР, имеющий непрерывную спектральную плотность, т. е. f (λ) непрерывна по λ ∈ [−π, π], тогда выборочная спектральная плотность (18.10) является асимптотически несмещенной: E{I(λ)} → f (λ), λ ∈ [−π, π], T → +∞, но несостоятельной оценкой спектральной плотности: ( 2 E{(I(λ) − f (λ)) } → 2f 2 (λ), λ = 0, ± π; f 2 (λ), λ 6= 0, ± π; T → +∞, λ ∈ [−π, π]. 18.3. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ СПЕКТРАЛЬНОЙ ПЛОТНОСТИ Доказательство можно найти в [5]. 415 ¤ На практике, чтобы избежать несостоятельности оценки спектральной плотности, используют так называемую сглаженную спектральную плотность [5] 1 fˆ(λ) = 2π T −1 X ω̃τ c̃τ cos(λτ), λ ∈ [−π, π], (18.12) τ=−(T −1) где {ω̃τ } – специальным образом подобранные веса. Из определения спектральной плотности: +∞ f (λ) = 1 X cos(λτ)σ(τ), λ ∈ [−π, π], 2π τ=−∞ видно, что можно было сразу записать сглаженную (взвешенную) оценку спектральной плотности как T −1 X 1 fˆ(λ) = ωτ cτ cos(λτ), λ ∈ [−π, π], 2π τ=−(T −1) ¶ µ |τ| где веса {ωτ } связаны с весами {ω̃τ } соотношением ωτ = ω̃τ 1 − . T Рассмотрим некоторые часто используемые на практике способы задания весов в (18.12). 1. ω̃τ = 1, ∀τ, тогда fˆ(λ) = I(λ) – обычная выборочная спектральная плотность. 2. «Усеченная» выборочная спектральная плотность(k < T – параметр «усечения»): ( 1, |τ| ⩽ k; ω̃τ = 0, |τ| > k. 3. Семейство оценок Парзена (q = 1; 2; . . .): ( 1 − ( kτ )q , |τ| ⩽ k; ω̃τ = 0, |τ| > k. В частности, при q = 1 имеем оценку Бартлетта, а при q = 2 – собственно оценку Парзена. Для асимптотической несмещенности и состоятельности взвешенной оценки спектральной плотности на практике требуется непрерывность спектральной плотности и выполнение асимптотики [5] k → 0. T Замечание 18.7. Выше и в теореме 18.4 требуется, чтобы спектральная плотность f (λ) была непрерывна по λ, но ее непрерывность следует, в частности, из сходимости ряда (18.1). На рис. 18.3 построена оценка Бартлетта спектральной плотности по данным солнечной активности, приведенным на рис. 17.2. Для удобства на оси абсцисс помещены 2π , по которым согласно не значения аргумента λ спектральной плотности, а величины λ замечанию 17.2 к п. 17.3 легко оценить период. Видно, что оценка периода солнечной активности составляет приблизительно 11 лет. T → +∞, k = k(T ) → +∞, 416 ГЛАВА 18. НЕПАРАМЕТРИЧЕСКОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ Рис. 18.3. Оценка спектральной плотности для данных солнечной активности 18.4. УПРАЖНЕНИЯ 1. Показать, что в условиях теоремы 18.1 для дисперсии выборочного среднего x̄ = T 1X = xt выполняется T t=1 lim T D{x̄} = T →+∞ +∞ X σ(τ) = 2πf (0), τ=−∞ где σ(·) и f (·) – ковариационная функция и спектральная плотность соответственно. 2. Строго обосновать утверждения, сделанные относительно спектрограммы и выборочной спектральной плотности в замечаниях 18.4 и 18.5. 3. Доказать теорему 18.4 о свойствах выборочной спектральной плотности, а также установить, указанные в п. 18.3, асимптотические свойства взвешенных оценок спектральной плотности. Г л а в а 19 ПАРАМЕТРИЧЕСКИЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ 19.1. ВРЕМЕННЫЕ РЯДЫ АВТОРЕГРЕССИИ, СКОЛЬЗЯЩЕГО СРЕДНЕГО, АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО: УСЛОВИЯ СТАЦИОНАРНОСТИ И КОВАРИАЦИОННЫЕ ФУНКЦИИ, ЕДИНОЕ ЛИНЕЙНОЕ ПРЕДСТАВЛЕНИЕ Прежде чем дать определения, сформулируем условие (У), которое будет использоваться на протяжении всей главы. У. Пусть {ut }+∞ t=−∞ – последовательность случайных величин, имеющих нулевое математическое ожидание и одинаковую ограниченную дисперсию: E{ut } = 0, D{ut } = σ2 < +∞, t ∈ Z, и пусть выполняется одно из следующих дополнительных условий. У 1. Случайные величины {ut }+∞ t=−∞ некоррелированы: E{ut ul } = δtl σ2 , t, l ∈ Z. У 2. Случайные величины {ut }+∞ t=−∞ независимы в совокупности и одинаково распре- делены. У 3. Случайные величины {ut }+∞ t=−∞ некоррелированы и имеют нормальное распределение N1 (0, σ2 ). Определение 19.1. ВР {xt }+∞ t=−∞ называется временным рядом авторегрессии порядка p (AP(p)), если β0 xt + β1 xt−1 + . . . + βp xt−p = ut , где β0 = 1, β1 , . . . , βp – коэффициенты авторегрессии, βp 6= 0. Определение 19.2. ВР {xt }+∞ t=−∞ называется временным рядом скользящего среднего порядка q (СС(q)), если xt = α0 ut + α1 ut−1 + . . . + αq ut−q , где α0 = 1, α1 , . . . , αq – коэффициенты скользящего среднего, αq 6= 0. Определение 19.3. ВР {xt }+∞ t=−∞ называется временным рядом авторегрессии p q X X и скользящего среднего порядков p и q (АРСС(p,q)), если βj xt−j = αi ut−i , j=0 i=0 где α0 = β0 = 1, α1 , . . . , αq , β1 , . . . , βp – коэффициенты, αq , βp 6= 0. Очевидно, что модель АРСС(p,q) обобщает модели АР(p) (при q = 0) и СС(q) (при p = 0). Убедимся, что условие α0 = β0 = 1 не сужает модель. Пусть в модели АРСС(p,q) β0 6= 1, тогда введем в рассмотрение новые коэффициенты: αi βj , j = 0, . . . , p; α̃i = , i = 0, . . . , q. β̃j = β0 β0 Если α̃0 6= 1, то продолжаем: α̃i α̃˜i = , i = 0, . . . , q; ũt = α̃0 ut . α̃0 418 ГЛАВА 19. ПАРАМЕТРИЧЕСКИЙ АНАЛИЗ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ В итоге получим следующую модель: p X β̃j xt−j = j=0 q X α̃˜i ũt−i , в которой α˜˜0 = 1, i=0 β̃0 = 1, α̃˜q 6= 0, β̃p 6= 0, D{ũt } = (α̃0 )2 σ2 < +∞, но это модель АРСС(p,q) по определению. Приведем все три модели, АР(p), СС(q) и АРСС(p,q), к общему виду. Начнем с АР(p): xt = −β1 xt−1 − β2 xt−2 − . . . − βp xt−p + ut . Вместо xt−1 подставим его выражение через эту модель: xt−1 = −β1 xt−1−1 − β2 xt−1−2 − . . . − βp xt−1−p + ut−1 , затем подставим xt− 2 и т. д., в результате получим xt = +∞ X δj ut−j , где δ0 = 1, j=0 p а остальные {δj }+∞ j=1 выражаются через {βi }i=1 . В случае модели СС(q) уже имеем данное представление, положив δj = {αj , j = = 0, . . . , q; 0, j > q}. Для модели АРСС(p,q) получим то же представление, только коэффициенты {δj }+∞ j=1 будут выражаться через коэффициенты {βi }pi=1 и {αl }ql=1 . Обобщим данную модель следующим ВР: xt = µ + +∞ X γj ut−j , (19.1) j=−∞ +∞ где |µ| < +∞, {ut }+∞ t=−∞ удовлетворяют условию У, а {γj }j=−∞ – коэффициенты. +∞ Исследуем свойства ВР {xt }t=−∞ , задаваемого соотношением (19.1). Теорема 19.1. Пусть сходится ряд +∞ X γ2j < +∞, (19.2) j=−∞ тогда если выполняется У1, то ряд из правой части (19.1) сходится в среднеквадратическом смысле, а сам ВР {xt }+∞ t=−∞ является стационарным в широком смысле с математическим ожиданием E{xt } = µ, t ∈ Z, ковариационной функцией 2 σ(τ) = E{(xt − µ)(xt+τ − µ)} = σ +∞ X γj γj+τ , τ ∈ Z, j=−∞ и дисперсией D{xt } = σ(0) = σ2 +∞ X γ2j < +∞, t ∈ Z. j=−∞ Доказательство. Докажем среднеквадратическую сходимость ряда (19.1). Не ограничивая общности, считаем µ = 0: (à !2 ) (Ã−m−1 !2 ) n +∞ X X X ∆m,n = E xt − =E γj ut−j γi ut−i + γj ut−j = j=−m i=−∞ j=n+1 419 19.1. АВТОРЕГРЕССИЯ И СКОЛЬЗЯЩЕЕ СРЕДНЕЕ =E (Ã−m−1 X !2 ) γi ut−i !2 ) (à +∞ X +E γj ut−j = i=−∞ = σ2 −m−1 X j=n+1 γ2i + σ2 i=−∞ +∞ X γ2j → 0, n → +∞, m → +∞. j=n+1 Вычислим ковариационную функцию: ( +∞ ) +∞ +∞ X X X σ(τ) = cov{xt , xt+τ } = E γj ut−j γi ut+τ−i = σ2 γj γj+τ . j=−∞ i=−∞ j=−∞ Полученное выражение для ковариационной функции не зависит от t, а только от лага τ. Выражение для дисперсии получается из последнего соотношения при τ = 0: D{xt } = cov{xt , xt } = σ(0) = σ +∞ X 2 γ2j < +∞. j=−∞ ¤ Следствие 19.1. Если в условиях теоремы 19.1 условие У1 заменить на У2 или У3, то помимо стационарности в широком смысле для ВР {xt }+∞ −∞ из (19.1) будет иметь место также и стационарность в узком смысле [5]. Следствие 19.2. В условиях теоремы 19.1 вместо сходимости ряда (19.2) можно потребовать сходимость ряда +∞ X |γj | < +∞. (19.3) j=−∞ Следствие 19.3. Для СС(q) о стационарности в широком смысле можно говорить, если все |αj | < +∞, j = 0, . . . , q, и выполнены остальные условия теоремы 19.1, ряд (19.2) при этом представляет собой конечную сумму и заведомо сходится. Следствие 19.4. Для того чтобы временные ряды АР(p) или АРСС(p,q) были стационарными в широком либо в узком смысле в условиях теоремы 19.1 либо следствия 19.1 к ней вместо сходимости ряда (19.2) достаточно потребовать выполнения следующего условия [5, 6]. Корни характеристического уравнения p X βj z p−j = 0 (19.4) j=0 должны лежать внутри единичного круга: |z| < 1. Найдем ковариационные функции для всех трех моделей. 1. АР(p): p X βj xt−j = ut . j=0 Домножим левую и правую части на xt−τ , τ ⩾ 0, и вычислим математическое ожида+∞ X ние. При умножении правой части воспользуемся тем, что xt−τ = δj ut−τ−j и случайj=0 ные величины {ut }+∞ t=−∞ некоррелированы, получим: p X j=0 βj σ(τ − j) = 0, τ ⩾ 1; 420 ГЛАВА 19. ПАРАМЕТРИЧЕСКИЙ АНАЛИЗ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ p X βj σ(j) = σ2 , τ = 0. (19.5) j=0 Соотношения (19.5) – система линейных алгебраических уравнений (СЛАУ), которую можно решать как относительно {βj }, так и относительно {σ(j)}. Эта система называется системой уравнений Юла – Уокера (Yule – Walker). 2. CC(q): q−τ +∞ X X αj αj+τ . σ(τ) = cov{xt , xt+τ } = σ2 γj γj+τ = σ2 j=0 j=−∞ 3. АРCC(p,q). Ковариационная функция σ(τ) определяется уравнениями Юла – Уокера (19.5), если значение лага τ ⩾ q + 1 − p, и при этом не надо знать коэффициенты скользящего среднего. Если τ < q + 1 − p, то в этом случае для ее вычисления получены рекуррентные формулы [5]. 19.2. АСИМПТОТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ВЫБОРОЧНОГО СРЕДНЕГО И ВЫБОРОЧНОЙ КОВАРИАЦИОННОЙ ФУНКЦИИ СТАЦИОНАРНОГО ВРЕМЕННОГО РЯДА Будем рассматривать общую линейную модель (19.1): xt = µ + +∞ X γj ut−j , j=−∞ +∞ где на случайные величины {ut }+∞ t=−∞ и коэффициенты {γj }j=−∞ необходимо наложить дополнительные условия, чтобы ВР (19.1) был стационарным в широком смысле. ВР (19.1) характеризуется математическим ожиданием E{xt } = µ, t ∈ Z, и ковариационной функцией σ(τ) = E{(xt − µ)(xt+τ − µ)}, τ ∈ Z. На реализации X = {x1 , . . . , xT } длительности T ⩾ 1 в качестве их статистических оценок в предыдущей главе были соответственно определены выборочное среднее (18.2): T x= 1X xt , T t=1 и выборочная ковариационная функция (18.5): cτ = c−τ = T −τ 1 X (xt − µ)(xt+τ − µ), τ ∈ {0, 1, . . . , T − 1}. T − τ t=1 Если µ неизвестно, то оно заменяется на x, и используется c∗τ = cτ |µ:=x . Для выборочных среднего и ковариационной функции в условиях модели (19.1) получены следующие асимптотические результаты [5]. 421 19.3. ОЦЕНИВАНИЕ ПАРАМЕТРОВ АВТОРЕГРЕССИИ Теорема 19.2. Пусть ВР (19.1) удовлетворяет условию У2 и сходится ряд (19.3): +∞ X |γj | < +∞, j=−∞ тогда при T → ∞ выборочное среднее x асимптотически нормально распределено: n√ o L T (x − µ) → N1 (0, D2 ), где D2 = +∞ X σ(τ) = σ2 τ=−∞ à +∞ X !2 γj . j=−∞ Доказательство непосредственно следует из представления (19.1), центральной предельной теоремы и результатов теорем 18.1, 19.1. ¤ Теорема 19.3. Пусть в условиях теоремы 19.2 для последовательности {ut }+∞ t=−∞ существует 4-й момент: E{u4t } = 3σ4 + κ4 < +∞, тогда случайные величины в последовательности √ √ √ T (c0 − σ(0)), T (c1 − σ(1)), . . . , T (ch − σ(h)), . . . имеют при T → ∞ нормальное распределение со следующими ковариациями (h, g ⩾ 0): T cov{ch , cg } → +∞ X ¡ σ(τ + h)σ(τ + g) + τ=−∞ ¢ κ4 + σ(τ − h)σ(τ + g) + 4 σ(h)σ(g). σ Доказательство приведено в [5]. (19.6) ¤ Замечание 19.1. Если вместо условия У2 потребовать выполнения условия У3, то в соотношении (19.6) κ4 = 0, и результат совпадает с полученным ранее в п. 18.2. Замечание 19.2. Если µ неизвестно, то для оценки ковариационной функции c∗τ из (18.6) остается справедливым результат теоремы 19.3. 19.3. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ АВТОРЕГРЕССИОННЫХ ВРЕМЕННЫХ РЯДОВ ПРИ ИЗВЕСТНОМ ПОРЯДКЕ АВТОРЕГРЕССИИ Пусть имеется временной ряд АР(p) {xt }+∞ t=−∞ : xt + β1 xt−1 + . . . + βp xt−p = ut , (19.7) где относительно {ut }+∞ t=−∞ и параметров β1 , . . . , βp предполагается выполнение какихлибо условий, обеспечивающих стационарность ВР (19.7) в широком смысле. В частности, это могут быть условия У на случайные величины {ut }+∞ t=−∞ и требование относительно корней характеристического уравнения (19.4) (они должны лежать внутри единичного круга). 422 ГЛАВА 19. ПАРАМЕТРИЧЕСКИЙ АНАЛИЗ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Пусть коэффициенты АР(p) β1 , . . . , βp неизвестны и неизвестна дисперсия σ2 = = D{ut } в условиях У. Необходимо по реализации X = {x1 , . . . , xT } длительности T ⩾ 1 временного ряда (19.7) построить статистические оценки β̂1 , . . . , β̂p и σ̂2 . Рассмотрим несколько способов оценивания неизвестных параметров в модели АР(p). 19.3.1. Оценки Юла – Уокера Для временного ряда АР(p) в п. 19.1 была получена система уравнений Юла – Уокера (19.5), которые связывают коэффициенты β1 , . . . , βp , дисперсию σ2 и ковариационную функцию σ(τ). Воспользуемся тем, что математическое ожидание данного ВР равно нулю (E{xt } = 0), и в (19.5) заменим ковариационную функцию σ(τ) на ее статистическую оценку: T −τ 1 X cτ = c−τ = xt xt+τ , τ ∈ {0, 1, . . . , T − 1}. T − τ t=1 Предположим, что β1 , . . . , βp уже оценены, т. е. найдены β̂1 , . . . , β̂p (β̂0 := 1). Тогда из (19.5) при τ = 0 получим оценку дисперсии σ̂2 : σ̂2 = p X β̂j cj . (19.8) j=0 Осталось найти β̂1 , . . . , β̂p . Для этого достаточно p уравнений Юла – Уокера, где τ 6= 0: p X β̂j cτ−j = 0, τ = 1, . . . , p. (19.9) j=0 Запишем (19.9) в матричном виде с учетом того, что ch = c−h , h ⩾ 0. Введем в рассмотрение p-вектор: c = (c1 , . . . , cp )T ∈ Rp , и оценку ковариационной матрицы: c0 c1 ¡ ¢p C = c|i−j| i,j=1 = ... c1 c0 .. . . . . cp−1 . . . cp−2 . . .. . .. cp−1 cp−2 . . . c0 Тогда (19.9) можно переписать в виде c+C β̂ = 0p , β̂ = (β̂1 , . . . , β̂p )T , откуда находим β̂ = −C −1 c. (19.10) Используя (19.10), перепишем также оценку для дисперсии (19.8): σ̂2 = c0 + β̂T c = c0 − cT C −1 c. (19.11) Соотношения (19.10), (19.11) являются оценками Юла – Уокера в матричном виде, и если не накладываются дополнительные условия, то эти оценки обладают свойствами оценок по методу моментов (см. п. 11.6). Замечание 19.3. Если в уравнениях из (19.9) разделить обе части на c0 , то получим p X j=0 β̂j ρ̂τ−j = 0, τ = 1, . . . , p, 19.3. ОЦЕНИВАНИЕ ПАРАМЕТРОВ АВТОРЕГРЕССИИ 423 где ρ̂h = ch /c0 – оценка корреляционной функции ρh = σ(h)/σ(0). Обозначив через ρ̂ = (ρ̂1 , . . . , ρ̂p )T ∈ Rp ; ¡ ¢p R = ρ̂|i−j| i,j=1 , имеем эквивалентную запись для (19.10) β̂ = −R−1 ρ̂, и оценки дисперсии (19.11): σ̂2 = c0 + β̂T c = c0 − ρ̂T R−1 c = c0 (1 − ρ̂T R−1 ρ̂). 19.3.2. Оценки максимального правдоподобия и их связь с МНК-оценками Пусть выполняется условие У3, и корни уравнения (19.4) лежат внутри единичного круга, тогда временной ряд АР(p) из (19.7) является стационарным в широком смысле. Рассмотрим реализацию X = (x1 , . . . , xT )T ∈ RT длительности T ⩾ 1. Воспользуемся тем, что в условиях У3 вектор X имеет T -мерное нормальное распределение вероят¡ ¢T ностей с плотностью p(X) = nT (X|0T , ΣT,T ), где ΣT,T = σ|i−j| i,j=1 – ковариационная (T ×T )-матрица, однозначно определяемая ковариационной функцией σ(τ), τ ⩾ 0. В свою очередь, согласно уравнениям Юла – Уокера (19.5) σ(τ) зависит от β = (β1 , . . . , βp )T и σ2 , поэтому ΣT,T = ΣT,T (β, σ2 ). Воспользуемся методом максимального правдоподобия (ММП) и определим статистические оценки β̂, σ̂2 для β и σ2 . Экстремальная задача по нахождению оценок максимального правдоподобия (ОМП, МП-оценок) в данном случае имеет вид ¡ ¢ {β̂, σ̂2 } = arg max nT X|0T , ΣT,T (β, σ2 ) . (19.12) β,σ2 Теорема 19.4. Пусть АР(p) (19.7) удовлетворяет условию У3 и корни уравнения (19.4) лежат внутри единичного круга, тогда при T → +∞ ОМП (19.12) асимптотически эквивалентны оценкам по методу наименьших квадратов (МНК-оценкам): à T !−1 T X X Xt XtT xt Xt ; β̂ = − t=p+1 t=p+1 T ³ ´2 X 1 2 σ̂ = xt + β̂T Xt , T − p t=p+1 Xt = (xt−1 , . . . , xt−p )T ∈ Rp . (19.13) Оценки Юла – Уокера (19.10), (19.11) также асимптотически эквивалентны оценкам (19.13), а значит, и асимптотически эквивалентны МП-оценкам (19.12). Доказательство. Разобьем реализацию X длительности T на два подвектора: X = (x1 , . . . , xT )T = ((X p )T , xp+1 , . . . , xT )T . Подвектор X¢p = (x1 , . . . , xp )T ∈ Rp имеет нормальное распределение Np (0p , Σp,p ), где ¡ p Σp,p = σ|i−j| i,j=1 . 424 ГЛАВА 19. ПАРАМЕТРИЧЕСКИЙ АНАЛИЗ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Запишем (19.7) в следующем виде: xt + βT Xt = ut , t = p + 1, . . . , T. Заметим, что xt и ut как функциональные преобразования случайных величин связаны единичным якобианом, и учтем, что согласно У3 случайные величины {ut }Tt=1 независимы в совокупности и одинаково распределены по закону N1 (0, σ2 ), а следовательно, имеют совместное нормальное распределение NT (0T , diag{σ2 , . . . , σ2 }). С учетом этих фактов преобразуем плотность из (19.12): nT (X|0T , ΣT,T (β, σ2 )) = np (X p |0p , Σp,p )p(xp+1 , . . . , xT |X p ) = ! à T ¢2 1 X ¡ 1 1 p T −1 p T . = × exp − (X ) Σp,p X − 2 xt + β Xt T −p 2 2σ t=p+1 (2π)T /2 |Σ |1/2 (σ2 ) 2 p,p Исходя из последнего соотношения, экстремальную задачу (19.12) при T → +∞ можно свести к следующей задаче: T X ¡ xt + βT Xt ¢2 → min, t=p+1 (19.14) β являющейся ничем иным, как МНК. Вычислив первую производную левой части (19.14) по β и приравняв к нулю, получим уравнение для нахождения оценки β̂: T X T T X X ¡ ¢ 2 xt + βT Xt Xt = 2 Xt XtT β + 2 xt Xt = 0p , t=p+1 t=p+1 t=p+1 откуда следует (19.13). Оценку для σ̂2 ищем как в регрессионном анализе – это остаточная сумма квадратов. Эквивалентность оценок Юла – Уокера (19.10), (19.11) оценкам (19.13) следует из соотношения: (T − h)/(T − τ) → 1, 0 ⩽ h, τ < +∞. ¤ Следствие 19.5. В условиях теоремы 19.4 МП-оценки (19.12), либо, что то же самое, оценки (19.13), являются состоятельными оценками для соответствующих параметров, причем β̂ имеет асимптотически нормальное распределение: √ L{ T (β̂ − β)} → Np (0p , σ2 Σ−1 p,p ), T → +∞. Доказательство приведено в [5]. ¤ 19.4. ОЦЕНИВАНИЕ ПОРЯДКА АВТОРЕГРЕССИИ Пусть порядок p в модели АР(p) неизвестен. Очевидно, что задачу определения порядка можно свести к задаче проверки гипотез: H0 : βp = 0; H1 = H0 : βp 6= 0, при заданном уровне значимости α = P{H1 |H0 } ∈ (0, 1). Если принимается H0 , то считаем, что βp = 0, и порядок может быть равным p − 1 или менее того. Для построения критерия проверки гипотез H0 , H1 воспользуемся МП-оценками параметров авторегрессии из п. 19.3. 19.4. ОЦЕНИВАНИЕ ПОРЯДКА АВТОРЕГРЕССИИ 425 Теорема 19.5. Пусть выполнены условия теоремы 19.4 и βp = 0, тогда для ОМП β̂p справедливо асимптотическое соотношение n√ o L T β̂p → N1 (0, 1), T → +∞. Доказательство. Согласно следствию 19.5: n√ o ³ ¡ ¢ ´ L T β̂p → N1 0, σ2 Σ−1 p,p p,p , T → +∞. −1 Найдем нижний правый элемент (Σ−1 p,p )p,p матрицы Σp,p при βp = 0. Разобьем матрицу Σp,p на блоки: à Σp,p = p−1 1 Σp−1,p−1 σp−1 σTp−1 ! σp,p σp−1 = (σ(p − 1), σ(p − 2), . . . , σ(1))T , ; σp,p = σ(0), и, воспользовавшись формулами для обращения блочной матрицы (см. доказательство леммы 16.1 и тем, что при βp = 0 имеет место модель АР(p − 1), получим ´−1 ¡ ¢−1 ³ T −1 T −1 2 (Σ−1 ) = σ − σ Σ σ = σ(0) + σ β̃) = (σ , p,p p,p p−1 p,p p−1 p−1,p−1 p−1 где β̃ = (βp−1 , . . . , β1 )T . ¤ Результат теоремы 19.5 позволяет построить следующий критерий для определения порядка авторегрессии: √ ½ H0 : √T |β̂p |⩽∆; (19.15) T |β̂p | > ∆, H1 = H0 : где ³ α´ ∆ = Φ−1 1 − – 2 α квантиль уровня 1 − стандартного нормального закона N1 (0, 1), а α = P{H1 |H0 } ∈ 2 ∈ (0, 1) – заданный уровень значимости. На практике применяются три схемы для определения порядка авторегрессии. 1. Известен максимальный порядок, на который мы согласны. Пусть этот порядок есть p+ . Сначала проверяем гипотезы H0 , H1 согласно (19.15) для p = p+ . Если H0 принимается, то уменьшаем порядок на единицу и снова проверяем. И так до тех пор, пока H0 не будет отвергнута. Значение p, при котором H0 первый раз отвергается, и есть искомая оценка порядка авторегрессии. 2. Известен минимальный порядок, на который мы согласны. Пусть этот порядок есть p− . Сначала проверяем гипотезы H0 , H1 при p = p− . Если H0 не принимается, то увеличиваем порядок на единицу и снова проверяем. Так до тех пор, пока H0 не будет принята. Если H0 принята на значении p, то оценка порядка равна p − 1. 3. Известен примерный порядок p∗ , на который мы согласны. Проверяем H0 , H1 при p = p∗ . Если H0 не принимается, то переходим к схеме 2: увеличиваем порядок на единицу и снова проверяем. Если H0 принимается, то переходим к схеме 1: уменьшаем порядок на единицу и снова проверяем. Замечание 19.4. При последовательной проверке гипотез относительно порядка авторегрессии мы вынуждены производить оценивание коэффициентов авторегрессии для каждого предполагаемого значения порядка авторегрессии. Для этих целей наряду с (19.13) и (19.10) получены рекуррентные соотношения [5, 6]. 426 ГЛАВА 19. ПАРАМЕТРИЧЕСКИЙ АНАЛИЗ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ 19.5. ПРОГНОЗИРОВАНИЕ СТАЦИОНАРНЫХ В ШИРОКОМ СМЫСЛЕ ВРЕМЕННЫХ РЯДОВ 19.5.1. Общие принципы стохастического прогнозирования Пусть имеются две случайные величины x и y, и необходимо спрогнозировать значение случайной величины y по значению случайной величины (или вектора) x, т. е. необходимо найти функцию ŷ = ŷ(x) = φ(x), φ(·) ∈ Ψ, где Ψ – некоторый допустимый класс функций. В качестве критерия эффективности обычно используется среднеквадратическая ошибка прогнозирования: ∆2 (φ) = E{(φ(x) − y)2 }, (19.16) а отимальным прогнозом ŷ ∗ = ŷ ∗ (x) = φ∗ (x) считается прогноз φ∗ = arg inf ∆2 (φ), φ∈Ψ (19.17) доставляющий минимум функционалу (19.16). Теорема 19.6. Пусть конечны моменты второго порядка в (19.16): E{y 2 } < +∞, E{(φ(x))2 } < +∞, тогда оптимальный в смысле (19.17), (19.16) прогноз существует и совпадает с функцией регрессии y на x: φ∗ (x) = E{y|x}. (19.18) Доказательство. Возьмем любой допустимый прогноз ŷ = φ(x), где φ(·) ∈ Ψ, и запишем для него функцию (19.16): ∆2 (φ) = E{(φ(x) − y)2 } = E{(φ(x) − φ∗ (x) + φ∗ (x) − y)2 } = = E{(φ(x) − φ∗ (x))2 } + ∆2 (φ∗ ) + 2E{(φ(x) − φ∗ (x))(φ∗ (x) − y)} = © ª = E{(φ(x) − φ∗ (x))2 } + ∆2 (φ∗ ) + 2E (φ(x) − φ∗ (x))E{(φ∗ (x) − y)|x} = = E{(φ(x) − φ∗ (x))2 } + ∆2 (φ∗ ) ⩾ ∆2 (φ∗ ). Равенство будет в том случае, когда φ(·) ≡ φ∗ (·). ¤ Теорема 19.7. Оптимальный в среднеквадратическом прогноз ŷ ∗ = φ∗ (x) из (19.18) максимально коррелирован с предсказываемым значением y. Доказательство. Преобразуем ковариацию произвольного прогноза ŷ = φ(x) с y, © ª учитывая, что E{y} = E E{y|x} = E{φ∗ (x)}: cov{φ(x), y} = E{(φ(x) − E{φ(x)})(y − E{y})} = © ª = E (φ(x) − E{φ(x)})E{(y − E{y})|x} = = E{(φ(x) − E{φ(x)})(φ∗ (x) − E{φ∗ (x)})} = cov{φ(x), φ∗ (x)}; corr2 {φ(x), y} = cov2 {φ(x), φ∗ (x)} D{φ∗ (x)} cov2 {φ(x), y} = = D{φ(x)}D{y} D{φ(x)}D{φ∗ (x)} D{y} = corr2 {φ(x), φ∗ (x)}corr2 {φ∗ (x), y}. Поскольку corr2 {φ(x), φ∗ (x)} ⩽ 1, то получаем |corr{φ(x), y}| ⩽ |corr{φ∗ (x), y}|. ¤ 19.5. ПРОГНОЗИРОВАНИЕ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ 427 19.5.2. Прогнозирование временных рядов авторегрессии Пусть наблюдения описываются временным рядом АР(p) {xt }+∞ t=−∞ из (19.7): xt + β1 xt−1 + . . . + βp xt−p = ut . Спрогнозируем значение xt по «предыстории» xt−1 , xt−2 , . . ., x0 , x−1 , . . . . Теорема 19.8. Пусть значения коэффициентов β1 , . . . , βp временного ряда АР(p) из (19.7) известны, а также выполняются какие-либо условия, обеспечивающие его стационарность в широком смысле. Тогда оптимальным в среднеквадратическом прогнозом для xt по предыдущим значениям xt−1 , xt−2 , . . . , x0 , x−1 , . . . является следующий прогноз: (19.19) x̂∗t = −β1 xt−1 − . . . − βp xt−p , причем достигнутая среднеквадратическая ошибка прогнозирования в условиях У равна σ2 = D{ut }. Доказательство. Согласно (19.18) оптимальный прогноз имеет вид x̂∗t = φ∗ (xt−1 , . . . , xt−p , . . .) = E{xt |xt−1 , . . . , xt−p , . . .}, что с учетом (19.7) приводит к (19.19). Для ошибки прогнозирования при этом имеем ∆2 (φ∗ ) = E{(x̂∗t − xt )2 } = E{u2t } = D{ut } = σ2 . ¤ Замечание 19.5. Для того чтобы спрогнозировать АР(p), из «предыстории» достаточно знать значения только p последних отсчетов, поэтому начинать прогнозирование можно при t > p. Это ограничение несущественно, поскольку на практике почти всегда имеется реализация X = {x1 , . . . , xp , . . . , xT } длительности T ⩾ p. Замечание 19.6. Если коэффициенты авторегрессии {βj }pj=1 неизвестны, то при прогнозировании в (19.19) используются их статистические оценки {β̂j }pj=1 по реализации X длительности T ⩾ p. Если неизвестен порядок авторегрессии p, то сначала оценивается порядок (строится его оценка p̂). В этом случае «подстановочный» прогноз будет иметь вид x̃∗t = −β̂1 xt−1 − . . . − β̂p̂ xt−p̂ . 19.5.3. Гильбертово пространство стационарных в широком смысле временных рядов. Общая линейная модель как обобщение авторегрессионной модели и решение задачи прогнозирования Построим гильбертово пространство стационарных в широком смысле временных рядов [5]. Для этого выполним следующие действия: 1. Возьмем все ВР {xt }+∞ t=−∞ , стационарные в широком смысле с E{xt } = 0. 2. Пополним это множество всевозможными конечными линейными комбинациями X bt xt , где S ⊂ Z – конечные множества целых чисел, а bt ∈ R – неслучайные коэффиt∈S циенты. 3. Полученное на предыдущем шаге множество пополним всеми пределами в среднеквадратическом последовательностей из этого множества. 428 ГЛАВА 19. ПАРАМЕТРИЧЕСКИЙ АНАЛИЗ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Обозначим полученное пространство через H с. к. в. . В этом пространстве определено скалярное произведение двух элементов (x, y) = x · y = E{xy}, p p порождающее соответствующую норму ||x|| = (x, x)= E{x2 }, и метрику p ρ(x, y) = ||x−y|| = E{(x − y)2 }. Для пространства H с. к. в. известны два дополняющих друг друга результата [5]. с. к. в. при Теорема 19.9. Любой стационарный в широком смысле ВР {xt }+∞ t=−∞ ∈ H условии, что для него существует спектральная плотность f (λ), λ ∈ [−π, π], и выZπ +∞ X полняется ln f (λ)dλ > −∞, можно представить в виде xt = γj ut−j , где {ut }+∞ t=−∞ j=0 −π удовлетворяют условию У1; γ0 = 1, а остальные коэффициенты {γj }+∞ j=1 таковы, что +∞ X γ2j < +∞. j=1 Теорема 19.10. Пусть в условиях теоремы 19.9 спектральная плотность f (·) ограничена: f (λ) < +∞, λ ∈ [−π, π], тогда справедливо представление ut = +∞ X βj xt−j ; β0 = 1; j=0 +∞ X β2j < +∞, (19.20) j=1 которое имеет место тогда и только тогда, когда функция G(z) = +∞ X γj z j 6= 0, j=0 2π Z |z| < 1, и следующий интеграл 1 dλ ограничен при ρ → 1. |G(ρeiλ )|2 0 Замечание 19.7. Соотношение (19.20) известно как разложение Вольда (Wold) и является АР(+∞) (авторегрессией с бесконечным порядком), а результат теоремы 19.9 «обобщает» линейное представление из п. 19.1. Воспользуемся результатами теорем 19.9, 19.10 и получим аналог уравнений Юла – Уокера (19.5). Умножим левую и правую части соотношения (19.20) (учтено, что +∞ +∞ X X β0 = 1) xt + βj xt−j = ut на xt−τ = γi ut−τ−i , τ ⩾ 1, возьмем математическое j=1 i=0 ожидание и получим уравнения Юла – Уокера вида σ(τ) + +∞ X βj σ(τ − j) = 0, τ ⩾ 1. (19.21) j=1 Опишем общую схему идентификации стационарного в широком смысле ВР, основанную на (19.20), (19.21). Отметим, что если {βj }+∞ j=1 известны, то наилучшим в сред+∞ X βj xt−j . неквадратическом прогнозом для xt по xt−1 , xt−2 , . . . будет прогноз x̂∗t = − j=1 Очевидно, что задача идентификации сводится к оцениванию коэффициентов авторегрессии {βj }+∞ j=1 . Но сначала мы должны убедиться, что ВР стационарен в широком смысле. Не ограничивая общности, предположим, что E{xt } = 0. 19.5. ПРОГНОЗИРОВАНИЕ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ 429 Изложим процедуру идентификации в виде шагов. Шаг 0. По реализации X = {x1 , . . . , xT } длительности T ⩾ 1 оцениваем ковариациT −h 1 X онную функцию σ(h): ch = xt xt+h , h = 0, . . . , T − 1. Если ch приближается T − h t=1 к нулю с ростом лага (h → +∞), т. е. оценка ковариационной функции «затухает», то имеется надежда, что идентифицируемый ВР стационарен в широком смысле. Шаг p (p = 1, 2, . . .). Считаем, что вместо модели АР(+∞) имеет место модель АР(p), а коэффициенты βp+1 , βp+2 , . . . полагаем равными нулю. Для того чтобы найти оценки β̂1 , . . . , β̂p , решаем p уравнений Юла – Уокера вида (19.21): cτ + p X β̂j cτ−j = 0, τ = 1, . . . , p. (19.22) j=1 Решив СЛАУ (19.22), проверяем предположение βp = 0. Существуют два способа для проверки данного предположения: 1. Задать малое ² ∈ (0, 1) и проверять: если |β̂p | < ², то порядок считается равным p − 1 и процесс идентификации останавливается, а в качестве оценок коэффициентов используются либо текущие оценки, либо оценки с предыдущего шага. Иначе, увеличиваем порядок на единицу и повторяем шаг p. 2. Использовать подход из п. 19.4, основанный на ОМП, поскольку оценки Юла – Уокера и ОМП асимптотически эквивалентны. Замечание 19.8. В гл. 19 были получены различные типы оценок для параметров АР(p), p < +∞ (ОМП, МНК, Юла – Уокера). Для временных рядов СС(q) и АРСС(p,q) также существует теория построения статистических оценок, но все они носят рекуррентно-итерационный характер. Для любого стационарного в широком смысле ВР можно осуществлять «подгонку» к АР(p), где порядок авторегрессии p отвечает за точность «подгонки». Это избавляет от необходимости производить идентификацию моделью АРСС(p,q) и решать достаточно сложную задачу оценивания порядков p и q. Замечание 19.9. Оценку последнего коэффициента авторегрессии β̂p , полученную в предположении, что для ВР {xt }+∞ t=−∞ имеет место модель АР(p) (порядок авторегрессии равен p), взятую с противоположным знаком, иногда рассматривают как функцию от p, считая p лагом, и называют выборочной частной корреляционной функциейЭто связано с тем, что истинное значение −βp в условиях модели АР(p) совпадает с частной корреляцией между отстоящими по времени на лаг p отсчетами xt и xt+p при фиксированных значениях отсчетов xt+1 , . . . , xt+p−1 между ними, и все частные корреляции с лагами, большими p, в условиях модели АР(p) равны нулю. Выборочная частная корреляционная функция используется (см. также замечание 19.4) вместе с выборочной ковариационной функцией cτ , τ ⩾ 0 для идентификации модели АРСС(p,q). Известен ряд эвристических правил [6]. Так, если |β̂p | «резко обрывается» (стремится к 0) при значении лагов, больших p, а |cτ | «плавно спадает» с ростом τ, то мы имеем дело с АР(p). Если |cτ | «резко обрывается» при значении лагов больших, чем q (τ ⩾ q), а |β̂p | «плавно спадает» с ростом p, то имеет место СС(q). Вместо выборочной ковариационной функции cτ можно использовать соответствующую ей выборочную корреляционную функцию: ρ̂τ = cτ /c0 . Приведенные выше правила достаточно просты. Однако для идентификации «смешанной» модели АРСС(p,q) (p, q 6= 0) даже при p = q = 1 нет простых рекомендаций. Поэтому во избежание ошибки лучше производить идентификацию в рамках общей для всех стационарных в широком смысле временных рядов модели АР(+∞). 430 ГЛАВА 19. ПАРАМЕТРИЧЕСКИЙ АНАЛИЗ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ В качестве примера идентификации модели рассмотрим данные солнечной активности рис. 17.2. Для них на рис. 18.2 была построена выборочная корреляционная функция. Она «затухает» и «плавно спадает» по абсолютному значению с ростом лага. На рис. 19.1 приведена выборочная частная корреляционная функция, которая «обрывается» после лага, равного 2, что позволяет, согласно замечанию 19.9, идентифицировать исследуемый ВР как АР(2) и произвести дальнейший статистический анализ. Однако существуют и другие мнения относительно порядка авторегрессии для этих данных [6, 5]: от 2 до 30. Это еще раз говорит о целесообразности использования модели АР(+∞) (замечание 19.8), исключающей неоднозначность в толковании. Рис. 19.1. Выборочная частная корреляционная функция для данных солнечной активности 19.6. УПРАЖНЕНИЯ 1. Показать, что для временного ряда АР(1) с коэффициентом авторегрессии β = β1 (|β| < 1) и дисперсией ошибок σ2 ковариационная функция имеет вид σ2 (−1)τ βτ σ2 σ(τ) = , τ ≥ 1, а дисперсия отсчетов равна . 1 − β2 1 − β2 2. Показать, что для временного ряда АРСС(1, 1) с коэффициентом авторегрессии β = β1 (|β| < 1) и коэффициентом скользящего среднего α = α1 (|α| < +∞), а также дисперсией ошибок σ2 < +∞, корреляционная функция ρ(τ) = σ(τ)/σ(0) = (1 − αβ)(α − β) = (−1)τ−1 βτ−1 ρ(1), τ ≥ 2, где ρ(1) = . 1 + α2 − 2αβ 3. Доказать следствие 19.5 из п. 19.3. Г л а в а 20 СТАТИСТИЧЕСКИЙ АНАЛИЗ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ 20.1. СТАТИСТИЧЕСКИЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ С ТРЕНДОМ В ОРТОГОНАЛЬНОМ БАЗИСЕ Пусть исследуемый ВР {xt }+∞ t=−∞ , вообще говоря, нестационарен. Действительно, один и тот же интервал по времени нельзя прожить более чем один раз. Моделью нестационарного ВР, не противоречащей базовому предположению теории вероятностей и математической статистики о повторяемости исследуемых явлений, является трендовая модель: xt = f (t) + ut , (20.1) где f (t) – детерминированная (неслучайная) составляющая, зависящая от времени и называемая трендом. Последовательность случайных величин {ut } интерпретируется как случайная ошибка измерений, производимых над функцией f (t) в различные моменты времени t. Считается, что эта ошибка порождена одним и тем же наблюдателем, и ее значения образуют стационарную в широком смысле последовательность во времени. Обычно случайные величины {ut } предполагаются некоррелированными с нулевыми математическими ожиданиями и конечной неизменной дисперсией: E{ut } = 0, D{ut } = σ2 , (20.2) т. е. {ut } удовлетворяют условию У1 из гл. 19. На практике чаще всего применяются тренды двух видов: полиномиальные и тригонометрические. Причем тригонометрические тренды используются, если функция f (t) периодическая, т. е. существует такое t∗ , что f (t) = f (t + t∗ ). На практике модель (20.1), (20.2) уточняют и тренд f (t) представляют в виде разложения в ортогональном базисе: f (t) = b1 φ1 (t) + . . . + bm φm (t), (20.3) где {φj (·)}+∞ j=1 – бесконечная система ортогональных базисных функций, удовлетворяющая следующим условиям: i 6= j; T 0, X T X φj (t)φi (t) = (20.4) φ2i (t), i = j, t=1 t=1 где T – длительность серии наблюдений X = {x1 , . . . , xT }. В модели (20.1)–(20.4) параметр m определяет необходимое для достижения требуемой точности «подгонки» число базисных функций и называется порядком тренда. Если тренд полиномиальный, то φj (t), j ⩾ 1, – это полином порядка j по t; если тригонометрический, то в качестве базисных функций используются тригонометрические функции. 432 ГЛАВА 20. СТАТИСТИЧЕСКИЙ АНАЛИЗ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Введем в рассмотрение следующие m-векторы: b = (b1 , . . . , bm )T ∈ Rm – вектор коэффициентов; zt = (φ1 (t), . . . , φm (t))T – вектор значений базисных функций в момент времени t. Тогда модель (20.1)–(20.4) примет вид xt = b T z t + u t , где {ut } удовлетворяют условию У1. Воспользуемся методом наименьших квадратов и запишем целевую функцию: T ¢2 1 X¡ F (b) = xt − bT zt , T t=1 минимизируя которую, найдем МНК-оценку b̂ = b̂(X) ∈ Rm для неизвестного вектора коэффициентов b ∈ Rm по серии наблюдений X = {x1 , . . . , xT } длительности T . Необходимым условием минимума F (b) по b ∈ Rm является T ¢ 1X ¡ 2 xt − bT zt (−zt ) = 0m , T t=1 ∇b F (b) = откуда b̂ = à T X zt ztT t=1 !−1 T X xt zt , t=1 или через базисные функции (b̂ = (b̂1 , . . . , b̂m )T ∈ Rm ): T X b̂i = xt φi (t) t=1 T X , i = 1, . . . , m. (20.5) φ2i (t) t=1 Наконец, воспользовавшись известным результатом из регрессионного анализа, запишем оценку для дисперсии ошибок измерений σ2 как остаточную сумму квадратов: à !2 m T X 1 X 2 xt − b̂i φi (t) . (20.6) σ̂ = T − m t=1 i=1 Исследуем статистические свойства оценок {b̂i }m i=1 из (20.5). Теорема 20.1. Пусть в условиях модели (20.1)–(20.4) случайные ошибки измерений {ut } удовлетворяют условию У1, тогда оценки {b̂i }m i=1 несмещенные: n o E b̂i = bi , i = 1, . . . , m, и некоррелированные: n o cov b̂i , b̂j = 0, i 6= j, σ2 , i = j, T X φ2i (t) t=1 i, j = 1, . . . , m. 20.1. ВРЕМЕННЫЕ РЯДЫ С ТРЕНДОМ В ОРТОГОНАЛЬНОМ БАЗИСЕ 433 Доказательство. Воспользуемся (20.5) и моделью (20.1) – (20.4): T X E{b̂i } = T X E{xt }φi (t) t=1 = T X φ2i (t) t=1 T X m X = T X = φ2i (t) t=1 bj φj (t)φi (t) t=1 j=1 f (t)φi (t) t=1 T X bi T X φ2i (t) t=1 = T X φ2i (t) t=1 = bi , i = 1, . . . , m. φ2i (t) t=1 Найдем ковариацию (i, j = 1, . . . , m): n³ n o´ ³ n o´o n³ ´o cov{b̂i , b̂j } = E b̂i − E b̂i b̂j − E b̂j = E b̂i − bi )(b̂j − bj = E = ( T X φi (t)ut t=1 T X t=1 φ2i (t) T X l=1 T X ) σ2 φj (l)ul = φ2j (t) t=1 T X φi (t)φj (t) t=1 T X φ2i (t) t=1 T X t=1 = φ2j (t) σ2 δij . T X 2 φi (t) t=1 ¤ Следствие 20.1. Пусть в условиях модели (20.1)–(20.4) случайные величины {ut } удовлетворяют условию У3, тогда оценки {b̂i }m i=1 из (20.5) независимы в совокупности и распределены по нормальному закону: σ2 , L{b̂i } = N1 b , i X T 2 φi (t) i = 1, . . . , m. t=1 Доказательство. Используем результат теоремы 20.1, согласно которому {b̂i }m i=1 некоррелированы. По условию У3 {ut } независимы в совокупности и распределены по нормальному закону N1 (0, σ2 ). Заметим, что оценки {b̂i }m i=1 из (20.5) являются линейными преобразованиями {ut }. ¤ Как было отмечено выше, в модели (20.1)–(20.4) величина m (порядок тренда) отвечает за точность «подгонки» тренда под реальные данные. Теорема 20.1 и следствие 20.1 к ней доказаны в условиях известного m. На практике m неизвестно, и после того как выбрана система базисных функций, необходимо оценить порядок тренда. Оценивание m можно свести, как и при анализе порядка авторегрессии, к проверке гипотез (m = 1, 2, . . .): H0 : bm = 0; H1 = H0 : bm 6= 0. Если принята H0 : bm = 0, то полагаем порядок равным m − 1. Иначе, увеличивая порядок тренда на единицу, продолжаем до тех пор, пока не будет принята H0 . 434 ГЛАВА 20. СТАТИСТИЧЕСКИЙ АНАЛИЗ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Построим критерий для проверки данных гипотез. Везде далее в этом пункте предполагаем выполнение условия У3, т. е. мы находимся в условиях следствия 20.1, из которого следует, что σ2 . LH0 {b̂m } = N1 0, X T 2 φm (t) t=1 2 Значение дисперсии σ считается неизвестным и для ее оценивания используется МНК-оценка σ̂2 из (20.6), для которой в регрессионном анализе установлено: 1) оценка σ̂2 независима от b̂m (в условиях У3); ½ ¾ (T − m)σ̂2 2 2) L = χT −m – χ2 -распределение c T − m степенями свободы. σ2 Введем в рассмотрение статистику v u T uX b̂m t φ2m (t) √ t=1 , σ̂ = σ̂2 , (20.7) γT = σ̂ которая при истинной гипотезе H0 имеет t-распределение Стьюдента с T − m степенями свободы LH0 {γT } = tT −m . Воспользуемся (20.7), свойствами распределения Стьюдента и получим критерий для проверки гипотез H0 , H1 . При истинной H0 : bm = 0 и оценка b̂m должна быть близка к нулю. Это влечет за собой требование, чтобы статистика γT также была близка к нулю. Соответствующий критерий имеет вид ½ H0 : |γT | ⩽ ∆; H1 = H0 : |γT | > ∆. Задав уровень значимости α = P{H1 |H0 } ∈ (0, 1), находим порог критерия ∆: ∆ = Ft−1 (1 − α/2) T −m – квантиль уровня 1 − α/2 от t-распределения Стьюдента с T − m степенями свободы. Замечание 20.1. В модели (20.1)–(20.4) на практике часто перед тем как проводить статистическое оценивание, производят так называемое сглаживание. Эта процедура не может быть теоретически обоснована, но иногда позволяет улучшить «подгонку». Суть ее состоит в том, что исходный ВР {xt }+∞ t=−∞ заменяется новым (сглаженным) ВР : {yt }+∞ t=−∞ m X aj xt+j , (20.8) yt = j=−m где aj ∈ R, j = −m, . . . , m, – некоторые веса: m X aj = 1. j=−m Согласно (20.8) в условиях модели (20.1)–(20.4) можно записать yt = m X j=−m aj f (t + j) + m X j=−m aj ut+j = f ∗ (t) + u∗t . 435 20.2. ВРЕМЕННЫЕ РЯДЫ АРПСС Если в диапазоне значений времени t + j, j = −m, . . . , m: f (t + j) ≈ f (t), тогда значение нового тренда в любой момент времени t близко к f (t): f ∗ (t) ≈ f (t). Однако новые случайные величины {u∗t } станут коррелированными, а их дисперсия D{u∗t } = m X a2j σ2 . j=−m Исходя из последнего соотношения, веса {aj } необходимо выбирать так, чтобы 1 D{u∗t } < σ2 ; на практике часто используются веса aj = , j = −m, . . . , m. 2m + 1 20.2. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ВРЕМЕННЫХ РЯДОВ АВТОРЕГРЕССИИ И ПРОИНТЕГРИРОВАННОГО СКОЛЬЗЯЩЕГО СРЕДНЕГО Пусть имеется ВР {xt }+∞ t=−∞ . Определим на нем два оператора: а) B – оператор сдвига на один шаг назад: Bxt = xt−1 ; б) 5 – оператор взятия конечной разности на один шаг назад: 5 = 1 − B, 5xt = xt − xt−1 . Приведем основные свойства этих операторов. C1. Оператор S = 5−1 , обратный оператору 5, имеет следующий вид: S = (1 − B)−1 = +∞ X Bj (B 0 := 1), Sxt = j=0 +∞ X xt−j . j=0 C2. Оператор 5d = 5 . . . 5 конечной разности порядка d имеет вид | {z } d 5d = (1 − B)d = d X (−1)j Cdj B j , 5d xt = j=0 d X (−1)j Cdj xt−j , j=0 где {Cdj } – биномиальные коэффициенты. C3. Оператор S d суммирования порядка d может быть записан следующим образом: S d = (1 − B)−d = +∞ X j=0 d−1 Cd+j−1 Bj , S d xt = +∞ X d−1 xt−j . Cd+j−1 j=0 C4. Оператор суммирования S d порядка d является обратным оператором по отношению к 5d : S d 5d = 1. Запишем через оператор B временной ряд авторегрессии и скользящего среднего (АРСС(p,q)): xt + β1 xt−1 + . . . + βp xt−p = ut + α1 ut−1 + . . . + αq ut−q . (20.9) 436 ГЛАВА 20. СТАТИСТИЧЕСКИЙ АНАЛИЗ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Введем в рассмотрение два полинома по B: Ψ(B) = 1 + β1 B + . . . + βp B p = p X βj B j , β0 = 1; αj B j , α0 = 1, j=0 Θ(B) = 1 + α1 B + . . . + αq B q = q X j=0 тогда модель АРСС(p,q) из (20.9) можно записать в следующем виде: Ψ(B)xt = Θ(B)ut . (20.10) Замечание 20.2. Для стационарности ВР (20.9) мы требовали, чтобы корни характеристического уравнения (19.4) лежали внутри единичного круга. Выполнение этого условия обеспечивает также и существование обратного оператора Ψ−1 (B). Определение 20.1. ВР {xt }+∞ t=−∞ называется временным рядом авторегрессии и проинтегрированного скользящего среднего порядков p, d, q (АРПСС(p,d,q)), если он удовлетворяет следующему соотношению: Ψ(B) 5d xt = Θ(B)ut , (20.11) где Ψ(B) – оператор АР(p); Θ(B) – оператор СС(q); 5d xt – конечная разность порядка d; а случайные величины {ut } удовлетворяют одному из условий У – чаще всего предполагается выполнение У1, т. е. некоррелированность {ut } и E{ut } = 0, D{ut } = σ2 . Замечание 20.3. Если обозначить wt = 5d xt , то в условиях (20.11) ВР {wt } является АРСС(p,q) и описывается моделью (20.9) или (20.10). Получим три эквивалентных представления для модели (20.11). Введем в рассмотрение новый оператор: d φ(B) = Ψ(B)5 = p X j d βj B (1 − B) = j=0 p+d X φj B j , φ0 = 1. j=0 Таким образом, модель АРПСС(p,d,q) из (20.11) формально может быть записана в виде АРСС(p + d,q): φ(B)xt = Θ(B)ut . (20.12) Однако ряд (20.12) нестационарен, поскольку для него характеристическое уравнение p+d X φj z p+d−j = 0 j=0 имеет d корней z, по модулю равных единице: |z| = 1. Выразим xt через ut и получим еще одно эквивалентное представление: xt = φ−1 (B)Θ(B)ut = Ψ−1 (B) 5−d Θ(B)ut = +∞ X γj ut−j , j=0 Возможно также представление, аналогичное АР(+∞): ut = Θ−1 (B)Ψ(B) 5d xt = xt + +∞ X j=1 πj xt−j . γ0 = 1. 437 20.2. ВРЕМЕННЫЕ РЯДЫ АРПСС Приведем алгоритм идентификации для модели АРПСС(p,d,q). Шаг d (d = 0, 1, 2, . . .). Вычисляем конечную разность порядка d: (d) wt (d−1) = 5d xt = 5wt n o+∞ (d) Проверяем ВР wt t=−∞ , (0) d⩾1 (wt = xt ). на стационарность. Например, строим выборочную кова- риационную или корреляционную функцию. Если она «затухает», то мы считаем, что n o+∞ (d) wt стационарен и переходим к заключительному шагу. Если нет, то увеличиt=−∞ ваем d на единицу и повторяем этот шаг. Заключительный шаг. Если при каком-то d ВР n (d) wt o+∞ t=−∞ «оказался» стационар- ным, то идентифицируем его как АРСС(p,q), тем самым мы сможем построить прогноз ∗(d) ŵt . Чтобы построить прогноз для xt , необходимо осуществить обратное преобразование: ∗(d) ∗(d) x̂∗t = 5−d ŵt = S d ŵt . Замечание 20.4. Пусть на шаге d (d ∈ {0, 1, 2, . . .}) описанного выше алгоритo+∞ n (d) ма преобразованный ВР wt идентифицирован как АРСС(p,q). После того как t=−∞ найдены p и q, строятся оценки для коэффициентов {βj }pj=1 и {αi }qi=1 . Однако согласно соображениям, изложенным в замечаниях 19.8 и 19.9, целесообразнее этот преобразованный ряд идентифицировать общей для всех стационарных в широком смысле временных рядов моделью Вольда АР(+∞), добиваясь адекватности преобразованного ряда модели АР(p) за счет увеличения порядка p. Для проверки адекватности на заключительном шаге алгоритма для уже имеющихся значений {xt }Tt=T− строятся прогнозы {x̂∗t }Tt=T− , где T− – момент начала прогнозирования (T− < T ), и вычисляются остатки: û∗t = xt − x̂∗t , t = T− , . . . , T , которые должны быть близки к нулю и некоррелированы, если хорошо «подогнана» модель. Чтобы выяснить это, для ряда остатков {û∗t }Tt=T− оценивается ковариационная (корреляционная) функция: ее значения должны быть близки к нулю при любом ненулевом лаге. Замечание 20.5. Для приведения исходного ВР {xt }+∞ t=−∞ к стационарному на практике иногда вместо конечной разности на один шаг назад 5 используется конечная разность на k шагов назад (k ⩾ 1): 5(−k)xt = xt − xt−k , обобщающая оператор 5: 5 = 5(−1). Такое преобразование целесообразно, если известно, что исходный ВР имеет так называемую «сезонную составляющую», т. е. его «поведение» повторяется через один и тот же промежуток времени k. В качестве примера проведем идентификацию ВР цены на акции IBM (см. рис. 17.1). Ранее проведенный анализ выборочной корреляционной функции (см. рис. 18.1) показал его n нестационарность. Возьмем конечную разность на один шаг назад, т. е. построим o (1) ВР wt (рис. 20.1). o n (1) Выборочные корреляционная и частная корреляционная функции для wt приведены соответственно на рис. 20.2 и nрис. o20.3. Их анализ согласно замеча(1) нию 19.9 позволяет идентифицировать ВР wt как CC(1), а исходный ВР {xt } – как АРПСС(0,1,1) [6]. иначе: проанализировав Однако руководствуясь замечанием 20.4, можно o n поступить (1) (рис. 20.2), заключить, что превыборочную корреляционную функцию для ВР wt 438 ГЛАВА 20. СТАТИСТИЧЕСКИЙ АНАЛИЗ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Рис. 20.1. Преобразованный временной ряд цены акций IBM: конечная разность на один шаг назад Рис. 20.2. Выборочная корреляционная функция для преобразованного временного ряда o n (1) образованный ВР wt подозрителен на стационарность и идентифицировать его как АР(+∞), а исходный ВР {xt } – как АРПСС(p,1,0), добиваясь приемлемой точности «подгонки» за счет выбора порядка авторегрессии p. При p = 7 были получены следующие МП-оценки коэффициентов авторегрессии: β̂1 = −0,616, β̂2 = −0,404, β̂3 = −0,259, β̂4 = −0,127, β̂5 = −0,047, β̂6 = −0,010, β̂7 = 0,003. 20.2. ВРЕМЕННЫЕ РЯДЫ АРПСС 439 Рис. 20.3. Выборочная частная корреляционная функция для преобразованного временного ряда Видно, что уже пятый коэффициент авторегрессии при выбранной модели АРПСС(7,1,0) близок к нулю, а остатки также близки к нулю (рис. 20.4) и некоррелированы (рис. 20.5). Рис. 20.4. График остатков Наконец, на рис. 20.6 приведен результат прогнозирования (для иллюстрации проведенного, начиная с некоторого интервала времени в прошлом на такой же интервал времени в будущее). 440 ГЛАВА 20. СТАТИСТИЧЕСКИЙ АНАЛИЗ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Рис. 20.5. Выборочная корреляционная функция остатков Рис. 20.6. Прогнозирование цены акций IBM 20.3. УПРАЖНЕНИЯ 1. Показать, что для временного ряда АРПСС(0, 1, 1) с коэффициентом скользящего среднего α = α1 коэффициенты {πj }+∞ j=1 в его представлении АР(+∞) (см. п. 20.2) имеют вид πj = (1 + α)(−1)j αj−1 , j ≥ 1. 2. Показать, что для временного ряда АРПСС(1, 1, 1) с коэффициентом авторегрессии β = β1 и коэффициентом скользящего среднего α = α1 в представлении АР(+∞) коэффициенты могут быть вычислены из соотношений: π1 = β − (1 + α), π2 = (α − β)(1 + α), πj = (β − α)(1 + α)(−1)j−1 αj−2 , j ≥ 3. 3. Получить для временного ряда АРПСС(0, d, q) формальное представление в виде модели АРСС(d, q) со следующими коэффициентами авторегрессии: βj = (−1)j Cdj , j = 1, . . . , d, где {Cdj } – биномиальные коэффициенты. Г л а в а 21 СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОРОДНЫХ ЦЕПЕЙ МАРКОВА 21.1. ОДНОРОДНЫЕ ЦЕПИ МАРКОВА. ОСНОВНЫЕ ПОНЯТИЯ И СВОЙСТВА. УСЛОВИЯ СТАЦИОНАРНОСТИ На практике для описания зависимости в последовательности событий (состояний) часто используется однородная цепь Маркова, являющаяся дискретным временным рядом. Определение 21.1. ВР x1 , . . . , xT , xT +1 , . . . ∈ S, где S = {1, . . . , L} называется однородной цепью Маркова с пространством состояний S, образованным из L ⩾ 2 состояний, если выполняется так называемое марковское свойство: P{xt+1 = dt+1 |xt = dt , xt−1 = dt−1 , . . . , x1 = d1 } = = P{xt+1 = dt+1 |xt = dt } = pdt ,dt+1 , ∀dt , dt+1 , . . . ∈ S, ∀t = 1, . . . T, . . . . (21.1) Отметим, что данное определение является частным случаем понятия цепи Маркова из главы 9. Для того чтобы однозначно определить однородную цепь Маркова, необходимо задать две вероятностные характеристики: 1) начальное распределение вероятностей: X (1) (1) πi = 1; (21.2) πi = P{x1 = i}, i ∈ S; i∈S 2) матрицу вероятностей одношаговых переходов: P = (pij )i,j∈S , pij = P{xt+1 = j|xt = i}; X pij = 1, i ∈ S. (21.3) j∈S Распределение вероятностей реализации X = {x1 , . . . , xT } длительности³ T ⩾´2 од(1) и нородной цепи Маркова (21.1)–(21.3) однозначно определяется через π(1) = πi i∈S P = (pij )i,j∈S : PT (d1 , . . . , dT ) = P{x1 = d1 , . . . , xT = dT } = = P{x1 = d1 } T −1 Y P{xt+1 = dt+1 |xt = dt , . . . , x1 = d1 } = t=1 (1) = πd1 T −1 Y t=1 pdt ,dt+1 , d1 , . . . , dT ∈ S. (21.4) 442 ГЛАВА 21. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОРОДНЫХ ЦЕПЕЙ МАРКОВА Цепь Маркова характеризуется также своим текущим распределением вероятностей(в момент времени t): (t) πi = P{xt = i}, i ∈ S, t = 1, 2, . . . , T, . . . . (21.5) Теорема 21.1. В условиях модели (21.1)–(21.3) текущее распределение вероятностей (21.5) может быть найдено из соотношения ¡ ¢t−1 (1) π(t) = P T π = (P t−1 )T π(1) , (21.6) ³ ´T (t) (t) где π(t) = π1 , . . . , πL , t = 1, 2, . . . , T, . . . ; а π(1) = π(t) |t=1 – начальное распределение вероятностей. (t) Доказательство. Вычислим πi , i ∈ S, через предыдущее: (t) πi = P{xt = i} = X P{xt−1 = j}P{xt = i|xt−1 = j} = j∈S X (t−1) πj pji , j∈S или в матричном виде: ¡ ¢2 ¡ ¢t−1 (1) π(t) = P T π(t−1) = P T π(t−2) = P T π . ¤ . . . P имеет самостоятельный смысл: ее Замечание 21.1. Матрица P t = P × × {z } | t (i, j)-й элемент – вероятность перехода однородной цепи Маркова из i-го состояния в j-е за t шагов. Определение 21.2. Распределение вероятностей π = (π1 , . . . , πL )T называется стационарным распределением для однородной цепи Маркова (21.1)–(21.3), если выполняется T P π = π, X (21.7) πi = 1. i∈S Теорема 21.2. Пусть для однородной цепи Маркова (21.1)–(21.3) начальное распределение вероятностей π(1) совпадает со стационарным из (21.7): π(1) = π, тогда данная цепь Маркова является стационарной, и текущее распределение вероятностей в любой момент времени совпадает со стационарным: π(t) = π, t = 1, 2, . . . , T, . . . . (21.8) Доказательство. Подставим в (21.6) π(1) = π и воспользуемся соотношением ¡ ¢t−2 ¡ ¢t−1 ¡ ¢t−2 T P π = PT π = π. ¤ (21.7): π(t) = P T π = PT Замечание 21.2. Если в условиях теоремы 21.2 начальное распределение π(1) не совпадает со стационарным распределением (21.7), то при некоторых ограничениях на матрицу вероятностей одношаговых переходов P = (pij )i,j∈S для текущего распределения (21.5) выполняется [36] (см. также п. 9.2): (t) πi → πi , t → +∞, i ∈ S. 21.2. ОЦЕНКИ ПО МЕТОДУ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ 443 21.2. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ДЛЯ ОЦЕНИВАНИЯ МАТРИЦЫ ВЕРОЯТНОСТЕЙ ОДНОШАГОВЫХ ПЕРЕХОДОВ И СТАЦИОНАРНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Пусть имеется реализация X = {x1 , . . . , xT } длительности T ⩾ 2 однородной цепи Маркова (21.1)–(21.3). Ставится задача оценить матрицу вероятностей одношаговых переходов P и стационарное распределение π. Распределение вероятностей π(1) начального состояния оценить невозможно, поскольку оно встречается один раз и для него невозможно «набрать статистику». Для построения оценок P̂ , π̂ по реализации X воспользуемся методом максимального правдоподобия, основываясь на распределении вероятностей для X из (21.4). Введем следующие обозначения: nij = T −1 X δxt ,i δxt+1 ,j – (21.9) t=1 число одношаговых переходов из состояния i в состояние j (i, j ∈ S), встретившихся в реализации X = {x1 , . . . , xT } длительности T ⩾ 2; ni = X nij , ñi = T X δxt ,i (ñi = ni + δxT ,i ), i ∈ S. (21.10) t=1 j∈S Теорема 21.3. Пусть для реализации X = {x1 , . . . , xT } длительности T ⩾ 2 однородной цепи Маркова (21.1)–(21.3) выполняется условие ni > 0, i ∈ S, тогда оценка максимального правдоподобия (МП-оценка) матрицы вероятностей одношаговых переходов задается соотношением nij P̂ = (p̂ij )i,j∈S , p̂ij = . (21.11) ni Доказательство. С учетом (21.4) построим логарифмическую функцию правдоподобия по X = {x1 , . . . , xT } длительности T ⩾ 2: à ! T −1 T −1 Y X X lT (X; P ) = ln π(1) pxt ,xt+1 = ln π(1) ln pxt ,xt+1 = ln π(1) nij ln pij , x1 x1 + x1 + t=1 t=1 i,j∈S где статистики nij = nij (X), i, j ∈ S, определены в (21.9). Согласно (21.3) элементы матрицы вероятностей одношаговых переходов должны удовлетворять условию нормировки, а сама экстремальная задача по построению МП-оценки будет иметь вид X (1) lT (X; P ) = ln πx1 + nij ln pij → max , {pij }i,j∈S i,j∈S X (21.12) pij = 1, i ∈ S. j∈S Задача (21.12) распадается на L ⩾ 2 отдельных задач (i ∈ S): X nij ln pij → max , {pij }j∈S j∈S X pij = 1. j∈S 444 ГЛАВА 21. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОРОДНЫХ ЦЕПЕЙ МАРКОВА Решим каждую задачу по отдельности. Для i-й задачи запишем функцию Лагранжа: ³X ´ X (i) pij − 1 , (21.13) lT (X; {pij }j∈S , λi ) = nij ln pij + λi j∈S j∈S где λi – множитель Лагранжа. Необходимым условием максимума функции Лагранжа (21.13) является равенство первых производных нулю, где производные вычисляются по переменным {pij }j∈S и множителю λi : nij ∂ (i) l (X; {pij }j∈S , λi ) = + λi = 0, j ∈ S; ∂pij T pij X ∂ (i) pij − 1 = 0. lT (X; {pij }j∈S , λi ) = ∂λi j∈S Из первых L уравнений найдем pij = − nij , λi j ∈ S, и подставим в последнее уравнение: X µ nij ¶ − − 1 = 0, λi j∈S откуда с учетом обозначений (21.10) λi = − X nij = −ni , j∈S nij , что совпадает с (21.11). ¤ ni T Чтобы оценить стационарное распределение вероятностей π = (π1 , . . . , πL ) , согласно подстановочному принципу и определению (21.7) достаточно решить следующую СЛАУ: T P̂ Xπ̂ = π̂, (21.14) π̂i = 1, π̂ = (π̂1 , . . . , π̂L )T , и окончательно имеем p̂ij = i∈S где P̂ = (p̂ij )i,j∈S – МП-оценка матрицы вероятностей одношаговых переходов из (21.11). Оценку π̂ = (π̂1 , . . . , π̂L )T , определяемую (21.14), также иногда называют МП-оценкой, однако это неверно. Для оценивания стационарного распределения вероятностей интуитивно можно предложить и другой метод, построив оценку T π̃ = (π̃1 , . . . , π̃L )T ; π̃i = 1X ñi δxt ,i = , T t=1 T i ∈ S. (21.15) Если начальное распределение совпадает со стационарным, то из теоремы 21.2 (соотношение (21.8)) следует, что E{π̃i } = πi , i ∈ S. Иначе, исходя из замечания 21.2 к теореме 21.2, можно считать, что E{π̃i } → πi , T → +∞, i ∈ S. 21.3. ПРОВЕРКА ГИПОТЕЗ О ЦЕПИ МАРКОВА 445 Однако оценка (21.15) также не является МП-оценкой в традиционном смысле, поскольку даже при π(1) = π, когда цепь Маркова стационарна: π(t) = π, ее отсчеты {xt }Tt=1 , вообще говоря, зависимы между собой, а оценка (21.15) является МП-оценкой вероятностей состояний лишь для схемы независимых испытаний. 21.3. ПРОВЕРКА ГИПОТЕЗ О ЦЕПИ МАРКОВА По реализации ВР X = {x1 , . . . , xT } длительности T ⩾ 2 на практике часто необходимо выяснить, зависимы или независимы отсчеты {xt }Tt=1 . В условиях модели (21.1)–(21.3) это приводит к задаче проверки следующих гипотез: H0 : pij = πj , i, j ∈ S; H1 = H0 : ∃i, j ∈ S : pij 6= πj . Гипотеза H0 означает, что вероятность перехода в j-е состояние (j ∈ S) не зависит от предыдущего состояния: P{xt+1 = j|xt = i} = πj , ∀i ∈ S, т. е. исследуемая однородная цепь Маркова является схемой независимых испытаний. Проверка гипотез H0 , H1 основана на следующем критерии, который использует МП-оценку (21.9)–(21.11) для матрицы вероятностей одношаговых переходов, полученную в теореме 21.3: ½ H0 : γT ⩽ ∆; H1 = H0 : γT > ∆, где статистика критерия γT является обобщением χ2 -статистики: X (nij − ni nj /T )2 γT = . ni nj /T i,j∈S Определим порог критерия ∆. Используя теорему 21.3 и свойства МП-оценок, можно показать, что в условиях H0 статистика γT имеет при T → +∞ χ2 -распределение с (L2 − L) − (L − 1) = (L − 1)2 степенями свободы. Зададим уровень значимости α = = P{H1 |H0 } ∈ (0, 1), тогда ∆ = Fχ−1 (1 − α) – 2 (L−1)2 2 квантиль уровня 1 − α от χ -распределения с (L − 1)2 степенью свободы. Для однородной цепи Маркова решаются и другие задачи по проверке гипотез. Статистики критериев для решения таких задач, как и в задаче проверки на независимость, являются обобщениями χ2 -статистики. Например, пусть проверяются гипотезы о том, что матрица вероятностей одношаговых переходов P = (pij )i,j∈S совпадает с наперед заданной матрицей P o = (poij )i,j∈S : H0 : P = P o; H1 = H0 : P 6= P o (∃i, j ∈ S : pij 6= poij ). Тогда H0 принимается, если γT = X (nij − ni poij )2 i,j∈S po ij 6=0 ni poij ⩽ ∆, 446 ∆ = ГЛАВА 21. СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОРОДНЫХ ЦЕПЕЙ МАРКОВА Fχ−1 (1 − α) 2 m−L – порог критерия, определяемый по уровню значимости α = = P{H1 |H0 } X ∈ (0, 1) через квантиль χ2 -распределения с m − L степенями свободы, 2 где m = L − δpo ,0 – число ненулевых вероятностей одношаговых переходов в гипоi,j∈S ij тетической (L × L)-матрице P o = (poij )i,j∈S . 21.4. УПРАЖНЕНИЯ 1. Пусть матрица вероятностей одношаговых переходов P = (pij )i,j∈S однородной цепи X Маркова X с пространством состояний S = {1, . . . , L} является бистохастической: pij = pji = 1, i ∈ S. Показать, что стационарное распределение вероятностей j∈S j∈S π = (πi )i∈S имеет вид πi = 1/L, i ∈ S. 2. Установить, что однородная цепь Маркова с L ≥ 2 состояниями превращается в схему независимых испытаний с равновероятными исходами: πi = 1/L, i ∈ S, в случае, когда ее матрица вероятностей одношаговых переходов имеет вид P = (pij )i,j∈S , pij = 1/L, i, j ∈ S. 3. Доказать, что статистика γT , используемая в п. 21.3 для проверки гипотез независимости, в случае отсутствия зависимости (верна гипотеза H0 ) имеет при T → +∞ χ2 -распределение с (L−1)2 степенями свободы (T – длительность реализации, L ≥ 2 – число состояний цепи Маркова или число исходов в схеме независимых испытаний). 4. Монета подбрасывается T раз: X = {x1 , . . . , xT }, где xt = 1, если выпала «решка»; xt = 2, если – «орел» (t = 1, . . . , T ). Предполагая возможное наличие марковской зависимости между бросаниями, а также возможную несимметричность монеты, проверить, что на самом деле монета симметрична, а зависимость отсутствует. Указание: воспользоваться критерием для проверки гипотез о значенииµматрицы ¶вероятностей 1/2 1/2 одношаговых переходов из п. 21.3, положив в нем P 0 = (см. также 1/2 1/2 упражнение 2). ЛИТЕРАТУРА 1. Айвазян, С. А. Прикладная статистика: Исследование зависимостей / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. М. : Финансы и статистика, 1985. 2. Айвазян, С. А. Прикладная статистика: Классификация и снижение размерности / С. А. Айвазян [и др.]. М. : Финансы и статистика, 1989. 3. Айвазян, С. А. Прикладная статистика: Основы моделирования и первичная обработка данных / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. М. : Финансы и статистика, 1983. 4. Андерсон, Т. Введение в многомерный статистический анализ / Т. Андерсон. М. : Физматгиз, 1963. 5. Андерсон, Т. Статистический анализ временных рядов / Т. Андерсон. М. : Мир, 1976. 6. Бокс, Дж. Анализ временных рядов. Прогноз и управление / Дж. Бокс, Г. Дженкинс. М. : Мир, Вып. 1. 1974. 7. Большев, Л. Н. Таблицы математической статистики / Л. Н. Большев, Н. В. Смирнов. М. : Наука, 1983. 8. Боровков, А. А. Математическая статистика / А. А. Боровков. М. : Наука, 2002. 9. Боровков, А. А. Теория вероятностей / А. А. Боровков. М. : Наука, 1998. 10. Булинский, А. В. Теория случайных процессов / А. В. Булинский, А. Н. Ширяев. М. : ФИЗМАТЛИТ, 2003. 11. Гантмахер, Ф. Р. Теория матриц / Ф. Р. Гантмахер. М. : Наука, 1967. 12. Гихман, И. И. Теория вероятностей и математическая статистика / И. И. Гихман, А. В. Скороход, М. И. Ядренко. Киев : Наук. думка, 1983. 13. Гнеденко, Б. В. Курс теории вероятностей / Б. В. Гнеденко. М. : Наука, 1996. 14. Зуев, Н. М. Предельные теоремы для слабозависимых случайных величин / Н. М. Зуев. Минск : БГУ, 2000. 15. Зуеу̃, М. М., Сячко, У. У. Тэорыя iмавернасцей i матэматычная статыстыка / М. М. Зуеу̃ , У. У. Сячко. Мазыр : Выдавецкi Дом «Белы Вецер», 2000. 16. Ивченко, Г. И. Математическая статистика / Г. И. Ивченко, Ю. И. Медведев. М. : Высш. шк., 1984. 17. Карлин, С. Основы теории случайных процессов / С. Карлин. М. : Мир, 1971. 18. Колмогоров, А. Н. Основные понятия теории вероятностей / А. Н. Колмогоров. М. : Наука, 1974. 19. Крамер, Г. Стационарные случайные процессы / Г. Крамер, М. Лидбеттер. М. : Мир, 1969. 20. Липцер, Р. А. Теория мартингалов / Р. А. Липцер, А. Н. Ширяев. М. : Наука, 1986. 21. Розанов, Ю. А. Введение в теорию случайных процессов / Ю. А. Розанов. М. : Наука, 1982. 22. Розанов, Ю. А. Стационарные случайные процессы / Ю. А. Розанов. 2-е изд. М. : Наука, 1990. 23. Севастьянов, Б. А. Курс теории вероятностей и математической статистики / Б. А. Севастьянов. М. : Наука, 1988. 24. Скороход, А. В. Лекцii з теорii випадкових процесiв: навч. посiбник / А. В. Скороход. Кiеу̃ : Либiдь, 1990. 448 ЛИТЕРАТУРА 25. Справочник по теории вероятностей и математической статистике / под ред. В. С. Королюка. М. : Наука, 1985. 26. Феллер, В. Введение в теорию вероятностей и ее приложения: в 2 т. / В. Феллер. М. : Мир, 1994. 27. Феллер, В. Теория вероятностей и ее приложения / В. Феллер. М. : Мир, 1984. Т. 1, 2. 28. Хампель, Ф. Робастность в статистике: Подход на основе функций влияния / Ф. Хампель [и др.]. М. : Мир, 1989. 29. Харин, Ю. С. Математическая и прикладная статистика / Ю. С. Харин, Е. Е. Жук. Минск : БГУ, 2005. 30. Харин, Ю. С. Теория вероятностей / Ю. С. Харин, Н. М. Зуев. Минск : БГУ, 2004. 31. Харин, Ю. С. Теория вероятностей, математическая статистика, случайные процессы в задачах, упражнениях и тестовых заданиях: уч. пособие с грифом Минобразования / Ю. С. Харин, [и др.]. Минск : БГУ, 2010. 32. Харин, Ю. С. Практикум на ЭВМ по математической статистике / Ю. С. Харин, М. Д. Степанова. Минск : Университетское, 1987. 33. Харин, Ю. С. Сборник задач по теории вероятностей, теории случайных процессов и математической статистике / Ю. С. Харин, Г. А. Хацкевич, В. И. Лобач. Минск : БГУ, 1995. 34. Хорн, Р. Матричный анализ / Р. Хорн, Ч. Джонсон. М. : Мир, 1989. 35. Хьюбер, П. Робастность в статистике / П. Хьюбер. М. : Мир, 1984. 36. Ширяев, А. Н. Вероятность / А. Н. Ширяев. М. : Наука, 1989. 37. Grimmett, G. One Thousand Exercises in Probability / G. Grimmett, D. Stirzaker. Oxford : Oxford Univ. Press, 2001. 38. Grimmett, G. Probability and Random Processes / G. Grimmett, D. Stirzaker. Oxford : Oxford Unv. Press, 2001. 39. Nguen, H. T. Fundamentals of mathematical statistics / H. T. Nguen, G. S. Rogers. N.Y., Vol. 1, 2. 1989. ПРИЛОЖЕНИЯ 1. Электронный учебно-методический комплекс по теории вероятностей и математической статистике В качестве электронного помощника для изучения теории вероятности и математической статистики может быть использован «Электронный учебно-методический комплекс по теории вероятностей и математической статистике», разработанный на кафедре математического моделирования и анализа данных БГУ. «Электронный учебно-методический комплекс» (ЭУМК) – это система нормативной и учебно-методической документации, средств обучения и контроля, необходимых и достаточных для качественной организации основных и дополнительных образовательных программ, согласно учебному плану, представленная на электронных носителях. ЭУМК является одним из элементов организации образовательной деятельности по очной, заочной, очно-заочной и дистанционной формам обучения. Основная цель создания ЭУМК – предоставить студенту полный комплект учебнометодических материалов для самостоятельного изучения дисциплины. ЭУМК по курсу «Теория вероятностей и математическая статистика» предназначен также для использования в учебном процессе высших учебных заведений Республики Беларусь по всем специальностям, учебные планы которых включают учебную дисциплину «Теория вероятностей и математическая статистика» и разделы с использованием современных образовательных технологий. Структура ЭУМК ЭУМК для достижения максимального эффекта составлено несколько иначе нежели традиционно изданные пособия: главы являются более короткими, что соответствует меньшему размеру компьютерных экранных страниц по сравнению с книжными. Каждый раздел, соответствующий рубрикациям нижнего уровня, разбит на дискретные фрагменты, содержащие необходимый и достаточный материал по конкретному узкому вопросу. Как правило, такой фрагмент (статья) содержит один – три текстовых абзаца (абзацы также должны быть короче книжных), формулу, таблицу или рисунок и подпись к нему, включающую краткое пояснение смысла рисунка. Статья – это минимальный информационный объект ЭУМК. Элементы знаний связаны между собой гиперссылками. Информационное содержание элемента знаний определяется как упорядоченная совокупность связанных с ним учебных фрагментов. Пример статьи ЭУМК по курсу «Теория вероятностей и математическая статистика» приведен на рисунке. Таким образом, все содержание информационных модулей структурируется в виде статей (учебных фрагментов) по разделам ЭУМК и представляется в виде гипертекста. Пользователь ЭУМК просматривает не непрерывно излагаемый материал, а отдельные экранные статьи, дискретно следующие друг за другом. Изучив на данном экране представленные сведения, студент нажимает кнопку «Следующий», размещенную ниже текста, и получает следующий фрагмент материала. Если он видит, что не все понял или запомнил с предыдущего экрана, то нажимает кнопку «Предыдущий» и возвращается на один шаг назад. 450 ПРИЛОЖЕНИЯ Пример статьи ЭУМК Дискретная последовательность экранов находится внутри (и в пределах) наименьшей структурной единицы, позволяющей прямую адресацию, т. е. внутри пункта или подпункта (того, что характеризуется заголовком третьего уровня) содержится одна или несколько статей, последовательно связанных друг с другом гипертекстовыми связями. На основе таких фрагментов проектируется структура учебного материала, которая в соответствии с главами 1–21 данного учебника содержит: учебные программы; список основных понятий (глоссарий); теоретический материал; комплекс задач и упражнений; сборник тестовых заданий; список рекомендуемой литературы (библиография). Такая организация учебного материала обеспечивает дифференцированный подход к обучаемым в зависимости от уровня их подготовленности; результатом этого является более высокий уровень мотивации обучения, что приводит к лучшему и ускоренному усвоению материала. ЭУМК содержит два основных фрейма: в левом фрейме организована навигация в пределах пособия в целом, которая оформлена в виде оглавления документа. Поскольку размеры подробного оглавления велики, то во фрейме обязательно содержится слайдер (окно прокрутки) и возможность раскрывать/скрывать детальное оглавление подуровней. Для удобства в отдельный раздел выделен список определений, переход к которым организован по ссылкам от терминов, встречающихся в основном тексте и требующих пояснения. Предметный или алфавитный указатель пособия позволяет перейти от соответствующих терминов и понятий к основному тексту, в котором они упоминаются, с помощью гипертекстовых ссылок. Таким образом, содержимое этого фрейма обеспечивает дополнительные возможности навигации в пределах ЭУМК. Однако реализация этого способа требует от студента хотя бы предварительного знакомства с тематикой пособия. Иначе говоря, этим способом навигации целесообразно пользоваться лишь тем студентам, которые стремятся усовершенствовать или повысить уровень своих знаний по данному предмету. ПРИЛОЖЕНИЯ 451 Ориентация и перемещение внутри ЭУМК Ориентация студента в ЭУМК достигается несколькими путями. Прежде всего, как и в печатном издании, с помощью заголовков. Рубрикация ЭУМК характеризуется большей глубиной (большим числом уровней), чем у печатного учебника. Каждый экран содержит заголовок раздела. Выше уже упоминалось, что разделы ЭУМК достаточно короткие и каждый раздел содержит исчерпывающую информацию по одному конкретному вопросу. Другой вариант ориентации связан с использованием в ЭУМК колонтитулов (как и в печатном пособии). Колонтитул предусмотрен на каждой экранной странице и позволяет контролировать название изучаемой главы и параграфа, т. е. пользователь не теряет ориентации в учебнике. Наконец, в левом фрейме «Содержание» выбранный раздел отмечается другим цветом по сравнению со всеми оставшимися. Здесь преимущество ЭУМК особенно наглядно, так как студент, наряду с чтением раздела, всегда видит, где он находится, какой раздел изучает и расположение этого раздела среди рубрикаций. Перемещение внутри ЭУМК также может производиться с помощью гипертекстовых ссылок. В ЭУМК применяется иерархическое структурирование оглавления. Скажем, исходно на экране в левом фрейме помещается список заголовков первого уровня. Если щелкнуть по одному из заголовков, то в этом же фрейме появляется совокупность всех заголовков второго уровня для соответствующей части учебника. Аналогично при щелчке указателем мыши по заголовку второго уровня фрейм заполняется заголовками третьего уровня и так далее. Принципы построения ЭУМК В основе построения ЭУМК лежат следующие принципы. 1. Полнота. Содержание ЭУМК охватывает все основные разделы теории вероятностей и математической статистики, включая теоретический материал, тестовые задания, сборники задач. ЭУМК включает учебные материалы для разных специальностей вузов, объем учебных материалов значительно превышает потребности каждой отдельно взятой программы. Элементы знаний связаны между собой гипер-ссылками. 2. Гибкие средства адаптации к изменению учебных планов и программ. В состав ЭУМК в качестве самостоятельного раздела включаются типовые программы курсов. Привязка образовательного контента ЭУМК к действующим учебным программам по конкретным специальностям осуществляется с помощью установленных связей. 3. Универсальность технологического процесса создания и представления информации. ЭУМК является документом в кроссплатформенном формате электронных документов Adobe PDF, что позволяет пользоваться им практически на любых современных компьютерных платформах и операционных системах. Для подготовки исходных текстов ЭУМК создан специальный пакет для разработчиков UMK, включающий электронные шаблоны представления образовательного контента. 4. Адаптация к потребностям пользователя. Наличие «избыточного» учебного материала различных уровней сложности и детализации дает возможность обеспечить полноценную индивидуализацию обучения. R[a, b] Равномерное Fv,w F (Фишера) v>0– χ2v Хи-квадрат целые v, w > 0 – целое v, w > 0 β(v, w) Бета Гнеденко W (λ, α) Вейбулла – λ, α > 0 λ, α > 0 γ(λ, α) Гамма 0⩽x⩽1 v x x 2 −1 e− 2 × ³ v ¡ ¢´−1 × 2 2 Γ v2 , x⩾0 ¡ v ¢v/2 ¡ v+w ¢ Γ 2 × w ¢−1 ¡ v × Γ( 2 )Γ( w2 ) × v −1 ×x 2 × ¡ ¢− v+w 2 , × 1 + wv x x⩾0 ×(1 − x)w−1 , × exp(−λxα ), x⩾0 Γ(v+w) v−1 × Γ(v)Γ(w) x αλxα−1 × x⩾0 λα xα−1 e−λx , Γ(α) k−1 exp((x−a)/k) (1+exp((x−a)/k))2 a ∈ R1 , b> √ 0, k = 3b/π l(a, b) Логистиче- λ exp(−λx), x⩾0 λ>0 ³ 2´ × exp − (x−µ) 2σ2 √1 × 2πσ k! Γ(v+w+k) ¡ w ¢it/2 (1 − 2it)−v/2 k=0 Γ(v+w) Γ(v) × (it)k Γ(v+k) × v ¡ ¡ v ¢ ¡ w ¢¢−1 × Γ 2 Γ 2 × ¡ ¢ ¡ w−it ¢ ×Γ v+it Γ 2 2 × ∞ P w>2 w w−2 , v v v+w Γ(1+α−1 ) λ1/α k!λk/α ∞ P (it)k Γ(1+k/α) k=0 αλ−1 a λ−1 (1 − it/λ)−α eita Γ(1 − ikt)Γ(1 + ikt) −1 µ ³ ´ 2 2 exp itµ − σ 2t µ ∈ R1 , σ>0 (1 − it/λ) a+b 2 eiat (ei(b−a)t −1) i(b−a)t a⩽x⩽b 1 b−a , a, b ∈ R1 , a<b Математическое ожидание Характеристическая функция Параметры Плотность или дискретное распределение вероятностей ское E(λ) Экспоненциальное (Гаусса) Одномерное N1 (µ, σ2 ) нормальное Обозначение Распределение 2. Основные вероятностные распределения v>2 w(v−2) v(w+2) , v⩾2 v − 2, v, w > 1 v−1 v+w−2 , 1−α λ 0, если α ⩽ 1; ³ ´ −1 1/α (α − 1)/λ, λ⩾1 a 0 µ M ∈ [a, b] Мода w>4 2w2 (v+w−2) , v(w−2)2 (w−4) 2v vw (v+w)2 (v+w+1) ¡ × 2α−1 Γ(2/α)− ¢ −α−2 Γ2 (1/α) λ−2/λ × αλ−2 b2 λ−2 σ2 (b−a)2 12 Дисперсия 452 ПРИЛОЖЕНИЯ Bi(n, p) G(p) Bi(r, p) Отрицательное биномиальное Π(λ) Геометрическое рическое Пуассона πvΓ 2 2 × ¡ v ¢¢−1 ¡ v+1 ¢ × 2´ N 1 , × exp − (ln(x/m)) 2σ2 x⩾0 (λ/2)× × exp(−λ|x − a|) ³ √ 1 × 2πσx +1)) −1 ¡ ¡ πb ((x − a)/b)2 + v+1 ×(1 + x2 /v)− 2 × ¡√ Γ n⩾2, p ∈ [0, 1] r⩾1, p ∈ [0, 1] p ∈ [0, 1] λ>0 x Cr+x−1 pr (1 − p)x , x⩾0 p(1 − p)x , x ∈ {0, 1, . . .} 0 ⩽ x ⩽ min{L, n} λx (x!eλ )−1 , x ∈ {0, 1, . . .} x C n−x CL N −L , Cn N Cnx px (1 − p)n−x , x ∈ {0, . . . , n} (2π)¡− 2 |Σ|− 2 × T × exp − 12 (x − µ) ¢ × ×Σ−1 (x − µ) , x ∈ RN p ∈ [0, 1] px (1 − p)1−x , x ∈ {0, 1} µ ∈ RN , ΣÂ0 Гипергеомет- H(N, L, n) L, n < N Биномиальное NN (µ, Σ) Многомерное нормальное Бернулли Bi(1, p) EE(a, λ) Лапласа a ∈ R1 , λ>0 m, σ > 0 L(m, σ2 ) Логнормаль- ное a ∈ R1 , b>0 C(a, b) Коши v>0– целое tv (Стьюдента) t 0 × p 1−(1−p)eit ´r r(1−p) p 1−p p ¡ ¢−1 p 1 − (1 − p)eit ³ λ N nL N np ¡ ¢ exp λ(eit − 1) k=0 L C k C n−k P L N −L itk e Cn ¢n 1 + p(eit − 1) p 1 + p(eit − 1) ¡ µ w= = exp(σ2 ) a √ m w, exp(itT µ − 12 tT Σt) (1 + (t/λ)2 )−1 exp(ita) k=0 ³ ´ 2 2 × exp k ln m + k 2σ k! ∞ P (it)k ×(2 v|t|) , если (v + 1)/2 = n – целое exp(iat − b|t|) Не существует √ √ πΓ((v+1)/2) exp(− v|t|) × 2(n−1) Γ(v/2)2 (n−1)! n−1 P 2k × (2k)!Cn−1+k × k=0 √ n−1−k λ и λ − 1, если λ ⩾ 1 – целое; иначе целая часть λ; λ = (r−1)(1−p) p λ и λ − 1, если λ – целое; иначе целая часть λ 0 − −1/2 ⩽ ² ⩽ 1/2 1, если p > 1/2; 0, если p < 1/2; 0 и 1, если p = 1/2 (n + 1)p − 1/2 + ², µ a m/w a 0 r(1−p) p2 1−p p2 λ nL(N −L)(N −n) N 2 (N −1) np(1 − p) p(1 − p) Σ– ковариационная матрица 2/λ2 m2 w(w − 1) Не существует v>2 v v−2 , ПРИЛОЖЕНИЯ 453 454 ПРИЛОЖЕНИЯ 3. Алфавиты, используемые в математике Латинский алфавит Aa а Bb бэ Cc цэ Dd дэ Ee е F f эф Gg гэ Hh аш Ii и Jj йот Kk ка Ll эль M m эм N n эн Oo о P p пэ Qq ку Rr эр Ss эс T t тэ Uu у V v вэ W w дубль-вэ Xx икс Y y игрек Zz зет Готический алфавит Aa а Bb бэ Cc цэ Dd дэ Ee э Ff эф Gg гэ Hh ха Ii и Jj йот Kk ка Ll эль Mm эм Nn эн Oo о Pp пэ Qq ку Rr эр Ss эс Tt тэ Uu у Vv фау Ww вэ Xx икс Yy ипсилон Zz цэт Греческий алфавит Aα альфа Bβ бета Γγ гамма ∆δ дельта E² эпсилон Zζ дзета Hη эта Θθϑ тэта Iιι йота Kκ каппа Λλ ламбда M µ мю N ν ню Ξξ кси Oo омикрон Ππ пи P ρ ро Σσ сигма T τ тау Υυ ипсилон Φφ фи Xχ хи Ψψ пси Ωω омега ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 0 − 1-функция потерь, 280 L-оценки, 304 M -оценки, 304 T 2 -критерий Стьюдента, 372 T 2 -статистика Хотеллинга, 369 U -статистика, 382 V -статистика, 365 Z-преобразование Фишера, 351 Z-статистика Фишера, 351 F-измеримая функция, 37 χ2 -критерий согласия Пирсона, 319 χ2 -статистика Пирсона, 318 σ-алгебра, 24 k-мерная маргинальная (частная) функция распределения, 50 k-мерная маргинальная плотность распределения вероятностей, 52 n-мерная случайная величина, 49 n-мерная функция распределения, 49 n-мерное нормальное распределение вероятностей, 52 p-квантиль, 260 I достаточный признак сходимости п. н., 118 II достаточный признак сходимости п. н., 120 МНК-оценка, 289, 290 РП Неймана – Пирсона, 314 УЗБЧ для н. о. р. СВ, 141 ЦПТ Леви – Линдеберга, 153 ЦПТ Линдеберга, 150 ЦПТ Феллера, 152 ЦПТ для слабозависимых СВ, 157 ЦПТ для случайных векторов, 156 абсолютно непрерывная функция распределения, 43 аксиома конечной аддитивности, 20 аксиома нормировки, 25 аксиома равновероятности, 20 аксиома счетной аддитивности, 22 аксиомы Колмогорова, 25 алгебра случайных событий, 23 ансамбль реализаций ВР, 403 апостериорные вероятности классов, 386 априорные вероятности классов, 385 асимптотически наикратчайший центральный доверительный интервал, 301 асимптотически несмещенная оценка, 254 асимптотически нормальная оценка, 261 байесовская оценка параметра, 280 байесовский принцип оптимальности, 280, 315 байесовский риск, 386 байесовское решающее правило, 315, 386 безусловная вероятность, 29 белый шум, 183 биномиальное распределение вероятностей, 35 биномиальный закон распределения вероятностей, 42 борелевская σ-алгебра, 25 борелевская функция, 56 борелевское множество, 24 вариация оценки, 268, 270 вероятностное пространство, 25 вероятность, 25 вероятность ошибки I рода, 311 вероятность ошибки II рода, 311 взаимная спектральная плотность, 188 винеровский процесс, 192 временной ряд (ВР), 403 временной ряд авторегрессии, 417 временной ряд авторегрессии и проинтегрированного скользящего среднего, 436 временной ряд авторегрессии и скользящего среднего, 417 временной ряд скользящего среднего, 417 выборочная p-квантиль, 260 выборочная ковариационная матрица, 341 выборочная медиана, 261 выборочная спектральная плотность, 413 выборочная функция распределения, 255 выборочная характеристическая функция, 255 выборочное пространство, 252 выборочное среднее, 341 выборочный коэффициент корреляции, 349 выборочный множественный коэффициент корреляции, 358 выборочный момент, 255 выборочный частный коэффициент корреляции, 358 гауссовский случайный вектор, 52 гауссовский случайный процесс, 162 геометрическая вероятностная модель, 23 геометрическое распределение вероятностей, 43 гипергеометрический закон распределения вероятностей, 42 гипергеометрическое распределение вероятностей, 21 гипотеза Hk , 309 гипотеза независимости, 362 гипотеза симметрии, 373 456 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ гипотеза согласия, 317 гипотеза условной независимости, 362 гистограмма, 257 главные компоненты, 335 двухфакторный дисперсионный анализ, 397 дискретная вероятностная модель, 22 дискретная случайная величина, 41 дискретная функция распределения, 41 дискретное распределение вероятностей, 40 дискретный равномерный на множестве X закон распределения вероятностей, 42 дискриминантный анализ, 387 дисперсионный анализ, 396 дисперсия ВР, 403 дисперсия случайной величины, 98 доверительная вероятность, 295 доверительный интервал, 295 доля ошибочных решений, 387 достаточная статистика, 283 достаточное условие Колмогорова УЗБЧ, 140 достаточное условие Маркова ЗБЧ, 136 достаточное условие Чебышева ЗБЧ, 137 закон 0 ∨ 1 Бореля, 120 закон больших чисел (ЗБЧ), 135 закон распределения вероятностей Бернулли, 41 измеримое пространство, 24 импульсная характеристика фильтра, 178 интеграл Лебега по вероятностной мере, 65 интеграл Лебега – Стилтьеса, 82 интеграл Римана – Стилтьеса, 83 интервальная оценка, 295 интервальное оценивание, 295 информационная матрица Фишера, 265–267 квадратичная функция потерь, 280 квадратичный дискриминантный анализ, 391 классическая вероятностная модель, 20 кластерный анализ, 387 ковариационная матрица, 100 ковариационная функция, 171 ковариация случайных величин, 100 количество информации по Фишеру, 270 количество информации по Шеннону, 104 корреляционная функция ВР, 403 коэффициент корреляции, 101 критерий L2 -сходимости, 126 критерий ЗБЧ, 135 критерий Коши Lr -сходимости, 124 критерий Коши сходимости п. н., 118 критерий независимости случайных величин, 56 критерий отношения правдоподобия, 365 критерий отношения правдоподобия для проверки сложных гипотез, 321 критерий равномерной интегрируемости, 128 критерий согласия, 317 критерий согласия Колмогорова, 321 критерий сходимости ФР, 144 критерий факторизации Неймана – Фишера, 283 критерий эффективности оценки, 270 критические функции, 310, 386 кумулянтная функция СВ, 110 левосторонний доверительный интервал, 295 линейная регрессионная модель, 287 линейное преобразование, 177 линейный дискриминантный анализ, 391 логарифмическая функция правдоподобия Фишера, 273 марковский момент, 194 марковский процесс, 213 мартингал, 235 математическое ожидание, 71 математическое ожидание ВР, 403 математическое ожидание функции от СВ, 78 матрица вариаций, 254 матрица вероятностей одношаговых переходов, 441 медиана распределения вероятностей, 261 мера, 23 мера Лебега, 48 метод L-средних, 392 метод главных компонент, 334 метод максимального правдоподобия, 272 метод моментов, 271 метод обратной функции, 296 метод стьюдентизации, 298 метрика Махаланобиса, 340 минимальная достаточная статистика, 283 многомерная проблема Беренса – Фишера, 378 многомерная регрессионная модель, 287 многомерное нормальное распределение, 337 множественная регрессионная модель, 287 множественный коэффициент корреляции, 356 модель Тьюки – Хьюбера, 302 модель Фишера, 388 монотонная последовательность случайных событий, 26 мощность решающего правила, 312 начальный момент k-го порядка, 97 независимость случайных событий, 32 независимые в совокупности, 33 независимые случайные величины, 56 нелинейная регрессионная модель, 287 непрерывная случайная величина, 43 неприводимая цепь Маркова, 224 неравенство Берри – Эссеена, 153 неравенство Гаека – Реньи, 138 неравенство Гельдера, 81 неравенство Йенсена, 80 неравенство Колмогорова, 139 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ неравенство Коши – Буняковского (Шварца), 81 неравенство Крамера – Рао, 270 неравенство Ляпунова, 81 неравенство Минковского, 82 неравенство Чебышева, 79 неравенство Чебышева относительно дисперсии, 99 неравенство информации, 267 нерандомизированное РП, 310 несмещенность статистической оценки, 253 нижняя и верхняя доверительные границы, 295 нормальный (гауссовский) закон распределения вероятностей, 46 2 обобщенная T -статистика, 375 обобщенная статистика отношения правдоподобия, 364 обобщенная формула сложения вероятностей, 28 обобщенная формула умножения вероятностей, 31 однородная цепь Маркова, 441 однородный случайный процесс, 191 однофакторный дисперсионный анализ, 396 отсчетом ВР, 403 оценка Бартлетта, 415 оценка максимального правдоподобия, 274 оценка минимального контраста (ОМК, МКоценка), 304 оценка по методу моментов, 272 оценки Юла – Уокера, 422 параметрическое пространство, 252 парная корреляция, 349 парные зависимости, 349 план эксперимента, 290 плотность распределения вероятностей, 43 подстановочные решающие правила, 387 подстановочный принцип («plug-in»), 256 полиномиальное распределение вероятностей, 52 попарно независимые случайные события, 33 порядковая статистика, 258 последовательность авторегрессии, 183 последовательностью скользящего среднего, 183 последовательный анализ Вальда, 324 правило «3σ», 100 правосторонний доверительный интервал, 296 предел последовательности случайных событий, 26 предмет математической статистики, 251 прикладная статистика, 331 принцип максимума правдоподобия, 274 принцип метода моментов, 272 принцип метода наименьших квадратов, 289 принцип оптимальности Вальда, 325 принцип оптимальности Неймана – Пирсона, 312 457 производная Радона – Никодима, 96 производящая функция СВ, 111 простая гипотеза Hk , 309 простая регрессионная модель, 287 пространство решений, 309 пространство элементарных событий, 18 псевдо-F -статистика Фишера, 393 пуассоновский процесс, 200 равномерно интегрируемая (СВ), 127 равномерный (прямоугольный) закон распределения вероятностей, 45 разведочный анализ, 332 разложение Вольда, 428 ранговые статистики, 262 рандомизированное РП, 310 распределение Уишарта, 343 распределение вероятностей, 38 расстояние Колмогорова, 320 расстояние Махаланобиса, 389 реализация ВР, 403 решающее правило Вальда, 325 решающее правило Неймана – Пирсона, 312 решающее правило, решающая функция, критерий, тест, 309 робастное статистическое оценивание, 301 свойства МП-оценки, 276 свойства вероятностной меры (вероятности), 27 свойства достаточной статистики, 285 свойства интеграла Лебега, 74 свойство строгой марковости, 194 сглаженная спектральная плотность, 415 семейство конечномерных распределений, 162 семейство оценок Парзена, 415 сепарабельный случайный процесс, 164 сжатие данных, 334 сильная состоятельность оценки, 253 сингулярная функция распределения, 48 система обратных дифференциальных уравнений Колмогорова, 219 система прямых дифференциальных уравнений Колмогорова, 220 система уравнений Юла – Уокера, 420 слабая сходимость последовательности ФР, 144 сложная гипотеза Hk , 309 случайная величина, 37 случайная выборка, 251 случайная последовательность, 115 случайная функция, 401 случайное событие, 18 случайный n-вектор, 49 случайный процесс, 161 случайный процесс с независимыми приращениями, 191 случайный процесс с ортогональными приращениями, 173 458 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ случайный процесс, дифференцируемый в среднем квадратичном, 165 случайный процесс, непрерывный в среднем квадратичном, 164 случайный эксперимент, 17 смешанная модель авторегрессии и скользящего среднего, 184 смещение, 253 соотношение Вальда, 90 соотношения между видами сходимости случайных последовательностей, 130 состояние возвратное, 224 состояние несущественное, 224 состояние нулевое, 224 состояние периодическое, 224 состоятельность статистической оценки, 253 спектральная плотность, 172 спектральная функция, 172 спектральное представление, 172, 174 спектрограмма, 413 среднеквадратическая ошибка прогнозирования, 426 среднеквадратическое (стандартное) отклонение случайной величины, 98 стандартная нормальная плотность распределения вероятностей, 47 стандартная нормальная функция распределения, 47 стандартный нормальный закон N (0, 1), 150 статистика, 251 статистика отношения правдоподобия, 312, 322 статистическая оценка, 252 статистические выводы, 251 статистический анализ данных, 331 стационарное распределение для однородной цепи Маркова, 442 стационарные вероятности, 216 стохастическое дифференциальное уравнение (Ито), 207 субмартингал, 235 супермартингал, 235 схема независимых испытаний, 34 схема независимых испытаний Бернулли, 34 схема серий, 155 сходимость в среднем квадратическом, 116 сходимость в среднем порядка r, 116 сходимость по вероятности, 116 сходимость по распределению, 115 сходимость почти наверное, 116 теорема Ляпунова, 153 теорема Муавра – Лапласа, 154 теорема единственности для характеристической функции, 109 теорема непрерывности, 145 теорема обращения для характеристической функции, 108 теория статистической проверки гипотез, 309 тест максимального правдоподобия, 317 точечная оценка, 295 траектория, 161 тренд, 431 уравнение Колмогорова – Чепмена, 214 усиленный закон больших чисел (УЗБЧ), 135 условие Линдеберга, 149 условие Эйкера, 291 условие нормировки, 22 условие ординарности, 201 условия регулярности, 265 условная вероятность, 29 условная функция распределения, 53 условное математическое ожидание, 87 условное математическое ожидание относительно σ-алгебры, 90 фильтрация, 178 формула Байеса, 31 формула Байеса для плотностей распределения вероятностей, 55 формула полной вероятности, 31 формула свертки, 60 формула сложения вероятностей, 27 формула умножения вероятностей, 30 функционал риска, 280, 315, 386 функция Линдеберга, 148 функция неупреждающая, 202 функция потерь, 280 функция правдоподобия Фишера, 272 функция распределения СВ, 38 функция регрессии, 426 характеристическая функция СВ, 104 характеристическое уравнение, 419 центральная предельная теорема Линдеберга – Феллера, 152 центральный доверительный интервал, 296 центральный момент k-го порядка, 97 центральный смешанный момент порядка k, 100 центрированная случайная величина, 97 цепь Маркова, 213 частная дисперсия, 354 частная ковариация, 354 частный коэффициент корреляции, 354 частотная характеристика, 177 экспоненциальное семейство, 286 элементарные события, 18 эллипсоид рассеяния, 340 энтропия случайного вектора, 103 эргодическая цепь Маркова, 226 эффективная оценка, 269 эффективность статистической оценки, 269 ОГЛАВЛЕНИЕ ................................................................................. 1 ................................................................................. 2 ................................................................................. 2 ................................................................................. 4 ПРЕДИСЛОВИЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 ВВЕДЕНИЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Ч А С Т Ь 1. ТЕОРИЯ ВЕРОЯТНОСТЕЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 ................................................................................. 16 ГЛАВА 1. Случайные события и их вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1. ПРЕДМЕТ ТЕОРИИ ВЕРОЯТНОСТЕЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. СЛУЧАЙНЫЕ СОБЫТИЯ И СООТНОШЕНИЯ МЕЖДУ НИМИ . . . . . . . . . . . . . 1.3. ПОНЯТИЕ ВЕРОЯТНОСТИ. ПРОСТЕЙШИЕ ВЕРОЯТНОСТНЫЕ МОДЕЛИ . 1.4. АЛГЕБРА, σ-АЛГЕБРА И ИХ СВОЙСТВА. ИЗМЕРИМОЕ ПРОСТРАНСТВО . 1.5. АКСИОМЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ. ВЕРОЯТНОСТНОЕ ПРОСТРАНСТВО . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6. СВОЙСТВА ВЕРОЯТНОСТНОЙ МЕРЫ (ВЕРОЯТНОСТИ) . . . . . . . . . . . . . . . . . . 1.7. УСЛОВНАЯ ВЕРОЯТНОСТЬ И ЕЕ СВОЙСТВА. ФОРМУЛА ПОЛНОЙ ВЕРОЯТНОСТИ. ФОРМУЛА БАЙЕСА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8. НЕЗАВИСИМЫЕ СЛУЧАЙНЫЕ СОБЫТИЯ И ИХ СВОЙСТВА . . . . . . . . . . . . . . 1.9. СХЕМА НЕЗАВИСИМЫХ ИСПЫТАНИЙ БЕРНУЛЛИ. БИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.10. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 18 20 23 ГЛАВА 2. Случайные величины и их распределения вероятностей . . . . . . . . . . 2.1. ПОНЯТИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ. ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ И ЕЕ СВОЙСТВА . . . . . . . . . . . . . . . . . . . . 2.2. КЛАССИФИКАЦИЯ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ, РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ И СЛУЧАЙНЫХ ВЕЛИЧИН. ОСНОВНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. n-МЕРНАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА И СЛУЧАЙНЫЙ n-ВЕКТОР. nМЕРНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ, n-МЕРНАЯ ПЛОТНОСТЬ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ И ИХ СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . 2.4. УСЛОВНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ, УСЛОВНАЯ ПЛОТНОСТЬ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ И ИХ СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . 2.5. НЕЗАВИСИМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6. ФУНКЦИОНАЛЬНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН . . . . . . . 2.7. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ГЛАВА 3. Числовые характеристики случайных величин . . . . . . . . . . . . . . . . . . . . 3.1. СХЕМА ПОСТРОЕНИЯ ИНТЕГРАЛА ЛЕБЕГА ПО ВЕРОЯТНОСТНОЙ МЕРЕ. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ ПРОСТОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И ЕГО СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 27 29 32 34 35 37 37 40 49 53 56 58 61 65 65 460 ОГЛАВЛЕНИЕ 3.2. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ (ИНТЕГРАЛ ЛЕБЕГА) ДЛЯ ПРОИЗВОЛЬНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.3. СВОЙСТВА МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ (ИНТЕГРАЛА ЛЕБЕГА) . . . 74 3.4. НЕРАВЕНСТВА ДЛЯ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ . . . . . . . . . . . . . . . . . . . 79 3.5. ВЫЧИСЛЕНИЕ ИНТЕГРАЛА ЛЕБЕГА. ИНТЕГРАЛЫ ЛЕБЕГА – СТИЛТЬЕСА И РИМАНА – СТИЛТЬЕСА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.6. УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ЕГО СВОЙСТВА . . . . . . . . . 87 3.7. УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ ОТНОСИТЕЛЬНО σАЛГЕБРЫ И ЕГО СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.8. МОМЕНТЫ СКАЛЯРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И ИХ СВОЙСТВА . . . . 97 3.9. ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ И ЕЕ СВОЙСТВА . . . . . . . . . . . . . . . . 98 3.10. МОМЕНТЫ МНОГОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ, КОВАРИАЦИЯ, КОВАРИАЦИОННАЯ МАТРИЦА, КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ И ИХ СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 3.11. ЭНТРОПИЯ, КОЛИЧЕСТВО ИНФОРМАЦИИ ПО ШЕННОНУ И ДРУГИЕ ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН . . . . . . . . . . . 103 3.12. ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ И ЕЕ СВОЙСТВА . . . . . . . . . . . . . . . . . . . 104 3.13. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 ГЛАВА 4. Случайные последовательности и их сходимость . . . . . . . . . . . . . . . . . . 115 4.1. ОПРЕДЕЛЕНИЕ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ И ВИДОВ ЕЕ СХОДИМОСТИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.2. СХОДИМОСТЬ ПОЧТИ НАВЕРНОЕ. ЗАКОН 0 ∨ 1 БОРЕЛЯ . . . . . . . . . . . . . . . . . 116 4.3. СХОДИМОСТЬ ПО ВЕРОЯТНОСТИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.4. СХОДИМОСТЬ В СРЕДНЕМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.5. РАВНОМЕРНАЯ ИНТЕГРИРУЕМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН . . . . . . . . . . 127 4.6. СООТНОШЕНИЯ МЕЖДУ ВИДАМИ СХОДИМОСТИ СЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.7. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 ГЛАВА 5. Предельные теоремы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.1. ЗАКОН БОЛЬШИХ ЧИСЕЛ И УСЛОВИЯ ЕГО ВЫПОЛНЕНИЯ . . . . . . . . . . . . . . 135 5.2. УСИЛЕННЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ И УСЛОВИЯ ЕГО ВЫПОЛНЕНИЯ 138 5.3. СХОДИМОСТЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ И ХАРАКТЕРИСТИЧЕСКИХ ФУНКЦИЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 5.4. УСЛОВИЕ ЛИНДЕБЕРГА И ЕГО ВЕРОЯТНОСТНЫЙ СМЫСЛ . . . . . . . . . . . . . . 148 5.5. ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА ЛИНДЕБЕРГА – ФЕЛЛЕРА . . . . . 150 5.6. ЧАСТНЫЕ СЛУЧАИ ЦЕНТРАЛЬНОЙ ПРЕДЕЛЬНОЙ ТЕОРЕМЫ . . . . . . . . . . . 153 5.7. СХЕМА СЕРИЙ. СХОДИМОСТЬ К ЗАКОНАМ ГАУССА И ПУАССОНА . . . . . . 155 5.8. ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА ДЛЯ СЛУЧАЙНЫХ ВЕКТОРОВ И СЛАБОЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН . . . . . . . . . . . . . . . . . . . . . 156 5.9. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Ч А С Т Ь 2. ТЕОРИЯ СЛУЧАЙНЫХ ПРОЦЕССОВ . . . . . . . . . . . . . . . . . . . . . . . 159 ................................................................................. 160 ГЛАВА 6. Основные определения и общие свойства случайных процессов . . 161 6.1. ОПРЕДЕЛЕНИЕ И ЗАДАНИЕ СЛУЧАЙНЫХ ПРОЦЕССОВ . . . . . . . . . . . . . . . . . 161 6.2. ЭКВИВАЛЕНТНЫЕ, ТОЖДЕСТВЕННЫЕ И СЕПАРАБЕЛЬНЫЕ ПРОЦЕССЫ 163 6.3. НЕПРЕРЫВНОСТЬ И ДИФФЕРЕНЦИРУЕМОСТЬ СЛУЧАЙНОГО ПРОЦЕССА В СРЕДНЕМ КВАДРАТИЧНОМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 6.4. СТОХАСТИЧЕСКИЕ ИНТЕГРАЛЫ В СРЕДНЕМ КВАДРАТИЧНОМ . . . . . . . . . 166 6.5. НЕПРЕРЫВНОСТЬ ТРАЕКТОРИЙ СЛУЧАЙНОГО ПРОЦЕССА . . . . . . . . . . . . . 167 6.6. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 ОГЛАВЛЕНИЕ 461 ГЛАВА 7. Стационарные в широком смысле случайные процессы . . . . . . . . . . . 171 7.1. ОСНОВНЫЕ ПОНЯТИЯ И СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 7.2. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ КОВАРИАЦИОННОЙ ФУНКЦИИ СЛУЧАЙНОГО ПРОЦЕССА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 7.3. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ СТАЦИОНАРНОГО В ШИРОКОМ СМЫСЛЕ СЛУЧАЙНОГО ПРОЦЕССА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 7.4. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ ДЕЙСТВИТЕЛЬНЫХ СЛУЧАЙНЫХ ПРОЦЕССОВ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 7.5. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНОГО ПРОЦЕССА . . . . . . . . . . . . . . 176 7.6. ПРОГНОЗИРОВАНИЕ СЛУЧАЙНОГО ПРОЦЕССА . . . . . . . . . . . . . . . . . . . . . . . . . 178 7.7. СПЕКТРАЛЬНОЕ ПРЕДСТАВЛЕНИЕ КОВАРИАЦИОННОЙ ФУНКЦИИ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ И САМОЙ СТАЦИОНАРНОЙ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 7.8. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ 181 7.9. ПОСЛЕДОВАТЕЛЬНОСТИ АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 7.10. ПРОГНОЗИРОВАНИЕ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ . . . . . . . . . . . . 185 7.11. ИНТЕРПОЛЯЦИЯ И ФИЛЬТРАЦИЯ СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 7.12. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 ГЛАВА 8. Случайные процессы с независимыми приращениями . . . . . . . . . . . . 8.1. ВИД ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ СЛУЧАЙНОГО ПРОЦЕССА С НЕЗАВИСИМЫМИ ПРИРАЩЕНИЯМИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. ВИНЕРОВСКИЙ ПРОЦЕСС . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3. ПУАССОНОВСКИЙ ПРОЦЕСС . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4. СТОХАСТИЧЕСКИЙ ИНТЕГРАЛ ИТО . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ РЕШЕНИЙ СТОХАСТИЧЕСКИХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 191 192 200 202 207 210 ГЛАВА 9. Марковские случайные процессы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1. ЦЕПИ МАРКОВА. ОПРЕДЕЛЕНИЯ И ОСНОВНЫЕ СВОЙСТВА . . . . . . . . . . . . . 9.2. СХОДИМОСТЬ ВЕРОЯТНОСТЕЙ ЦЕПИ МАРКОВА. СТАЦИОНАРНЫЕ ВЕРОЯТНОСТИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3. ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ ЦЕПЕЙ МАРКОВА С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4. ВЕТВЯЩИЕСЯ ПРОЦЕССЫ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ . . . . . . . . . . . . . . 9.5. КЛАССИФИКАЦИЯ СОСТОЯНИЙ ЦЕПИ МАРКОВА С ДИСКРЕТНЫМ ВРЕМЕНЕМ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.6. ЭРГОДИЧЕСКИЕ ЦЕПИ МАРКОВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.7. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 213 ГЛАВА 10. Мартингалы, полумартингалы и марковские моменты . . . . . . . . . . . 10.1. МАРТИНГАЛЫ, ПОЛУМАРТИНГАЛЫ И МАРКОВСКИЕ МОМЕНТЫ . . . . . . . 10.2. НЕРАВЕНСТВА ДЛЯ СУБМАРТИНГАЛОВ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3. ТЕОРЕМЫ О СХОДИМОСТИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4. СХОДИМОСТЬ РЯДОВ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН . . . . . . . . . 10.5. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 235 238 241 245 248 Ч А С Т Ь 3. МАТЕМАТИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ . . . . . . . . . . . . . 249 ................................................................................. 250 ГЛАВА 11. Теория статистического оценивания параметров . . . . . . . . . . . . . . . . . 251 216 218 220 223 226 227 462 ОГЛАВЛЕНИЕ 11.1. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 11.2. ВЫБОРОЧНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ, ВЫБОРОЧНАЯ ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ, ВЫБОРОЧНЫЕ МОМЕНТЫ, ГИСТОГРАММА И ИХ СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 11.3. ПОРЯДКОВЫЕ СТАТИСТИКИ, ИХ СВОЙСТВА И ПРИМЕНЕНИЕ В ТЕОРИИ СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 11.4. РАНГОВЫЕ СТАТИСТИКИ И ИХ СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 11.5. НЕРАВЕНСТВО ИНФОРМАЦИИ. НЕРАВЕНСТВО КРАМЕРА – РАО. ЭФФЕКТИВНЫЕ ОЦЕНКИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 11.6. МЕТОД МОМЕНТОВ. ОЦЕНКИ ПО МЕТОДУ МОМЕНТОВ И ИХ СВОЙСТВА 271 11.7. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ И ЕГО СВОЙСТВА . . . . . . . 272 11.8. БАЙЕСОВСКИЙ МЕТОД СТАТИСТИЧЕСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 11.9. ДОСТАТОЧНЫЕ СТАТИСТИКИ И ИХ СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . 282 11.10. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И ЕГО СВОЙСТВА . . . . . . . . . . . . . . . . . 287 11.11. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ . . . . . . . . . . . . . . . . . . . . . . . . . . 294 11.12. РОБАСТНОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ . . . . . . . . . . . . . . . . . . . . . . . . . 301 11.13. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 ГЛАВА 12. Теория статистической проверки гипотез . . . . . . . . . . . . . . . . . . . . . . . . . 12.1. ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ ГИПОТЕЗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2. РЕШАЮЩЕЕ ПРАВИЛО НЕЙМАНА – ПИРСОНА . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3. БАЙЕСОВСКОЕ РЕШАЮЩЕЕ ПРАВИЛО . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.4. ПРОВЕРКА ГИПОТЕЗ О РАСПРЕДЕЛЕНИИ ВЕРОЯТНОСТЕЙ. КРИТЕРИИ СОГЛАСИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.5. КРИТЕРИЙ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ ДЛЯ ПРОВЕРКИ СЛОЖНЫХ ГИПОТЕЗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.6. ПОНЯТИЕ О ПОСЛЕДОВАТЕЛЬНОМ АНАЛИЗЕ ВАЛЬДА . . . . . . . . . . . . . . . . . 12.7. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 309 311 314 317 321 324 327 Ч А С Т Ь 4. СТАТИСТИЧЕСКИЙ АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ 329 ................................................................................. 330 ГЛАВА 13. Разведочный анализ и сжатие данных . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.1. СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ И ЕГО ОСНОВНЫЕ ЭТАПЫ . . . . . . . 13.2. ВЫБОРКА ИЗ МНОГОМЕРНЫХ НАБЛЮДЕНИЙ КАК МОДЕЛЬ СТАТИСТИЧЕСКИХ ДАННЫХ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.3. РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.4. ПРОБЛЕМА СЖАТИЯ ДАННЫХ. МЕТОД ГЛАВНЫХ КОМПОНЕНТ . . . . . . . . 331 331 331 332 334 ГЛАВА 14. Многомерное нормальное распределение и оценивание параметров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337 14.1. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И ЕГО ОСНОВНЫЕ СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337 14.2. ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ПАРАМЕТРОВ МНОГОМЕРНОГО НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ. ВЫБОРОЧНОЕ СРЕДНЕЕ И ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА . . . . . . . . . . . . . . . . . . . . . . . . . 341 14.3. ВЕРОЯТНОСТНЫЕ СВОЙСТВА ВЫБОРОЧНОГО СРЕДНЕГО И ВЫБОРОЧНОЙ КОВАРИАЦИОННОЙ МАТРИЦЫ. НЕСМЕЩЕННАЯ ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 14.4. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 ГЛАВА 15. Исследование зависимостей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 ОГЛАВЛЕНИЕ 15.1. ИССЛЕДОВАНИЕ ПАРНОЙ ЗАВИСИМОСТИ ПРИЗНАКОВ. ВЫБОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ. Z-СТАТИСТИКА ФИШЕРА И ПРОВЕРКА ГИПОТЕЗ О ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ . . . . . . . . . 15.2. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ: УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ И ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ . . . . . . . . . . . . . . 15.3. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ: ПРОГНОЗИРОВАНИЕ, ФУНКЦИЯ РЕГРЕССИИ И МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.4. ВЫБОРОЧНЫЕ ЧАСТНЫЙ И МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ. ПРОВЕРКА ГИПОТЕЗ НЕЗАВИСИМОСТИ . . . . . . . . . . . . . . . . . . . . . 15.5. ПРОВЕРКА ОБЩИХ ГИПОТЕЗ О НЕЗАВИСИМОСТИ . . . . . . . . . . . . . . . . . . . . . . 15.6. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 349 352 355 357 364 368 ГЛАВА 16. Проверка гипотез и статистическая классификация . . . . . . . . . . . . . . 369 16.1. ПРОВЕРКА ГИПОТЕЗ О ЗНАЧЕНИИ ВЕКТОРА МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ. T 2 -СТАТИСТИКА ХОТЕЛЛИНГА . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 16.2. СРАВНЕНИЕ ВЕКТОРОВ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ ПО ДВУМ ВЫБОРКАМ. МНОГОМЕРНАЯ ПРОБЛЕМА БЕРЕНСА – ФИШЕРА . . . . . . . . . . . . . 374 16.3. ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО ПАРАМЕТРОВ МНОГОМЕРНОГО НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 16.4. ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО НЕСКОЛЬКИХ ВЫБОРОК ИЗ МНОГОМЕРНЫХ НОРМАЛЬНЫХ РАСПРЕДЕЛЕНИЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . 380 16.5. ЗАДАЧИ СТАТИСТИЧЕСКОЙ КЛАССИФИКАЦИИ. ОПТИМАЛЬНОЕ (БАЙЕСОВСКОЕ) РЕШАЮЩЕЕ ПРАВИЛО . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 16.6. СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ МНОГОМЕРНЫХ НОРМАЛЬНЫХ НАБЛЮДЕНИЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388 16.7. ДИСПЕРСИОННЫЙ АНАЛИЗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396 16.8. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398 Ч А С Т Ь 5. СТАТИСТИЧЕСКИЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ . . . . . . 399 ................................................................................. 400 ГЛАВА 17. Основные понятия теории временных рядов . . . . . . . . . . . . . . . . . . . . . 401 17.1. СЛУЧАЙНАЯ ФУНКЦИЯ КАК МОДЕЛЬ СТАТИСТИЧЕСКИХ НАБЛЮДЕНИЙ В ДИНАМИКЕ. КЛАССИФИКАЦИЯ СЛУЧАЙНЫХ ФУНКЦИЙ . . . . . . . . 401 17.2. ВРЕМЕННЫЕ РЯДЫ И ИХ ОСНОВНЫЕ ХАРАКТЕРИСТИКИ . . . . . . . . . . . . . . . 403 17.3. СТАЦИОНАРНЫЕ ВРЕМЕННЫЕ РЯДЫ. СПЕКТРАЛЬНАЯ ПЛОТНОСТЬ СТАЦИОНАРНОГО В ШИРОКОМ СМЫСЛЕ ВРЕМЕННОГО РЯДА . . . . . . . . . . . . . . 404 ГЛАВА 18. Непараметрическое статистическое оценивание . . . . . . . . . . . . . . . . . . 407 18.1. ВЫБОРОЧНОЕ СРЕДНЕЕ СТАЦИОНАРНОГО ВРЕМЕННОГО РЯДА И ЕГО СВОЙСТВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 18.2. ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ ФУНКЦИЯ СТАЦИОНАРНОГО В ШИРОКОМ СМЫСЛЕ ВРЕМЕННОГО РЯДА И ЕЕ СВОЙСТВА . . . . . . . . . . . . . . . . . 409 18.3. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ СПЕКТРАЛЬНОЙ ПЛОТНОСТИ . . . . . . . 413 18.4. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416 ГЛАВА 19. Параметрический анализ стационарных временных рядов . . . . . . . 417 19.1. ВРЕМЕННЫЕ РЯДЫ АВТОРЕГРЕССИИ, СКОЛЬЗЯЩЕГО СРЕДНЕГО, АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО: УСЛОВИЯ СТАЦИОНАРНОСТИ И КОВАРИАЦИОННЫЕ ФУНКЦИИ, ЕДИНОЕ ЛИНЕЙНОЕ ПРЕДСТАВЛЕНИЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 19.2. АСИМПТОТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ ВЫБОРОЧНОГО СРЕДНЕГО И ВЫБОРОЧНОЙ КОВАРИАЦИОННОЙ ФУНКЦИИ СТАЦИОНАРНОГО ВРЕМЕННОГО РЯДА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 464 ОГЛАВЛЕНИЕ 19.3. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ АВТОРЕГРЕССИОННЫХ ВРЕМЕННЫХ РЯДОВ ПРИ ИЗВЕСТНОМ ПОРЯДКЕ АВТОРЕГРЕССИИ 421 19.4. ОЦЕНИВАНИЕ ПОРЯДКА АВТОРЕГРЕССИИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424 19.5. ПРОГНОЗИРОВАНИЕ СТАЦИОНАРНЫХ В ШИРОКОМ СМЫСЛЕ ВРЕМЕННЫХ РЯДОВ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426 19.6. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430 ГЛАВА 20. Статистический анализ нестационарных временных рядов . . . . . . 20.1. СТАТИСТИЧЕСКИЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ С ТРЕНДОМ В ОРТОГОНАЛЬНОМ БАЗИСЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.2. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ВРЕМЕННЫХ РЯДОВ АВТОРЕГРЕССИИ И ПРОИНТЕГРИРОВАННОГО СКОЛЬЗЯЩЕГО СРЕДНЕГО . . . . . . . . . . . 20.3. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 ГЛАВА 21. Статистический анализ однородных цепей Маркова . . . . . . . . . . . . . 21.1. ОДНОРОДНЫЕ ЦЕПИ МАРКОВА. ОСНОВНЫЕ ПОНЯТИЯ И СВОЙСТВА. УСЛОВИЯ СТАЦИОНАРНОСТИ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ДЛЯ ОЦЕНИВАНИЯ МАТРИЦЫ ВЕРОЯТНОСТЕЙ ОДНОШАГОВЫХ ПЕРЕХОДОВ И СТАЦИОНАРНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. ПРОВЕРКА ГИПОТЕЗ О ЦЕПИ МАРКОВА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.4. УПРАЖНЕНИЯ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 443 445 446 ЛИТЕРАТУРА . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 Приложения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 431 435 440 441 Учебное издание Харин Юрий Семенович Учебник Редактор Технический редактор Корректоры Подписано в печать 00.00.2011. Формат 60x84/16. Бумага офсетная. Гарнитура Таймс. Печать офсетная. Усл. печ. л. Уч.-изд. л. Тираж 500 экз. Зак. . Белорусский государственный университет. Лицензия на осуществление издательской деятельности № 02330/0056804 от 02.03.2004. 220030, Минск, проспект Независимости, 4. Отпечатано с оригинала-макета заказчика. Республиканское унитарное предприятие «Издательский центр Белорусского государственного университета». Лицензия на осуществление полиграфической деятельности № 02330/0056850 от 30.04.2004. 220030, Минск, ул. Красноармейская, 6.