Ýëåêòðîííûé ó÷åáíî-ìåòîäè÷åñêèé êîìïëåêñ Ìàòåìàòè÷åñêàÿ ñòàòèñòèêà Ó÷åáíàÿ ïðîãðàììà äèñöèïëèíû Êóðñ ëåêöèé Ïðàêòèêóì ïî ðåøåíèþ çàäà÷ Ìåòîäè÷åñêèå óêàçàíèÿ ïî ñàìîñòîÿòåëüíîé ðàáîòå Áàíê òåñòîâûõ çàäàíèé â ñèñòåìå UniTest Êðàñíîÿðñê ÈÏÊ ÑÔÓ 2009 УДК 519.22 (075) ББК 22.172я73 К84 Электронный учебно-методический комплекс по дисциплине «Математическая статистика» подготовлен в рамках реализации Программы развития федерального государственного образовательного учреждения высшего профессионального образования «Сибирский федеральный университет» (СФУ) на 2007–2010 гг. Рецензенты: Красноярский краевой фонд науки; Экспертная комиссия СФУ по подготовке учебно-методических комплексов дисциплин К84 Крупкина, Т. В. Математическая статистика в примерах и задачах [Электронный ресурс] : практикум по решению задач / Т. В. Крупкина, А. К. Гречкосеев. – Электрон. дан. (2 Мб). – Красноярск : ИПК СФУ, 2009. – (Математическая статистика : УМКД № 1455/405–2008 / рук. творч. коллектива Т. В. Крупкина). – 1 электрон. опт. диск (DVD). – Систем. требования : Intel Pentium (или аналогичный процессор других производителей) 1 ГГц ; 512 Мб оперативной памяти ; 50 Мб свободного дискового пространства ; привод DVD ; операционная система Microsoft Windows XP SP 2 / Vista (32 бит) ; Adobe Reader 7.0 (или аналогичный продукт для чтения файлов формата pdf). ISBN 978-5-7638-1680-8 (комплекса) ISBN 978-5-7638-1750-8 (практикума) Номер гос. регистрации в ФГУП НТЦ «Информрегистр» 0320902499 (комплекса) Настоящее издание является частью электронного учебно-методического комплекса по дисциплине «Математическая статистика», включающего учебную программу дисциплины, курс лекций, методические указания по самостоятельной работе, контрольно-измерительные материалы «Математическая статистика. Банк тестовых заданий», наглядное пособие «Математическая статистика. Презентационные материалы». Включает в себя задачи для аудиторной и самостоятельной работы и разобранные примеры их решений, а также необходимые теоретические сведения. Предназначен для студентов направлений подготовки бакалавров 010100.62 «Математика», 010500.62 «Прикладная математика и информатика», 010300.62 «Математика. Компьютерные науки» укрупненной группы 010000 «Физико-математические науки и фундаментальная информатика». © Сибирский федеральный университет, 2009 Рекомендовано к изданию Инновационно-методическим управлением СФУ Редактор Н. Ф. Ткачук Разработка и оформление электронного образовательного ресурса: Центр технологий электронного обучения Информационно-телекоммуникационного комплекса СФУ; лаборатория по разработке мультимедийных электронных образовательных ресурсов при КрЦНИТ Содержимое ресурса охраняется законом об авторском праве. Несанкционированное копирование и использование данного продукта запрещается. Встречающиеся названия программного обеспечения, изделий, устройств или систем могут являться зарегистрированными товарными знаками тех или иных фирм. Подп. к использованию 30.11.2009 Объем 2 Мб Красноярск: СФУ, 660041, Красноярск, пр. Свободный, 79 Я занимался до сих пор решением ряда задач, ибо при изучении наук примеры полезнее правил. Исаак Ньютон1 Предисловие Данное издание предназначено для обеспечения аудиторной и самостоятельной работы студентов института математики Сибирского федерального университета по решению задач в курсе «Математическая статистика». Дисциплина размещена в учебном плане в 8-м семестре по 4 часа (2 часа лекций и 2 часа практических занятий) в неделю. Структура изложения определена графиком практических занятий и соответствует стандартному семестру (17 недель, 15 практических занятий); 2 занятия отведены под промежуточный контроль. Номер параграфа пособия соответствует номеру практического занятия. Дисциплина охватывает две большие темы (два модуля): выборочная теория, статистическое оценивание и проверка статистических гипотез. Первый модуль занимает 1–8-ю недели, второй 9–17-ю недели 8-го семестра. Модуль 1 «Выборочная теория» состоит из трех тем: 1) введение в математическую статистику (занятия 1, 2, 3); 2) распределения математической статистики (занятия 4, 5); 3) статистическое оценивание (занятия 6, 7); Этот модуль является фундаментом следующего и посвящен введению в математическую статистику. Рассматриваются выборочные характеристики и методы статистической обработки случайной выборки, вводятся распределения Пирсона, Стьюдента, Фишера, изучаются распределения выборочных характеристик, рассматриваются простейшие методы решения одной из основных задач статистики — задачи оценивания. Вводятся понятия несмещенных, состоятельных, оптимальных и эффективных оценок, изучаются их свойства. Второй модуль «Оценивание и проверка статистических гипотез» состоит из четырех тем: 4) достаточность и оптимальность (занятия 8, 9, 10); 5) интервальное оценивание параметров (занятие 11); 6) проверка параметрических гипотез (занятия 12, 13); 7) проверка гипотез о виде распределения и о связи (занятия 14, 15). В этом модуле изложение ведется на основе теории достаточных статистик. Помимо точечного и интервального оценивания параметров рассматривается вторая важнейшая задача статистики – проверка статистических гипотез. Излагаются как общие подходы к проверке 1 Ньютон, И. Всеобщая арифметика или книга об арифметическом синтезе и анализе. М. : Изд-во Академии наук СССР, 1948. С. 243. 3 статистической гипотезы и процедуры построения критериев, так и процедуры применения критериев для проверки гипотез, а также методы сравнения статистических критериев. В этом же модуле изучаются элементы регрессионного анализа, включая оценивание параметров уравнения регрессии. Каждый параграф пособия содержит необходимые теоретические сведения и включает большое количество подробно разобранных примеров и задач для аудиторной и самостоятельной работы. Приложение содержит семь таблиц: значения функций ϕ (x), Φ0 (x), случайные числа, квантили распределения Стьюдента Tn , квантили распределения χ2n , квантили распределения Фишера F порядков α = 0, 01 и 0, 05, критические значения критерия U Манна – Уитни при уровне значимости α = 0, 05. Использование пособия позволит закрепить и углубить теоретические знания и получить навыки практического применения статистических методов. 4 Принятые обозначения и сокращения P(A) — вероятность события A E ξ — математическое ожидание случайной величины ξ Dξ — дисперсия случайной величины ξ X = (X1 , . . . , Xn ) — выборка hFi — статистическая модель hFθ i — параметрическая модель Xk∗ — k-ая порядковая статистика νn (x) — эмпирическая частота Fn (x), Fn∗ (x) — эмпирическая функция распределения ak — выборочный начальный момент k-го порядка mk — выборочный центральный момент k-го порядка X — выборочное среднее S 2 — выборочная дисперсия 2 S — исправленная выборочная дисперсия KXY — выборочная ковариация rXY — выборочный коэффициент корреляции p → − — сходится по вероятности d → − — сходится по распределению п.н. −−→ — сходится почти наверное θ̂ — оценка θ Tθ — класс несмещенных оценок параметра θ Tτ (θ) — класс несмещенных оценок параметрической функции τ (θ) I — информационное количество Фишера L — функция правдоподобия о.м.п. — оценка максимального правдоподобия о.м.м. — оценка метода моментов о.н.к. — оценка методом наименьших квадратов E — экспоненциальное семейство Iθ — доверительный интервал параметра θ M (K) — мощность критерия НКО — наилучшая критическая область π(X) — рандомизированный статистический критерий J — начало решения I — конец решения 5 § 1. Статистические модели Генеральная совокупность рассматривается как случайная величина ξ, а выборка – как n-мерная случайная величина (ξ1 , . . . , ξn ), компоненты которой независимы и одинаково распределены (так же как ξ). Статистическая модель hFi – это класс допустимых функций распределения исходной случайной величины. Если функции распределения из класса hFi заданы с точностью до значений параметра θ (не обязательно скалярного) с множеством возможных значений Θ, то такая модель обозначается hFθ i и называется параметрической. Если модель hFθ i такова, что можно дифференцировать по θ интегралы на выборочном пространстве X , меняя порядок дифференцирования и интегрирования, то она называется регулярной. Одно из наиболее существенных условий регулярности – то, что выборочное пространство X не должно зависеть от параметра θ. Вариационный ряд конкретной реализации выборки x = (x1 , . . . , xn ) – последовательность упорядоченных по возрастанию значений x∗1 , x∗2 , . . . , x∗n (x∗1 6 x∗2 6 . . . 6 x∗n ). Если через Xk∗ обозначить случайную величину, которая для каждой реализации x выборки X принимает значение x∗k , k = 1, . . . , n, то Xk∗ называется k-й порядковой статистикой выборки, а X1∗ и Xn∗ – экстремальными значениями выборки. Порядковые статистики удовлетворяют неравенствам X1∗ 6 X2∗ 6 . . . 6 Xn∗ . Последовательность X1∗ , X2∗ , . . . , Xn∗ называют вариационным рядом выборки. Эмпирической функцией распределения Fn (x), соответствующей выборке X, называется случайная функция от x, вычисляемая по формуле Fn (x) = νn , n где νn – число элементов выборки X = (X1 , . . . , Xn ), значения которых меньше x (эмпирическая частота). Пример 1. Какая статистическая модель применима для выборки, полученной следующим образом: 10 раз измерялось число вызовов ξ, поступающих оператору АТС в течение минуты? J Поскольку число абонентов АТС велико, а вероятность для каждого из них позвонить в данную минуту мала, можно применить модель пуассоновского распределения hPλ i. I 6 Пример 2. Какая статистическая модель применима для выборки цен на один и тот же товар в 100 различных магазинах в один и тот же момент времени? J Поскольку выборка достаточно велика, то можно пробовать применить нормальную модель hN (a, σ)i. Если при этом цены меняются мало, возможно и применение равномерной модели. I Пример 3. По данной выборке X = (2, 1, 1, 2, −1, 2, 2, 4, 1) построить вариационный ряд, найти эмпирическую частоту и эмпирическую функцию распределения. J Для нахождения вариационного ряда надо упорядочить элементы выборки по возрастанию: X ∗ = (−1, 1, 1, 1, 2, 2, 2, 2, 4). 0 при x 6 −1, 1 при −1 < x 6 1, 4 при 1 < x 6 2, ν9 (x) = 8 при 2 < x 6 4, 9 при x > 4. 0 при x 6 −1, 1/9 при −1 < x 6 1, 4/9 при 1 < x 6 2, F9 (x) = 8/9 при 2 < x 6 4, 1 при x > 4. I Пример 4. Найти распределение эмпирической частоты, полученной по выборке объема 100 в нормальной модели hN (0, 1)i. J Известно, что эмпирическая частота имеет биномиальное распределение B(n; Fξ (x)). Поэтому в данном случае эмпирическая частота распределена по закону B(100; Φ(x)). I Пример 5. Доказать, что в модели hFξ i DFn (x) = J DFn (x) = D νn (x) n 7 = Dνn (x) , n2 Fξ (x)(1 − Fξ (x)) . n но νn (x) имеет биномиальное распределение B(n; Fξ (x)) с дисперсией nFξ (x)(1 − Fξ (x), и DFn (x) = Dνn (x) nFξ (x)(1 − Fξ (x) Fξ (x)(1 − Fξ (x)) = = . n2 n2 n I Задачи 1. Какая статистическая модель применима для выборки, полученной следующим образом: 10 раз измерялось число попаданий в цель при трех независимых выстрелах, произведенных одним и тем же стрелком? 2. Какая статистическая модель применима для выборки, полученной следующим образом: 8 раз измерялось число черных шаров, вынутых с возвращением за три раза из урны, которая содержит два белых и несколько черных шаров? 3. Какая статистическая модель применима для выборки, полученной следующим образом: у 100 студенток первого курса измерен рост? 4. Какая статистическая модель применима для выборки, полученной измерением на 10 опытных делянках урожайности культуры, если известно, что урожайность культуры составляет 35 центнеров с гектара? 5. Какая статистическая модель применима для выборки, полученной измерением 100 раз времени ожидания автобуса? 6. Какая статистическая модель применима для данной выборки? m ni 0 1 2 3 4 5 13 17 12 5 3 1 7. По официальным данным в Швеции в 1935 г. родилось 88 273 ребенка, причем в январе родилось 7280 детей, в феврале – 6957, марте – 7883, апреле – 7884, мае – 7892, июне – 7609, июле – 7585, августе – 7393, сентябре – 7203, октябре – 6 903, ноябре – 6 552 и в декабре – 7 132 ребенка. Какая статистическая модель применима для этой выборки? 8. В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, полученных при скрещивании растений с 8 круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей по теории наследственности приведены в следующей таблице: Семена Круглые и желтые Морщинистые и желтые Круглые и зеленые Морщинистые и зеленые Частота Вероятность 315 9/16 101 3/16 108 3/16 32 1/16 Какая статистическая модель применима для этой выборки? 9. В эксперименте Бюффона при n = 4040 бросаниях монеты наблюдалось m = 2048. Какая статистическая модель применима для этой выборки? 10. В десятичной записи числа π среди первых 10002 знаков после запятой цифры 0, 1, . . . , 9 встречаются соответственно 968, 1026, 1021, 974, 1014, 1046, 1021, 970, 948, 1014 раз. Какая статистическая модель применима для этой выборки? 11. Датчик случайных чисел выдал 10000 чисел 0, 1, . . . , 9. Какая статистическая модель применима для этой выборки? 12. В таблице приводятся результаты 100 опытов, состоящих в одновременном подбрасывании 6 костей. В каждом из опытов подсчитывалось число m костей, выпавших кверху гранью с шестью очками. m 0 1 2 3 4 5 6 ni 47 35 8 9 1 0 0 Какая статистическая модель применима для этой выборки? 13. Во время эпидемии гриппа среди 1000 человек одно заболевание наблюдалось у 90 человек, дважды болели гриппом 4 человека, у остальных заболевания не было. Какая статистическая модель применима для этой выборки? 14. Какая статистическая модель применима для выборки распределения студентов по знакам Зодиака? Номер знака ni Номер знака ni 1 2 3 4 5 6 12 13 23 11 9 10 7 8 9 10 11 12 15 7 15 9 7 3 9 15. В таблице приведены числа ni участков равной площади 0,25 км южной части Лондона, на каждый из которых приходилось по i попаданий снарядов во время второй мировой войны: 2 i ni 0 1 2 3 4 5 и более 229 221 93 35 7 1 Какая статистическая модель применима для этой выборки? 16. Среди 300 семей, имеющих двоих детей, 80 семей, в которых два мальчика, и 67, в которых две девочки (в остальных семьях дети разного пола). Какая статистическая модель применима для этой выборки? В задачах 17–20 по данной выборке X = (X1 , . . . , Xn ) построить вариационный ряд, найти эмпирическую функцию распределения. 17. X = (1, 1, 2, 1, 2, 4). 18. X = (−1, 1, 2, 1, 2, 3, 4, 1). 19. X = (1, 0, 0, 2, 2, 1). 20. X = (5, 6, 1, 4, 5, 7, 3, 5, 5, 6). 21. Дан статистический ряд величины X: X 0 2 4 6 ni 3 8 10 2 Построить вариационный ряд. 22. Можно ли восстановить по эмпирической функции распределения, приведенной на рис. 1, если n = 60: а) вариационный ряд, б)выборку? 23. Существует ли выборка (X1 , . . . , Xn ) объема 10 с графиком эмпирической функции распределения, изображенным на рис. 1? Какому условию должен удовлетворять объем выборки? 24. На рис. 1 представлен график эмпирической функции распределения выборки (X1 , . . . , Xn ). Нарисуйте график эмпирической функции распределения выборки: а) (X1 + 2, . . . , Xn + 2); б) (2X1 , . . . , 2Xn ). 10 Fn∗ (x) 1 6 - 1 2 3 4 5 6 x Рис. 1. Эмпирическая функция распределения 25. По эмпирической функции распределения восстановите выборку объема n. Какому условию должен удовлетворять объем выборки? 0 при x 6 1, 1/3 при 1 < x 6 2, Fn (x) = 1/2 при 2 < x 6 3, 1 при x > 3. 26. По эмпирической частоте восстановите выборку. 0 при x 6 1, 12 при 1 < x 6 2, νn (x) = 15 при 2 < x 6 3, 24 при x > 3. 27. Найти функцию распределения максимального элемента выборки в статистической модели hF i. 28. Найти функцию распределения минимального элемента выборки в модели hF i. 29. Найти функцию распределения k-й порядковой статистики выборки. 30. Найти функцию распределения максимального элемента выборки в модели R[a, b]. 31. Найти функцию распределения максимального элемента выборки в модели Ea . 32. Найти совместную функцию распределения k-й и l-й порядковых статистик выборки. 33. В статистической модели hF i найти совместную функцию распределения минимального и максимального элементов выборки. 11 34. Найти совместную плотность всех порядковых статистик выборки объема n из абсолютно непрерывного распределения с плотностью f (x). X1∗ , . . . , Xn∗ 35. В статистической модели hF i Fn∗ (x) – эмпирическая функция распределения. Найти P (Fn∗ (x) = y) , x, y ∈ R. 12 § 2. Выборочные характеристики Пусть X = (X1 , . . . , Xn ) – выборка объема n из распределения F и x = (x1 , . . . , xn ) – наблюдавшееся значение X. Любая функция от X представляет собой также случайную величину с распределением, однозначно определяемым распределением вектора X. Каждому теоретическому моменту g(ξ) можно поставить в соответствие P его статистический аналог G = G(X), вы1 числяемый по формуле G(x) = n ni=1 g(Xi ) (см. табл. § 2). Случайную величину G называют эмпирической или выборочной характеристикой, соответствующей теоретической характеристике g. Если g(x) = xk , то G – выборочный начальный момент k-го порядка, который будем обозначать ak . Выборочным начальным моментом k-го порядка называют случайную величину n 1X k X . ak = n i=1 i Если k = 1, то величину a1 называют выборочным средним и обозначают символом X, n 1X X= Xi . n i=1 Значения случайной величины X при конкретной реализации x выборки X будем обозначать строчной буквой (x). Напомним, что теоретические моменты случайной величины ξ обозначают греческими буквами, а соответствующие им выборочные – латинскими. Выборочным центральным моментом k-го порядка называют случайную величину n 1X mk = (Xi − X)k . n i=1 При k = 2 величину m2 называют выборочной дисперсией и обозначают S 2: n 1X 2 S = (Xi − X)2 . n i=1 Выборочную дисперсию часто рассчитывают по формуле 2 1 X 2 1X 2 S = Xi − X̄ = Xi − X̄ 2 , n n 2 P 2 1 а исправленная выборочная дисперсия равна S = n−1 Xi − X̄ . Выбо√ рочное среднеквадратичное отклонение S = S 2 . 13 Будем считать, что выборка взята из совокупности с математическим ожиданием E ξ = a и дисперсией Dξ = σ 2 ; тогда E Xi = a, DXi = σ 2 для любого элемента выборки Xi . Таблица 1 Соответствие выборочных и теоретических характеристик Теоретические характеристики a = Eξ математическое ожидание σ 2 = Dξ дисперсия αk = E ξ k начальный k-й момент µk = E(ξ − E ξ)k центральный k-й момент A = σµ33 коэффициент асимметрии E = σµ44 − 3 коэффициент эксцесса Свойства X = Выборочные характеристики P X = n1 ni=1 Xi выборочное среднее P S 2 = n1 ni=1 (Xi − X)2 выборочная дисперсия P ak = n1 ni=1 Xik начальный выборочный k-й момент P mk = n1 ni=1 (Xi − X)k центральный выборочный k-й момент b = m33 A S выборочный коэффициент асимметрии b = m44 − 3 E S выборочный коэффициент эксцесса n 1P Xi . n i=1 1. E X = a. 2. DX = σ2 . n p 3. X → − a. п.н. 4. X −−→ a. 5. √ (X−a) n σ ∼ N (0, 1). Свойства выборочной дисперсии S 2 . 2 2 1. SX+c = SX . 2 2 2. SkX = k 2 SX . P 2 Xi − (X)2 . 3. S 2 = n1 P 4. S 2 = min n1 (Xi − c)2 . c 14 5. E S 2 = 2 6. DS = (n−1)σ 2 . n (n−1)2 n3 µ4 − (n−3) 2 n−1 µ2 . Выборочной модой называется значение mo , чаще всего наблюдающееся: ni (m0 ) = max ni . i Выборочной медианой называется значение me , равное среднему члену вариационного ряда: me = X[∗n ]+1 . 2 Выборочной квантилью порядка q, 0 < q < 1 называется значение равное члену вариационного ряда с номером [nq] + 1. Xq∗ , Выборочная ковариация KXY : KXY = XY − XY , где XY = 1 n Pn i=1 Xi Yi . Выборочный коэффициент корреляции rXY : r= KXY . sX sY Выборочное уравнение линейной регрессии Y на X: sY Ŷ − Y = r (X − X). sX Выборочное уравнение линейной регрессии X на Y : sX X̂ − X = r (Y − Y ). sY Пример 6. По выборке {3, 1, 2, 0, 2, 4} найдем выборочное среднее и моду. J n 1X 1 12 X= Xi = (3 + 1 + 2 + 0 + 2 + 4) = = 2. n i=1 6 6 Выборочная мода mo = 2, так как значение «2» имеет наибольшую частоту. I 15 Пример 7. По выборке {3, 1, 2, 0, 2, 4} найдем выборочную дисперсию, выборочное среднеквадратичное отклонение и исправленную выборочную дисперсию. 10 5 (3 − 2)2 + (1 − 2)2 + 2 · (1 − 2)2 + (0 − 2)2 + (4 − 2)2 = = . 6 3 Другой способ нахождения S 2 : J S2 = 1 6 1X 2 1 17 5 Xi − X̄ 2 = · 34 − 22 = −4= . n 6 3 3 √ Выборочное среднеквадратичное отклонение S = S 2 ≈ 1, 3. Исправленная выборочная дисперсия равна S2 = 2 S = 6 5 n S 2 = · = 2. n−1 5 3 I Пример 8. Найдем дисперсию величины S 2 для нормального распределения N (a, σ). J 3σ 4 − σ 4 2(3σ 4 − 2σ 4 ) 3σ 4 − 3σ 4 2σ 4 2σ 4 DS = − + = − 2 = n n2 n3 n n 4 2σ (n − 1) 2(n − 1) 4 = = σ . n2 n2 Мы использовали найденные ранее значения моментов нормального распределения: µ2 = σ 2 , µ4 = 3σ 4 (µ2k = (2k − 1)!! · σ 2k ).I 2 Пример 9. Выясним, чему равняется математическое ожидание выборочного среднего E X в модели, заданной законом распределения: ξ P 0 1 2 3 0, 2 0, 3 0, 4 0, 1 J Найдем математическое ожидание E ξ: E ξ = 0 · 0, 2 + 1 · 0, 3 + 2 · 0, 4 + 3 · 0, 1 = 1, 4. По свойству выборочного среднего E X = a = E ξ. Следовательно, E X = 1, 4. I 16 Пример 10. Вычислим выборочный коэффициент корреляции rXY по данным: X 1 2 3 4 5 Y 1 1 2 2 4 J P P ( i xi )( i yi ) i xi yi − KXY n r= = r = P P 2 sX sY P 2 ( i xi ) P 2 ( i yi )2 )( i yi − ) ( ( i xi − n n P P P n i xi yi − ( i xi )( i yi ) = p P 2 . P P P ( (n i xi − ( i xi )2 )(n i yi2 − ( i yi )2 ) X X X X X xi = 15, yi = 10, xi yi = 37, x2i = 55, yi2 = 26. P i i i i i 5 · 37 − 15 · 10 7 = √ ≈ 0, 904. r= p 60 ( (5 · 55 − (15)2 )(5 · 26 − (10)2 ) I Пример 11. По данным предыдущего примера найдем выборочное уравнение линейной регрессии Y на X. J Ŷ − Y = r sY (X − X), sX можно записать это по-другому: P P ( i xi )( i yi ) i xi yi − KXY Pn 2 Ŷ − Y = 2 (X − X) = (X − X) = P 2 ( i xi ) sX i xi − n P P P n i xi yi − ( i xi )( i yi ) P P = (X − X). n i x2i − ( i xi )2 P Имеем: 35 (X − 3), 50 Ŷ = 0, 7(X − 3) + 2, Ŷ − 2 = Ŷ = 0, 7X − 0, 1. I 17 Задачи 36. Выборочная дисперсия, рассчитанная по выборке объема 25, равна 9. Найдите исправленную выборочную дисперсию. 37. По выборке {1, 1, 2, 1, 2, 4} найти выборочную дисперсию. 38. По выборке {1, 1, 2, 1, 2, 4} найти исправленную выборочную дисперсию. 39. По выборке {−1, 1, 2, 1, 2, 3, 4, 1} найти моду, выборочное среднеквадратичное отклонение. 40. По выборке {−1, 1, 2, 1, 2, 3, 4, 1} найти моду, выборочную дисперсию. 41. По выборке {1, 0, 0, 2, 2, 1} найти выборочные центральные моменты 2-го и 3-го порядков. 42. Выборка X = (124, 90, 124, 99, 90, 111, 89) представляет собой значения индексов продаж 7 однотипных товаров некоторого производителя. Найти исправленную выборочную дисперсию. 43. Дан статистический ряд величины X: X 0 2 4 6 ni 3 8 10 2 Найти выборочное среднее и выборочную дисперсию. 44. Дан статистический ряд величины X: X −1 0 1 2 ni 5 7 4 1 Найти выборочные начальные моменты 2-го и 3-го порядков. 45. Найти a3 по выборке (5, 6, 5, 6, 5, 5, 5, 6). 46. По эмпирической функции распределения найдите выборочное среднее. 0 при x 6 1, 1/3 при 1 < x 6 2, Fn (x) = 1/2 при 2 < x 6 3, 1 при x > 3. 18 47. По эмпирической частоте найдите выборочное среднее. 0 при x 6 1, 12 при 1 < x 6 2, νn (x) = 15 при 2 < x 6 3, 24 при x > 3. 48. Найдите в распределении Пуассона с параметром λ математическое ожидание выборочного среднего E X. 49. Найдите в распределении Пуассона с параметром λ дисперсию DX. 50. Найдите в показательном распределении с параметром a E X и DX. n P 1 2 2 51. Докажите, что если s = n (Xi − X̄)2 , то E s2 = n−1 n σ . i=1 52. Вычислить выборочный коэффициент корреляции rXY по данным: X −2 −1 0 1 2 Y −2 1 2 5 6 и интерпретировать полученный результат. 53. По данным предыдущего примера найти выборочные уравнения линейной регрессии Y на X и X на Y . 54. Вычислить выборочный коэффициент корреляции rXY по данным: X 0 1 3 5 6 Y 0 1 2 1 0 и интерпретировать полученный результат. 55. Докажите, что при неограниченном увеличении объема выборки начальные выборочные моменты сходятся по вероятности к теоретическим начальным моментам. 56. Докажите, что при неограниченном увеличении объема выборки центральные выборочные моменты сходятся по вероятности к теоретическим центральным моментам. 57. Докажите, что при неограниченном увеличении объема выборки выборочные коэффициенты асимметрии и эксцесса сходятся по 19 вероятности к соответствующим теоретическим коэффициентам. 58. Докажите асимптотическую нормальность выборочного среднего. 59. Докажите асимптотическую нормальность начального выборочного момента порядка k. 20 § 3. Группировка выборки. Графические характеристики Метод группировки выборки объема n. Число интервалов k рекоmin мендуется брать из условия 2k−1 ∼ n. Длина интервала h = xmax −x . Граk ницы интервалов группировки: x0 = xmin , xi = x0 + hi, i = 1, ..., k, далее подсчитывается, сколько элементов выборки попало в каждый интервал, и в группировочной таблице заполняется столбец «Численность ni ». Остальные столбцы рассчитываются по столбцу численностей. Они пригодятся при построении графических характеристик. Таблица 2 Таблица группировки № Интервал Численность ni 1 2 ... ni n ni nh i P nj 1 n [x0 − x1 ) [x1 − x2 ) ... Гистограмма – это фигура, состоящая из прямоугольников, построенных на интервалах группировки как на основаниях и имеющих площади nni , ni . для чего берут высоту прямоугольника, равную nh Полигон – это ломаная линия, проходящая через середины верхних ni границ прямоугольников гистограммы (соединяющая точки (x∗i ; nh , где x∗i – середина i-го интервала). Полигон и гистограмма являются статистическими аналогами теоретической плотности. i−1 P nj Кумулята – это ломаная линия, соединяющая точки (xi ; n ). Куму1 лята дает представление о графике функции распределения. Для нахождения приближенных значений выборочных медианы, моды и квантилей по группированной выборке применяют интерполяционные формулы. Медианным называется интервал, в котором накопленная сумма частот впервые достигает 21 . Выборочной группированной медианой называется значение m∗e : m∗e = xe + n/2 − (n1 + . . . + nme −1 ) · h, nme 21 где n – объем выборки, h – длина интервала группировки, xe – левая граница медианного интервала, ni – численность i-го интервала, nme – численность медианного интервала. Модальным называется интервал, имеющий наибольшую численность. Выборочной группированной модой называется значение m∗0 : m∗0 = x0 + h · nm0 − nm0 −1 , 2nm0 − nm0 −1 − nm0 +1 где x0 – левая граница модального интервала, nm0 – численность модального интервала, nm0 −1, , nm0 +1 – численности интервалов слева и справа от модального. Квантильным порядка q интервалом называется интервал, в котором сумма накопленных частот впервые достигает значения q. Выборочной группированной квантилью называется значение x∗q : x∗q = x(q) + h · nq − (n1 + · · · + n(q)−1 ) , n(q) где x(q) – левая граница квантильного интервала, n(q) – численность квантильного интервала, n1 , · · · , n(q)−1 – численности интервалов, предшествующих квантильному. Пример 12. Произвести группировку выборки: 87, 8 104, 5 90, 9 92, 4 74, 3 71, 7 75, 0 92, 0 76, 0 82, 2 86, 3 85, 0 75, 0 91, 5 105, 7 112, 4 80, 8 74, 5 86, 6 95, 8 100, 4 109, 7 52, 7 96, 6 87, 6 101, 4 103, 4 90, 6 88, 0 79, 9 91, 6 84, 2 108, 6 77, 5 89, 2 82, 6 90, 0 86, 1 80, 3 92, 8 103, 8 84, 5 90, 6 113, 5 101, 1 113, 7 94, 3 90, 7 70, 7 93, 5 96, 8 111, 5 103, 8 106, 8 89, 4 84, 7 100, 9 80, 5 91, 8 82, 2 86, 9 100, 3 100, 1 93, 4 101, 3 118, 7 99, 3 105, 0 92, 7 96, 7 81, 3 96, 1 84, 6 86, 3 83, 7 84, 6 80, 7 102, 3 104, 2 89, 4 90, 9 89, 6 66, 5 120, 4 100, 4 86, 8 70, 4 91, 9 98, 3 111, 7 90, 2 87, 9 81, 1 88, 1 103, 3 85, 0 69, 1 82, 2 101, 8 80, 4 77, 7 79, 3 96, 2 94, 1 87, 6 104, 2 81, 4 81, 6 115, 7 84, 2 93, 2 112, 7 86, 8 79, 8 89, 8 88, 1 110, 9 109, 0 84, 8 82, 6 89, 1 88, 9 97, 9 78, 0 87, 5 68, 1 107, 7 88, 6 J 1. Упорядочим выборку (получим вариационный ряд). 22 95, 5 82, 8 52, 7 66, 5 68, 1 69, 1 70, 4 70, 7 71, 7 74, 3 74, 5 75, 0 75, 0 76, 0 77, 5 77, 7 78, 0 79, 3 79, 8 79, 9 80, 3 80, 4 80, 5 80, 7 80, 8 81, 1 81, 3 81, 4 81, 6 82, 2 82, 2 82, 2 82, 6 82, 6 82, 8 83, 7 84, 2 84, 2 84, 5 84, 6 84, 6 84, 7 84, 8 85, 0 85, 0 86, 1 86, 3 86, 3 86, 6 86, 8 86, 8 86, 9 87, 5 87, 6 87, 6 87, 8 87, 9 88, 0 88, 1 88, 1 88, 6 88, 9 89, 1 89, 2 89, 4 89, 4 89, 6 89, 8 90, 0 90, 2 90, 6 90, 6 90, 7 90, 9 90, 9 91, 5 91, 6 91, 8 91, 9 92, 0 92, 4 92, 7 92, 8 93, 2 93, 4 93, 5 94, 1 94, 3 95, 5 95, 8 96, 1 96, 2 96, 6 96, 7 96, 8 97, 9 98, 3 99, 3 100, 1 100, 3 100, 4 100, 4 100, 9 101, 1 101, 3 101, 4 101, 8 102, 3 103, 3 103, 4 103, 8 103, 8 104, 2 104, 2 104, 5 105, 0 105, 7 106, 8 107, 7 108, 6 109, 0 109, 7 110, 9 111, 5 111, 7 112, 4 112, 7 113, 5 113, 7 115, 7 118, 7 120, 4 2. Минимальный элемент выборки равняется xmin = 52, 7, а максимальный xmax = 120, 4. Определим сначала число интервалов k. Рекомендуется брать такое k, k−1 что 2 ∼ n. В данном примере n = 130. 27 = 128 ∼ 130; k − 1 = 7, k = 8. Выберем число интервалов k = 8. 3. Определим длину интервала h. h= xmax − xmin . k Находим 120, 4 − 52, 7 ≈ 8, 4567. 8 4. Найдем границы интервалов группировки x0 = xmin , xi = x0 +hi, i = 1, ..., k: h= x0 = 52, 7, x1 = 61, 2, x2 = 69, 6, x3 = 78, 1, x4 = 86, 5, x5 = 95, 0, x6 = 103, 4, x7 = 111, 9, x8 = 120, 4. 5. Составим таблицу группировки и внесем границы интервалов в стол- 23 бец «Интервал»: № Интервал ni 1 [52, 7 − 61, 2) 2 [61, 2 − 69, 6) 3 [69, 6 − 78, 1) 4 [78, 1 − 86, 5) 5 [86, 5 − 95, 0) 6 [95, 0 − 103, 4) 7 [103, 4 − 111, 9) 8 [111, 9 − 120, 4) ni n nj 1 n Pi 6. Подсчитаем, сколько элементов выборки попало в каждый интервал, и заполним в таблице столбец «Численность ni »: Pi nj № Интервал ni nni 1 n 1 [52, 7 − 61, 2) 1 2 [61, 2 − 69, 6) 3 3 [69, 6 − 78, 1) 11 4 [78, 1 − 86, 5) 31 5 [86, 5 − 95, 0) 40 6 [95, 0 − 103, 4) 22 7 [103, 4 − 111, 9) 15 8 [111, 9 − 120, 4) 7 По столбцу численностей рассчитаем остальные столбцы таблицы: Pi n j ni № Интервал ni 1 n n 1 [52, 7 − 61, 2) 1 0, 008 0, 008 2 [61, 2 − 69, 6) 3 0, 023 0, 031 3 [69, 6 − 78, 1) 11 0, 085 0, 115 4 [78, 1 − 86, 5) 31 0, 238 0, 354 5 [86, 5 − 95, 0) 40 0, 308 0, 662 6 [95, 0 − 103, 4) 22 0, 169 0, 831 7 [103, 4 − 111, 9) 15 0, 115 0, 946 8 [111, 9 − 120, 4) 7 0, 054 1 I 24 Пример 13. По группированной выборке, полученной в примере 12, найти выборочную медиану. Pi nj ni № Интервал ni 1 n n 1 [52, 7 − 61, 2) 1 0, 008 0, 008 2 [61, 2 − 69, 6) 3 0, 023 0, 031 3 [69, 6 − 78, 1) 11 0, 085 0, 115 4 [78, 1 − 86, 5) 31 0, 238 0, 354 5 [86, 5 − 95, 0) 40 0, 308 0, 662 6 [95, 0 − 103, 4) 22 0, 169 0, 831 7 [103, 4 − 111, 9) 15 0, 115 0, 946 8 [111, 9 − 120, 4) 7 0, 054 1 J Медианным является интервал № 5, так как в нем впервые накопленная 1 сумма частот, равная 0,662, достигает . 2 m∗e = 86, 5 + 130/2 − (1 + 3 + 11 + 31) · 8, 4567 ≈ 90, 517. I 40 Задачи 60. Произвести группировку выборки: 20, 2; 19, 2; 16, 9; 19, 3; 17, 1; 17, 8; 16, 6; 16, 3; 15, 2; 18, 0; 16, 8; 20, 0; 17, 7; 16, 6; 19, 0; 17, 5; 17, 8; 20, 6; 17, 2; 18, 0; 17, 1; 18, 4; 17, 4; 15, 8; 19, 4; 17, 8; 19, 8; 19, 6; 16, 3; 20, 0; 17, 4; 19, 3; 19, 3; 16, 5; 18, 8; 17, 2; 18, 7; 18, 6; 19, 2; 16, 2; 18, 2; 17, 4. 61. По выборке, данной в виде статистического ряда, постройте гистограмму, полигон и кумуляту. X 0 − 6 6 − 12 12 − 18 18 − 24 ni 1 8 10 6 25 В задачах 62–64 постройте по выборке гистограмму и полигон и по их виду подберите статистическую модель. 62. P ni ni ni № ni n nh n 1 0, 01 − 0, 98 260 0, 260 0, 252 0, 260 2 0, 98 − 1, 94 340 0, 340 0, 329 0, 600 3 1, 94 − 2, 91 192 0, 192 0, 186 0, 792 4 2, 91 − 3, 88 101 0, 101 0, 098 0, 893 5 3, 88 − 4, 85 63 0, 063 0, 061 0, 956 6 4, 85 − 5, 81 20 0, 020 0, 019 0, 976 7 5, 81 − 6, 78 16 0, 016 0, 015 0, 992 8 6, 78 − 7, 75 3 0, 003 0, 003 0, 995 9 7, 75 − 8, 72 4 0, 004 0, 004 0, 999 10 8, 72 − 9, 68 0 0, 000 0, 000 0, 999 11 9, 68 − 10, 65 1 0, 001 0, 001 1, 000 63. X 0 − 3 3 − 6 6 − 9 9 − 12 12 − 15 ni 2 8 12 6 3 64. № 1 2 3 4 5 6 7 8 9 10 11 0, 00 − 0, 09 0, 09 − 0, 18 0, 18 − 0, 27 0, 27 − 0, 36 0, 36 − 0, 45 0, 45 − 0, 54 0, 54 − 0, 63 0, 63 − 0, 72 0, 72 − 0, 81 0, 81 − 0, 90 0, 90 − 0, 99 ni 80 81 93 85 87 87 87 106 99 89 106 ni n ni nh P ni 0, 080 0, 081 0, 093 0, 085 0, 087 0, 087 0, 087 0, 106 0, 099 0, 089 0, 106 0, 007 0, 007 0, 008 0, 008 0, 008 0, 008 0, 008 0, 010 0, 009 0, 008 0, 010 0, 080 0, 161 0, 254 0, 339 0, 426 0, 513 0, 600 0, 706 0, 805 0, 894 1, 000 n 65. По двумерной выборке найти выборочные распределения 26 компонент, построить для каждой из них гистограмму и полигон, подобрать статистическую модель. XY [−0.9; 0) [0; 0.9) [0.9; 1.8) [1.8; 2.7) [2.7; 3.6) [3.6; 4.5) [4.5; 5.4] [−1.53; −0.75) 0 0 4 0 0 0 0 [−0.75; 0.03) 0 5 1 3 3 2 0 [0.03; 0.81) 0 2 6 7 6 0 1 [0.81; 1.59) 2 3 9 10 6 1 1 [1.59; 2.37) 0 0 4 5 4 4 1 [2.37; 3.15) 1 0 5 1 0 1 0 [3.15; 3.93) 0 0 0 0 1 1 0 66. Могут ли графики (1) и (2) (рис. 2) являться гистограммами одной и той же выборки? 6 6 8/75 0,1 0 1 2 3 4 5 6 7 8 9 10 x 0 1 2 3 4 5 6 7 8 9 10 x Рис. 2. Гистограммы (1) и (2) 67. Приведите (если это возможно) примеры выборок, для которых а) приведенный на рис. 2 график (1) является гистограммой, а график (2) не является; б) график (1) не является гистограммой, а график (2) является гистограммой. 68. Дан группированный статистический ряд величины Х: X 0 − 6 6 − 12 12 − 18 18 − 24 ni 2 7 5 6 Найти приближенно моду и медиану. 69. Для группированного статистического ряда из предыдущей задачи найти приближенно квантили порядков 0,2 и 0,8. 70. Дан группированный статистический ряд величины Х: X 0 − 5 5 − 10 10 − 15 15 − 20 20 − 25 ni 4 8 9 7 4 27 Найти приближенно моду и медиану. 71. Для группированного статистического ряда из предыдущей задачи найти приближенно квантили порядков 0,25 и 0,75. 72. Вычислить поправку Шеппарда для третьего начального момента по группированному статистическому ряду из предыдущей задачи. 73. Вычислить поправку Шеппарда для второго начального момента по группированному статистическому ряду X 0 − 2 2 − 4 4 − 6 6 − 8 8 − 10 ni 2 3 6 5 4 74. Вычислить поправку Шеппарда для выборочной дисперсии по группированному статистическому ряду X 3 − 6 6 − 9 9 − 12 12 − 15 ni 7 6 4 3 28 § 4. Распределения χ2, Стьюдента, Фишера Статистикой можно назвать любую функцию элементов выборки T (X) = T (X1 , . . . , Xn ), которая не зависит от параметров распределения. Распределением хи-квадрат χ2n с n степенями свободы называется гамма-распределение с параметрами α = 21 , β = n2 . Соответствующая случайная величина обозначается тем же символом 2 χn , а ее плотность имеет вид n x 2 −1 − x fξ 2 (x) = n n e 2 , 2 2 Γ( 2 ) x > 0. Распределением Стьюдента Tn с n степенями свободы называется распределение случайной величины ξ tn = q χ2n n ξ = q Pn 2 i=1 ξi n , где ξ, ξi ∈ N (0, 1) и независимы. Формула плотности распределения Стьюдента Γ( n+1 1 1 2 ) , fTn (x) = √ · · n πn Γ( 2 ) (1 + xn2 ) n+1 2 x ∈ R, где Γ(β) – гамма-функция, определяемая для всех β > 0 соотношением Z∞ Γ(β) = tβ−1 e−t dt. 0 Распределением Фишера (Фишера–Снедекора, F -распределением) с n, m степенями свободы называется распределение случайной величины fn,m = fFn,m (x) = n n2 m χ2n n . χ2m m n Γ( n+m x 2 −1 2 ) · n · n+m , Γ( 2 )Γ( m2 ) (1 + nx 2 ) m x ∈ R+ . Пример 14. Изобразить квантили уровней α/2 и 1 − α/2 на графике плотности распределения χ2n . 29 J fχ2n (x) 0 χ2n,α/2 χ2n,1−α/2 X Рис. 3. Квантили уровней α/2 и 1 − α/2 на графике плотности распределения χ2n I Пример 15. Изобразить квантили уровней α/2 и 1 − α/2 на графике плотности распределения Tn . J fTn (x) Tn,α/2 0 Tn,1−α/2 X Рис. 4. Квантили уровней α/2 и 1 − α/2 на графике плотности распределения Стьюдента Tn I Пример 16. Доказать, что χ2n p −→ 1. n J Пусть ξ1 , . . . , ξn независимы и имеют стандартное нормальное распределение. Тогда E ξi2 = Dξ = 1, и по ЗБЧ ξ12 + . . . + ξn2 p χ2n = −→ 1. n n I 30 Задачи 75. Получить формулу плотности распределения случайной величины χ2n как частный случай плотности гамма-распределения. 76. Найти характеристическую функцию распределения χ2n . 77. Найти распределение квадрата случайной величины, распределенной по нормальному закону N (0, 1). 78. Найти характеристическую функцию распределения ξ 2 , ξ ∈ N (0, 1). 79. Доказать, что сумма квадратов n независимых случайных величин, распределенных по нормальному закону N (0, 1), имеет распределение χ2n . 80. Доказать, что сумма независимых случайных величин, распределенных по закону хи-квадрат, распределена также по закону хи-квадрат с числом степеней свободы, равным сумме степеней свободы слагаемых. 81. Вывести формулу плотности распределения случайной величины χ2 , исходя из представления в виде суммы квадратов независимых нормальных стандартных величин. 82. Найти, в какой точке достигается максимум плотности распределения χ2n (n > 2). 83. Нарисовать на одном чертеже графики плотности распределений χ2n1 , χ2n2 при n1 < n2 . 84. Указать точное и приближенное распределение суммы квадратов пятидесяти независимых случайных величин, распределенных по нормальному закону N (0, 1). 85. Найти распределение суммы десяти независимых случайных величин, каждая из которых распределена по закону χ2n . 86. Найти квантили порядков 0,05 и 0,95 распределения χ210 (использовать таблицы). 87. Найти P(χ220 > 12, 44), P(χ220 < 28, 41), P(12, 44 < χ220 < 28, 41) (использовать таблицы). 88. Найти квантиль порядка 0,9 распределения χ21 , используя таблицу стандартного нормального распределения. 31 89. Найти математическое ожидание и дисперсию величины χ2n . 90. Вывести формулу плотности распределения Стьюдента. 91. Доказать, что распределение Стьюдента симметрично и асимптотически нормально. 92. Доказать, что у распределения Стьюдента Tn существуют только моменты порядка m < n, при этом все существующие моменты нечетного порядка m = 2k + 1 равны нулю. 93. Найти закон распределения отношения двух независимых стандартных нормальных случайных величин. 94. Доказать, что распределение T1 является распределением Коши. 95. Нарисовать на одном чертеже графики плотности распределения N (0, 1) и плотности распределения Стьюдента. 96. Нарисовать на одном чертеже графики плотности распределений Стьюдента Tn1 , Tn2 при n1 < n2 . 97. Найти квантили порядков 0,05 и 0,95 распределения Стьюдента T10 (использовать таблицы). 98. Доказать, что t2n = f1,n ; χ21 = u2 , где u ∈ N (0, 1). 99. Найти математическое ожидание и дисперсию величины Tn . 100. Доказать, что если fn,m имеет распределение Фишера Fn,m , то 1/fn,m имеет распределение Фишера Fm,n . 101. Найти квантиль порядка 0,05 распределения F5,10 (использовать таблицы). 102. Вывести формулу плотности распределения Фишера. 103. Найти математическое ожидание распределения Фишера. 104. Найдите k-й начальный момент распределения Фишера. 105. Найти дисперсию распределения Фишера. 32 § 5. Распределения выборочных характеристик Теорема 1 (теорема Фишера). Пусть X√1 , . . . , Xn – выборка из распреn деления N (a, σ). Тогда 1) величина (X−a) имеет нормальное распредеσ 2 2 2 ление N (0, 1); 2) величина nS σ 2 имеет распределение χn−1 ; 3) X, S независимы. Теорема 2. Пусть X1 , . . . , Xn – выборка из распределения N (a, σ) и функция от выборочных среднего и дисперсии t определена равенством √ X −a . (1) t= n−1 S Тогда величина t имеет распределение Tn−1 . Теорема 3. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из распределения N (a, σ), а X, Ȳ , S 2 (X), S 2 (Y ) – выборочные средние и дисперсии, и пусть r mn(m + n − 2) X − Ȳ p t= . (2) m+n nS 2 (X) + mS 2 (Y ) Тогда величина t имеет распределение Стьюдента с m + n − 2 степенями свободы. Теорема 4. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из распределений N (a1 , σ1 ), N (a2 , σ2 ), а S 2 (X), S 2 (Y ) – выборочные дисперсии. Тогда случайная величина n(m − 1)σ22 S 2 (X) F = m(n − 1)σ12 S 2 (Y ) (3) распределена по закону Фишера – Снедекора Fn−1, m−1 . В частном случае, когда дисперсии совпадают, величина F не зависит от неизвестного параметра σ и имеет распределение Fn−1, m−1 . Пример 17. Найти распределение статистики Z: Z = 2X1 + 3X4 , X ∈ N (a, σ). 33 J Линейное преобразование нормально распределенной величины дает опять нормальное распределение. Сумма независимых нормально распределенных величин также распределена по нормальному закону. Параметры этого закона мы можем найти с помощью математического ожидания и дисперсии. E Z = 2 E X1 + 3 E X4 = 5a. DZ = 4DX1 + 9DX4 = 13σ 2 . √ Таким образом, Z ∈ N (5a, σ 13). I Пример 18. Найти распределение статистики Z: Z = X12 + X22 , X ∈ N (, 1). J Поскольку сумма квадратов n независимых случайных величин, распределенных по нормальному закону N (0, 1), имеет распределение χ2n , Z распределено по закону χ22 . I P Пример 19. Найти распределение статистики T = ni=1 Xi в Pλ . J Распределение Пуассона суммируемо, то есть случайная величина P T = ni=1 Xi имеет распределение Pλn . Это легко доказывается с помощью производящих или характеристических функций. I Пример 20. В модели, заданной плотностью 0, x 6 0, fξ (x) = sin x, 0 < x 6 C, 0, C < x. найти распределение максимального элемента выборки. J Найдем функцию распределения случайной величины ξ. После необходимых вычислений имеем 0 при x 6 0; π 1 − cos x при 0 < x 6 ; Fξ (x) = π 2 1 при x > . 2 Функция распределения максимального элемента выборки в модели hF i равна F n ; поэтому 0 при x 6 0; π (1 − cos x)n при 0 < x 6 ; I FXn (x) = π 2 1 при x > . 2 34 Задачи 106. В нормальной модели N (a, σ) укажите распределение X1 и выборочного среднего, полученных по выборке X1 , . . . , Xn . 107. В модели N (θ1 , σ) найдите распределение статистики (n−1)S σ2 2 . 108. Докажите теорему 2. √ 109. В модели N (a, θ2 ) найдите распределение статистики n X−a . S 110. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из распределений N (a1 , σ1 ), N (a2 , σ2 ), а S 2 (X), S 2 (Y ) – выборочные дисперсии. 2 Укажите распределение статистики SS 2(X) (Y ) . 111. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из распределений N (a1 , σ), N (a2 , σ), а S 2 (X), S 2 (Y ) – выборочные дисперсии. 2 Укажите распределение статистики SS 2(X) (Y ) . 112. Найдите распределение статистики Z: 2 2 (n1 − 1)S X + (n2 − 1)S Y Z= , n1 + n2 − 2 X ∈ N (a1 , σ), Y ∈ N (a2 , σ), X и Y независимы. 113. Пусть X1 , . . . , Xn – выборка из распределения N (a, σ) и функ2 ция Z определена равенством Z = n (X−a) . Укажите распределение Z. 2 σ 114. hF i – непрерывная модель. Найти распределение статистики n X G=− ln F (xi ). i=1 115. В нормальной модели найти распределение выборочной дисn P 1 2 персии S = n (Xi − X)2 . i=1 116. Найти распределение статистики Z = Xi − X, X ∈ N (a, σ). 117. Найти распределение статистики Z: X1 + X2 Z= , X ∈ N (a, σ). 2 35 118. Найти распределение статистики Z = aX1 + bXn , X ∈ N (a, σ). 119. Найти распределение статистик: Z1 = Xn∗ ; Z2 = X1∗ , X ∈ R[a, b]. 120. Найти распределение статистик: Z1 = X1 , Z2 = X1∗ , X ∈ N (a, σ). 121. Найти распределение статистики: Z1 = X1∗ , если выборка взята из совокупности с плотностью f (x) = eα−x , x > α. 122. Найти распределение статистики: Z1 = Xn∗ , если выборка взята из совокупности с плотностью f (x) = e2−x , x > 2. 123. Найти распределение статистики Z: Z = X − Y − (aX − aY ), X ∈ N (aX , σ), Y ∈ N (aY , σ), X и Y независимы. 124. Найти распределение статистики Z: Z =X +Y, X ∈ Pλ , Y ∈ Pλ , X и Y независимы. 125. Укажите распределение эмпирической частоты νn (X), X ∈ R[a, b]. 126. Укажите распределение эмпирической частоты в биномиальной модели. 127. Укажите распределение выборочного среднего в распределении Пуассона. 128. Укажите распределение выборочного среднего в показательном распределении. 129. Укажите распределение выборочного среднего в модели Бернулли. 130. Укажите распределение выборочного среднего в биномиальной модели. 131. Укажите распределение выборочного среднего в отрицательном биномиальном распределении. 36 132. Найдите распределение k-й порядковой статистики в модели R[a, b]. 133. Найдите распределение 2-й порядковой статистики в модели R[0, 3]. 37 § 6. Несмещенные и состоятельные оценки Выборочная числовая характеристика (статистика) θ̂ = g(X1 , . . . , Xn ), применяемая для оценивания неизвестного параметра θ генеральной совокупности, называется его точечной оценкой. Статистика θ̂ = g(X1 , . . . , Xn ) называется несмещенной оценкой для параметра θ, если ∀θ ∈ Θ E θ̂ = θ. Класс всех несмещенных оценок параметра θ будем обозначать Tθ . Если E θ̂ 6= θ, то оценка называется смещенной и ее смещение равно E θ̂ − θ. Статистика θ̂ = g(X1 , . . . , Xn ) называется асимптотически несмещенной оценкой для параметра θ, если для любого θ ∈ Θ при n → ∞ E θ̂ → θ. Статистика θ̂ = g(X1 , . . . , Xn ) называется состоятельной оценкой θ, если ∀θ ∈ Θ p θ̂ −→ θ. Для исследования состоятельности оценок часто применяют следующие теоремы (см. задачи 162–164). Теорема 5. Если E θ̂ = θ и Dθ̂ → 0 при n → ∞, то θ̂ – состоятельная оценка θ. Часто применяется также теорема с ослабленными условиями: Теорема 6. Если E θ̂ → θ при n → ∞ и Dθ̂ → 0 при n → ∞, то θ̂ – состоятельная оценка θ. Теорема 7. Если θ̂ – состоятельная оценка θ, а f – непрерывная функция, то f (θ̂) – состоятельная оценка f (θ). Пример 21. Предположим, время, проведенное покупателем в магазине, имеет нормальное распределение N (a, σ) с неизвестными параметрами. Требуется оценить параметр a. Два стажера решают эту задачу так: первый в течение длительного периода отмечает время, проведенное в магазине для каждого покупателя, и находит среднее арифметическое. Второй (более ленивый) отмечает время только у десяти покупателей, выбранных случайно, и тоже находит среднее арифметическое. Будут ли эти оценки параметра а) несмещенными; б) состоятельными? 38 J Оценка aˆ1 , полученная первым стажером, представляет собой среднее выборочное X. Это несмещенная оценка, так как E aˆ1 = E X = n P 1 E Xi = a. Найдем математическое ожидание оценки, полученной втоn i=1 рым стажером: 10 1 X E aˆ2 = E Xi = a. 10 i=1 Таким образом, обе оценки несмещенные. Проверим состоятельность. Заметим, что оценка aˆ1 = X зависит от n. По определению, aˆ1 – состоятельная p оценка a, если aˆ1 сходится по вероятности к a (aˆ1 → a), то есть если для любого ε > 0 lim P(|aˆ1 − a| > ε) = 0. n→∞ По неравенству Чебышева P(|aˆ1 − a| > ε) 6 Daˆ1 , ε2 (4) но, как мы знаем, 1 µ2 σ2 DX = Dξ = = . n n n Таким образом, правая часть (4) стремится к нулю и оценка aˆ1 состоятельна. Оценка aˆ2 , полученная вторым стажером, не зависит от n и поэтому P(|aˆ2 − a| > ε) тоже не зависит от n, соответственно, не может стремиться к нулю при стремлении n к бесконечности. Оценка aˆ2 не является состоятельной. I Пример 22. Исследовать на несмещенность оценку параметрической λk −λ функции Pλ = e : k! cλ = I(X1 = k). P J cλ = E I(X1 = k), EP где ( I(X1 = k) = 1, X1 = k, . 0, X1 = 6 k λk −λ c E Pλ = 1 · P(X1 = k) = P(ξ = k) = e . k! Следовательно, оценка несмещенная.I 39 Пример 23. Исследовать на состоятельность оценку ab2 = (X)2 в нормальном распределении N (a, σ). 2 J Статистика X – состоятельная оценка a2 , поскольку X – состоятельная оценка a, а f (x) = x2 – непрерывная функция. I Задачи 134. Исследовать на несмещенность оценки параметров a, σ нормального распределения N (a, σ) : â = X̄, σb2 = s2 . 135. Исследовать на несмещенность оценку параметра λ распределения Пуассона Pλ : λ̂ = X. 136. Исследовать на состоятельность оценку параметрической λk −λ функции Pλ = e : k! cλ = I(X1 = k). P 137. Исследовать на несмещенность оценку параметра p биномиального распределения с параметрами N, p : Pn Xi X p̂ = i=1 = . nN N 138. В модели Бернулли исследовать на несмещенность оценки параметрической функции p2 : X12 и X1 X2 . 139. Исследовать на несмещенность оценки параметров a, b равномерного распределения R[a, b] : b̂ = Xn∗ ; â = X1∗ . 140. В статистической модели h R[a, b] i исследовать на несме[ X1∗ +Xn∗ = . щенность оценки функций параметров: b[ − a = Xn∗ − X1∗ ; a+b 2 2 141. Найти k, при котором оценка σ̂ = k σ является несмещенной в N (a, σ). Pn i=1 |Xi − a| параметра 142. Найти k, при котором оценка σ̂ = k|X1 − a| параметра σ является несмещенной в N (a, σ). P 143. Найти k, при котором оценка σ̂ = k ni=1 |Xi −X| параметра σ является несмещенной в N (a, σ). 40 P 2 144. Найти k, при котором оценка σb2 = (k ni=1 |Xi − a|) является несмещенной в N (a, σ). P 145. Найти k, при котором оценка σb2 = k n−1 (Xi+1 − Xi )2 являi=1 ется несмещенной в N (a, σ). 146. Найти k, при котором оценка σ b = k|X1 − X2 | параметра σ является несмещенной в N (a, σ), если n = 2. 147. Исследовать на несмещенность оценку α̂ = X1∗ , если f (x) = eα−x , x > α. 148. Исследовать на несмещенность оценку параметра a в распределении Кептейна: Pn g(Xi ) . â = i=1 n 149. Исследовать на несмещенность оценку σb2 = a)2 в распределении Кептейна. 1 n Pn i=1 (g(Xi ) − 150. Доказать, что в модели логистического распределения f (x, θ) = e−x+θ (1 + e−x+θ )−2 , −∞ < x < ∞ X – несмещенная оценка θ. 151. Предложить три несмещенные оценки параметра a в распределении N (a, σ). 152. Предложить три различные несмещенные оценки параметра p биномиального распределения с параметрами N, p. 153. Предложить четыре различные несмещенные оценки параметра λ распределения Пуассона. 154. Исследовать на состоятельность оценку â = X в N (a, σ). 155. Исследовать на состоятельность оценку σb2 = s2 в N (a, σ). 156. Исследовать на состоятельность оценку λ̂ = X в распределении Пуассона Pλ . 157. Исследовать на состоятельность оценку p̂ = альном распределении B(N, p). X̄ N в биноми- 158. Исследовать на состоятельность оценку параметрической λk функции Pλ = e−λ : k! cλ = I(X1 = k). P 41 159. В модели Бернулли исследовать на несмещенность и состоятельность оценку параметрической функции p(1 − p): \ p(1 − p) = X1 (1 − X2 ). 160. Исследовать на состоятельность оценку b̂ = Xn∗ в R [a, b]. 161. Исследовать на состоятельность оценку α̂ = X1∗ , если f (x) = eα−x , x > α. 162. Доказать, что если E α̂ = α и Dα̂ → 0 при n → ∞, то α̂ – состоятельная оценка α. 163. Доказать, что если E α̂ → α при n → ∞ и Dα̂ → 0 при n → ∞, то α̂ – состоятельная оценка α. 164. Доказать,что если α̂ – состоятельная оценка α, а f – непрерывная функция, то f (α̂) – состоятельная оценка f (α). 165. В равномерной модели R[0; θ] оценка параметра θ θ̂ = 2x̄. Исследовать эту оценку на несмещенность и состоятельность. 42 § 7. Эффективные оценки Несмещенная оценка θb параметра θ называется оптимальной оцен∼ ∼ кой, если Dθb 6 Dθ, ∀θ ∈ Θ, где θ – произвольная несмещенная оценка θ. Информационным количеством Фишера называется величина I, равная 2 ∂ ln f (x1 , x2 , . . . , xn , θ) I=E . ∂θ В регулярной модели для дисперсий несмещенных оценок параметра θ справедливо неравенство Рао – Крамера: 1 Dθ̂ > . I В регулярной модели несмещенная оценка θ̂ параметра θ называется эффективной оценкой θ, если ∀θ ∈ Θ Dθ̂ = I1 . Если оценка является эффективной, она оптимальна. Обратное, вообще говоря, не верно. Для проверки эффективности оценок удобно использовать следующие формулы информационного количества Фишера I: 2 ∂ ln f (x, θ) I = nE ; ∂θ 2 ∂ ln f (x, θ) I = −n E , ∂θ2 где f (x, θ) – одномерная плотность. Для дискретной случайной величины вместо f (x) используется P (ξ = x). В регулярной статистической модели для несмещенных оценок можно рассматривать показатель эффективности. Показателем эффективности несмещенной оценки θ̂ параметра θ называется число e(θ̂) = 1 IDθ̂ . Пример 24. В модели Пуассона Pλ предлагается следующая оценка параметра λ : λ̂ = X̄. Доказать, что эта оценка эффективна. J Надо проверить выполнение равенства: 1 Dλ̂ = . I 43 DX λ = . n n Для нахождения информационного количества Фишера I используем формулу 2 ∂ ln P(ξ = x) I = −n E . ∂λ2 Dλ̂ = DX̄ = Поскольку P(ξ = x) = pλ (x) = λx e−λ , то ln P(ξ = x) = x ln λ − λ − ln x! и x! ∂ 2 ln P(ξ = x) x = − . ∂λ2 λ2 Тогда x n I = −n E − 2 = . λ λ Получили, что Dλ̂ = I1 , то есть оценка X̄ является эффективной.I Пример 25. Исследовать на эффективность оценку параметра α в распределении с плотностью f (x) = eα−x , x > α: α̂ = X1∗ . J Данная модель не является регулярной, так как выборочное пространство X ограничено параметром α. В этой модели эффективных оценок не существует. I Задачи 166. Исследовать на эффективность оценку â = X в N (a, σ). 167. Исследовать на эффективность оценку σb2 = s2 в N (a, σ). 168. Исследовать на эффективность оценку λ̂ = 1/2(X1 + X2 ) в распределении Пуассона Pλ . 169. Исследовать на эффективность оценку p̂ = ном распределении B(N, p). X N в биномиаль- 170. Исследовать на эффективность оценку b̂ = Xn∗ в R [a, b]. 171. Исследовать на оптимальность оценку â = X в N (a, σ). 172. Исследовать на оптимальность оценку λ̂ = X в распределении Пуассона Pλ . 44 173. λ̂ = X1 в распределении Пуассона Pλ . Доказать, что оценка является несмещенной, но не является эффективной и состоятельной. 174. В распределении с плотностью f (x) = eα−x , x > α, оценка α̂ = X1∗ . Найти смещение данной оценки, получить на основе этого несмещенную оценку и исследовать ее на эффективность. 175. Докажите формулу 2 Z+∞ Z+∞ 1 ∂f (x1 , x2 , . . . , xn , θ) dx1 . . . dxn . I= ... ∂θ f (x1 , x2 , . . . , xn , θ) −∞ −∞ 176. Докажите формулу 2 ∂ ln f (x1 , x2 , . . . , xn , θ) I = −E . ∂θ2 177. Докажите формулу ∂ ln f (x, θ) I = nE ∂θ 2 . 178. Докажите формулу ∂ 2 ln f (x, θ) I = −n E . ∂θ2 179. Докажите, что показатель эффективности e удовлетворяет неравенству 0 < e(θ̂) 6 1, а для эффективных оценок e(θ̂) = 1. 180. Пусть T1 – эффективная оценка параметра α, а T2 – несме√ щенная оценка параметра α. Доказать, что ρ(T1 , T2 ) = e, где e = 1 I·DT2 – показатель эффективности T2 . Указание. Рассмотреть оценку T = (1 − k)T1 + kT2 . 181. В равномерной модели R[0; θ] оценка параметра θ θ̂ = 2x̄. Исследовать эту оценку на оптимальность. 182. Докажите, что в неравенстве Рао – Крамера равенство доln f стигается тогда и только тогда, когда θ̂ и ∂ ∂θ линейно зависимы. 45 § 8. Методы нахождения оценок Метод максимального правдоподобия. Для непрерывной случайной величины функция L(x1 , . . . , xn , θ) = f (x1 , θ) · . . . · f (xn , θ), рассматриваемая при фиксированных (x1 , . . . , xn ) как функция параметра θ, называется функцией правдоподобия. Функция правдоподобия для дискретной случайной величины определяется в виде L(x1 , . . . , xn , θ) = P(ξ = x1 ) · . . . · P(ξ = xn ). Оценка θ∗ , обеспечивающая по параметру θ максимум функции правдоподобия, называется оценкой максимального правдоподобия параметра θ (о.м.п.). Вместо отыскания максимума функции L часто удобнее находить максимум функции ln L и решать уравнение правдоподобия ∂ ln L = 0. ∂θ В результате решения уравнения правдоподобия мы найдем критическую точку, необходимо еще убедиться, что это точка максимума. Метод моментов. Приравнивая выборочные и теоретические моменты, получаем уравнения относительно θ. Решая эти уравнения, получаем оценку параметра θ̂. Эта оценка называется оценкой метода моментов и обозначается о.м.м. Пример 26. Найдем о.м.п. параметра распределения Пуассона. J n Y P e−λn λ xi L= Pλ (xi ) = Q . (x !) i i=1 X Y ln L(X, λ) = −λn + xi lnλ − ln (xi !). Найдем max ln L(X, λ). ∂ ln L(X, λ) = −n + ∂λ Получаем λ̂ = P xi n P xi = 0. λ = x̄. Очевидно, это точка максимума, так как ∂ 2 ln L <0 ∂λ2 =⇒ 46 x̄ – о.м.п. λ. I Пример 27. Найдем в условиях предыдущего примера оценку максимального правдоподобия функции параметра λ2 . J По свойству инвариантности b 2 = (x̄)2 . I λb2 = (λ) Рассмотрим нахождение оценки параметра методом максимального правдоподобия в нерегулярной модели. Пример 28. Найдем о.м.п. параметра θ = (a, b) в распределении R[a, b]. J L= n Y f (xi ) = i=1 n Y 1 1 = . b − a (b − a)n i=1 ln L не обращается в 0. Но функция L монотонна по Частная производная ∂ ∂θ a и b. Поэтому она достигает своего наибольшего значения при минимальном значении b и максимальном значении a. Но минимальное возможное значение b ограничено максимальным элементом выборки, а максимальное возможное значение a ограничено миниимальным элементом. Таким образом, оценками максимального правдоподобия будут служить минимальный и максимальный элементы выборки: â = ymin = x∗1 , b̂ = xmax = x∗n . I Пример 29. Найти методом моментов оценки параметров распределения Γα, β . J β . α2 Eξ β = α E ξ =⇒ Dξ = α Eξ = Тогда β , α Dξ = (E ξ)2 Eξ α= ,β= . Dξ Dξ Мы получили оценки α̂ = X , S2 β̂ = x̄2 .I S2 Пример 30. Найти методом моментов оценки параметров распределения R[a, b]. 47 J (b − a)2 , 12 (b − E ξ)2 a = 2 E ξ − b =⇒ Dξ = . 3 √ √ Отсюда b = E ξ + σ 3, a = E ξ − σ 3. Окончательно √ √ â = X − s 3, b̂ = X + s 3. I Eξ = a+b , 2 Dξ = Задачи 183. Найти оценки максимального правдоподобия параметров a, σ в N (a, σ). 184. Доказать свойство инвариантности о.м.п.: если оценивается некоторая взаимно однозначная параметрическая функция b τ (θ), то ее о.м.п. τd (θ) = τ (θ). 185. Найти оценку максимального правдоподобия функции a2 + a в N (a, σ). 186. Найти оценку максимального правдоподобия параметра p в B(N, p). 187. Найти оценку максимального правдоподобия функции i i=0 p в B(N, p). √ 188. Найти оценку максимального правдоподобия функции λ + λ в Pλ . P3 189. Найти оценку максимального правдоподобия параметра (a, b) в R[a, b]. 190. Найти оценку максимального правдоподобия параметра α, если f (x) = eα−x , x > α. 191. Найти оценку максимального правдоподобия параметра α, e−|x| если f (x) = 2(1−e −α ) , |x| 6 α. 192. Найти оценку максимального правдоподобия параметра θ по выборке (x1 , . . . , xn ), если f (x) = 2x − x2 e θ, θ θ > 0, 48 x > 0. 193. Найти оценку максимального правдоподобия параметра α в Γ(α, 2). 194. Найти оценку максимального правдоподобия параметра a в √ N (a, 2a). Исследовать полученную оценку на состоятельность. 195. Найти методом моментов оценки параметров a, σ в N (a, σ). 196. Найти методом моментов оценку параметра λ в Pλ . 197. Найти методом моментов оценку параметра λ в распределении с плотностью f (x) = λe−λx , x > 0. 198. Найти методом моментов оценку функции 1/α в показательном распределении с параметром α. 199. Найти методом моментов оценку параметра λ в Pλ по второму моменту. 200. Найти методом моментов оценку параметра b в R[0, b], используя второй момент. 201. Найти методом моментов оценки параметров распределения R[a, b], используя начальные моменты. 202. Найти методом моментов оценку параметра p в B(N, p) при известном N . 203. Найти методом моментов оценки параметров N, p в B(N, p). 204. Доказать состоятельность оценок метода моментов. Найти методом моментов оценку параметра n в χ2n . (χ2n = Pn 205. 2 ξi ∈ N (0, 1), ξi независимы.) i=1 ξi , 206. Найти оценки максимального правдоподобия параметров a, σ в распределении Кептейна. 207. Найти оценки максимального правдоподобия параметров 1 −|x−µ| e α . α, µ, если f (x) = 2α 208. Величина ψ имеет бета-распределение с параметрами α и β. Математическое ожидание и дисперсия бета-распределения известны: α αβ Eψ = , Dψ = . α+β (α + β)2 (α + β + 1) Найти методом моментов оценки параметров α и β. 49 § 9. Экспоненциальное семейство Говорят, что распределение с плотностью f (x) принадлежит экспоненциальному семейству, если f (x) представима в виде f (x) = eA(x)·B(θ)+C(x)+D(θ) , Теорема 8. Для того чтобы в модели существовала эффективная оценка, необходимо и достаточно, чтобы модель принадлежала экспоненциальному семейству. При этом эффективной оценкой является статистика n 1X A(xi ), T (x) = n i=1 и она оценивает параметрическую функцию D0 (θ) τ (θ) = − 0 . B (θ) В случае многомерного параметра θ = (θ1 , . . . , θk ) и непрерывной параметрической модели говорят, что распределение с плотностью f (x) принадлежит экспоненциальному семейству, если f (x) представима в виде f (x) = e Pk i=1 Ai (x)·Bi (θ)+C(x)+D(θ) . Пример 31. Докажем, что N (0, σ) принадлежит экспоненциальному семейству, и найдем эффективную оценку параметра σ. J 2 x2 x·a a2 1 ln σ√12π − 2σ − (x−a) 2 + σ 2 − 2σ 2 2 2σ √ f (x) = · exp = exp σ 2π Параметром является σ, тогда 1 1 , C(x) = 0, D(σ) = − ln σ − ln 2π. 2σ 2 2 Следовательно, распределение N (a, θ) принадлежит экспоненциальному семейству. Найдем эффективную оценку параметрической функции от параметра θ = σ : D0 (a) 1 1 τ (σ) = − 0 = : 3 = σ2 B (a) σ σ n n 1X 1X T (x) = A(xi ) = (xi − a)2 . n i=1 n i=1 P По теореме 8 оценка σb2 = n1 ni=1 (xi − a)2 эффективна. I A(x) = (x − a)2 , B(σ) = − 50 Пример 32. Покажем, что гамма-распределение Γα, β с параметром θ = (α, β) принадлежит экспоненциальному семейству. J αβ −αx β−1 ln f (x) = e x =e Γ(β) αβ Γ(β) −αx+(β−1) ln x . Возьмем αβ θ1 = −α, θ2 = β − 1; A1 (x) = x, A2 (x) = ln x; D(θ) = ln . Γ(β) Тогда P2 f (x) = e i=1 Ai (x)·θi +D(θ) , что соответствует модели экспоненциального семейства. I Задачи В задачах 209–214 покажите, что модель принадлежит экспоненциальному семейству. 209. B (1, p). 210. B (N, p). 211. Pλ . 212. N (a, θ). 213. N (θ, σ). 214. Eλ . В задачах 215–218 выясните, принадлежит ли распределение экспоненциальному семейству. 215. B (θ, p). 216. Геометрическое распределение Gp . 217. Распределение Коши Ca, λ . 218. Гамма-распределение Γα, β . 219. Равномерное распределение R[θ1 , θ2 ]. В задачах 220–223 исследовать оценки на эффективность методом экспоненциального семейства. 220. Исследовать на эффективность оценку â = X в N (a, σ). 221. Исследовать на эффективность оценку aˆ2 = (X)2 в N (a, σ). 51 222. Исследовать на эффективность оценку λ̂ = X1 в распределении Пуассона Pλ . 223. Исследовать на оптимальность оценку p̂ = ном распределении B(N, p). X N в биномиаль- 224. Покажите, что модель экспоненциального семейства в случае одномерного параметра после подходящей параметризации можно свести к виду f (x) = h(x)eA(x)·θ+B(θ) . 225. Найдите вклад выборки для экспоненциальной модели. 226. Покажите, что модель экспоненциального семейства в случае многомерного параметраPпосле подходящей параметризации k можно свести к виду f (x) = h(x)e i=1 Ai (x)·θi +B(θ1 ,...,θk ) . 227. Покажите, что нормальное распределение N (θ1 , θ2 ) принадлежит экспоненциальному семейству. 52 § 10. Достаточные статистики Статистика T = T (X) называется достаточной для параметра θ, если условное распределение (плотность или вероятность) случайной величины X = (X1 , ..., Xn ) (выборки) при условии T (X) = t не зависит от параметра θ. В дискретной модели статистика T (X) достаточна, если P (X = x) P (T (X) = t) (5) не зависит от параметра для x таких, что T (x) = t. Для непрерывных величин распределение задается плотностью. В этом случае также достаточно показать, что fX (x) (6) fT (t) не зависит от параметра θ. Критерий достаточности статистики – теорема Неймана — Фишера о факторизации. Теорема 9 (теорема факторизации). В модели hFθ i статистика T (X) является достаточной для параметра θ тогда и только тогда, когда L(x, θ) = g(T (x), θ) · h(x). Представление L(x, θ) в таком виде (множитель g может зависеть от θ, а от x зависит лишь через T (x), а множитель h от параметра θ не зависит) называется факторизацией распределения. Факторизация не единственна. При h ≡ 1 говорят о тривиальной факторизации. Свойства достаточных статистик. 1. Всякая эффективная оценка является достаточной статистикой. 2. Любая взаимно однозначная функция от достаточной статистики T является достаточной статистикой. 3. Оптимальная оценка, если она существует, является функцией от достаточной статистики. 4. Если для скалярного параметра θ существует эффективная оценка T (x), то T (x) совпадает с о.м.п. θ̂. 5. Если T (x) – достаточная статистика, а о.м.п. θ̂ существует и единственна, то θ̂ является функцией от T (x). 53 Статистика называется полной, если для всякой (ограниченной) функции ϕ(T ) из того, что E ϕ(T ) = 0 следует, что ϕ(T ) ≡ 0. Достаточная статистика, являющаяся функцией любых других достаточных статистик, называется минимальной. ПримерP33. Исследуем на достаточность статистику Z = n12 ( ni=1 Xi )2 в Pλ . J Сначала покажем, что достаточной является статистика n 1X T = Xi . n i=1 Для проверки достаточности по определению надо убедиться, что не зависит от параметра λ. P (X = x) = P (X1 = x1 , .., Xn = xn ) = n Y P (X=x) P (T (X)=t) P (Xi = xi ) = i=1 = n Y e−λ λxi i=1 Случайная величина Pn i=1 Xi xi ! P e−λn λ xi = Q . (xi !) имеет распределение Pλn , значит, P (T = t) = P ( n X Xi = nt) = i=1 e−nλ (nλ)tn . (tn)! P P P (X = x) e−λn λ xi (tn)! ( xi )! P . P (X/T = t) = =Q =Q P (T = t) (xi !)e−nλ (nλ)tn (xi !)n xi Полученное выражение не зависит от параметра λ, следовательно, статиP n стика T = n1 i=1 Xi = x̄ является достаточной. Вместе с ней достаточна и статистика Z = T 2 , как взаимно однозначная (в силу неотрицательности) функция от достаточной статистики T . I Пример 34. Найти достаточную статистику в показательном распределения Eθ . J Пусть (X1 , . . . , Xn , ) – выборка из данного показательного распределения. Запишем функцию правдоподобия: L(x, θ) = n Y i=1 fξ (xi ) = n Y i=1 54 θ·e −θxi n −θ =θ e P xi . Вспомним общий вид факторизации: L(x, θ) = g(T (x), θ) · h(x). n −θ P xi Возьмем T (x) = xi , тогда θ e =Pg(T (x), θ. Получили тривиальную факторизацию. Следовательно, T (x) = ni=1 Xi – достаточная статистика. I P Задачи В задачах 228–235 доказать достаточность статистики T . 228. N (θ, σ), T = X. 229. N (a, θ), T = S. 230. N (θ1 , θ2 ), T = (X, S 2 ). 231. R[0, α], T = Xn∗ . 232. R[θ1 , θ2 ], T = (X1∗ , Xn∗ ). 233. R[−θ, θ], T = max(|X1∗ |, |Xn∗ |). 234. Непрерывная модель, T = (X1∗ , . . . , Xn∗ ) – вариационный ряд. 235. hF i = hFα1 , Fα2 i, T – отношение правдоподобия: T = L(x, α1 ) . L(x, α2 ) 236. Найдите 3 достаточные статистики для показательного распределения. 237. Найдите 3 достаточные статистики для распределения Пуассона. 238. Пусть T – достаточная статистика. Будет ли достаточной статистика ln T ? 239. Пусть T – достаточная статистика, S – произвольная статистика. Будет ли достаточной статистика T + S? 240. Пусть T – достаточная статистика, S – произвольная статистика. Будет ли достаточной двумерная статистика T, S? 241. Пусть XP = (X1 , . . . , Xn ) – выборка из распределения Γα, β . Покажите, что T = ni=1 Xi – достаточная статистика для параметра α. 55 242. Является ли достаточная для параметра α статистика из предыдущей задачи полной? 243. Докажите полноту статистики X в показательном распределении. 244. Докажите полноту статистики X в N (a, σ) при фиксированном σ. 245. Докажите, что для распределения Вейбула, задаваемого плотностью λxλ−1 (−x/θ)λ e , x > 0, f (x) = θλ достаточной статистикой для θ является T (X) = n X Xiλ . i=1 246. Является ли достаточная для θ статистика из предыдущей задачи полной? 247. Даны достаточные статистики T и S. Может ли существовать оптимальная оценка, которая является функцией от T , но не является функцией от S? 248. Доказать, что если T (x) – достаточная статистика, а о.м.п. θ̂ существует и единственна, то θ̂ является функцией от T (x). 249. Доказать, что если о.м.п. θ̂ существует и единственна, то θ̂ является функцией минимальной достаточной статистики. 250. Показать, что для регулярных экспоненциальных моделей с плотностью f (x) = eA(x)·B(θ)+C(x)+D(θ) , Pn статистика T (X) = i=1 A(Xi ) является достаточной статистикой для θ. 56 § 11. Доверительные интервалы Две статистики I1 (X), I2 (X) (I1 (X) < I2 (X)) называют доверительным интервалом значимости α для параметра θ (0 < α < 1), если выполняется условие P(I1(X) < θ < I2(X ) = 1 − α. (7) Число 1 − α называется доверительной вероятностью, а I1 (X), I2 (X) – нижней и верхней доверительными границами. Для построения доверительного интервала параметра θ надо взять статистику G(X, θ), такую, что она сама монотонно зависит от параметра θ, а ее распределение от θ не зависит, записать уравнение P(g1 < G(X, θ) < g2 ) = 1 − α и разрешить неравенство под знаком вероятности относительно параметра θ. Доверительные интервалы для параметров нормального распределения: s s · tn−1, 1− α2 , X + √ · tn−1, 1− α2 ; Ia = X − √ n−1 n−1 ! 2 2 nS nS Iσ2 = , 2 . 2 χn−1,1− α χn−1, α 2 2 Параметр произвольного распределения можно оценить так же, как параметр нормального распределения, если известно распределение некоторой статистики, зависящей от параметра и его оценки. Другой способ связан с использованием асимптотического метода. Если θ̂ асимптотически нормальна и несмещена (например, является о.м.п.), то θ̂ − θ d p → u ∈ N (0, 1). Dθ̂ ! θ̂ − θ 1 − α = P u α2 < p < u1− α2 . Dθ̂ Разрешая неравенство под знаком вероятности относительно θ, получим доверительный интервал значимости α. Пример 35. Найдем асимптотический доверительный интервал уровня значимости α для параметра p распределения Бернулли B(1, p). 57 J Известно, что о.м.п. p равна Pn p̂ = i=1 xi n = X. В качестве статистики G можно взять p−X p−X np − m G= √ = p pq = √ , npq Dp̂ n где m = Pn i=1 xi . Из ЦПТ следует, что np − m d → u ∈ N (0, 1). √ npq Поэтому np − m p u α2 6 √ 6 u1− α2 npq = 1 − α; (u α2 = −u1− α2 ). Разрешим относительно p уравнение np − m p = u1− α2 . nP (1 − p) Для этого потребуется возвести обе части в квадрат и решить относительно p квадратное уравнение. При отборе корней необходимо иметь в виду, что 0 < p < 1. I Пример 36. Найти 95%-й доверительный интервал для числа пассажиров пригородного поезда, если среднее число пассажиров, рассчитанное за 25 рабочих дней, равно 512, σ = 20. J Требуется найти доверительный интервал значимости α = 0, 05 для параметра a нормального распределения N (a, σ) при известном σ = 20; воспользуемся вышеприведенной формулой: σ σ Ia = X − √ · u1− α2 ; X + √ · u1− α2 = n n 20 20 = 512 − √ · u0,975 ; 512 − √ · u0,975 = 25 25 20 20 = 512 − · 1, 96; 512 − · 1, 96 = 5 5 = (512 − 7, 84; 512 + 7, 84) = (504, 12; 519, 84) ' (504; 520). I 58 Пример 37. Найти доверительный интервал значимости α = 0, 01 для курса английского фунта стерлингов по данным за 100 дней2 . № Значения № Значения № Значения № Значения 1 48,9231 26 49,5273 51 49,7769 76 50,1459 2 49,0009 27 49,5319 52 49,8113 77 50,1484 3 49,0009 28 49,5642 53 49,8743 78 50,1792 4 49,0009 29 49,5757 54 49,8743 79 50,1969 5 49,0676 30 49,5757 55 49,8743 80 50,2041 6 49,1057 31 49,5757 56 49,8806 81 50,2253 7 49,1104 32 49,5908 57 49,8913 82 50,2253 8 49,1591 33 49,6426 58 49,9032 83 50,2253 9 49,1915 34 49,6436 59 49,908 84 50,2366 10 49,1957 35 49,6949 60 49,9485 85 50,2681 11 49,1957 36 49,7218 61 49,9562 86 50,2743 12 49,1957 37 49,7218 62 49,961 87 50,3392 13 49,2786 38 49,7218 63 49,9704 88 50,4789 14 49,2786 39 49,7218 64 49,9861 89 50,5537 15 49,2892 40 49,7218 65 49,9921 90 50,5914 16 49,2892 41 49,7218 66 50,029 91 50,5914 17 49,2892 42 49,7218 67 50,0655 92 50,5914 18 49,3908 43 49,7218 68 50,0655 93 50,6346 19 49,3933 44 49,7218 69 50,0655 94 50,6346 20 49,4365 45 49,7218 70 50,0779 95 50,6346 21 49,449 46 49,7218 71 50,0779 96 50,6985 22 49,5006 47 49,7297 72 50,0779 97 50,7337 23 49,5191 48 49,7297 73 50,1117 98 50,7971 24 49,5273 49 49,7297 74 50,1117 99 50,816 25 49,5273 50 49,7301 75 50,1117 100 50,9521 J Для нахождения доверительного интервала необходимо сначала рассчитать выборочные характеристики X и S: X = 49, 8388 и S = 0, 4703. Используем формулу S S Ia = X − √ · tn−1, 1− α2 , X + √ · tn−1, 1− α2 ; n n 2 Курс английского фунта стерлингов за период 18.11.2005 г. – 25.02.2006 г. 59 найдем по таблице квантилей распределения Стьюдента tn−1, 1− α2 t99, 0,995 = 2, 58. Тогда 0, 4703 0, 4703 · 2, 58; 49, 8388 + √ · 2, 58 = Ia = 49, 8388 − √ 100 100 = = (49, 717; 49, 960) . I Пример 38. Найти 99%-е доверительные интервалы для параметров нормального распределения по данным: S = 2, 08, X = 0, 775, n = 100. J Доверительный интервал минимальной длины для параметра a вычисляется следующим образом: S S Ia = X̄ − √ · tn−1,1− α2 , X̄ + √ · tn−1,1− α2 . n−1 n−1 При α = 0, 01 находим по таблице квантилей распределения Стьюдента t99, 0,995 = 2, 576 Ia = (0, 231; 1, 31). Доверительный интервал значимости α для σ ! s s nS 2 nS 2 Iσ = . , χ2n−1,1− α χ2n−1, α 2 2 При α = 0, 01 находим по таблице χ299, 0,995 = 158, 95, χ299, 0,005 = 70, 06 и вычисляем Iσ = (1, 65; 2, 488). I Задачи 251. Вывести формулу доверительного интервала для a в N (a, σ). 252. Вывести формулу доверительного интервала для a в N (a, σ0 ) (параметр σ известен и равен σ0 ). 253. Укажите, каким уровням значимости соответствуют доверительные интервалы для a в N (a, σ0 ): σ0 а) X ± 1, 96 √ ; n 60 σ0 б) X ± 2, 575 √ ; n σ0 в) X ± 0, 99 √ . n 254. Вывести формулу доверительного интервала для σ в N (a, σ). 255. В модели N (a, σ) рассчитать доверительные интервалы для a и σ по данным: x̄ = 103, S 2 = 16, n = 26, α = 0, 1. 256. Решить предыдущую задачу в модели N (a, 3) (параметр σ известен и равен 3). 257. В модели N (a, σ) рассчитать доверительные интервалы для a и σ по данным: x̄ = 5, S 2 = 4, n = 9, α = 0, 05. 258. В модели N (a, σ) рассчитать доверительный интервал для σ по выборке (2, 3, 3, 1, 1, 2, 4, 2, 1, 3) при α = 0, 1. 259. Решить предыдущую задачу, если параметр a известен и равен 2. 260. Найти доверительные интервалы для θ в моделях N (θ, 1) и N (1, θ). 261. Найти доверительный интервал для p в B(N, P ). 262. Найти доверительный интервал для λ в Pλ . 263. В равномерном распределении R[0, b] найти доверительный интервал для b. ∗ 264. В модели R[0, b] показать, что интервал (Xn∗ , nX√nα ) является доверительным интервалом для b значимости α. 265. В равномерном распределении R[a, 0] найти доверительный интервал для a. 266. В равномерном распределении R[−θ, θ] найти доверительный интервал для θ. 267. В модели N (3, σ) найти доверительный интервал для σ по выборке: (1, 2, 2, 3, 3, 3, 3, 4, 5) при α = 0, 1. 268. Найти доверительный интервал для θ в N (θ, θ). 269. Найти доверительный интервал для θ3 в N (θ, σ0 ). 270. Найти асимптотически кратчайший доверительный интервал для α в Γ(α, β). 61 271. Найти доверительный интервал для α в распределении с плотностью f (x) = eα−x x > 0. 272. Найти доверительный интервал для отношения дисперсий двух нормальных моделей. |x| ), 273. Будет ли в нормальной модели hNθ1 ,θ2 i интервал (0; u 1+α 2 0 построенный по одному наблюдению x, являться доверительным интервалом для θ2 значимости α < α0 ? 62 § 12. Статистические гипотезы Статистической гипотезой (или просто гипотезой) называется любое утверждение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин. Статистическая гипотеза называется простой, если однозначно фиксирует распределение наблюдений. Иначе это сложная гипотеза. Проверяемая гипотеза называется нулевой (H0 ). Любая гипотеза о распределении наблюдаемой случайной величины, которая может оказаться истинной, но отличается от основной гипотезы, называется альтернативной гипотезой. Правило, согласно которому проверяют гипотезу H0 (принимают или отвергают), называется статистическим критерием проверки гипотезы H0 . Статистическая гипотеза называется параметрической, если она представляет из себя предположение о том, что неизвестный параметр распределения (дисперсия, математическое ожидание и т. п.) имеет наперед заданное значение или множество значений. В процессе проверки H0 можно принять правильное решение или совершить ошибку. Вероятностью ошибки первого рода называется вероятность отклонить H0 , когда H0 верна. Эта вероятность совпадает с уровнем значимости критерия α. Очевидно, α = P(Hd = H1 /H0 ) = P(T (x) ∈ V /H0 ) (α равняется вероятности того, что значение статистики T принадлежит критической области V при условии, что верна H0 ). Вероятностью ошибки второго рода называется вероятность принять H0 , когда H0 не верна. Вероятность ошибки второго рода обозначается β. Очевидно, β = P(Hd = H0 /H1 ) = P(T (x) ∈ V /H1 ) (β равняется вероятности того, что значение статистики T не принадлежит критической области V при условии, что верна H1 ). Величину 1−β будем называть мощностью критерия K и обозначать M (K). Понятие мощности критерия введено для случая простых H0 , H1 ; существенно, что множество Θ1 состоит из единственной точки θ1 . Наилучшие критические области (НКО) Теорема Неймана – Пирсона. Пусть H0 : θ = θ0 , H1 : θ = θ1 . Тогда НКО заданного уровня значимости α состоит из точек выборочного пространства, удовлетворяющих неравенству L(x, θ1 ) > cα , L(x, θ0 ) 63 где cα – константа, зависящая от α, L – функция правдоподобия. Равномерно наиболее мощным (р.н.м.к.) размера α называется статистический критерий с заданным размером (уровнем значимости) α для проверки сложной гипотезы H0 против сложной альтернативы H1 , мощность которого не меньше мощности любого другого статистического критерия, предназначенного для проверки H0 против H1 и имеющего тот же размер α. Критерий K для проверки гипотезы H0 против простой альтернативы H1 называется состоятельным, если M (K) = PH1 (Hd (X) = H1 ) → 1 при n → ∞. Критерий размера α, имеющий мощность не меньше α, называется несмещенным. Пример 39 (НКО и мощность критерия). Найти НКО и мощность критерия для проверки гипотезы H0 : θ = a0 , против гипотезы H1 : a = a1 , a1 > a0 в нормальной модели с известным вторым параметром σ. J В модели hN (θ, σ)i рассмотрим функцию правдоподобия L(x, θ1 ) = L(x, θ0 ) √1 e− (σ 2π)n Pn 2 i=1 (xi −a1 ) 2σ 2 Pn (x −a )2 − i=12σi2 0 1 2 2 = e− 2σ2 (na1 −na0 −2(a1 −a0 ) P xi ) √1 e (σ 2π)n > cα . X 1 2 2 − 2 (na1 − na0 − 2(a1 − a0 ) xi > ln cα . 2σ Выразим член, содержащий статистику (функцию от элементов выборки), и переобозначим для простоты константу: X −2(a1 − a0 ) xi 6 b. a1 > a0 , поэтому X xi > d (где d – новая константа). Таким образом, мы нашли статистику X T (x) = xi и форму НКО V = {x : X 64 xi > d}. Чтобы найти границу критической области, перейдем к стандартной статистике. Такой статистикой является X − a0 √ n, σ P доказывали, что Z ∈ N (0, 1). Неравенство xi > d равносильно неравенству Z > u, где u – новая константа. Поэтому НКО, заданная через Z, будет иметь форму V = {x : Z > u}. Z= По заданному α из соотношения α = P (Z ∈ V /a0 ) = P (Z > u) найдем u: P (Z > u) = 1 − FZ (u) = 1 − Φ(u) = α, следовательно, Φ(u) = 1 − α, u = u1−α , а НКО X − a0 √ n > u1−α . σ Теперь найдем мощность критерия. По определению, мощность критерия M (K) равна 1 − β, где β = P (T (x) ∈ V /θ1 ) = 1 − P (T (x) ∈ V /θ1 ). Тогда M (K) = P (T (x) ∈ V /θ1 ). √ 0 Статистика T (x) в данном случае равна X−a n, θ1 = a1 , а критическая обσ ласть V = [u1−α , ∞). Таким образом, X − a0 √ M (K) = Pa1 n > u1−α . σ (Pa1 означает, что вероятность рассчитывается на основе модели N (a1 , σ).) X − a0 √ σu1−α M (K) = Pa1 n > u1−α = Pa1 X > √ + a0 = σ n σu1−α = 1 − Pa1 X < √ + a0 . n Вспомним, что в N (a1 , σ) X имеет распределение N (a1 , √σn ). Тогда ! σu √1−α + a0 − a1 σu1−α σu1−α n √ + a0 = Φ Pa1 X < √ + a0 = FX , √σ n n n 65 и M (K) = 1 − Φ σu √1−α n + a0 − a1 ! √σ n . Можно слегка преобразовать последнее выражение, используя свойство Φ(x): Φ(−x) = 1 − Φ(x) и свойство квантилей стандартного нормального распределения: uα = −u1−α . Окончательно получим √ (a1 − a0 ) n . M (K) = Φ uα + σ I Пример 40 (НКО). Найти наилучшую критическую область для проверки гипотезы H0 : R[−a, a] против гипотезы H1 : N (0, σ) по одному наблюдению (n = 1) при уровне значимости α = 0, 1. J L(x, H1 ) = L(x, H0 ) 2 x √1 e− 2σ2 σ 2π x2 − 2σ 2 √1 e σ 2π : 1 2a , x ∈ [−a, a], : 0 = ∞, x ∈ / [−a, a]. (8) НКО V заданного уровня значимости α состоит из точек выборочного пространства, удовлетворяющих неравенству: L(x, θ1 ) > cα , L(x, θ0 ) следовательно, надо разрешить (8) относительно x. Разрешая, получаем: V = {x : |x| > a} ∪ {x : |x| 6 d}, где d – некоторая константа. Значение константы d найдем из определения α: α = P (Z ∈ V /H0 ); P (Z ∈ V /H0 ) = P (|x| 6 d/H0 ) и, поскольку H0 : R[−a, a], эта вероятность равна площади прямоугольника 1 , и с основанием с высотой, равной плотности равномерного распределения 2a 2d. Таким образом, d α = P (|x| 6 d/H0 ) = . a Отсюда d = aα, и получен окончательный вид НКО: V = {x : |x| > a} ∪ {x : |x| 6 aα}. 66 Следовательно, если наблюдаемое значение x по модулю больше a, или не больше aα, гипотеза о равномерном распределении отвергается (в пользу нормального распределения); если же |x| ∈ (aα; a], гипотеза о равномерном распределении не отвергается. I Пример 41 (мощность критерия). В условиях предыдущего примера найти мощность полученного критерия. J Мощность критерия численно равна площади над критической областью, рассчитанной на основе распределения Z при альтернативной гипотезе H1 . Решение принимается по одному наблюдению, то есть распределение Z совпадает с распределением X. Таким образом, M (K) равна площади криволинейной трапеции с основанием V , ограниченной сверху графиком плотности N (0, σ). Основание трапеции состоит из трех несвязанных интервалов: (−∞; −a) ∪ [−aα; aα] ∪ (a; ∞). Площадь под графиком плотности выражается через функцию распределения, и M (K) = Φ0,σ (−a) + (Φ0,σ (aα) − Φ0,σ (−aα)) + 1 − Φ0,σ (a). Вспомним, что Φ0,σ (x) = Φ(x/σ). Тогда M (K) упрощается и выражается через функцию Φ(x). При решении задач с числовыми данными подставляются табличные значения функции Φ(x). I Задачи Даны оценки за контрольную работу первой и второй групп X = (x1 , . . . , xn ), Y = (y1 , . . . , ym ), которые можно рассматривать как выборки из генеральных совокупностей оценок. Сформулировать нулевую и альтернативную гипотезы для получения ответа на вопрос: 274. «Учится ли первая группа по этому предмету лучше второй?» 275. «Одинаково ли успешно учатся по этому предмету первая и вторая группа?» 276. «Можно ли считать, что первая и вторая группа учатся по этому предмету одинаково ровно?» Даны результаты измерений артериального давления у одних и тех же людей до и после приема лекарства. Сформулировать H0 и H1 для получения ответа на вопрос: 277. «Повышает ли это лекарство давление?» 278. «Понижает ли это лекарство давление?» 67 279. «Это лекарство увеличивает разброс давления у пациентов?» 280. Имеются данные о солнечной активности и о заболеваемости дифтеритом за ряд лет. Сформулировать нулевую и альтернативную гипотезы для проверки содержательной гипотезы: «Увеличение солнечной активности понижает заболеваемость дифтеритом». 281. Для каждой из двух книг имеются данные о частотах, с которыми встречаются в тексте различные служебные слова и знаки препинания. Сформулировать нулевую и альтернативную гипотезы для проверки содержательной гипотезы: «Эти две книги написаны одним автором». 282. Найти наилучшую критическую область в модели N (a, σ) для проверки гипотезы H0 : a = a0 против гипотезы H1 : a = a1 по выборке объема n = 25, если σ = 5, a0 = 1, a1 = 3, уровень значимости α = 0, 05. Найти мощность критерия. 283. В статистической модели f (x) = λe−λx , x > 0 найти наилучшую критическую область для проверки гипотезы H0 : λ = 1 против гипотезы H1 : λ = 4 по выборке объема n = 1 при уровне значимости α = 0, 1. Найти мощность критерия. 284. В статистической модели N (a, σ) найти наилучшую критическую область для проверки гипотезы H0 : σ 2 = 4 против гипотезы H1 : σ 2 = 9, если объем выборки n = 25, а уровень значимости α = 0, 05. 285. Найти наилучшую критическую область для проверки гипотезы H0 : f (x) = 12 при |x| 6 1 против гипотезы H1 : ξ ∈ N (0, 1) по одному наблюдению (n = 1), α = 0, 05. Найти мощность критерия. 286. Найти наилучшую критическую область для проверки гипотезы H0 : ξ ∈ N (0, 1) против гипотезы H1 : f (x) = 21 при |x| 6 1 по одному наблюдению (n = 1), если α = 0, 05. Найти мощность критерия. 287. Найти наилучшую критическую область для проверки гипотезы H0 : R[− 21 , 12 ] против гипотезы H1 : N (0, 0, 16) по одному наблюдению n = 1 при уровне значимости α = 0, 1. Найти мощность критерия. 288. В статистической модели B(N, p) найти наилучшую критическую область для проверки гипотезы H0 : p = 41 против гипоте68 зы H1 : p = 12 , N = 10, если объем выборки n = 25, уровень значимости α = 0, 1. 289. В статистической модели Γ(α, 1) найти наилучшую критическую область для проверки гипотезы H0 : α = 1 против гипотезы H1 : α = 3 при n = 16, α = 0, 05. 290. Найти наилучшую критическую область для проверки гипотезы H0 : λ = 1 против гипотезы H1 : λ = 2 в статистической модели Pλ , n = 9, α = 0, 05. 291. Сколько наблюдений необходимо, чтобы мощность критерия для проверки гипотезы H0 : a = 0 против гипотезы H1 : a = 2 в статистической модели была не меньше 0, 9, если уровень значимости α = 0, 05? 292. Исследовать состоятельность критерия, построенного в задаче 282. 293. Исследовать несмещенность критерия, построенного в задаче 282. 294. Пусть в нормальной модели hN (θ, 1)i по одному наблюдению проверяется гипотеза H0 : θ = a0 = 1, против гипотезы H1 : θ = a1 = 4, причем априорные вероятности гипотез равны соответственно 1/4 и 3/4. При каком d полная вероятность ошибки критерия K(x) будет минимальной? ( H1 , X > d, K(X) = H0 , X < d. 69 § 13. Проверка параметрических гипотез Алгоритм проверки статистической гипотезы. 1. Сформулировать статистическую параметрическую модель, нулевую и альтернативную гипотезы, задать уровень значимости α. 2. Выбрать статистику Z(x), такую, что она сама зависит от параметра θ, а ее распределение при верной H0 от θ не зависит и различается при H0 и при H1 . 3. Найти критическую область V . 4. Рассчитать по выборке значение статистики Zв . 5. Если Zв попадает в критическую область V, то нулевая гипотеза отвергается (в пользу альтернативной). Если Zв не попадает в критическую область V , то нулевая гипотеза не отвергается. 6. Сформулировать ответ в терминах вопроса. Замечание 1. Гипотеза H0 отвергается или не отвергается с уровнем значимости α. Пусть наблюдаемая случайная величина принадлежит классу нормальных распределений N (θ1 , θ2 ). Перечислим критерии проверки гипотез о параметрах нормального распределения. Замечание 2. В данной таблице индекс «0» внизу означает, что значение параметра известно. Например, N (a, σ0 ) – дисперсия известна (и равна σ02 ), а математическое ожидание неизвестно. Индекс «0» вверху означает предполагаемое значение параметра. Например, a = a0 – математическое ожидание неизвестно, и его предполагаемое значение равно a0 . В последнем столбце указывается распределение Z при условии, что верна H0 (Z/H0 ). Критерии для проверки гипотез о параметрах одного распределения. Пусть наблюдаемая случайная величина принадлежит классу нормальных распределений N (θ1 , θ2 ) ∼ N (a, σ). Рассмотрим выборку X = {(x1 , . . . , xn )}, элементы которой независимы и имеют распределение N (a, σ). Гипотеза о дисперсии. H0 : σ = σ 0 . Статистическая модель Статистика Z Z/H0 hN (a0 , σ)i P (xi −a0 )2 (σ 0 )2 χ2n hN (a, σ)i nS 2 (σ 0 )2 χ2n−1 70 Гипотеза о среднем. H0 : a = a0 . Статистическая модель Статистика Z hN (a, σ0 )i √ (x̄−a0 ) n σ0 N (0, 1) hN (a, σ)i √ (x̄−a0 ) n s̄ Tn−1 Z/H0 Критерии для проверки гипотез о параметрах двух независимых распределений. Рассматриваются 2 независимые случайные величины и выборки наблюдений этих величин X, Y : X = {(x1 , . . . , xn1 )} ∈ N (a1 , σ1 ), Y = {(y1 , . . . , yn2 )} ∈ N (a2 , σ2 ). Гипотеза о дисперсии. H0 : σ1 = σ2 . Модель Статистика Z hN (a0 , σ)i, hN (a, σ)i (s̄1 )2 (s̄2 )2 , Z/H0 s1 > s2 . Fn1 −1,n2 −1 Замечание. Критерий, использующий данную статистику для проверки данной гипотезы, называется критерием Фишера. Гипотеза о средних. H0 : a1 = a2 Модель Статистика Z r x̄−ȳ hN (a, σ0 )i (известны σ1 , σ2 ) hN (a, σ)i(σ1 , σ2 неизвестны, но гипотеза H0 : σ1 = σ2 не отвергается) hN (a, σ)i(σ1 , σ2 неизвестны, и гипотеза H0 : σ1 = σ2 отвергается) Z/H0 N (0, 1) 2 2 σ2 σ1 + n1 n2 x̄−ȳ r 2 s̄2 1 (n1 −1)+s̄2 (n2 −1) ( 1 + 1 ) n1 +n2 −2 n1 n2 r x̄−ȳ s̄2 s̄2 1 2 n1 + n2 √ Tn1 +n2 −2 Tν , где ν ≈ s̄2 s̄2 1 2 n1 + n2 2 s̄2 1 n1 !2 s̄2 2 n2 n1 +1 + !2 −2 n2 +1 Замечание. Критерий, использующий статистику, отмеченную галочкой √ ( ), называется критерием Стьюдента. 71 Гипотеза о средних для парных совокупностей. Рассматриваются 2 случайные величины и выборки наблюдений этих величин X, Y : X = {(x1 , . . . , xn )} ∈ N (a1 , σ1 ), Y = {(y1 , . . . , yn )} ∈ N (a2 , σ2 ), причем Xi и Yi связаны, например, через объект наблюдения. Перейдем к разности случайных величин; тогда d = X −Y, d ∈ N (ad , σd ). Очевидно, ad = a1 −a2 . Обычно σd неизвестно. Гипотеза H0 : a1 = a2 ∼ H0 : ad = 0. Модель Статистика Z √ d¯ n s̄d hN (a, σ)i = P √ P P d2i n−1 n di −( di )2 Z/H0 Tn−1 Замечание. Этот критерий называется критерием Стьюдента для парных выборок. Пример 42. По выборке из нормального распределения N (a, 3) объема n = 139 со средним x = 9, 193 проверить гипотезу о том, что параметр a равен 9. J 1. Пусть α = 0, 05. hN (a, σ0 )i, σ0 = 3. H0 : a = 9; H1 : a 6= 9. 2. В нашем примере параметр a, оценка параметра – X, известно распределение функции √ (X − a) n . Z(x) = σ0 3. Если верна H0 : a = 9, то Z(x) ∈ N (0, 1). Если же верна H1 : a = a1 6= 9, то распределение X ∈ N (a1 , σ0 ) смещено влево или вправо относительно распределения X при нулевой гипотезе N (9, σ0 ), значит, так √ (X−a) n же смещено и распределение Z(x) = . Поэтому критическая область σ0 двусторонняя: V = {x : Z(x) 6 u0,025 или Z(x) > u0,975 }, то есть V = {x : Z(x) 6 −1, 96} ∪ {x : Z(x) > 1, 96}. 4. √ (X − a) n Z(x) = ; σ0 72 √ (9, 193 − 9) 139 Zв = ≈ 0, 758; 3 5. Zв не попадает в критическую область V , поскольку −1, 96 < 0, 758 < 1, 96. Следовательно, с уровнем значимости α = 0, 05 нулевая гипотеза H0 не отвергается. 6. Вывод: данная выборка может быть взятой из совокупности с математическим ожиданием 9 I. Пример 43. Проверить гипотезу о том, что среднеквадратичное отклонение цены на товар σ = 1, 4, если по 101 наблюдению S = 1, 2. J 1. Можно использовать нормальную модель; уровень значимости α зададим равным 0,05. Сформулируем гипотезы: H0 : σξ = σ0 = 1, 4; H1 : σξ = σ1 < 1, 4 2. Воспользуемся статистикой Z= nS 2 , σ02 при условии H0 статистика Z имеет распределение χ2n−1 . 3. Найдем критическую область V . Так как σ1 < σ0 , то при верной ги2 потезе H1 статистика Z = nS принимает меньшие значения, чем при верσ02 ной гипотезе H0 , следовательно, критическая область левосторонняя: V = {x : Z(x) 6 χ2α }. Из таблиц находим граничное значение Zкрит = χ2100;0,05 = 77, 929. Таким образом, критическая область V = [0; 77, 929]. 4. Рассчитаем по выборке значение статистики Zв : 101 · (1, 2)2 nS 2 Zв = 2 = ≈ 74, 2 σ0 (1, 4)2 5. Поскольку Zв = 74, 2 < 77, 929 = Zкрит , то Zв попадает в критическую область V , следовательно нулевая гипотеза отвергается в пользу альтернативной с уровнем значимости α = 0, 05. 6. Таким образом, нельзя считать, что среднеквадратичное отклонение цены на товар σ = 1, 4. Следует признать, что оно меньше.I Задачи 73 Замечание. Если в условиях не указан уровень значимости α, следует задать его самим. 295. По выборке из нормального распределения объема n = 400 проверить гипотезу о том, что выборка взята из распределения с математическим ожиданием 14. Дисперсия известна и равна 81. Рассчитанное по выборке среднее x̄ = 13, 6. 296. При решении контрольной работы средняя оценка в баллах по курсу равна a0 = 13. В одной из групп (26 студентов) средняя оценка равна x̄ = 11, S = 2. Можно ли считать, что работа в данной группе выполнена хуже, или отклонение следует считать случайным? (α = 0, 05.) 297. Урожайность культуры составляет 35 центнеров с гектара; на 10 опытных делянках x̄ = 38 центнеров с гектара, s2 = 49. Случайно ли превышение урожайности? 298. Средние по отрасли издержки на производство единицы некоторого товара составляют a0 = 23, а по 50 предприятиям корпорации выборочное среднее издержек равно x̄ = 20, S = 2. Можно ли считать, что издержки в данной корпорации ниже, или отклонение следует считать случайным? (α = 0, 05.) 299. В условиях примера 37 проверить гипотезу о том, что математическое ожидание курса английского фунта стерлингов за упомянутый период равно a = 50. 300. При измерении производительности двух агрегатов получены следующие результаты: A : 14, 1 10, 1 14, 7 13, 7 14, 0; B : 14, 0 14, 5 13, 7 12, 7 14, 1. Различна ли их производительность? 301. Одинаково ли потребление сырья для производства продукта при двух технологиях, если n1 = 16, S̄12 = 8, x̄ = 6; n2 = 36, S̄22 = 15, ȳ = 7? 302. n1 = 21, S̄12 = 25, n2 = 31, S̄22 = 16. Проверить гипотезу о том, что σ12 6= σ22 при α = 0, 1. 303. Производительность труда в дневную смену описана данными: n1 = 16, x̄ = 14, 5, S̄12 = 4; в ночную смену: n2 = 16, ȳ = 13, S̄22 = 3. Можно ли считать, что ночная работа менее эффективна? 74 304. X – производительность при работе с перерывом, Y – без перерыва, измеренная у одних и тех же 10 человек. Проверить гипотезу aY < aX . Уровень значимости положить равным 0,05. X Y 40 35 41 55 46 30 30 38 21 49 60 51 43 62 41 53 31 27 53 48 305. У группы студентов проверялись знания элементарной математики через полгода (X) и через полтора года (Y ) после окончания школы (max = 100 баллов). Проверить гипотезу о том, что знания не изменились. Уровень значимости положить равным 0,1. X Y 50 88 71 55 46 40 63 75 41 49 80 87 53 57 71 27 306. Указаны выборочные дисперсии размеров прибыли при производстве товаров двух групп: n1 = 40, S12 = 36; n2 = 50, S22 = 49. Можно ли считать, что прибыль при производстве товаров первой группы колеблется сильнее, или различия следует считать случайными? (α = 0, 05.) 307. Выборка X = (124, 90, 124, 99, 90, 111, 89) представляет собой значения индексов продаж 7 однотипных товаров некоторого производителя. Проверить гипотезу о том, что средний индекс продаж для товаров данного производителя равен среднему индексу продаж, рассчитанному по товарам всех производителей и принимаемому за 100 (α = 0, 05). 308. При стабильном процессе в камере поддерживается температура 25, 5◦ . Путем измерений получена выборка: 25, 43; 25, 41; 25, 44; 26, 20; 25, 60; 25, 59; 25, 62; 25, 53; 25, 52; 25, 53. Проверить гипотезу о среднем (α = 0, 01). 309. Среднее значение показателя воздушного загрязнения окружающей среды для двигателя равно 20. При стабильном процессе в камере поддерживается температура 25, 5◦ . Дана выборка значений этого показателя для 10 двигателей нового типа: 15, 6; 16, 2; 22, 5; 20, 5; 16, 4; 19, 4; 16, 6; 17, 9; 12, 7; 13, 9. Проверить гипотезу о том, что у двигателей нового типа показатель воздушного загрязнения окружающей среды ниже (α = 0, 01). 75 § 14. Непараметрические критерии Гипотеза о виде распределения. H0 : F (x) = F0 (x). Критерии, проверяющие гипотезу о виде распределения, называются критериями согласия. Критерий согласия Колмогорова. Пусть x = (x1 , . . . , xn ) – выборка из генеральной совокупности с неизвестной функцией распределения F (x). Выдвинута простая гипотеза H0 : F (x) = F0 (x), где F0 (x) задана. Критерий согласия Колмогорова применяют для непрерывных функций распределения F (x). В качестве статистики критерия выбирают величину Dn = Dn (x) = sup |(Fn (x) − (F (x)|, (9) x а в качестве критической области – область вида V = (t∗ , ∞), (10) где t∗ табулировано. Так, t∗ = t∗α = 1, 3581 при α = 0, 05; t∗α = 1, 6276 при α = 0, 01. Таким образом, при заданном уровне значимости α правило проверки гипотезы H0 при n > 20 сводится к следующему: если значение статистики t̂ = Dn (x) = maxx |Fn∗ (x) − F0 (x)| удовлетворяет неравенству √ n · t̂ > t∗ , то H0 отвергают, в противном случае делают вывод, что статистические данные не противоречат гипотезе. Критерий согласия χ2 Пирсона. Критерий согласия χ2 Пирсона также проверяет гипотезу H0 : F (x) = F0 (x), но его можно применять для любых распределений. Чтобы воспользоваться этим критерием, выборочные данные предварительно группируют. Пусть ni – число значений, попавших в i-й интервал, i = 1, . . . , k, n – объем выборки, pi – теоретическая вероятность попадания одного элемента выборки в i-й интервал. Однако в теоретическом распределении могут быть неизвестные параметры (θ1 , . . . , θr ), что обычно и встречается на практике. Тогда по выборке (x1 , . . . , xn ) первоначально находят оценки (θ1∗ , . . . , θr∗ ) и затем по F (x, θ1∗ , . . . , θr∗ ) вычисляют теоретические вероятности pi . Статистика критерия Z= k X (ni − npi )2 i=1 npi 76 ∼ χ2ν , (11) где ν = k − r − 1 – число степеней свободы. Ограничения: n > 50 и npi > 4. Критическую область задаем в виде V = (t∗ , ∞), значение t∗ – квантиль распределения χ2ν порядка (1 − α). Таким образом, вид критерия согласия χ2 : если значение статистики Zв удовлетворяет неравенству Zв > t∗ , гипотезу H0 отвергают, в противном случае гипотеза H0 не противоречит условиям испытаний. Пример 44. Фирма предлагает 3 вида продукта. По данным прошлого года вероятности заказов для разных видов соответственно равны 0,1; 0, 65; 0,25. В этом году из 600 покупателей 42 приобрели продукт первого вида, 365 – второго, 193 – третьего. Можно ли считать, что предпочтения покупателей не изменились? J Проверим гипотезу H0 : F (x) = F0 (x), где F0 обозначает распределение вероятностей по данным прошлого года. Составим таблицу: Вид продукта 1 2 3 Число покупок ni 42 365 193 pi 0, 1 0, 65 0, 25 npi 60 390 150 Здесь n = 600, pi – теоретическая вероятность покупки продукта i-го вида, i = 1, 2, 3. Zв = 3 X (ni − npi )2 npi i=1 = (42 − 60)2 (365 − 390)2 (193 − 150)2 + + = 19, 33. 60 390 150 Пусть α = 0, 015. = t∗ = χ2l−r−1; 0,99 = χ23−0−1; 0,95 = χ22; 0,99 = 9, 21034 (последнее значение нашли по таблице). Zв > t∗ , следовательно, гипотезу H0 отвергают и следует считать, что предпочтения покупателей изменились.I 77 Пример 45. Было проведено 1000 измерений случайной величины η, равной времени ожидания ответа на запрос, измеренному в долях от теоретически возможного максимального времени, принятого за единицу. Требуется выяснить распределение этой величины. J Сгруппируем данные: № 1 2 3 4 5 6 7 8 9 10 11 Интервал Численность ni 0, 00 − 0, 09 80 0, 09 − 0, 18 81 0, 18 − 0, 27 93 0, 27 − 0, 36 85 0, 36 − 0, 45 87 0, 45 − 0, 54 87 0, 54 − 0, 63 87 0, 63 − 0, 72 106 0, 72 − 0, 81 99 0, 81 − 0, 90 89 0, 90 − 0, 99 106 ni n ni nh P ni 0,080 0,081 0,093 0,085 0,087 0,087 0,087 0,106 0,099 0,089 0,106 0,007 0,007 0,008 0,008 0,008 0,008 0,008 0,010 0,009 0,008 0,010 0,080 0,161 0,254 0,339 0,426 0,513 0,600 0,706 0,805 0,894 1,000 n По рассмотрении таблицы группировки можно выдвинуть гипотезу о равномерном распределении. Параметры этого распределения найдем с помощью оценивания: â = ymin = x∗1 = 0, b̂ = xmax = x∗n ≈ 1. H0 : Fη (y) = FR[0,1] (y). Применим критерий согласия χ2 Пирсона. В качестве статистики критерия возьмем величину Z= k X (ni − npi )2 npi i=1 , где pi – теоретическая вероятность попадания одного элемента выборки в i-й интервал, равная 0,1. После вычислений получаем Zв = 9, 25. Критическая область Vk = (χ2k−r−1,1−α , +∞), где r – число параметров, оцененных в выборке. У нас r = 2, в таблице значений квантилей распределения χ2 находим χ28,0.95 = 15, 51. Так как значение Zв не попало в критическую область, то гипотеза H0 не отвергается, то есть статистические данные не противоречат гипотезе о том, что величина η имеет распределение R[0, 1]. I 78 Пример 46. В условиях предыдущего примера проверим гипотезу с помощью критерия согласия Колмогорова. J H0 : Fη (y) = FR[0,1] (y). В качестве статистики критерия возьмем величину √ Dn = n · max Fn∗ (y) − FR[0,1] (y) . y После вычислений мы получили Dn = 1, 22. Так как критическая область для α = 0, 05 равна Vk = (1, 36; +∞), a значение Dn не попадает в критическую область, то гипотеза H0 не отвергается, то есть можно считать, что величина η имеет распределение R[0, 1] I Задачи 310. Доказать состоятельность критерия Колмогорова. 311. В эксперименте Бюффона при n = 4040 бросаниях монеты наблюдалось m = 2048. Согласуются ли эти данные с гипотезой о симметричности монеты при уровне значимости α, равным: а) 0,05; б) 0,1. 312. При n = 1000 независимых испытаний с исходами A1 , A2 , A3 эти события осуществились соответственно 350, 320 и 330 раз. Проверить, согласуются ли эти данные при уровне значимости 0,05 с гипотезой H0 : p1 = p2 = p3 , где pi = P(Ai ). 313. В таблице приводятся результаты 100 опытов, состоящих в одновременном подбрасывании 6 костей. В каждом из опытов подсчитывалось число m костей, выпавших кверху гранью с шестью очками. m 0 1 2 3 4 5 6 ni 47 35 8 9 1 0 0 Проверить гипотезу правильности костей. 314. Можно ли считать равномерным распределение студентов по знакам Зодиака? Номер знака ni Номер знака ni 1 2 3 4 5 6 12 13 23 11 9 10 7 8 9 10 11 12 15 7 15 9 7 3 79 315. В десятичной записи числа π среди первых 10 002 знаков после запятой цифры 0, 1, ..., 9 встречаются соответственно 968, 1026, 1021, 974, 1014, 1046, 1021, 970, 948, 1014 раз. Можно ли при уровне значимости 0,05 считать эти цифры случайными? При каком уровне значимости эта гипотеза отвергается? 316. Датчик случайных чисел выдал 10 000 чисел 0, 1, . . . , 9. Среди них числа, превосходящие 5, встретились 5105 раз. Проверить гипотезу о случайности чисел. 317. Проверить гипотезу H0 : F = Pλ ; m ni 0 1 2 3 4 5 13 17 12 5 3 1 318. По официальным данным в Швеции в 1935 г. родилось 88 273 ребенка, причем в январе родилось 7280 детей, в феврале – 6957, марте – 7883, апреле – 7884, мае – 7892, июне – 7609, июле – 7585, августе – 7393, сентябре – 7203, октябре – 6903, ноябре – 6552 и в декабре – 7132 ребенка. Совместимы ли эти данные с гипотезой, что день рождения наудачу выбранного человека с равной вероятностью приходится на любой из 365 дней года? 319. В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, полученных при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей по теории наследственности приведены в следующей таблице: Семена Круглые и желтые Морщинистые и желтые Круглые и зеленые Морщинистые и зеленые Частота Вероятность 315 9/16 101 3/16 108 3/16 32 1/16 Проверить гипотезу H0 о согласии частот с теоретическими вероятностями (на уровне значимости α = 0, 1). 320. В таблице приведены числа ni участков равной площади 0,25 км южной части Лондона, на каждый из которых приходилось по i 2 80 попаданий снарядов во время Второй мировой войны. Проверить согласие опытных данных с законом распределения Пуассона, приняв за уровень значимости α = 0, 05: i ni 0 1 2 3 4 5 и более 229 221 93 35 7 1 321. Из 150 покупателей товара 61 выбрал сорт А, 53 – сорт Б, 36 – сорт С. Проверить гипотезу о равновероятности приобретения этих трех сортов. 322. В пачке драже M&M’s – 30 % конфет коричневого цвета, по 20 % – желтого и красного и по 10 % – синего, зеленого и оранжевого. В праздничной упаковке содержалось 370 конфет, из них: Коричневые 84 Желтые 79 Красные 75 Оранжевые 49 Зеленые 36 Синие 47 Соответствуют ли эти данные обычному составу пачки драже M&M’s? 323. Для оценки эффективности лекарства одной группе испытуемых дают тестируемый препарат, проверенный на животных, а другой – плацебо (физиологически инертное вещество, положительный лечебный эффект которого связан с подсознательным психологическим ожиданием пациента). Ниже приводятся данные о числе появлений симптомов гриппа за двухлетний период у группы, принимавшей в начале этого периода профилактическое лекарство, и у группы, принимавшей плацебо. Число заболеваний 0 1 2 3 4 или более Число пациентов, принимавших лекарство 32 26 15 6 6 Число пациентов, принимавших плацебо 26 30 11 14 19 Можно ли считать, что эффект от применения препарата достоверно превышает эффект плацебо? 81 § 15. Модель линейной регрессии Пусть Y – случайная величина, Xi , i = 1, . . . , k – контролируемые (неслучайные) переменные. Модель (функциональная зависимость) известна из предварительных соображений с точностью до параметров: Y = f (X1 , . . . , Xk , θ1 , . . . , θs ) + ε, где θi , i = 1, . . . , s – параметры, ε – вектор ошибок. Будем считать, что E ε = 0 и ошибки некоррелированы. Параметры выбираются так, чтобы минимизировать сумму квадратов ошибок: P R = ni=1 (Yi − f (Xi1 , . . . , Xik , θ1 , . . . , θs ))2 → min, ∂R = 0, j = 1, . . . , s. ∂θj Наиболее часто используются линейные по параметрам модели вида Y = θ1 · a1 (X1 ) + θ2 · a2 (X2 ) + . . . + θk · ak (Xk ) + ε. (Если ak (Xk ) ≡ 1, будет свободный член.) Рассмотрим основной случай, когда ai (Xi ) = Xi . Тогда исходные данные имеют вид Y = X · θ + ε. Рассмотрим модель Y1 = X11 θ1 + . . . + X1k θk + ε1 ... Yn = Xn1 θ1 + . . . + Xnk θk + εn или Y = X · θ + ε. Оценка θ, найденная из условия R= X (Yi − k X Xij θj )2 → min, j=1 равна θ̂ = (X T X)−1 · X T Y. (12) В одномерном случае для нахождения параметров линейной модели Y = X · θ + θ1 + ε удобно использовать следующие формулы, получаемые из соотношения θ̂ = (X T X)−1 · X T Y : 82 θ̂ = где SSxy SSxy , θ̂1 = y − θ̂ · x, SSxx (13) P P ( i xi )( i yi ) = (xi − x)(yi − y) = x i yi − , n i i P X X ( i xi )2 2 2 xi − SSxx = (xi − x) = . n i i X X Свойства оценок МНК 1. E θ̂ = θ. (Несмещeнность). 2. Kθ̂ = σ 2 (XT X)−1 . 3. Теорема Гаусса – Маркова. В классе несмещенных линейных оценок оценки МНК имеют наименьшую дисперсию. В линейной модели Y = X · θ + θ1 + ε (одномерный случай) доверительный интервал для коэффициента регрессии θ θ̂ ± tn−2,1− α2 Sθ̂ , где s Sθ̂ = P − Ŷi )2 ; P (n − 2) (Xi − X)2 i (Yi доверительный интервал для среднего значения y при фиксированном x0 : s 1 (x0 − x)2 +P ; ŷ ± tn−2,1− α2 S n (xi − x)2 доверительный интервал для индивидуального значения y при фиксированном x0 : s 1 (x0 − x)2 ŷ ± tn−2,1− α2 S 1 + + P , n (xi − x)2 где sP 2 i (yi − ŷi ) S= . (n − 2) 83 Пример 47. Найдем оценки параметров линейной модели Y = X1 · θ1 + X2 θ2 + ε по данным X1 0 1 0 1 X2 0 0 1 1 Y 0, 1 0, 9 2, 1 3, 0 J θ̂ = (X T X)−1 · X T Y. ! 0 0 ! 0 1 0 1 1 0 2 1 XT X = = · ; 0 1 0 0 1 1 1 2 1 1 ! ! 2/3 −1/3 2 −1 = . (X T X)−1 = 1/3 · −1/3 2/3 −1 2 ! 0, 1 ! 0, 9 3, 9 0 1 0 1 · = . XT Y = 2, 1 5, 1 0 0 1 1 3, 0 ! ! ! 3, 9 0, 9 2/3 −1/3 · = ; θ̂ = (X T X)−1 · X T Y = −1/3 2/3 5, 1 2, 1 Ŷ = 0, 9X1 + 2, 1X2 . I Пример 48. Найдем по данным примера 47 величину R̂, равную сумме квадратов ошибок. P P P J R = i (Yi − 2j=1 Xij θj )2 = i (Yi − Ŷi )2 , где Ŷi – значения, вычисленные по уравнению регрессии Ŷ = 0, 9X1 + 2, 1X2 . X1 0 1 0 1 X2 0 0 1 1 Y 0, 1 0, 9 2, 1 3, 0 Ŷ 0 0, 9 2, 1 3, 0 |Y − Ŷ | 0, 1 0 0 0 84 R= X (Yi − Ŷi )2 = 0, 01. I i Пример 49 (модель со свободным членом). Найдем оценки параметров линейной модели Y = X1 · θ1 + X2 θ2 + θ3 + ε по данным X1 1 0 1 X2 1 0 0 Y 0 −1, 1 2 J Будем считать, что переменная X трехмерна, и рассматривать модель Y = X1 · θ1 + X2 θ2 + X3 θ2 + ε, где X3 ≡ 1: X1 X2 X3 Y 1 0 1 0 1 1 0 −1, 1 1 0 1 2 θ̂ = (X T X)−1 · X T Y. 2 1 2 1 1 1 1 0 1 T X X = 1 0 0 · 0 0 1 = 1 1 1 ; 1 0 1 2 1 3 1 1 1 2 −1 −1 (X T X)−1 = −1 2 0 . −1 0 1 2 1 0 1 0 T X Y = 1 0 0 · −1, 1 = 0 . 0, 9 1 1 1 2 2 −1 −1 2 3, 1 θ̂ = (X T X)−1 · X T Y = −1 2 0 · 0 = −2 ; −1 0 1 0, 9 −1, 1 Ŷ = 3, 1X1 − 2X2 − 1, 1. I 85 Пример 50. Найдем оценку параметра линейной модели Y = X · θ + ε по данным X1 0 1 0 1 X2 0 0 1 1 Y1 0, 1 3, 1 1, 9 5, 2 Y2 −0, 1 −0, 9 0, 8 0, 1 J 2 −1 −1 (X T X)−1 = −1 2 0 . −1 0 1 ! 8, 3 −0, 8 XT Y = . 7, 1 0, 9 θ̂ = (X T X)−1 · X T Y = 3, 17 −0, 83 1, 96 0, 86 ! . Ŷ1 = 3, 1X1 + 1, 96X2 . Ŷ2 = −0, 83X1 + 0, 86X2 . Посмотрим, насколько хорошо модель приближает данные: X1 0 1 0 1 X2 0 0 1 1 Y1 0, 1 3, 1 1, 9 5, 2 Y2 −0, 1 −0, 9 0, 8 0, 1 I Пример 51. Найдем оценки параметров линейной модели Y = X · θ + θ1 + ε, используя формулы (13) по данным X 1 2 3 4 5 Y 1 1 2 2 4 J SSxy = X i P P ( i xi )( i yi ) 15 · 10 xi yi − = 37 − = 7. n 5 86 SSxx = X i P 2 ( 225 2 i xi ) xi − = 55 − = 10. n 5 SSxy 7 = 0, 7. = SSxx 10 10 θ̂1 = y − θ̂ · x = − 0, 7 · 3 = 2 − 2, 1 = −0, 1. 5 Ŷ = 0, 7X − 0, 1. I θ̂ = Пример 52. Найдем 95 %-й доверительный интервал для коэффициента регрессии θ в линейной модели Y = X · θ + θ1 + ε по данным: X 1 2 3 4 5 Y 1 1 2 2 4 J Доверительный интервал равен θ̂ ± tn−2,1− α2 Sθ̂ , где s P Sθ̂ = ŷi )2 . (xi − x)2 i− i (y P (n − 2) X X 2 θ̂ = 0, 7, (xi − x) = 10; (yi − ŷi )2 = 1, 1; n = 5, t3;0,975 = 3, 182. i Подставляя найденные значения, получаем доверительный интервал для коэффициента регрессии: 0, 7 ± 0, 61 = [0, 09; 1, 31]. I Пример 53. В условиях предыдущего примера найдем 95 %-й доверительный интервал для среднего значения y при x = 4. J Доверительный интервал равен s ŷ ± t n−2,1− α2 где 1 (x0 − x)2 +P , n (xi − x)2 S sP S= − ŷi )2 . (n − 2) i (yi 87 x = 3, X (xi − x)2 = 10; S = 0, 61, t3;0,975 = 3, 182. Доверительный интервал для среднего: r 1 (4 − 3)2 + = 2, 7 ± 1, 1 = [1, 6; 3, 8]. 2, 7 ± 3, 182 · 0, 61 5 10 I Пример 54. Сравним интервал, полученный в предыдущем примере, с 95 %-й доверительным интервалом для индивидуального значения (прогноза) y при x = 4. J Доверительный интервал для прогноза y равен s (x0 − x)2 1 ŷ ± tn−2,1− α2 S 1 + + P . n (xi − x)2 Получаем r 2, 7 ± 3, 182 · 0, 61 1 + Доверительный интервал ре, чем доверительный 1 (4 − 3)2 + = 2, 7 ± 2, 2 = [0, 5; 4, 9]. 5 10 прогноза интервал значения в 2 раза шидля среднего значения. I Задачи 324. Найти по данным примера 49 величину R̂, равную сумме квадратов ошибок, и объяснить полученный результат. 325. Найти оценку параметра линейной модели Y = X · θ + ε по данным: X 7 4 6 2 2 1 3 Y 2 4 2 5 7 6 5 326. По данным предыдущей задачи найти величину R̂, равную сумме квадратов ошибок в модели Y = X · θ + ε. 327. Найти оценки параметров линейной модели Y = X · θ + θ1 + ε по данным задач 325– 326: X 7 4 6 2 2 1 3 Y 2 4 2 5 7 6 5 88 Вычислить величину R̂ для этой модели. Какая из моделей является более адекватной? 328. Найти оценки параметров линейной модели Y = X · θ + θ1 + ε по данным: X 0, 5 1 1, 5 Y 2 1 3 329. Найти оценки параметров линейной модели X = Y · θ + θ1 + ε по данным: X 0, 5 1 1, 5 Y 2 1 3 330. Найти оценки параметров линейной модели Y = X · θ + θ1 + ε по данным: X 8 5 4 6 2 5 3 Y 1 3 6 3 7 2 5 331. По данным предыдущей задачи найти величину R̂, равную сумме квадратов ошибок в модели Y = X · θ + ε. 332. Найти оценки параметров линейной модели Y = X1 · θ1 + X2 · θ2 + θ3 + ε по данным: X1 1 0 0 1 X2 0 0 1 1 Y −1 1 2 3 333. Найти оценки параметров модели Y = X · θ1 + X 2 · θ2 + θ3 + ε по данным: X −2 −1 0 1 2 3 Y 2, 7 0 −1, 1 2, 8 8, 7 19 (сделать замену X = X1 , X 2 = X2 ). 89 334. Найти зависимость производительности труда (Y ) от фондовооруженности X1 и изношенности фондов X2 , если имеются следующие данные: Y X1 X2 0, 5 1 0, 6 0, 8 1, 2 0, 4 0, 6 0, 9 0, 5 0, 5 0, 7 0, 3 335. Имеются данные о спросе Y и ценах на продукцию X: X 0 1 1 Y 4 3 0 Найти оценки параметров линейной регрессии Y на X. 90 Библиографический список [1] Боровков, А. А. Математическая статистика. Оценка параметров. Проверка гипотез / А. А. Боровков. – М. : ФИЗМАТЛИТ, 2007. – 704 с. [2] Ивченко, Г. И. Математическая статистика : учеб. пособие / Г. И. Ивченко, Ю. И. Медведев . – М. : Высш. шк., 1984. – 248 с. [3] Крамер, Г. Математические методы статистики / Г. Крамер. – М. : Мир, 1975. – 648 c. [4] Крупкина, Т. В. Математическая статистика : курс лекций / Т. В. Крупкина, А. К. Гречкосеев. – Красноярск : ИПК СФУ, 2009. – 190 с. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [5] Крупкина, Т. В. Математическая статистика : метод. указания / Т. В. Крупкина, Г. А. Федоров. – Красноярск : ИПК СФУ, 2009. – 52 с. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [6] Чернова, Н. И. Математическая статистика : учеб. пособие / Н. И. Чернова ; Новосиб. гос. ун-т. – Новосибирск, 2007. – 148 с. Дополнительная литература [7] Андерсон, Т. Введение в многомерный статистический анализ / Т. Андерсон – М. : Гос. изд. физ.-мат. лит., 1963. – 500 с. [8] Беклемишев, Д. В. Курс аналитической геометрии и линейной алгебры / Д. В. Беклемишев. – М. : ФИЗМАТЛИТ, Наука, 2007. – 307 с. [9] Бешелев, С. Д. Математико-статистические методы экспертных оценок / С. Д. Бешелев, Ф. Г. Гурвич. – М. : Статистика, 1980. – 263 с. [10] Большев, Л. Н. Таблицы математической статистики / Л. Н. Большев, Н. В. Смирнов. – М. : Наука, 1983. – 415 с. 91 [11] Вентцель, Е. С. Теория вероятностей и ее инженерные приложения : учеб. пособие / Е. С. Вентцель, Л. А. Овчаров. – 2-е изд., стереотип. – М. : Высш. шк., 2000. – 480 с. [12] Вирт, Н. Алгоритмы и структуры данных / Н. Вирт. – СПб. : Невский диалект, 2001. – 352 с. [13] Володин, Б. Г. Сборник задач по теории вероятностей, математической статистике и теории случайных функций : учеб. пособие / Б. Г. Володин, М. П. Ганин, И. Я. Динер, Л. Б. Комаров, А. А. Свешников, К. Б. Старобин ; под ред. А. А. Свешникова. – М. : Наука. Гл. ред. физ.-мат. лит., 1970. – 632 с. [14] Вуколов, Э. Л. Основы статистического анализа. Практикум по статистическим методам и исследованию операции с использованием пакетов STATISTICA и EXCEL : учеб. пособие / Э. Л. Вуколов. – 2-е изд., испр. и доп. – М. : ФОРУМ, 2008. – 464 с. [15] Гихман, И. И. Теория вероятностей и математическая статистика : учебник / И. И. Гихман, А. В. Скороход, М. И. Ядренко. – 2-е изд., перераб. и доп. – Киев. : Выща шк., 1988. – 439 с. [16] Гнеденко, Б. В. Курс теории вероятностей : учебник / Б. В. Гнеденко. – 8-е изд., испр. и доп. – М. : Едиториал УРСС, 2005. – 448 с. [17] Емельянов, Г. В. Задачник по теории вероятностей и математической статистике : учеб. пособие / Г. В. Емельянов, В. П. Скитович. – Л. : Изд-во Ленингр. ун-та, 1967. – 331 с. [18] Зорич, В. А. Математический анализ. Т. 1, 2 / В. А. Зорич. – М. : МЦНМО, 2007. – 1458 с. [19] Кендалл, М. Теория распределений / М. Кендалл, А. Стюарт. – М. : Наука. Гл. ред. физ.-мат. лит., 1966. – 588 с. [20] Кендалл, М. Статистические выводы и связи / М. Кендалл, А. Стюарт. – М. : Наука. Гл. ред. физ.-мат. лит., 1973. – 899 с. [21] Кибзун, А. И. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами : учеб. пособие / А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов, А. Н. Сиротин. – М. : ФИЗМАТЛИТ, 2002. – 224 с. [22] Климов, Г. П. Теория вероятностей и математическая статистика / Г. П. Климов. – М. : Изд-во Моск. ун-та, 1983. – 328 с. 92 [23] Кнут, Д. Искусство программирования. Т. 3. Сортировка и поиск /Д. Кнут. – М. : Вильямс, 2000. – 822 с. [24] Козлов, М. В. Введение в математическую статистику : учеб. пособие / М. В. Козлов, А. В. Прохоров. – М. : МГУ, 1987. – 264 с. [25] Коршунов, Д. А. Сборник задач и упражнений по математической статистике : учеб. пособие / Д. А. Коршунов, Н. И. Чернова. – Новосибирск : Изд-во Ин-та математики, 2004. – 128 с. [26] Крупкина, Т. В. Конспект лекций по теории вероятностей : учеб. пособие / Т. В. Крупкина. – Красноярск : КрасГУ, 1996. – 87 с. [27] Крупкина, Т. В. Теория вероятностей, математическая статистика и эконометрика : учеб. пособие : в 2 кн. Кн. 1 / Т. В. Крупкина, А. К. Гречкосеев. – Красноярск : КрасГУ, 1999. – 216 с. [28] Крупкина, Т. В. Теория вероятностей и математическая статистика : учеб. пособие : в 2 ч. Ч. 1 / Т. В. Крупкина, В. П. Малый. – Красноярск : КрасГУ, 1991. – 80 с. [29] Леман, Э. Теория точечного оценивания / Э. Леман. – М. : Наука, 1991. – 448 с. [30] Никитин, Я. Ю. Асимптотическая эффективность непараметрических критериев / Я. Ю. Никитин. – М. : Наука, 1995. – 240 с. [31] Орлов, А. И. Экспертные оценки : учеб. пособие / А. И. Орлов. – М. : ИВСТЭ, 2002. – 31 с. [32] Орлов, А. И. Прикладная статистика : учебник / А. И. Орлов. – М. : Экзамен, 2004. – 656 с. [33] Пугачев, В. С. Теория вероятностей и математическая статистика : учеб. пособие / В. С. Пугачев. – М. : ФИЗМАТЛИТ, 2002. – 496 с. [34] Севастьянов, Б. А. Курс теории вероятностей и математической статистики : учебник / Б. А. Севастьянов. – М. : Наука. Гл. ред. физ.мат. лит., 1982. – 255 с. [35] Феллер, В. Введение в теорию вероятностей и ее приложения : учебник : в 2 т. Т. 1 / В. Феллер . – 2-е изд., перераб. и доп. – М. : Мир, 1984. – 528 с. 93 [36] Ширяев, А. Н. Вероятность : учеб. пособие / А. Н. Ширяев. – М. : Наука, 1989. – 610 с. [37] Фихтенгольц, Г. М. Курс дифференциального и интегрального исчисления : в 3 томах / Г. М. Фихтенгольц. – М. : ФИЗМАТЛИТ, 2001. (т. 1 – 616 с.; т. 2 – 810 с.; т. 3 – 662 с.) [38] СТО 4.2-07-2008. Система менеджмента качества. Общие требования к построению, изложению и оформлению документов учебной и научной деятельности [Текст] / разраб. : Т. В. Сильченко, Л. В. Белошапко, В. К. Младенцева, М. И. Губанова. – Введ. впервые 09.12.2008. – Красноярск : ИПК СФУ, 2008. – 47 с. [39] Каталог лицензионных программных продуктов, используемых в СФУ / сост. : А. В. Сарафанов, М. М. Торопов. – Красноярск : Сиб. федер. ун-т, 2008. – Вып. 1–4. [40] Стандарт организации СТО СФУ 7.2.04-2007. Электронные образовательные ресурсы на базе гипертекстовых технологий со встроенной системой компьютерной проверки знаний тестированием. Требования к структуре, организации и интерфейсу / разраб. : К. Н. Захарьин, А. В. Сарафанов, А. Г. Суковатый и др. – Красноярск : Сиб. федер. ун-т, 2007. Утвержден и введен в действие приказом ректора СФУ № 659 от 15.11.2007 г. [41] Захарьин, К. Н. Электронные презентационные материалы / А. В. Сарафанов, К. Н. Захарьин, А. Г. Суковатый. – Красноярск, 2008. [42] Учебно-методические комплексы дисциплин. Основные компоненты : метод. рекомендации / сост. : Л. И. Вейсова, С. И. Почекутов, А. В. Сарафанов, А. Ю. Смолин. – Красноярск : ИПК СФУ, 2008. – 12 с. [43] Каталог инновационных учебно-методических комплексов дисциплин и электронных ресурсов / сост. : К. Н. Захарьин, А. В. Сарафанов, А. Г. Суковатый, А. С. Теремов, М. В. Шипова. – Красноярск : ИПК СФУ, 2008. – Вып. 1. – 298 с. Электронные и интернет-ресурсы [44] Унифицированная система компьютерной проверки знаний тестированием UniTest версии 3.0.0 : руководство пользователя / А. Н. Шниперов, Б. М. Бидус. – Красноярск, 2008. 94 [45] Математическая статистика. [Электронный ресурс] : электрон. учеб.-метод. комплекс по дисциплине / Т. В. Крупкина, А. К. Гречкосеев. – Красноярск : ИПК СФУ, 2009. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [46] Математическая статистика. Банк тестовых заданий. Версия 1.0 [Электронный ресурс] : контрольно-измерительные материалы / Т. В. Крупкина, Е. С. Кирик, Г. А. Федоров. – Красноярск : ИПК СФУ, 2009. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [47] Чернова, Н. И. Лекции по математической статистике : учеб. пособие / Н. И. Чернова. – Новосибирск : НГУ, 2002 (Internet). Перечень наглядных и других пособий, методических указаний и материалов по техническим средствам обучения [48] Математическая статистика. Презентационные материалы. Версия 1.0 [Электронный ресурс] : наглядное пособие /Т. В. Крупкина, А. К. Гречкосеев. – Красноярск: ИПК СФУ, 2009. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [49] Интерактивные технические средства обучения: практическое руководство / сост. : А. Г. Суковатый, К. Н. Захарьин, А. В. Казанцев, А. В. Сарафанов. – Красноярск : ИПК СФУ, 2009. – 84 с. 95 Таблица 3 1 2 Значения функции ϕ (x) = √ e−x /2 2π x 0, 0 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1, 0 1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7 1, 8 1, 9 2, 0 2, 1 2, 2 2, 3 2, 4 2, 5 2, 6 2, 7 2, 8 2, 9 3, 0 x 3 0 39894 39695 39104 38139 36827 35207 33322 31225 28969 26609 24197 21785 19419 17137 14973 12952 11092 09405 07895 06562 05399 04398 03548 02833 02240 01753 01358 01042 00792 00595 00443 1 39892 39654 39024 38023 36678 35029 33121 31006 28737 26369 23955 21546 19186 16915 14764 12758 10915 09246 07754 06438 05292 04307 03470 02768 02186 01710 01323 01014 00770 00578 00430 2 39886 39608 38940 37903 36526 34849 32918 30785 28504 26129 23713 21307 18954 16694 14556 12566 10741 09089 07614 06316 05186 04217 03394 02705 02134 01667 01289 00987 00748 00562 00417 3 39876 39559 38853 37780 36371 34667 32713 30563 28269 25888 23471 21069 18724 16474 14350 12376 10567 08933 07477 06195 05082 04128 03319 02643 02083 01625 01256 00961 00727 00545 00405 0 1 2 3 00443 00327 00238 00172 Сотые доли x 4 5 39862 39844 39505 39448 38762 38667 37654 37524 36213 36053 34482 34294 32506 32297 30339 30114 28034 27798 25647 25406 23230 22988 20831 20594 18494 18265 16256 16038 14146 13943 12188 12001 10396 10226 08780 08628 07341 07207 06077 05960 04980 04879 04041 03955 03246 03174 02582 02522 02033 01984 01585 01545 01223 01191 00935 00910 00707 00687 00530 00514 00393 00381 Десятые доли x 4 5 00123 00084 6 39822 39387 38568 37391 35889 34105 32086 29887 27562 25164 22747 20357 18037 15822 13742 11816 10059 08478 07074 05844 04780 03871 03103 02463 01936 01506 01160 00885 00668 00499 00370 7 39797 39322 38466 37255 35723 33912 31874 29659 27324 24923 22506 20121 17810 15608 13542 11632 09893 08330 06943 05730 04682 03788 03034 02406 01889 01468 01130 00861 00649 00485 00358 8 39767 39253 38361 37115 35553 33718 31659 29431 27086 24681 22265 19886 17585 15395 13344 11450 09728 08183 06814 05618 04586 03706 02966 02349 01842 01431 01100 00837 00631 00471 00348 9 39733 39181 38251 36973 35381 33521 31443 29200 26848 24439 22025 19652 17360 15183 13147 11270 09566 08038 06687 05508 04492 03626 02899 02294 01797 01394 01071 00814 00613 00457 00337 6 7 8 9 00061 00043 00029 00020 Замечание. В таблице даны значения, округленные до пятого знака после запятой. Указание. Пусть необходимо получить значение ϕ (0, 62). На пересечении столбца 2 («Сотые доли x») и строки 0, 6 («x») получаем значение 32 918, то есть ϕ (0, 62) = 0, 32918. 96 Таблица 4 Zx x 0, 0 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1, 0 1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7 1, 8 1, 9 2, 0 2, 1 2, 2 2, 3 2, 4 2, 5 2, 6 2, 7 2, 8 2, 9 3, 0 x 3 0 0, 0000 03983 07920 11791 15542 19146 22575 25804 28814 31594 34134 36433 38493 40320 41924 43319 44520 45543 46407 47128 47725 48214 48610 48928 49180 49379 49535 49653 49744 49813 49865 1 00399 04380 08317 12172 15910 19497 22907 26115 29103 31859 34375 36650 38686 40490 42073 43447 44630 45637 46485 47193 47778 48257 48645 48956 49202 49396 49547 49664 49752 49819 49869 0 49865 1 49903 1 2 e−t /2 dt Значения функции Φ0 (x) = √ 2π 0 Сотые доли x 2 3 4 5 6 7 00798 01197 01595 01994 02392 02790 04776 05117 05567 05962 06356 06749 08700 09095 09483 09871 10257 10642 12552 12930 13307 13683 14058 14431 16276 16640 17003 17365 17724 18082 19847 20194 20540 20884 21226 21566 23237 23565 23891 24215 24537 24857 26424 26731 27035 27337 27637 27935 29389 29673 29955 30234 30511 30785 32121 32381 32639 32894 33147 33398 34614 34850 35083 35314 35543 35769 36864 37076 37286 37493 37698 37900 38877 39065 39251 39435 39617 39796 40658 40824 40988 41149 41309 41466 42220 42634 42507 42647 42786 42922 43574 43699 43822 43943 44062 44179 44738 44845 44950 45053 45154 45254 45728 45819 45907 45994 46080 46164 46562 46638 46712 46784 46856 46926 47257 47320 47381 47441 47500 47558 47831 47882 47932 47982 48030 48077 48300 48341 48382 48422 48461 48499 48679 48713 48745 48778 48809 48839 48983 49010 49036 49061 49086 49111 49224 49245 49266 49286 49305 49324 49413 49430 49446 49461 49477 49491 49560 49573 49586 49598 49609 49621 49674 49683 49693 49702 49711 49720 49760 49767 49774 49781 49788 49795 49825 49830 49836 49841 49846 49851 49874 49878 49882 49886 49889 49893 Десятые доли x 2 3 4 5 6 7 49931 49952 49966 49977 49984 49989 97 8 03188 07142 11026 14803 18439 21904 25175 28230 31057 33646 35993 38100 39973 41621 43056 44295 45352 46246 46995 47615 48124 48537 48870 49134 49343 49506 49632 49728 49801 49856 49897 9 03586 07535 11409 15173 18793 22241 25490 28524 31328 33891 36214 38298 40148 41774 43189 44408 45449 46327 47062 47671 48169 48574 48899 49158 49361 49520 49643 49737 49807 49861 49899 8 9 49993 49995 98 5686 3106 9359 2057 6177 7707 6751 2651 6607 2362 2213 8361 2598 3915 4138 1727 6131 0114 9953 0159 2200 2104 4215 9375 1271 0762 2755 3047 4022 9051 0480 2428 8481 9849 2673 9380 2901 0453 0774 4662 1426 9635 2369 9275 5470 4545 7562 1429 3080 4901 6540 5764 2557 7899 0919 9902 2399 3918 7592 3032 7788 0802 0405 7058 8140 2118 4452 0447 0122 8535 3275 3519 7804 7155 3461 2623 2350 4244 5112 5957 1650 2902 5011 1125 2109 4886 4865 8024 4841 0754 8112 9029 0521 7888 5528 6489 9755 9965 7310 2377 4318 3603 2580 4114 4971 8745 2304 2373 4874 1033 0477 6377 4863 9745 6623 6411 4690 2660 4398 7366 7106 9213 5003 6553 5676 2462 0848 5513 5329 5937 4867 0528 9567 1127 1022 3458 1133 1631 3586 3341 8857 0486 0046 4625 3532 6247 6470 2820 0748 9750 2475 9383 5206 3665 7496 7126 0731 5023 3278 6981 9839 8784 0221 8185 1683 5978 6430 8907 0122 0414 7103 0695 8555 5763 0434 9721 Случайные числа 1297 1021 8446 3502 0500 1972 6641 0605 3844 5896 6269 5266 5679 5282 0820 7197 3262 5727 8172 8004 3845 6339 3594 4070 2302 2436 7573 4269 0404 4640 1823 3985 1120 7521 5041 1106 2140 3854 5182 7577 1376 8602 0659 3377 1020 4488 8433 6435 7426 0022 0735 8692 4407 3105 5436 8488 2108 9223 5291 2940 1185 8631 3459 2457 0499 3780 3531 2365 3299 2646 3188 3860 0888 7712 5914 7210 8921 6854 1813 5629 8499 3500 1493 0759 6778 9134 3671 0366 4296 9633 5987 0295 0187 1580 3504 9832 7545 5375 6457 9203 4235 6982 3653 8685 3425 5430 6917 0099 2771 4746 Таблица 5 Таблица 6 Значения квантилей распределения Стьюдента Tn n/α 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 22 25 27 30 40 50 70 100 ∞ 0,95 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,73 1,73 1,72 1,71 1,70 1,70 1,68 1,68 1,67 1,66 1,65 0,975 4,30 3,18 2,78 2,57 2,45 2,37 2,31 2,26 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,07 2,06 2,06 2,04 2,02 2,00 1,99 1,98 1,96 0,99 6,97 4,54 3,75 3,37 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,55 2,53 2,51 2,49 2,48 2,46 2,42 2,40 2,38 2,36 2,33 0,995 9,52 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,88 2,85 2,82 2,79 2,77 2,75 2,70 2,68 2,65 2,63 2,58 Указание. Пусть необходимо получить значение квантили распределения Стьюдента T9 порядка α = 0, 95. На пересечении столбца 0, 95 (порядок «α») и строки 9 (число степеней свободы «n») находим значение 1, 83, то есть t9;0,95 = 1, 83. Замечание. В силу симметричности распределения Стьюдента tn;1−α = −tn;α . 99 Таблица 7 Значения квантилей распределения χ2n n/α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 60 80 100 0,01 0,000 0,020 0,115 0,297 0,554 0,872 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,637 8,26 11,52 14,95 22,16 37,48 53,54 70,06 0,05 0,004 0,103 0,352 0,711 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,12 10,85 14,62 10,85 26,51 43,19 60,39 95,70 0,10 0,016 0,211 0,584 1,064 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,09 10,86 11,65 12,44 14,62 18,49 29,05 46,46 64,28 100,62 0,90 2,71 4,61 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 34,38 40,26 51,81 74,40 96,58 140,23 0,95 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 37,65 43,77 55,76 79,08 101,88 146,57 0,99 6,63 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 44,31 50,89 63,69 88,38 112,33 158,95 Указание. Пусть необходимо получить значение квантили распределения χ210 порядка α = 0, 95. На пересечении столбца 0, 95 (порядок «α») и строки 10 (число степеней свободы «n») находим значение 18, 31, то есть χ210;0,95 = 18, 31. 100 Таблица 8 Значения квантилей распределения F порядка α = 0, 01 n2 /n1 1 2 3 4 5 6 7 8 9 10 11 12 1 4052 98,5 34,1 21,2 16,3 13,8 12,3 11,3 10,6 10,0 9,9 9,3 2 4999 99,0 30,8 18,0 13,3 11,0 9,6 8,7 8,0 7,6 7,2 6,9 3 5403 99,2 29,5 16,7 12,1 9,8 8,5 7,6 7,0 6,6 6,2 6,0 4 5625 99,25 28,7 16,0 11,4 9,2 7,9 7,0 6,4 6,0 5,7 5,4 5 5764 99,3 28,2 15,5 11,0 8,8 7,5 6,6 6,1 5,6 5,3 5,1 6 5889 99,33 27,9 15,2 10,7 8,5 7,2 6,4 5,8 5,4 5,1 4,8 7 5928 99,34 27,7 15,0 10,5 8,3 7,0 6,2 5,6 5,2 4,9 4,7 8 5981 99,36 27,5 14,8 10,3 8,1 6,8 6,0 5,5 5,1 4,7 4,5 9 6022 99,38 27,3 14,7 10,2 8,0 6,7 5,9 5,4 5,0 4,6 4,4 10 6054 99,4 27,2 14,5 10,1 7,9 6,6 5,8 5,3 4,9 4,5 4,3 Таблица 9 Значения квантилей распределения F порядка α = 0, 05 n2 /n1 1 2 3 4 5 6 7 8 9 10 11 12 1 161 18,5 10,1 7,7 6,6 6,0 5,6 5,3 5,1 5,0 4,8 4,75 2 200 19,0 9,6 7,0 5,8 5,1 4,7 4,5 4,3 4,1 4,0 3,9 3 216 19,2 9,3 6,6 5,4 4,8 4,4 4,1 3,9 3,7 3,6 3,5 4 225 19,25 9,1 6,4 5,2 4,5 4,1 3,8 3,6 3,5 3,4 3,3 5 230 19,3 9,0 6,3 5,1 ,4 4,0 3,7 3,5 3,3 3,2 3,1 6 234 19,33 8,94 6,2 5,0 4,3 3,9 3,6 3,4 3,2 3,1 3,0 7 237 19,36 8,88 6,1 4,9 4,2 3,8 3,5 3,3 3,1 3,0 2,9 8 239 19,37 8,84 6,04 4,8 4,15 3,7 3,44 3,2 3,07 2,95 2,85 9 241 19,38 8,81 6,0 4,78 4,1 3,68 3,4 3,18 3,02 2,9 2,8 10 242 19,38 8,78 5,96 4,74 4,06 3,63 3,34 3,13 2,97 2,86 2,76 Указание. Пусть необходимо получить значение квантили распределения F10,12 порядка α = 0, 05. На пересечении столбца 10 (число степеней свободы «n1 ») и строки 12 (число степеней свободы «n2 ») находим значение 2, 76, то есть F10,12;0,95 = 2, 76. 101 102 n1 /n2 4 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 4 6 9 1 3 5 6 12 21 9 17 30 12 23 39 16 28 48 19 34 57 22 39 66 25 45 75 28 50 85 31 56 94 35 61 103 38 67 112 41 72 121 44 78 131 47 83 140 50 89 149 53 94 158 57 100 167 60 105 177 15 72 88 105 122 139 156 173 189 206 223 240 257 274 291 308 325 12 42 55 68 81 94 107 120 133 146 159 172 185 198 211 224 237 250 109 130 150 171 192 213 233 254 275 296 317 338 359 379 400 18 154 179 203 228 253 278 302 327 352 377 402 427 451 476 21 207 236 265 293 322 351 380 408 437 466 495 524 553 24 268 301 334 367 399 432 465 498 531 564 597 630 27 338 374 411 448 485 522 559 596 633 670 707 30 415 456 497 538 579 620 661 702 743 784 33 501 546 591 636 681 726 771 816 862 36 42 45 48 595 644 697 693 750 808 742 804 865 927 791 857 922 988 841 910 980 1050 890 964 1037 1111 939 1017 1095 1199 39 54 57 60 1054 1119 1189 1185 1259 1333 1251 1329 1407 1486 51 Критические значения критерия U Манна-Уитни при уровне значимости α = 0, 05 Таблица 10 Оглавление Предисловие . . . . . . . . . . . . . . . . . . . . . . . . Принятые обозначения и сокращения . . . . . . . . . . § 1. Статистические модели . . . . . . . . . . . . . . . . § 2. Выборочные характеристики . . . . . . . . . . . . . § 3. Группировка выборки. Графические характеристики § 4. Распределения χ2 , Стьюдента, Фишера . . . . . . . § 5. Распределения выборочных характеристик . . . . . § 6. Несмещенные и состоятельные оценки . . . . . . . § 7. Эффективные оценки . . . . . . . . . . . . . . . . . § 8. Методы нахождения оценок . . . . . . . . . . . . . § 9. Экспоненциальное семейство . . . . . . . . . . . . § 10. Достаточные статистики . . . . . . . . . . . . . . . § 11. Доверительные интервалы . . . . . . . . . . . . . § 12. Статистические гипотезы . . . . . . . . . . . . . . § 13. Проверка параметрических гипотез . . . . . . . . § 14. Непараметрические критерии . . . . . . . . . . . . § 15. Модель линейной регрессии . . . . . . . . . . . . Список литературы . . . . . . . . . . . . . . . . . . . . Приложение . . . . . . . . . . . . . . . . . . . . . . . . Оглавление . . . . . . . . . . . . . . . . . . . . . . . . . 103 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 . 5 . 6 . 13 . 21 . 29 . 33 . 38 . 43 . 46 . 50 . 53 . 57 . 63 . 70 . 76 . 82 . 91 . 96 . 103 Учебное издание Татьяна Валерьевна Крупкина Александр Кузьмич Гречкосеев МАТЕМАТИЧЕСКАЯ СТАТИСТИКА В ПРИМЕРАХ И ЗАДАЧАХ Практикум по решению задач Редактор Н. Ф. Ткачук Компьютерная верстка: М. С. Селезнев Подписано в печать. Печать плоская. Формат 60×84/16. Бумага офсетная. Усл. печ. л. Тираж экз. Заказ Издательско-полиграфический комплекс Сибирского федерального университета 660041, г. Красноярск, пр. Свободный, 82 а