Теория вероятностей и математическая статистика Лекция 5 3.3. Методы теории оценивания В теории оценивания предполагается, что закон распределения генеральной совокупности известен, и требуется оценить неизвестный параметр распределения. Эта оценка осуществляется на основании выборки с помощью некоторой функции, называемой оценкой. Основной задачей в теории оценивания является выбор оценки, позволяющий с достаточно высокой точностью и достоверностью оценить значение неизвестного параметра. Существуют точечный и доверительный методы оценивания. 3.3.1. Точечные оценки и их свойства Точечной оценкой параметра называется функция выборки x1, xn . Точечная оценка является функцией случайных величин и поэтому сама является случайной величиной. Оценка называется несмещенной, если______________________________ ____________________________________________________________________ Смещением оценки называется____________________________________ Если bn 0, n , то оценка называется асимптотически несмещенной. ~ ~ Оценка x1,, xn называется эффективной в классе оценок, если ____________________________________________________________________ Эффективностью оценки называется отношение: D x , , xn eff x1 , , xn ~ 1 . D x1 , , xn ~ Если eff x1 ,, xn 1, n , то оценка называется асимптотически эффективной. Оценка называется слабо состоятельной, если______________________ ____________________________________________________________________ Оценка называется сильно состоятельной, если_____________________ ____________________________________________________________________ ~ Метод подстановок (эмпирический метод) Этот метод оценивания состоит в том, что___________________________ ____________________________________________________________________ Например, оценкой для функции распределения генеральной совокупности F x будет эмпирическая функция распределения Fn x , для математического ожидания M – выборочное среднее x , для дисперсии D – выборочная дисперсия s 2 . Теорема. Если генеральная совокупность с неизвестной функцией распределения имеет математическое ожидание M , то выборочное среднее x как оценка параметра , является несмещенной, состоятельной и в 1 Теория вероятностей и математическая статистика Лекция 5 классе линейных несмещенных оценок эффективной оценкой для математического ожидания генеральной совокупности. Заметим, что не всегда эмпирический метод оценивания дает хорошую оценку. Например, выборочная дисперсия s 2 является смещенной оценкой. 1 1 Действительно, Смещение Ms 2 D D . bn D 0, n , n n следовательно, это асимптотически несмещенная оценка. Эту оценку легко поправить так, чтобы она стала несмещенной, взяв 1 n 2 ~ s 2 D . s mi xi x 2 , M~ n 1 i 1 Выборочная дисперсия s 2 является состоятельной оценкой дисперсии генеральной совокупности. Метод моментов Метод моментов является самым простым общим методом нахождения оценок параметров распределения. Идея этого метода______________________ ____________________________________________________________________ Теоретическим моментом i -го порядка называется функция ____________________________________________________________________ Эмпирическим моментом i -го порядка называется функция ____________________________________________________________________ Если распределение зависит от k параметров, тогда рассматриваем k первых теоретических моментов данного распределения. m1 M 1 f1 1 , k , 2 m2 M f 2 1 , k , k m M f , . k 1 k k Предположим, что система разрешима относительно параметров: 1 g1 m1 , mk , g m , m , 2 2 1 k k g k m1 , mk . По выборке вычисляем эмпирические моменты: 2 Теория вероятностей и математическая статистика Лекция 5 Подставляем эмпирические моменты вместо теоретических и получаем оценки неизвестных параметров: ~ 1 ~ 2 ~k Метод максимального правдоподобия Функцией правдоподобия называется функция, зависящая от выборки и неизвестного параметра : P x1 , P xn , в дискретном случае, L x1 , , xn , p x1 , p xn , в непрерывном случае. Оценкой максимального правдоподобия называется решение уравнения правдоподобия ~ ~ ln L 0, обращающее в максимум функцию правдоподобия. Логарифмической функцией правдоподобия называется функция: ln L x1 , , xn , . Эти функции достигают максимума при одном и том же значении . Поэтому вместо отыскания максимума функции L можно искать максимум функции ln L , что удобнее. Основным недостатком точечного метода оценивания является малая достоверность полученных решений. 3.3.2. Доверительное (интервальное) оценивание Пусть – оцениваемый параметр изучаемой случайной величины, для которой получена выборка. Нужно построить некоторую область, которая с вероятностью не меньше, чем содержит неизвестное значение параметра. Если одномерный параметр, что область ищется в виде интервала. ~ ~ Интервал 1 , 2 называется доверительным для параметра с уровнем доверия 0 1 , если _____________________________________________ ____________________________________________________________________ ~ ~ Концы 1 и 2 доверительного интервала называются доверительными границами для оцениваемого параметра . Наикратчайшим доверительным интервалом с уровнем доверия называется интервал, обладающий свойствами: ~ ~ P 1 x1 , , xn 2 x1 , , xn ; ~ ~ 2 x1 ,, xn 1 x1 ,, xn min . 3 Теория вероятностей и математическая статистика Лекция 5 С ростом объема выборки математическое ожидание длины доверительного интервала стремится к нулю. Рассмотрим доверительное оценивание параметров нормальных выборок. 1. Доверительным интервалом с доверительной вероятностью для математического ожидания нормально распределенной случайной величины (а) при известном среднеквадратическом отклонении является интервал: , x t x t , n n где x – выборочное среднее, а t – решение уравнения 2t . 2. Доверительным интервалом с доверительной вероятностью для математического ожидания a нормально распределенной случайной величины с неизвестным среднеквадратическим отклонением является интервал ~ ~ s s x t , x t , n n ~ где s – исправление выборочное среднеквадратическое отклонение, t – решение уравнения 2Sn 1 t , S n 1 t – функция распределения Стьюдента. 3.4. Проверка статистических гипотез Пусть x1 , , xn R n – независимая выборка, соответствующая неизвестной функции распределения F t . Статистической гипотезой H называется___________________________________________________________ ____________________________________________________________________ Простой гипотезой называют предположение, состоящее в том, что неизвестная функция F t отвечает некоторому совершенно конкретному вероятностному распределению. Сложной гипотезой называют предположение о том, что неизвестная функция F t принадлежит некоторому множеству распределений, состоящему из более, чем одного элемента. Проверить статистическую гипотезу H — это значит,_________________ ____________________________________________________________________ Таким образом, в пространстве R n выделяется область критических значений V , где гипотеза H отвергается. Рассмотрим этапы проверки гипотезы. Этап I. Имеется только независимая выборка x1 , , xn . ____________________________________________________________________ ____________________________________________________________________ ____________________________________________________________________ Два следующих события являются противоположными: 1) по выборке будет принято решение о справедливости для данной генеральной совокупности гипотезы H , и 2) по выборке будет принято решение о справедливости для данной генералы ой совокупности гипотезы H . 4 Теория вероятностей и математическая статистика Лекция 5 Этап II. ________________________________________________________ При принятии гипотез возможны ошибки. Ошибка I рода — _______________________________________________ В силу случайной природы наблюдаемых данных возможна ситуация x1,, xn V , в то время, когда гипотеза H справедлива. Однако, согласно критерию, в этом случае верная гипотеза H будет отвергнута, т.е. будет допущена ошибка. В случае простой гипотезы H вероятность попасть в критическую область, при условии, что гипотеза верна равна PH x1 , , xn V . Эта вероятность называется уровнем значимости статистического критерия. Ошибка II рода — ______________________________________________ В случае простой гипотезы H вероятность попасть в область допустимых значений, при условии, что гипотеза не верна, равна 1 PH x1,, xn V . Принципиально нельзя достичь безошибочных решений. Если уменьшаем вероятность ошибок I рода (уменьшаем область V ), то растет вероятность ошибок II рода. ____________________________________________________________________ ____________________________________________________________________ При выборе критической области V фиксируется вероятность совершения ошибки I рода: PH x1 , , xn V . При этом минимизируется вероятность совершения ошибки II рода: PH x1,, xn V max . Этап III. Для проверки статистических гипотез используется подход, основанный на выборе критической области V R n : ____________________________________________________________________ ____________________________________________________________________ ____________________________________________________________________ ____________________________________________________________________ Такое решающее правило называется критерием, основанным на критическом множестве V . Критерии согласия Критериями согласия____________________________________________ ____________________________________________________________________ Пусть одномерная случайная величина имеет распределение F x . Выдвигается гипотеза H о законе распределения. Нужно построить критерий, который на основании выборки x1 , , xn позволят принять решение о законе распределения генеральной совокупности. 5 Теория вероятностей и математическая статистика Лекция 5 На основании выборки можно найти эмпирическую функцию распределения. Известно, что с ростом объема выборки эмпирическая функция распределения сходится к теоретической функции распределения равномерно по x почти наверное. Следовательно, 1)______________________________________________________________ ____________________________________________________________________ ____________________________________________________________________ ____________________________________________________________________ 2)_____________________________________________________________ ____________________________________________________________________ ____________________________________________________________________ ____________________________________________________________________ 3)_____________________________________________________________ ____________________________________________________________________ Критерий Колмогорова 1) Определяем отклонение между теоретическим и эмпирическим распределениями: ____________________________________________________________________ 2) Теорема Колмогорова: если функция распределения генеральной совокупности F x – непрерывная, то при n закон распределения характеристики _________________________ есть распределение Колмогорова. 3) По заданному или по таблице распределения Колмогорова отыскивается критическое значение . По выборке определяем значение случайной величины z n и сравниваем его с . Если отклонение существенно, т.е. z n , то гипотеза отвергается; если z n , то гипотеза принимается. Критерий Пирсона 2 Осуществляется разбиение выборочного пространства. Обозначим pi – теоретические вероятностные меры элементов разбиения. Разбиения должны m быть такими, что pi 0 . Тогда частоты i эмпирические вероятностные меры n элементов разбиения. 1) Определяем отклонение между теоретическим и эмпирическим распределениями: ____________________________________________________________________ 2) Теорема Пирсона. При n закон распределения характеристики есть распределение r21 . 3) По заданному или по таблице распределения к21 отыскивается критическое значение . По выборке определяем значение случайной величины X 2 и сравниваем его с . Если отклонение существенно, т.е. X 2 , то гипотеза отвергается; если X 2 , то гипотеза принимается. 6