Глава 3. Выборочный метод в статистике 3.1. Выборка. Выборочный метод X n X1 ,..., X n - выборка объема n, полученная в результате наблюдения случайной величины , имеющей Пусть распределение F x . Будем считать, что наблюдения X 1 ,..., X n независимы и имеют одно и то же распределение F x . Следовательно FX n x1 ,...xn F x1 F x2 ... F xn , и нам не важен порядок следования наблюдений. Множество возможных значений принадлежит выборка [с распределениями F ] образуют генеральную совокупность L , которой X n. F F F x, , – параметрическая статическая модель. Параметр может быть как скалярным, так и векторным. 3.2. Порядковые статистики и вариационный ряд Упорядочим все наблюдения в выборке и произведем их перенумерацию: X 1 X 2 X 3 ... X n – вариационный ряд. Опр ед еле ни е Величина X i называется i -ой порядковой статистикой. Опр ед еле н и е Статистикой называется любая измеримая функция от выборки, которая, в свою очередь, также является случайной величиной или случайной функцией. Найдем распределение i -ой порядковой статистики. Введем вспомогательную случайную функцию: Найдем P n x k . x Xi Рис. Нахождение вероятности Событие Число n x k способов, P n x k означает, что в интервал которыми можно P n x k Cnk F k x 1 F x n x - количество наблюдений не превосходящих x . , x попало k выбрать k наблюдений, а в элементов из n x, – n k . равно Cnk .в результате получаем: n k P X i x P n x i P n x i n x i 1 ... n x n n P n x k Cnk F x 1 F x k nk . k i 1 3.3. Эмпирическая функция распределения. Функция Fn x n x n называется эмпирической функцией распределения. По определению эмпирическая функция x R , Fn x – дискретная случайная величина, принимающая значения распределения является случайной функцией; 0 1 2 n 1 n 0 , , ,..., , 1 n n n n n при этом P Fn x Если все nk k k k P n x k Cn F x 1 F x . n X i (наблюдения в выборке) различны, то 0, x X 1 k Fn x , X k x X k 1 , k 1,..., n 1 n 1, x X n или Fn x 0, x 0 1 n h x xi , где h x – функция Хевисайда (единичного скачка). n i 1 1, x 0 Тео р ема 3 .1 . Fn x Пусть – эмпирическая функция распределения случайной величины F . Тогда x , 0 lim P Fn x F x 1 n Доказательство: З.Б.Ч. (теорема Бернулли) i – независимы, одинаково распределенные, Mi a то 1 P i a , при n n 1 P n i a 1; 0, n Введем случайную величину 0, xi x , 1, xi x i h x xi Mi Mh x xi 1 P xi x 0 P xi x F x Таким образом, при распределения n найдем ее математическое ожидание подставим в З.Б.Ч. получим условия теоремы. эмпирическая функция распределения Fn x является оценкой теоретической функции F x . Введем статистику Dn sup | Fn ( x) F ( x) | | x| Тео р ема 3 .2 . ( Гл иве н к о - Ка нт ел л и) P lim sup | Fn ( x) F ( x) | 0 1 или P lim Dn 0 1 n n | x| Тео р ема 3 .3 . ( Ко л мо г о р о в) lim P n nDn t K (t ) (1) e j 2 j 2t 2 j 2 K (t ) – распределение Колмогорова. t P Dn K (t ) n Используя теорему Колмогорова можно построить доверительный интервал для теоретической функции распределения. t t | x | : P Fn ( x) F ( x) Fn ( x) [0,1] n , n 20 . n n K (t ) ( – квантиль распределения Колмогорова) И для эмпирической функции распределения: t t | x | : P F0 ( x) Fn ( x) F 0( x) n n 3.4. Непараметрическое оценивание плотности распределения 3.4.1. Гистограмма Разобьем область определения на n интервалов. x0 x1 x2 ... xk ni – количество наблюдений на xi , xi 1 xi 1 xi n i n x Рис. Гистограмма Высота определяется из условия нормировки: nx ni i 1 i xi xi 1 xi n i i n n 1 n Гистограмма довольно грубый способ оценивания плотности распределения, связанный с неопределенностью выбора границ интервалов, потерей информации при группировании. k, 3.4.2. Ядерные оценки плотности и эмпирической функции распределения. Пусть g (t ) – колоколообразная (ядерная) функция, удовлетворяющая условиям: g (t ) g (t ) g (t )dt 1 t 2 g (t )dt 1 3 t m g (t )dt ;0 m и lim n 0 ; lim nn тогда функцию плотности можно оценить: n n 1 fˆn ( x) nn при x xi n n g i 1 n ; fˆn ( x) f ( x) функцию распределения: 1 Fˆn ( x) n n x xi n n G i 1 – параметр размытости ядерной функции. Основное преимущество «ядерных» оценок состоит в том, что они непрерывны, в отличии от эмпирической функции распределения и гистограмм. x G ( x) g ( x)dt 3.5. Задачи Пусть X1 , X 2 ,..., X n - выборка из равномерного распределения на отрезке [a, b] , a b , причем значение параметра a известно. Какие из перечисленных ниже функций являются статистиками? а) 2 X , г) X , ж) 199, б) X ( n ) a n , д) X1 (b a) , з) X1 X 3 1 , в) (a b) 2 , е) n Xi , и) X (1) . i 1 Пусть X1 , X 2 ,..., X n – выборка из нормального распределения с параметрами a и 2 . а) Вычислить математическое ожидание и дисперсию статистики X. б) Вычислить математическое ожидание статистик S 2 и S02 . Пусть X1 , X 2 ,..., X n – выборка из распределения Пуассона с параметром . Вычислить математическое ожидание и дисперсию статистики X . Имеет ли статистика X распределение Пуассона? Нормальное распределение? Пусть X1 , X 2 ,..., X n – выборка из равномерного распределения на отрезке [a, b] , a b . Вычислить математическое ожидание и дисперсию статистики X . Имеет ли статистика X равномерное распределение? Нормальное распределение? Для выборки из распределения F с плотностью f найти функцию распределения а) максимального члена вариационного ряда X ( n ) , б) минимального члена вариационного ряда X (1) , в) k -й порядковой статистики X ( k ) . Для выборки из распределения F с плотностью f найти плотность распределения а) максимального члена вариационного ряда X ( n ) , б) минимального члена вариационного ряда X (1) , в) k -й порядковой статистики X ( k ) . Для выборки из равномерного распределения на [0, ] найти математическое ожидание и дисперсию а) максимального члена вариационного ряда X ( n ) , б) минимального члена вариационного ряда X (1) , 4 в) k -й порядковой статистики X ( k ) . Пусть 3; 0; 4; 3; 6; 0; 3; 1; 2; 1 – наблюдавшиеся значения выборки. Построить эмпирическую функцию распределения. Решение: Объем выборки равен n 10 . Упорядочим выборочные значения по возрастанию: 0; 0; 1; 1; 2; 3; 3; 3; 4; 6 . Рис. Название? (Эмпирическая функция распределения Пусть 0,8; 2,9; 4,3; 5,7; 1,1; 3, 2 – наблюдавшиеся значения выборки. Построить эмпирическую функцию распределения и проверить, что Fn (5) 1 6 , Fn (0) 1 2 , Fn (4) 5 6 . Найти, по крайней мере, две выборки разных объемов, которым соответствует следующая эмпирическая функция распределения: Рис. Название?(Эмпирическая функция распределения) Пусть a 0 и b – два фиксированных действительных числа. Пусть Fn ( x) – эмпирическая функция распределения, построенная по выборке X1 , X 2 ,..., X n , а Gn ( x) – эмпирическая функция распределения, построенная по выборке Y1 , Y2 ,..., Yn , x b где Yi aX i b . Доказать, что при всех x имеет место равенство Gn ( x) Fn . a Пусть Fn ( x) – эмпирическая функция распределения, построенная по выборке X1 , X 2 ,..., X n , а Gn ( x) – эмпирическая функция распределения, построенная по выборке Y1 , Y2 ,..., Yn того же объема. Является ли эмпирической функцией распределения функция ( Fn ( x) Gn ( x)) / 2 ? Если «да», то какой выборке она соответствует? Для выборки из распределения F найти математическое ожидание и дисперсию статистики Fn ( y) . Указание: P Fn ( y) задачу можно решить двумя способами. Первым способом – воспользоваться равенством nk k k k Cn F y 1 F y , вторым способом – воспользоваться определением эмпирического распределения. n 5 3.6. Лабораторный практикум П р им ер 1 . Восстановление плотности распределения с помощью ядерных функций (оценок Розенблата-Парзена). Экспериментальный подбор параметра размытости. Используя программу isw: Сгенеририруем выборку объема n из распределения минимального значения. Построим ядерную оценку плотности при разных значениях параметра размытости. (формат?)Сгенерированы выборки n Для n 100 100, 500, 1000, 5000 . лучшее значение параметра размытости 0.37 Картинки выходят за границы документа!!! Для n 500 лучшее значение параметра размытости 0.32 6 Для n 1000 лучшее значение параметра размытости 0.28 7 Для n 5000 лучшее значение параметра размытости 0.22 8 Вы во ды : При изменении параметра размытости для выборки одного объема выявлена следующая закономерность: при увеличении график ядерной оценки становится более гладким. 9