Задание № 1. Проверка статистической гипотезы о нормальном распределении генеральной совокупности по критерию согласия Пирсона. При анализе статистических данных часто возникает проблема создания гистограммы этих данных с целью дальнейшей проверки гипотезы о том или другом распределении случайной величины по какому-нибудь критерию согласия. Прежде чем заняться такой проверкой, необходимо корректно выбрать число интервалов гистограммы. Решающим фактором при этом является, конечно, опыт, однако для начинающего пользу может оказать формула Штюргесса [1]: k 1 3.32 lg N , (1) где k - округленное до целого число интервалов гистограммы, N - объем выборки. При использовании критерия 2 обычно рассматривают выборки с объемом не менее 100 и числом элементов ni выборки, попавших в i - ый интервал гистограммы, не менее 5 (в противном случае интервалы объединяют). Кроме того, выборка должна быть репрезентативной, т.е. давать достаточное представление об особенностях генеральной совокупности (по крайней мере, быть случайной), а выборочные оценки должны быть: - состоятельны, т.е. стремиться по вероятности с увеличением объема выборки к оцениваемому параметру; - несмещенными, т.е. их математические ожидания должны совпадать с оцениваемыми параметрами; - эффективными, т.е. иметь минимальную дисперсию. Будем считать ni случайной величиной (с.в.), подчиняющейся биноминальному закону распределения с математическим ожиданием (м.о.) и средним квадратическим отклонением (с.к.о.) Npi (1 pi ) , где pi - вероятность попадания с.в. в i - ый интервал выборки. При N 1 и pi 1 с.к.о Npi , а с.в. i нормально. Тогда ni Npi можно считать распределенной Npi 2 k ni Npi k 0 i pi i 1 N i 1 k 2 k 2 i i 1 i 1 , n Np 2 i i (2) , Np i (3) k где N ni . i 1 В случае проверки гипотезы о нормальном распределении с.в. существуют еще два (кроме (2)) уравнения, линейные по ni , N определяющие выборочное среднее xв и выборочное с.к.о. в : k n x i x в i i 1 N , k n 2 2 i в xi xв i 1 N где xi (4) , (5) xi xi 1 - середина i - го интервала выборки; 2 i 1,2,3,..., k ; x1 , x2 ,..., xk 1 - границы интервалов выборки. Количество связей (2), (4) и (5), равное r , называются числом связей подгонки, а число ( k r ) - числом степеней свободы подгонки [3]. Подгонкой будем называть или подбор такого распределения P(x ) с.в. X с плотностью распределения f 0 ( x ) , или коррекцию f 0 ( x ) f ( x ) , для 3 которых вероятности x i 1 p f ( x)dx i 0 x i или x i 1 p f ( x)dx i x i оптимальны в смысле минимальности 2 (3). Суть критерия согласия Пирсона состоит в сравнении числа 2 (3), полученного по выборочным данным, с числом q2 , определяемым из уравнения: kn ( x)dx q2 , (6) где 1 P - уровень значимости гипотезы о нормальном распределении с.в.; k n (x ) - плотность распределения 2 (3); n k r ; P P 2 q2 - доверительная вероятность; ( p) e z z p 1dz 0 k ( x ) n n x 1 x 2 e 2 n n 2 2 2 ; - гамма-функция Эйлера. Вывод формулы для k n (x ) можно посмотреть, например, в работе [2]. Если 2 q2 , то гипотезу о нормальном распределении генеральной совокупности отвергают (и принимают в противном случае). В настоящей работе k 10, r 3, 0.05 . Интеграл (6) затабулирован в таблицах, имеющихся во всех учебниках и задачниках по теории вероятностей и математической статистике и, конечно, в работах [1-5]. Из этих таблиц для n 10 3 7 и указанному значению находим q2 14.1. Примерная схема выполнения такой работы могла бы быть следующей. 4 1. По формулам xi xmin h (i 1) и xi 0.5xi xi 1 вычисляются границы xi интервалов (i 1,2,3,..., k 1) и середины xi интервалов (i 1,2,3,..., k ) выборки. 2. По формулам (4) и (5) вычисляем xв и в и полагаем mx xв , x в . 3. Строим график плотности распределения f ( x ) 0 n i h N 2 x m x exp 2 2 x 2 и гистограмму относительных частот x . 4. Вычисляем безразмерные границы x m x ,i 1,2,3,...,k 1, z i i x интервалов выборки и находим «теоретические» частоты p z z ,i 2,3,4,..., k 1, p ( z )(), i 1 2 i 1 i , p ()( z ) 10 k где 2 1 z t ( z ) exp dt - интеграл Лапласа, 2 0 2 затабулированный в таблицах, содержащихся в учебниках и задачниках по математической статистике. Зная, что () 0.5 , следует соблюдать аккуратность при экстраполяции промежуточных значений ( zi ) при пользовании таблицами, надежнее при вычислении частот pi использовать численные 5 z 2 1 i 1 t квадратуры: p exp dt , i 2,3,4,..., k 1, i 2 z 2 i z |z | 2 2 2 1 2 t 1 t p exp dt 0 . 5 exp dt , 1 2 2 2 2 0 z 2 1 t 2 1 k t p exp dt 0 . 5 exp dt . 10 2 2 0 2 2 z k 5. По формуле (3) вычисляем 2 и сравниваем это число с q2 . Если 2 q2 , то гипотезу о нормальном распределении генеральной совокупности принимаем, если 2 q2 , то гипотезу отвергаем и переходим к следующему пункту. 6. Вычисляем центральные (выборочные) моменты 3,4 и 5 порядков по k n s ( 0 ) формулам: i x x ,s 3,4,5, и вводим поправки s в i i 1 N (0) 2 Шеппарда [4,5], вспоминая, что 2 в : (0) 2 h 7 4 2(0ш) 2(0) ,3(0ш) 3(0) ,4(0ш) 4(0) 2 h 2 h , 12 2 240 (0) 5 5(0ш) 5(0) 3 h 2. 6 Полагаем далее (0) ш 2ш и сравниваем исправленные моменты с исходными. Если отличие не превосходит 1-2%, то поправки Шеппарда не учитываем в дальнейших вычислениях. 6 7. Вычисляем коэффициенты асимметрии, эксцесса и ресимметрии: A ш 3(0ш) 3 ш ,Е ш 4(0ш) 4 ш 3, R ш 5(0ш) 5 ш . 8. В разложении Эджворта [4,5] для плотности распределения с.в. учитываем только члены, линейные по Aш , Еш , Rш : A E ( 3 ) ш f ( z ) f ( z ) f ( z ) ш f (4) ( z ) э 0 6 0 24 0 . R 10 А ш f (5) ( z ) ш 0 120 1 f ( z) 0 2 В этой формуле 2 z exp , 2 ш f (2) z 2 1 f ( z ), 0 0 f (3) ( z ) z 3 3z f ( z ), 0 0 f (4) ( z ) z 4 6 z 2 3 f ( z ), 0 0 . xm 5 ( 5 ) 3 x. f z 10 z 15z f ( z ), z 0 0 ш 9. Строим график функции f э (x ) . 10.Так как функция распределения F ( z ) 1 2 то, учитывая, что F ( m) ( z ) f ( m 1) ( z ), f (0) ( z ) t2 1 exp 2 dt ( z ) 2 , z z2 1 exp , m 2 2 натуральное, получим разложение Эджворта для функции распределения: Fэ ( z ) F ( z ) Aш ( 2 ) E R 10 Аш ( 4 ) f ( z ) ш f ( 3) ( z ) ш f ( z) . 6 24 120 Учитывая, что f ( s ) () 0, s 0,1,2,.. , находим вероятности 7 piэ Fэ ( zi 1 ) Fэ ( zi ) . Необходимо отметить, что разности F ( zi 1 ) F ( zi ) уже были вычислены для значений zi xi m x x .В последнем разложении для функции распределения Fэ (z ) нужно было бы положить zi k 11.Вычисляем э2 N i 1 xi m x ш . ni / N piэ и сравниваем с 2 . При 2 2 э q q piэ гипотезу о нормальном распределении генеральной совокупности принимаем (с учетом поправок на асимметрию, эксцесс и т.д.); в противном случае гипотеза отвергается. 12.В отчете о проделанной работе должны быть представлены: гистограмма относительных частот выборки, графики плотностей распределений f (x ) и f э (x ) , значения N , mx , x , ш , Aш , Еш , Rш , 2 , э2 . В Табл.1 даны варианты заданий. Для уровня значимости 0.05 необходимо проверить гипотезу о нормальном распределении генеральной совокупности, используя критерий Пирсона, и применяя, если это необходимо, разложение Эджворта. Табл.1. №№ xmin 6 h n1 32.21 2.57 6 n2 n3 n4 n5 n6 n7 n8 n9 n10 15 20 39 65 59 29 19 14 11 В заключение этого задания продемонстрируем на Рис.1графически выполнение одного из вариантов Табл.1. 8 Рис.1 На Рис.1 изображены гистограмма относительных частот и графики плотностей распределений f (x ) и f э (x ) (пунктирная кривая).