{ выборка из генеральной совокупности

{ выборка из генеральной совокупности - эмпирическая (выборочная) функция распределения – гистограмма – статистические оценки – точечные оценки параметров и их критерии – методы получения оценок параметров – метод моментов – метод наибольшего подобия } Задачи, решаемые математической статистикой, являются, в некотором смысле, обратными задачам теории вероятностей. В вероятностных задачах распределения случайных величин считаются известными. В статистических задачах само распределение считается неизвестным, и целью исследования является получение более или менее достоверной информации об этом распределении, собранной в результате наблюдений. Основой статистического анализа являются данные, полученные экспериментатором в результате опыта, например, n повторных измерений некоторой неизвестной величины X {x1,x2,…,xn }, принимаемых случайной величиной x . Это множество называется выборкой из генеральной совокупности Gx всех значений случайной величины, а количество n – объемом выборки. Эти значения естественно считать реализацией набора из n независимых одинаково распределенных случайных величин с неизвестной функцией распределения Fx (x). Данные должны быть выбраны из генеральной совокупности случайным образом, их объем достаточно велик. В этом случае выборка называется репрезентативной (представвительной). Вектор этих данных называют выборкой из генеральной совокупности данных. n - мерная случайная величина X (x1, x2, …, xn ) с независимыми одинаково распределенными компонентами xi , i = 1, 2, .., n называется независимой выборкой объема n неизвестного распределения Fx (x). Любая функция h = h ( x1, x2, ….., xn ) выборочных значений называется статистикой. Часто встречается ситуация, когда экспериментатор имеет основания предполагать, что неизвестное распределение принадлежит некоторому семейству распределений Fx (x,q) , зависящему от параметра q. В этом случае проблема статистического анализа сводится к получению информации об этом неизвестном параметре. @ Для контроля качества в 40 пробах стали GS50 определялось содержание углерода X ( %С ) и прочность на разрыв z ( Н/мм ). Данные оформлены в виде таблицы чисел: X : 0.3, 0.33, 0.37, 0.36, 0.31, 0.29, 0.34, 0.39, 0.37, 0.38, 0.35, 0.32, 0.39, 0.3, 0.32, 0.32, 0.38, 0.37, 0.38, 0.33, 0.37, 0.33, 0.34, 0.33, 0.3, 0.34, 0.36, 0.33, 0.34, 0.36, 0.29, 0.3, 0.33, 0.32, 0.32, 0.38, 0.37, 0.34, 0.35, 0.36 X = X ( x1, x2, …, x40 ) – выборка объемом n = 40 Z : 589, 614, 612, 572, 548, 537, 574, 570, 540, 575, 535, 593, 582, 538, 566, 562, 601, 587, 587, 614, 602, 544, 545, 562, 576, 596, 605, 575, 570, 550, 572, 555, 555, 518, 539, 557, 558, 587, 580, 560 Z = Z ( z1, z2,…, z40 ) – выборка объемом n = 40 Пусть X ( x1, x2, …, xn ) - независимая выборка неизвестного распределения Fx ( x ) . Эмпирической (выборочной) функцией распределения называется функция F*n (t) : R -> [ 0, 1 ] , вычисляемая по выборке X ( x1, x2, …, xn ) как отношение числа элементов выборки, не превосходящих t , к объему выборки: | { i : xi  t } | F (t )  n * n F(t) 1 t Теорема Гливенко: В пределе выборочная функция распределения равномерно сходится к теоретической. P { sup |Fn* (t)  F(t)|  0 }  1 t R Помимо эмпирических функций распределения, наглядное представление о неизвестном распределении можно получить при помощи гистограмм. Пусть X ( x1, x2, …, xn ) - независимая выборка неизвестного распределения Fx ( x ) . Выберем два числа L и R , такими, чтобы все числа xi попали внутрь интервала ( L, R ] . Разобъем этот интервал его на конечное число меньших интервалов j  rj  rj 1 Произведем группировку выборки, а именно, для каждого интервала разбиения j объединим в группу те xi , которые попали в этот интервал. Пусть nj - число таких элементов выборки: nj | { j : x j  ( rj 1 , rj )} |, j  1 ,2 ,...,k h(t) График h(t) - гистограмма Определим функцию L j R x 0, t  L  n h( t )   j ,t  ( rj  rj 1 ], j  1 ,2 ,...k n 0, t  R  @ Вариационный ряд: 34 36 36 37 …38 38 38 ….. 38 …39 40 40 40 41 41 42 42 …44… 45 46 Построить гистограмму n  100 h(x) 0.4 Среднее значение Разброс значений 0.2 x 34 35 36 37 38 39 40 41 42 43 44 45 46 Случайная величина X характеризуется рядом числовых параметров: математическим ожиданием, дисперсией, модой, медианой, моментами разных порядков и т.д. Это параметры генеральной совокупности. На основе выборочных данных можно получить статистические оценки этих параметров. n Для оценки математического ожидания применяется выборочное среднее ~  m x Для группированной выборки используется формула, в которой все mj значений выборки, попавшей в j - ый интервал, равны представителю этого интервала ( всего их k ) ~  m x xi  i 1  n k z j mj  j 1  n Для оценки дисперсии по выборке используется формула ~ Dx  n 1  n  1 n n 2 ~ 2  x  m  i x  i 1 В случае группированной выборки ~ Dx  n 1  n  1  n  2 ~  z  mx  k j 1 Оценка среднеквадратичного отклонения : 2 j  ~ ~ σ x  Dx Модой любой функция h (x) унимодального (одновершинного) распределения является элемент выборки, встречающийся с наибольшей частотой. Оценкой медианы называют число, которое делит вариационный ряд на две части с равным числом элементов Оценки начальных и центральных моментов k – го порядка вычисляются по формулам : 1 νk  n 1 x , μk   n i 1 n k i n k (x  m )  i x , k  1 ,2 , ... i 1 Форма распределения случайной величины характеризуется выборочными коэффициентами асимметрии и эксцесса ~ μ~3 μ~4 ~ Ax  ~ 3 , E x  ~ 4  3 σx σx @ Найти выборочное среднее и дисперсию для группированной выборки: n  100 Пусть q – неизвестный параметр распределения случайной величины. ~ ~ Статистика θ  θ (x1 ,x2 ,....,x n ) , используемая в приближенном равенстве θ  θ~ называется точечной оценкой неизвестного параметра по выборке Какие оценки можно считать хорошими ? Оценка называется несмещенной для функци от неизвестного параметра, если ~ Mθ (x1 ,x2 ,....,x n )  θ Оценка называется эффективной, если при заданном объеме выборки она имеет наименьшую возможную дисперсию ~ Dθ (x1 ,x2 ,....,x n )  min ~ Последовательность оценок θ  θ ( n ) (соответствующих увеличивающимся в объеме выборкам) называется состоятельной, если при росте объемов выборки статистика будет стремиться к истинному значению параметра ~   0  P {| θ (x1 ,x2 ,....,x n )  θ |   }  1 n  то есть ~ θ (x1 ,x2 ,....,x n )  θ n  @ Соответствует ли выборочное среднее отмеченным выше критериям ? n ~  m xi  i 1  1. Оценка состоятельная, так как выполнены условия теоремы Чебышева n 2. Оценка несмещенная @ 3. Оценка эффективная n ~  m xi  i 1  n @ Соответствует ли выборочная дисперсия отмеченным выше n критериям ? ~ D  ( xi  i 1  1. Оценка состоятельная, так как ~ )2 m n @ 3. Оценка эффективная 2. Оценка смещенная ! Идея метода моментов заключается в приравнивании теоретических и эмпирических моментов. Предполагается, что Fζ (x)  F ( x,θ ) и Mθ ζ - конечная величина. Mθ (x)    xd F(x,θ )  ν1 ( θ )  ~  1 m n ~ x  xd F  i  n(x)  ν1(θ ) n  i 1  Решая это уравнение получим искомую оценку. Если нужно оценить k параметров q1, q2, …. , qn , то нужно найти выражения для моментов k – го порядка, приравнять их соответствующим эмпирическим моментам, и решить полученную систему уравнений. Преимущества метода: сравнительная простота. Метод однако не дает часто эффективных оценок . При получении оценки естественно найти такое её значение, при котором вероятность реализации выборки x1, x2, …. , xn была бы максимальной. Пусть x имеет дискретное распределение. Возможные значения параметров: a1, a2, …., ak с соответствующими вероятностями P1 (a), P2 (a), …. Pk (a), где a – фиксированное значение параметра. P (x = ai ) = Pi (a). Пусть в выборке x1, x2, … , xn значения aj встретились nj раз ( j = 1, 2, …, k ). Тогда вероятность при n независимых наблюдениях величины x получить выборку x1, x2, … , xn равна P(E)  P1 n1 (a)  P2n2 (a)  P3n3 (a)    Pknk (a) E – одна из реализаций. Число способов этих реализаций : E  n! n1 ! n2 ! n3 !   nk ! P  n! p1n1  p2n2  p3n3    pknk n1 ! n2 ! n3 !   nk ! n! P  L( x1 , x2 , x3 ,..., xn ) n1 ! n2 ! n3 !   nk ! Функцией правдоподобия называют функцию L ( X, a ) L( x1 , x2 , x3 ,  xn )  p1n1 ( a )  p2n2 ( a )  p3n3 ( a )    pknk ( a ) Оценку параметра a будем искать так, чтобы P = max или L ( X, a ) = max .  ln( L( X , a )) 1 L( X , a ) L( X , a )  0  0 Удобнее брать a L( X , a ) a a Решая полученное уравнение или систему уравнений, если параметров больше одного, получим искомые оценки для a . Преимущества метода: оценки получаются состоятельными, асимптотически эффективными. Оценки однако могут быть смещенными. @ Пусть Xi , i = 1,2, … , n – выборка СВ с нормальным распределением. Найти оценки параметров m и D методом наибольшего правдоподобия. Функция правдоподобия @ Необходимое условие экстремума функции ln L :  ln( L ) 0 m  ln (L) 0 σ 2 n n Решение: ~  m  xi i 1 n ~2   ~ )2 ( x  m  i i 1 n

{ выборка из генеральной совокупности

Похожие документы

Разделы

Поддержка

{ выборка из генеральной совокупности

Похожие документы

Добавить этот документ в коллекции

Добавить этот документ в сохраненные

Предложите, как улучшить StudyLib