Выборочные характеристики статистического распределения Точечные оценки. Для того, чтобы охарактеризовать свойства статистического распределения, используют средние показатели, или как их называют, выборочные числовые характеристики. Оценка называется точечной, если она характеризуется одним числом. Точечными оценками параметров распределения, в частности, служат выборочная средняя и выборочная дисперсия. 1) Среднее значение выборки. 𝑛 1 𝑥̅ = ∑ 𝑥𝑖 𝑛 𝑖=1 2) При наличии повторяющихся значений признака рассчитывается выборочная средняя, которая служит несмещенной оценкой математического ожидания. Несмещенной называют точечную оценку, математическое ожидание которой равно оцениваемому параметру при любом объеме выборки 𝑛 1 𝑥̅ в = ∑ 𝑥𝑖 𝑛𝑖 𝑛 𝑖=1 3) Выборочная дисперсия . Отклонение отдельных значений от выборочной средней бывает значительным и с этим нельзя не считаться. Поэтому при анализе результатов существенной для выводов является характеристика рассеяния значений признака относительно выборочной средней. Эту характеристику называют выборочной дисперсией. Выборочная дисперсия служит смещенной оценкой генеральной дисперсии. Выборочной дисперсией называется среднее арифметическое значение квадратов отклонений признака от среднего значения выборки, и определяется по формуле 𝑛 1 ̅̅̅2 𝑛𝑖 𝐷в = ∑(𝑥𝑖 − 𝑥) 𝑛 𝑖=1 Задача 3. В итоге четырех измерений некоторой физической величины одним прибором (без систематических ошибок) получены следующие результаты: 8, 9, 11, 12. Найти: а) выборочную среднюю результатов измерений; б) выборочную и исправленную дисперсии ошибок прибора 𝑥в =(8+9+11+12)/4=10 1 𝐷(𝑋) = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − ̅̅̅ 𝑥)2 𝑛𝑖 ==[(8-10)2+(9-10)2+(11-10)2+(12-10)2]/4=2,5 𝑠2 = 𝑛 4 𝐷в = × 2,5 = 3,33 𝑛−1 3 Выборочная дисперсия имеет систематическую ошибку, приводящую к уменьшению дисперсии. Чтобы это устранить, вводят поправку, умножая Dв на n/(n-1). В результате получают исправленную дисперсию. 𝑠2 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥в )2 𝑛 𝐷в = 𝑛−1 𝑛−1 Задача 5 По выборке объема n=41 найдена смещенная оценка Dв=3 генеральной дисперсии. Найти несмещенную оценку дисперсии генеральной совокупности. Искомая несмещенная оценка равна исправленной дисперсии: 𝑠2 = 𝑛 41 𝐷в = × 3 = 3,075 𝑛−1 40 Задача 6. По выборке объема n=51 найдена смещенная оценка Dв=5 генеральной дисперсии. Найти несмещенную оценку дисперсии генеральной совокупности. Искомая несмещенная оценка равна исправленной дисперсии: 𝑛 51 𝑠2 = 𝐷в = × 5 = 5,1 𝑛−1 50 Построение равноинтервального ряда. Вариационный ряд может быть: - дискретным, когда изучаемый признак характеризуется определенным числом (как правило целым). - интервальным, когда определены границы «от» и «до» для непрерывно варьируемого признака. Интервальный ряд также строят если множество значений дискретно варьируемого признака велико. Интервальный ряд может строиться как с интервалами равной длины (равноинтервальный ряд) так и с неодинаковыми интервалами, если это диктуется условиями статистического исследования. Например, может рассматриваться ряд распределения доходов населения со следующими интервалами: <5тыс р., 5-10 тыс р., 1020 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса: k=1+3,322lg(n), где k – число интервалов, n – объем выборки. (Конечно, формула обычно дает число дробное, а в качестве числа интервалов выбирается ближайшее целое к полученному число.) Длина интервала в таком случае определяется по формуле 𝑑= 𝑥𝑚𝑎𝑥 −𝑥𝑚𝑖𝑛 𝑘 . Пример. Исходные данные 0, 3,1,1,4,5,7,5,4,7,11,9,12,11,14. Построить равноинтервальный ряд k=1+3,322lg(n)=1+3,222lg(15)=1+3,322*1,18=4,9=5 𝑑= 14−0 5 = 2,9=3 [0;2] (2;5] (5;8] (8;11] (11;14] Задача 2. Исходные данные 2, 6, 11, 9, 14, 12, 3, 7, 2, 7, 3, 16, 1, 5, 8, 23, 20, 20, 24, 22, 1, 18, 9, 10, 9 Построить равноинтервальный ряд k=1+3,322lg(n)=1+3,222lg(25)=1+3,322*1,4=4,51+1=5,5=6 𝑑= 24 − 1 =4 6 [1,4] (4,8] (8,12] (12,16] (16,20] (20,24] В статистическом анализе вычисляют характеристики, зависящие от распределения частот по вариантам – от структуры распределения. Поэтому эти характеристики получили название структурных средних величин. К таким показателям относятся мода и медиана. Мода – значение признака, наиболее часто встречающееся в ряду распределения. Мода определяется различными способами в зависимости от вида вариационного ряда. В дискретном вариационном ряду мода – вариант с максимальной частотой в изучаемой совокупности. Пример 5.2. По данным статистического наблюдения получены значения величины X = {5, 3, 1, 2, 1, 4, 1, 5, 2, 1, 4, 2, 1, 1, 6}. Определить моду. Построим вариационный ряд X 1 1 1 1 1 1 2 2 2 3 4 4 5 5 6 Представим статистическое распределение выборки в виде таблицы X 1 2 3 4 5 6 n 3 1 2 2 1 6 Значение признака Х, имеющего наибольшую частоту (6) равно 1. Следовательно, для данного вариационного ряда = 1. При отыскании моды в интервальном ряду сначала определяют модальный интервал – интервал, имеющий наибольшую частоту. Затем мода рассчитывается по формуле , (11) где – нижняя граница модального интервала; – величина модального интервала; – частота модального интервала, fm-1 – частота интервала, предшествующего модальному, fm+1 – частота интервала, следующего за модальным. Пример. По данным статистического наблюдения построен интервальный ряд распределения рабочих по заработной плате Зар. плата (руб.) Число (частота) 1300014000 рабочих 20 1400015000 1500016000 1600017000 1700018000 40 55 60 35 Найти моду. Модальным интервалом является интервал (16000-17000). Подставив данные таблицы в формулу (5.5), получим Мо = 16000 + 1000 60 − 55 = 16166,7 (60 − 55) + (60 − 35) Медиана – значение признака (вариант), которое делит вариационный ряд на две равные части, одна из которых – со значениями признака меньше медианы, вторая – со значениями признака больше медианы. Медиана для дискретных вариационных рядов определяется. Если дан дискретный несгруппированный вариационный ряд и число вариантов n нечетно, то ; если число вариантов n четное, = ( x + x ) / 2, где . = , где