Систематизация и обобщение данных

реклама
Систематизация и обобщение данных
ПАРАМЕТРЫ РАСПРЕДЕЛЕНИЙ
Дисперсия и среднее квадратическое отклонение
Для того, чтобы оценить, насколько типична средняя для данной совокупности
наблюдений, ее следует дополнить показателями, характеризующими изменчивость (разброс,
вариацию) значений СВ. Чем меньше разброс значений случайных величин, тем точнее можно
их предсказать. Численное описание разброса является вторым параметром, характеризующим
статистическое распределение, после средних величин.
Отдельные значения случайных величин более или менее тесно разбросаны относительно
среднего значения (т.н. облако точек на плоскости, представляющее исследуемую выборку
значений СВ).
Разброс случайных величин может быть связан:
 с естественной изменчивостью изучаемого параметра (его следует описать с
использованием методов статистического анализа);
 с ошибками статистического наблюдения, которые надо, по возможности, исключить
из исходной информации .
Даже при достаточно совершенной организации статистического наблюдения могут
встречаться в полученной статистической информации отдельные ошибки или погрешности,
которые следует устранить, чтобы получить качественный исходный статистический материал.
Ошибки статистического наблюдения – расхождение действительных значений
случайной величины с их величиной, зарегистрированной в процессе сбора сведений.
Ошибки статистического наблюдения разнообразны по происхождению и характеру. Они
могут заключаться в неполном охвате подлежащих регистрации единиц, в пропуске записи или
не ясной записи данных по отдельным единицам наблюдения и в неправильной записи
отдельных ответов (несоответствие их действительным фактам). Ошибки статистического
наблюдения возникают часто в связи с отсутствием твердых знаний и навыков у регистраторов,
описками и т.п. В некоторых случаях встречаются и преднамеренные ошибки, которые
скрывают или искажают факты; в таких случаях привлекают к ответственности лиц, занятых
проведением статистического наблюдения.
Ошибки статистического наблюдения разделяются на категории в зависимости от
источника происхождения и значения ошибок. По источнику происхождения различают
ошибки непреднамеренные и преднамеренные, а по значению – случайные и систематические.
Ошибки статистического наблюдения
По источнику происхождения
По значению
– непреднамеренные
– преднамеренные
– случайные
– систематические
Случайными ошибками считаются такие погрешности в записи данных по отдельным
единицам, в отношении которых предполагают, что они могут с одинаковой вероятностью
исказить результаты статистического наблюдения в противоположные стороны (как в сторону
преувеличения, так и преуменьшения значения СВ). К ошибкам такого вида относятся
непреднамеренные ошибки – как следствие описок или недостаточно ясного понимания
регистратором сущности регистрируемых признаков. Случайные ошибки при статистической
обработке большой массы единиц не оказывают существенного влияния на конечные
результаты исследования: в процессе статистической сводки собранных данных они обычно
взаимно погашаются.
Систематические ошибки искажают сведения по отдельным единицам наблюдения
в одном направлении (либо преувеличивают, либо преуменьшают). К систематическим
ошибкам
относятся:
пропуски
единиц
неисправности измерительных приборов,
наблюдения,
ошибки,
возникающие
в
силу
неправильная настройка "нуля" на шкалах
измерительных приборов, а иногда и стремления отдельных лиц округлять величины при
устном опросе. Например, при недокументированном сборе сведений возможны округления
возраста, стажа работы, заработной платы. Систематические ошибки чаще всего являются
преднамеренными ошибками. Такие ошибки оказывают существенное влияния на конечные
результаты исследования, т.к. не погашаются в процессе статистической сводки.
К ошибкам статистического наблюдения относятся ошибки, возникающие в процессе
организации выборочного наблюдения, называемые ошибками представительства, или
репрезентативности. Основное значение по недопущению ошибок такого рода имеет
правильная организация статистического наблюдения: разработка плана статистического
наблюдения, бланков и инструкций по их заполнению, подбор регистраторов и т.п.
Чтобы устранить обнаруженные ошибки в материалах статистического наблюдения,
производится контроль собранных данных: арифметический и логический контроль
первичной статистической информации.
Меры изменчивости случайных величин:
1). Наиболее простой мерой изменчивости является амплитуда колебания (диапазон
вариации, размах вариации)
А = Хмах – Хmin
Амплитуда колебаний дает самое общее представление об изменчивости, т.к. показывает
лишь, насколько отличаются друг от друга крайние значения, но не указывает, насколько
велики отклонения значений СВ внутри ряда.
2). Среднее абсолютное (линейное) отклонение
n
d
 Xi  X
i 1
,
n
где Хi – X – абсолютное отклонение i-той случайной величины (может принимать как
положительные, так и отрицательные значения), n – число наблюдений.
Для группированного ряда
k
 mi  X i  X
d  i 1
n
k
  pi  X i  X ,
i 1
где Xi – центральное значение градации, X – среднее значение СВ, mi – частота градации, pi –
относительная повторяемость (вероятность) градации, k – число градаций, n – длина ряда.
При использовании среднего абсолютного отклонения
d
вклад малых и больших
отклонений случайной величины от среднего значения учитывается одинаково, что снижает
ценность d как показателя изменчивости.
3). Наиболее распространенными показателями изменчивости случайной величины
являются дисперсия и среднее квадратическое отклонение.
Дисперсия вариационного ряда определяется как средний квадрат отклонений значений
случайной величины от их среднего значения.
Для дискретного ряда
n
2 
( X i  X )2
i 1
n 1
,
Для группированного ряда
k
 mi  ( X i  X ) 2
 2  i 1
n
или
k
 2   pi  ( X i  X ) 2 ,
i 1
где Xi – срединное значение интервала, X – среднее значение СВ, mi – частота градации, k –
число градаций, n – длина ряда.
Свойства дисперсии:
1). 2 (с) = 0 – дисперсия постоянной величины равна нулю.
2). 2 (с+Х) = 2 – дисперсия не меняется, если все значения СВ увеличить или уменьшить
на одно и то же число.
3). 2 (сХ) = 2 с2 – при умножении (делении) всех значений СВ на постоянное число с
дисперсия увеличивается (уменьшается) в с2 раз.
4). 2 (ХY…Z) = 2X  2Y … 2Z – дисперсия алгебраической суммы независимых
СВ равна сумме их дисперсий.
4). Среднее квадратическое отклонение  (сигма) вариационного ряда – показатель
вариации значений СВ, характеризующий абсолютный размер изменчивости признака
относительно средней величины и имеющий размерность исследуемой случайной величины.
Эту величину еще называют средняя квадратическая ошибка (погрешность), с.к.о.,
стандартное отклонение, стандартная ошибка.
Для вычисления с.к.о. предварительно рассчитывается средний квадрат отклонений
значений ряда от средней, называемый дисперсией 2 выборки.
Для дискретного ряда  вычисляется по формуле
n
 
 ( X i  X )2
i 1
n 1
,
Для группированного ряда
k

 mi  ( X i  X ) 2
i 1
n
или
k
   pi  ( X i  X ) 2 ,
i 1
где Xi – центральное значение градации, X – среднее значение СВ, mi – частота градации, pi –
относительная повторяемость (вероятность) градации, k – число градаций, n – длина ряда.
По сравнению со средним абсолютным отклонением в с.к.о. больший вклад вносят
значительные отклонения СВ от среднего, и оно мало зависит от незначительных отклонений
от среднего.
Знаменатель в выражении для среднеквадратического отклонения дискретного ряда
представляет собой число степеней свободы
f = n–1.
Это понятие играет большое значение в математической статистике. Число степеней
свободы можно определить как число независимых измерений минус число тех связей, которые
наложены на эти измерения при дальнейшей обработке материала. При определении
среднеквадратичного отклонения по n независимым наблюдениям мы имеем дело с f = (n-1)
степеней свободы, т.к. при подсчете среднего значения на результаты измерений была
наложена одна связь вида
n
 Xi
i 1
X 
.
n
Ско генеральной совокупности элементов
Подчеркнем, что приведенные выше формулы относятся к выборке СВ (т.е. к ряду с
ограниченным числом членов n ), поэтому  является лишь оценкой  a
статистического
a
распределения случайных величин (генеральной совокупности). Для определения
необходимо произвести серию измерений, т.е. большое число N выборок объемом n. Тогда
a 

n
,(N)
С.к.о. результата большой серии выборок объемом
совокупности) в
n
измерений (т.е. генеральной
n раз меньше с.к.о. отдельной выборки из n измерений.
С.к.о. результата серии из N ( N   ) выборок объемом n служит мерой ширины кривой
распределения СВ:
 при ширине полосы ( X   a , X   a ) около 2/3 (а точнее 68.269%) всех наблюдений
должны лежать в интервале.
 при ширине полосы ( X  2 a , X  2 a ) внутрь этого интервала попадут 95% СВ,
 при ширине полосы ( X  3 a , X  3 a ) внутрь этого интервала попадут 99.73% СВ.
Приближенная оценка ско по правилу шести сигм
Среднеквадратичное отклонение для симметричного или близкого к нему распределения
при n  70 связано с амплитудой вариации приближенным соотношением
  А/6
(или   0,17А)
При n < 70
  ZА,
где Z – коэффициент, определяемый в зависимости от объема выборки n.
n
Z
2
0.89
4
0.49
6
0.39
8
0.35
10
0.32
20
0.27
30
0.24
40
0.23
50
0.2
70
0.2
Коэффициент вариации
Часто возникает необходимость сравнения степени изменчивости различных рядов или
частей одного ряда. В этом случаях сопоставление разброса осуществляется с помощью
коэффициента вариации (изменчивости), который характеризует степень вариации
признака:
Vx 

X
 100% .
Например:
X = 20
Y = 10
Х = 4
Y = 2
VX = 0,2
VY = 0,2
Скачать