ТЕМА 4 Выборочное наблюдение 1. Цели применения выборочного наблюдения 2. Виды выборки 3. Ошибки выборки 4. Влияние вида выборки на величину ошибки 5. Принципы проведения выборочных наблюдений 6. Распространение результатов выборочного наблюдения на генеральную совокупность 7. Выборки малого объема ЦЕЛЬ ЛЕКЦИИ - СООБЩИТЬ НАЧАЛЬНЫЕ СВЕДЕНИЯ О ЗАДАЧАХ , ЦЕЛЯХ И ПРАВИЛАХ ПРОВЕДЕНИЯ ВЫБОРОЧНОГО НАБЛЮДЕНИЯ . 1. Цели выборочного наблюдения При выборочном наблюдении обследованию подвергается часть единиц совокупности , а полученные результаты распространяются на всю совокупность . Цели и причины : - повышение точности данных - экономия времени и финансовых средств - иногда сплошное наблюдение невозможно . 2. Способы организации выборки Случайный отбор , отбор единиц по определенной схеме и сочетание первого и второго способов . Если совокупность предварительно делится на типы (слои , страты) — выборка называется типической . Деление по видам : серийные , простые и гнездовые . По способу отбора : повторный и бесповторный отбор . Вероятность попадания единицы в выборку : 1 ; 1 N N до 1 N-n+1 В социально - экономической статистике существуют многоступенчатые и многофазовые выборки . 3. Ошибки выборки Ошибка репрезентативности : выборочной средней X x выборочной относительной p p величины 2 S2 S 2 дисперсии r r коэффициента корреляции x , x 1 2 , x 3 , ..., x n 2 2 2 2 S , S , S , ..., S 1 2 3 n ряд выборочных средних ряд выборочных дисперсий Средняя квадратическая ошибка репрезентативности : S 2 i fi f i i2 - квадрат ошибки репрезентативности для i - й выборки ; fi - число выборок с одинаковым значением выборочной средней . Средняя ошибка выборочной средней : Sx x i f 2 fi i 2 2 S X n , тогда SX DF : t 2 n n нормированное отклонение x SX n при закону Гаусса . эта величина распределяется по 1 t2 f t exp 2 2 Вероятность попадания в интервал t , t 1 2 t2 f t dt равна t1 Например : t=1.96 , то F(t)=0.95 Отклонение выборочной средней от генеральной средней x t SX Теорема : S2 n 1 n , отсюда : n 2 S n 1 2 S2 Тогда : SX s2 s n n , Cоответственно : s X t SX t n Пример : При испытании новой вакцины была сделана случайная выборка из 50 зараженных животных. Выявлено, что после заражения средняя продолжительность жизни составляет 28.2 дня со стандартным отклонением 5.4 дня. Определить среднюю продолжительность жизни по всей выборке с доверительной вероятностью F(t)=0.95. (Этой величине соответствует значение t=1.96 ). n=50 x , 2 5.42 =28.2 , S=5.4 50 29.755 50 1 29.755 0.77 50 X 1.96 0.77 1.51 28.2 1.51 28.2 1.51 SX Как правило неизвестна. Задача 2 Взято для проверки 100 электрических лампочек. Средняя продолжительность горения оказалась равной 1420 часов со среднеквадратическим отклонением 61.03 часа. Приемщика интересует партия в 50 тысяч лампочек. Оценивается возможная ошибка выборочной средней. Ошибка оценивается с вероятностью 0.954. Условие: минимальный срок горения 1410 часов. Решение: Средняя продолжительность горения по выборке 1420 часов. Тогда допустимая погрешность равна 1410-1420= - 10 часов 2 10 t 6.1 100 тогда t 1.64 Вероятность, что средний срок горения меньше 1410 часов равен: 1 1 p(t ) 0.899 1 (0.5 ) 0.05 2 2 5. Правила проведения выборочных наблюдений Три основные задачи : - определить требуемый объем выборки - определение возможного предела ошибки репрезентативности - определение вероятности того , что ошибка выборки не превысит допустимой погрешности . Теорема Чебышева : P x 1 h , n - достаточно велико , частный случай : x t sx когда и h - б. м. Объем выборки . Так как t 2 n , то t 2 2 n 2 - неизвестна . Обычно эту величину принимают равной : 1 x 3 1 x max x min 6 или 2 - неизвестна ; может быть определена выборочная дисперсия S2 . ВЫБОРОЧНЫЕ ЗНАЧЕНИЯ ОЦЕНИВАНИЕ ПАРАМЕТРОВ И x E x x p( x )dx , 2x 2 (1) E ( x x ) ( x x )2 p( x )dx , (2) 1 N x x x i , (3) N i 1 1 N 2 2 sb x ( x i x )2. (4) N i 1 Здесь x и sb2 - выборочное среднее и выборочная дисперсия соответственно. Для установления качества или “правильности” оценки используются три основных свойства. Вопервых, желательно, чтобы математическое ожидание оценки параметру, т. е. равнялось оцениваемому E , (5) где - оценка параметра . Если это свойство имеет место, то оценка называется несмещенной. Во-вторых, желательно, чтобы среднеквадратичная ошибка данной оценки была наименьшей среди всех возможных оценок, т. е. (6) E (1 )2 E ( i )2 , где 1 - исследуемая оценка, а i - любая другая оценка. Если это свойство имеет место, то оценка называется эффективной. В-третьих, желательно, чтобы оценка сходилась к оцениваемому параметру с вероятностью, стремящейся к единице по мере увеличения размера выборки, т. е. для любого >0 lim Prob 0. (7а) N Если это так, то оценка называется состоятельной. Из неравенства Чебышева следует, что достаточным (но не необходимым) для выполнения (7а) является условие lim E ( )2 0. (7б) N В качестве примера рассмотрим оценку среднего значения по формуле (3). Математическое ожидание выборочного среднего x равно 1 N 1 N 1 E x E x i E x i (N x ) x . (8) N i 1 N i 1 N Следовательно, согласно определению (5), оценка x x несмещенная. Среднеквадратичная ошибка выборочного среднего x равна 2 2 N N 1 1 2 E ( x x ) E x i x 2 ( x i x ) . N i 1 N i 1 Поскольку наблюдения x i независимы, то в силу результатов математические ожидания членов, содержащих смешанные произведения, равны нулю. Поэтому 2 1 1 N 2x 2 E ( x x ) 2 E ( x i x ) 2 N x . (9) N N i 1 N 2 Следовательно, согласно определению (7б), оценка x x состоятельна. Можно также показать, что эта оценка эффективна. Рассмотрим теперь оценку дисперсии, задаваемую фоформулой (4). Математическое ожидание оценки дисперсии sb2 равно E sb2 1 1 N 2 2 1 N E x i x E x i x . N i 1 N N i 1 Однако N N xi x xi x x x i 1 2 i 1 2 N N N i 1 i x i x 2 x x x i x ( x i x )2 2 i 1 N 2 i 1 N 2 x i x 2 x x N ( x x ) N x x 2 xi x N x x . i 1 2 Поскольку E x i x то 2 2x (10) и E x x 2 2x , N 1 (N 1) 2 (11) N 2x 2x x . N N Следовательно, оценка 2x sx2 смещена. Хотя выборочная дисперсия sb2 и является смещенной E sb2 оценкой, эта оценка состоятельна и эффективна. РАСПРЕДЕЛЕНИЕ ВЫБОРОЧНОГО СРЕДНЕГО ПРИ ИЗВЕСТНОЙ ДИСПЕРСИИ 1 N x xi N i 1 xi - распределение нормально со средним x и известной дисперсией 2x . 1) Выборочное распределение выборочного среднего распределено нормально 2) x x 2x 2 3) x N Следовательно, распределения обеих следующего соотношения совпадают. частей (x x ) N z x Поэтому z Pr ob x x x N В силу центральной предельной теоремы x нормально распределено уже при N>4. РАСПРЕДЕЛЕНИЕ ВЫБОРОЧНОЙ ДИСПЕРСИИ Рассмотрим дисперсию выборки S2 1 N 2 ( x i x) N 1 i 1 Т. Если xi распределено нормально со средним x и дисперсия 2x , то распределения левой и правой части соотношения N 2 2 2 ( x i x) x n , n N 1 i 1 совпадают. 2n имеет хи- квадрат распределение с n=N-1 степенями свободы. Следовательно nS2 2 n N 1 n, 2 x 2 2x 2ni Pr ob S n РАСПРЕДЕЛЕНИЕ ВЫБОРОЧНОГО СРЕДНЕГО ПРИ НЕИЗВЕСТНОЙ ДИСПЕРСИИ xi - распределена нормально неизвестной дисперсией. (*) (x x ) x z N 2 2 S N x n n N со z средним n 2 n x и tn где t n имеет t распределение с n=N-1 степенями свободы. Тогда выборочное распределение выборочного среднего x при неизвестной x задается соотношением (x x ) N tn, n N 1 S S t ni Pr ob x x N РАСПРЕДЕЛЕНИЕ ОТНОШЕНИЯ ДВУХ ВЫБОРОЧНЫХ ДИСПЕРСИЙ Рассмотрим дисперсии двух выборок из N x и N y независимых наблюдений соответственно. x и y распределены нормально со средним x и y и дисперсиями 2x и 2y 2 2 2 S2x 2x x n x n x x 2 2 Fn x , n y 2 2 2 Sy y y n y n y y Fn x , n y имеет F распределение с n x N x 1 и n y N y 1. Т. о. Выборочное распределение отношения выборочных дисперсий задается соотношением S2x 2x Fn x , n y S2y 2y S2x 2x Pr ob 2 2 Fn x , n yi Sy y Проверка гипотезы о нормальности распределения. Вычисляется табличное значения критерия X 2 при заданном уровне значимости и фиксированном числе степеней свобод за минусом 3. Если X 2 2 , то гипотеза принимается.