Кафедра медицинской и биологической физики Основы математической статистики Лекция №6 для студентов 1 курса, обучающихся по специальности 060301 – Фармация доц. Шапиро Л.А. Красноярск, 2015 г. План лекции: 1. Актуальность темы. Задачи математической статистики 2. Дискретные и интервальные ряды распределения. Точечные и интервальные оценки. 3. Малые выборки. Распределение Стьюдента 4. Проверка статистических гипотез 5. Заключение Актуальность темы Основные понятия и методы математической статистики необходимы студентам для обработки результатов измерений в фармации Задачи одномерной статистики Описательная статистика (представление экспериментальных данных, определение точечных и интервальных оценок) Проверка статистических гипотез (о законе распределения, параметрах распределения) Значения изучаемого признака называются вариантами Последовательность вариант, расположенных в возрастающем порядке называется вариационным рядом Например: 172, 179, 158, 186, 164 Вариационный ряд: 158, 164, 172, 179, 186 Вариационные ряды дискретные непрерывные Статистическим рядом распределения называется набор вариант и соответствующих им абсолютных и относительных частот Статистический ряд распределения Х X1 X2 … m m1 m2 … mn m/n m1/n m2/n … mn/n Xn Параметрическая статистика Мσ, Мm, M (95% ДИ) Сравнение 2-х выборок по критерию Стьюдента Корреляция по Пирсону Нет Ме [25%-75%], Мo, Min-Max Сравнение 2-х выборок по критериям МаннаУитни, Вилкоксона Корреляция по Спирмену Непараметрическая статистика Да Точечные характеристики n m1x1 m 2 x 2 ... m n x n X n 2 x X m n D( x) i 1 i i n ( x ) D( x ) xm i 1 i n i Непараметрические характеристики Me-медиана Варианта, которая делит ряд пополам 158, 164, 172, 175, 175, 179, 186 при n- нечетном Ме=175 158, 164, 168, 172, 174, 175, 179, 186 172 174 Me 173 2 при n- четном Непараметрические характеристики Mo-наиболее часто встречающаяся варианта 158, 164, 172, 175, 175, 175, 179, 186 Мо=175 158, 164, 173, 173, 175, 175, 179, 186 173 175 Mo 174 2 бимодальные выборки- если два несмежных значения имеют одинаковые частоты Интервальные оценки Интервальные оценки t x нормированное отклонение х – μ=σt 1σ – 68,3%; 2σ – 95,5%; 3σ – 99,7% всех вариант Закон 3: в пределах 3σ находится 99,7% всех вариант Уровни значимости Определенным значениям доверительных вероятностей соответствуют так называемые уровни значимости (). Уровень значимости обозначает вероятность выхода случайной величины за пределы доверительного интервала. Если доверительную вероятность обозначить – Р, а уровень значимости – , то =1 – Р. Доверительные вероятности Уровни значимости 0,95 0,05 0,99 0,01 0,999 0,001 Доверительные вероятности и доверительные интервалы Вероятности 0,95 и 0,99 (95% и 99%) – доверительные вероятности Δх=±t – доверительный интервал Вероятности 0,95 0,99 0,999 Интервалы 1,96 2,58 3,03 95% доверительный интервал Задача: Найти доверительный интервал для роста студентов с вероятностью p=0,95 (=0,05); M(x)=170 см, σ=5 см Δх=1,96510 см Следовательно, рост студентов находится в интервале: 170-10<x<170+10 160 см<x<180 см Генеральная и выборочные совокупности Наиболее общую совокупность объектов, подлежащих изучению, называют генеральной. Часть генеральной совокупности, случайным образом отобранной для наблюдений, называется случайной выборкой или просто выборкой. Число элементов генеральной или выборочной совокупности называется её объемом. Выборочные совокупности n<30 -малые 30<n<100 - средние n>100 –большие Цель: С помощью статистических методов по свойствам выборки сделать вывод о свойствах генеральной совокупности. Выборка должна быть репрезентативна (представительна), то есть организована таким образом, чтобы отражать, по-возможности, все интересующие нас свойства генеральной совокупности. Выборка считается репрезентативной, если каждый объект выборки отобран случайно из генеральной совокупности, то есть все объекты имеют одинаковую вероятность попасть в выборку. В качестве оценки М(X) используется выборочное среднее: n x x1 x2 ... xn x n n •Оценкой D(X) служит исправленная выборочная n дисперсия: 2 ( xi x ) D( x) s 2 i 1 n 1 •Смещенная выборочная дисперсия (n>30): n i 1 i D( x) 2 ( x x ) i i 1 n •Среднее квадратическое отклонение: s D(х) x1 x2 ... xn M (X ) n s sx n n Таким образом, величина s x служит мерой точности, с которой выборочное среднее является оценкой среднего по совокупности . Поэтому эту величину называют средней квадратической ошибкой (или ошибкой выборочности, стандартной ошибкой). Если объекты отобраны в выборку случайным образом, то чем больше ее размеры, тем меньше стандартная ошибка, а значит, меньше расхождения в выборочной и генеральной совокупностях. Стьюдент – псевдоним одного из основоположников теории статистических оценок и проверки гипотез -английского математика У. Госсета, показавшего, что оценка расхождений между средним значением малой выборки и средним значением генеральной совокупности подчиняется особому закону распределения: tраспределению Стьюдента. Критерий нормированного отклонения (по Стьюденту): x t sx Доверительный интервал имеет вид: x t sx Распределение значений t отличается от нормального тем сильнее, чем меньше n. По мере увеличения n, t – распределение Стьюдента приближается к нормальному. При n 30 разница между ними практически исчезает а) ааааа б) Разные значения t, отсекающие по 2,5% площади справа и слева: а) под кривой нормального распределения (n= , t=1,96), б) под кривой t–распределения по Стьюденту (n=5, t=2,78). Пример: Пусть дан ряд значений пульса (ЧСС) у студентов Ф101 группы до экзамена: 90 70 80 90 110 100 1. Найдем среднее арифметическое значение nвыборки: xi x1 x2 ... x6 90 70 80 90 100 110 i 1 x 90 n n 6 2. Вычислим дисперсию (рассеивание ряда) n D( x ) s 2 2 ( x x ) i где df = n-1 число степеней свободы i 1 n 1 (90 90) 2 (80 90) 2 ... (110 90) 2 D( x) 200 5 3. Среднее квадратическое отклонение выборки: s D 200 14,1 Это - точечные (т.е. выраженные одним значением) параметры малой выборки. Результат записывается в виде: ЧСС= x s 90 14,1( уд / мин) 4. Определим среднюю квадратическую ошибку: s 14,1 sx 5,8 n 6 5. Определим доверительный интервал для генеральной средней. По таблицам Стьюдента находим t для доверительной вероятности 0,95 и числа степеней свободы df=n-1=5: t=2,57, следовательно: =902,575,8=9015 уд/мин или 75 105 уд/мин Абсолютная погрешность измерений: s x t t sx n Относительная погрешность: x D 100% x Коэффициент вариации характеризует относительное значение среднего квадратического отклонения и служит для сравнения разброса несоизмеримых показателей: s V 100% x Коэффициент нормированных отклонений Стьюдента df/Р 0,95 0,99 0,999 1 12,706 63,657 636,619 2 4,303 9,925 31,598 3 3,182 5,841 12,941 4 2,781 4,602 8,610 5 2,571 4,032 6,859 6 2,447 3,707 5,959 7 2,365 3,499 5,405 8 2,306 3,355 5,041 9 2,262 3,250 4,781 10 2,228 3,169 4,578 Проверка статистических гипотез Статистической называется гипотеза о виде неизвестного распределения или о параметрах известных распределений, формулируемая на основе выборки. Примеры статистических гипотез: генеральная совокупность распределена по нормальному закону; математические ожидания двух выборок из генеральной совокупности равны. Гипотезы формулируются только для параметров генеральной совокупности Гипотезу, утверждающую, что различие между сравниваемыми характеристиками отсутствует, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках, на основании которых производится сравнение, называют нулевой (основной) гипотезой (Н0). Наряду с основной гипотезой рассматривают и альтернативную (конкурирующую, противоречащую) ей гипотезу Н1. И если нулевая гипотеза будет отвергнута, то будет иметь место альтернативная гипотеза. Алгоритм проверки статистических гипотез Располагая выборочными данными (x1, x2, …, xn) формулируют нулевую гипотезу (Н0) и конкурирующую гипотезу (Н1). Задают уровень значимости. На основании выборки (x1, x2, …, xn) определяют эмпирическое значение критерия (Кэмп) В зависимости от вида альтернативной гипотезы по соответствующей таблице выбирают критические значения критерия (Ккр) Если значения критерия попадают в критическую область (Кэмп> Ккр), то нулевая гипотеза отвергается и принимается альтернативная гипотеза H1. Если значения критерия Кэмп< Ккр, нулевая гипотеза не отвергается. Двусторонняя критическая область Множество S0 называется областью принятия гипотезы или областью допустимых значений, а множество S1 – областью отклонения гипотезы или критической областью. Выбор одной области однозначно определяет и другую область. Критическая область Критическая область Область принятия гипотезы H0 /2 /2 K1-/2 K/2 Сравнение теоретических и эмпирических распределений Нулевая гипотеза. Согласно этой гипотезе первоначально принимается, что между эмпирическим и теоретическим распределением признака в генеральной совокупности достоверного различия нет. H0 – нулевая гипотеза H1 –альтернативная гипотеза 9 8 7 6 5 4 No. of obs. 3 2 1 0 55 60 65 70 75 80 85 90 Сравнение теоретических и экспериментальных распределений по критерию Пирсона. Красная линия– теоретическое распределение. Критерий Пирсона 2 эмп . (m i np i ) np i i 1 k 2 где mi – экспериментальные частоты попадания значения случайной величины в интервал, npi – теоретические частоты. Вероятность попадания значения случайной величины в интервал от а до b: b a Р ( а х b ) Ф Ф =Ф(t2)-Ф(t1) причем Ф(–t) = 1– Ф(t) Критерий 2 m npi 4 3 1/3 14 13 1/13 20 22 4/22 9 10 1/10 3 4 1/4 (mi npi ) 2 Эксперимент. Теоретические npi частоты частоты =0,94 Число степеней свободы – это общее число величин, по которым вычисляются соответствующие статистические показатели, минус число тех условий, которые связывают эти величины, то есть уменьшают возможности вариации между ними. Число степеней свободы определяется по следующей формуле: df=k–r–1, где k – число интервалов, r – число параметров предполагаемого распределения. Для нашего случая r=2 (M(x) и σ), следовательно, df=k–3. По заданному уровню значимости () и числу степеней свободы df, находим критическое значение 2кр (,df). Если 2эмп <2кр гипотеза о согласии эмпирического и теоретического распределения не отвергается. 2кр (=0,05,df=2)=5,99 0,94<5,99 Нулевая гипотеза не отвергается Распределение студентов по росту подчиняется нормальному закону Определение достоверности различия средних арифметических двух выборочных совокупностей Выборки Зависимые Одна и та же группа до и после лечения Независимые Разные группы Допущения: В генеральной совокупности выборки распределены по нормальному закону Дисперсии независимых выборок одинаковы Определение достоверности различия средних арифметических двух зависимых выборочных совокупностей (разностный метод) Исследовалось изменение частоты сердечных сокращений студентов до и после экзамена N ЧССдо ЧССпосле 1 90 60 2 80 70 3 70 70 4 90 70 5 100 70 6 110 80 90 70 X Нулевая гипотеза: В генеральной совокупности нет различия между средними арифметическими выборок Проверяем гипотезу по критерию Стьюдента t при уровне вероятности p=0,95 (=0,05) 1. Определяем tэмп: d tэм п sd где d-среднее значение разности пульса до и после экзамена sd-стандартная ошибка разности Нулевая гипотеза: 2. Определяем критическое значение критерия Стьюдента (tкр)для p=0,95 и df=n-1 Если tэмп ≥ tкр нулевая гипотеза отвергается, различие средних статистически значимо Если t эмп < tкр, нулевая гипотеза принимается, различие средних статистически не значимо Определим, достоверно ли определена средняя арифметическая разности: d 20 tэмп 3,87 sd 5,16 tкр(0,95;5)=2,57 tэмп> tкр , достоверно! Это означает, что нулевая гипотеза отвергается, снижение ЧСС статистически значимо ЧСС ( X S ) уд/мин Группа До экзамена После экзамена Ф101 (6) 90±14,1 70 ±6,3* Примечание:*-значимость различий <0,05 Рассчитаем эффект: (70 90) *100% 22% 90 ЧСС студентов после экзамена снизилось на 22% (<0,05) Определение достоверности различия средних арифметических двух независимых выборочных совокупностей Нормированное отклонение: x1 x2 d tэм п sx x sd 1 2 Для n<30, ошибка разницы sd определяется по формуле: ( x1i x1 ) x 2i x 2 n1 n 2 sd 2 (n1 1) (n 2 1) 2 n1 n 2 Sd (1000 2000 ) * 13 9,2 (5 6) * 42 10 tэмп 1,1 df=(n1-1)+(n2-1)=11 9,2 tкр=2,2 tэксп< tтабл , нулевая гипотеза принимается, различие средних арифметических статистически не значимо, выборки принадлежат одной генеральной совокупности Группа Показатель (X S) ЧСС (уд/мин) Ф101 Ф102 90±14,1 (6) 100 ±18,3 (7) Заключение Таким образом, мы познакомились с основными понятиями математической статистики, правилами обработки результатов медико-биологического эксперимента. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА: Основная литература: Павлушков И.В. Основы высшей математики и математической статистики. М., ГЭОТАР-Медиа, 2007, с.261-269. Учебно–методические пособия: Шапиро Л.А., Шилина Н.Г. Руководство к практическим занятиям по медицинской и биологической статистике Красноярск: ООО «Поликом». – 2003. БЛАГОДАРЮ ЗА ВНИМАНИЕ