Биостатистика 3. Анализ количественных признаков Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН Чем мы занимались на предыдущем занятии? Мы вспомнили общепринятые методы описания и представления данных На примере качественных признаков (данных о частотах) познакомились с принципами построения и проверки статистических гипотез Поговорили о вероятностях возможных ошибок, возникающих при использовании всякого статистического теста При этом мы сознательно не затрагивали ряд традиционных для статистики тем: сравнение средних, критерий Стьюдента и т.д. Отчасти потому, что вы об этом наверняка наслышаны, но в основном из методических соображений Сравнение средних Перейдем, наконец, к задаче о сравнении средних для двух выборок. Например, рост в выборках «М» и «Ж» M Ж 170 Рост 35,00 190 150 Relative frequency (%) 30,00 130 25,00 20,00 110 15,00 90 10,00 ± 95% Confidence interval 5,00 200 180 0,00 160 100 to 110 to 120 to 130 to 140 to 150 to 160 to 170 to 180 to 190 to 110 120 130 140 150 160 170 180 190 200 120 Рост Рост 140 100 80 Нулевая гипотеза состоит в предположении, что обе выборки изъяты из одной генеральной совокупности (т.е. различий нет): 60 40 20 0 Ж M Пол Н0: x1 x 2 Н1: x1 x 2 (двусторонний тест) Дальше надо предложить способ оценить вероятность ошибки I рода Сравнение средних На прошлом занятии мы рассмотрели достаточно универсальный способ построения статистических критериев: Z – статистика, т.е. Z / Z x1 x 2 x x 1 , т.е. разность средних, деленная на стандартное отклонение этой разности. 2 Есть надежда, что эта величина имеет нормальное распределение со средним 0 и дисперсией 1. Так оно и есть, но только при больших объемах выборок! x x 2 Для не очень больших выборок распределение величины t 1 x1 x 2 следует распределению Стьюдента. Это распределение случайной величины, равной t 0 1 2 (1 22 ... k2 ) k , где все i - нормальны k – число степеней свободы Вильям Стьюдент (Госсет) (1876-1936) Работал на пивоваренном заводе Гиннесса Опубликовал «распределение Стьюдента» в 1908 г. Сравнение средних Распределение Стьюдента очень похоже на нормальное, но имеет большую дисперсию: D(t) = k/(k-2) > 1 При k∞ становится нормальным 2 означает, что тест двусторонний Excel умеет вычислять «хвосты» распределения Стьюдента: 0.024 = СТЬЮДРАСП(2; 100; 1) Сравнение средних 3 варианта использования теста Стьюдента: Сравнение выборочного среднего с известным числом Сравнение двух зависимых выборок Для каждой особи проводят 2 однотипных замера: - до и после приема лекарства, - в этом году и в прошлом году и т.д. Сравнение двух выборочных средних для независимых выборок Возможно раного объема Упражняемся … 15 октября 2011 г. президент Д. Медведев сообщил, что средняя продолжительность жизни в РФ составляет 69 лет Эта запись означает, что наша величина имеет Стьюдентаи сполучена другая В этом месяце в районном моргераспределение побывало 100 клиентов, n-1оценка степенями свободы оценка: 623 года. Отличается ли эта от средней по стране? 2 означает, что тест x x x Вычисляем величину двусторонний ~ t (n 1) x SE / n Р = 0.022 = СТЬЮДРАСП((69-62)/3; 100-1; 2) Вывод: нулевая гипотеза отвергается. Вероятность того, что при этом отвергли правильную нулевую гипотезу равна 0.022 (ошибка I рода). Выборка по данным районного морга не соответствует среднему по стране. Различия статистически значимы. Никогда не пишите, что различия достоверны! Достоверно это то, что происходит с вероятностью 1 В данном примере среднее для одной выборки сравнивалось с заранее известной величиной. Это так называемый одновыборочный тест (мы это уже делали: помните 470 из 1000?) Сравнение средних в случае зависимых выборок Это простой случай. Вычисляется t-статистика t x1 x 2 x x 1 2 x1 x 2 SE12 SE22 и вес хвостов распределения Стьюдента с n1+n2-2 степенями свободы. Можно ни о чем этом не думать и использовать =ТТЕСТ(массив1; массив2; 2; 1) 2 означает, что тест 1 означает, что двусторонний выборки Для независимых выборок все несколько сложнее… зависимы Сравнение средних в случае независимых выборок При сравнении средних двух независимых выборок возможны 2 ситуации: 1 = 2 , т.е. изменчивость данных в обеих выборках одинакова Тогда все просто: вычисляется статистика t x1 x 2 SE SE 2 1 2 2 ~ t (n1 n2 2) 1 ≠ 2 , т.е. изменчивость данных в выборках неодинакова, и эти различия статистически значимы. Тогда вычисляется объединенная дисперсия для двух выборок. Число степеней свободы тоже модифицируется. Не будем расписывать, как это делается, а запустим Excel =ТТЕСТ(массив1; массив2; 2; 2) 2 означает, что тест двусторонний 2 - 1 = 2 3 - 1 ≠ 2 Надо сказать, что Excel не проверяет статистическую значимость 1 ≠ 2 , Более адекватно поступает WinStat Сравнение средних в случае независимых выборок При сравнении средних двух независимых выборок возможны 2 ситуации: 1 = 2 , т.е. изменчивость данных в обеих выборках одинакова Тогда все просто: вычисляется статистика t x1 x 2 SE SE 2 1 2 2 ~ t (n1 n2 2) 1 ≠ 2 , т.е. изменчивость данных в выборках неодинакова, и эти различия статистически значимы. Тогда вычисляется объединенная дисперсия для двух выборок. Число степеней свободы тоже модифицируется. Не будем расписывать, как это делается, а запустим Excel =ТТЕСТ(массив1; массив2; 2; 2) 2 означает, что тест двусторонний 2 - 1 = 2 3 - 1 ≠ 2 Надо сказать, что Excel не проверяет статистическую значимость 1 ≠ 2 , Более адекватно поступает WinStat Упражняемся… Оценка Число учеников (из 100) Физика Физкультура 2 10 0 3 50 10 4 30 20 5 10 70 Средняя оценка по физике = 3.4. Считаем t-статистику: t 4.6 3.4 0.08 0.07 2 2 11.3 = СТЬЮДРАСП(11,3; 100-2; 2) Значимо! Р = 10-19 Дисперсия = 0.64 Средняя оценка по физкультуре = 4.6. Дисперсия = 0.44 Чему равны стандартные отклонения и ошибки самих оценок (SD и SE)? По физике: 3.4±0.1 Можно записать так 3.40±0.08, но не так 3.4±0.08 0.8 SE 0.08 SD 0.64 0.8 100 По физкультуре: 4.6±0.1 0.66 0.07 SD 0.44 0.66 SE 100 Сравнение средних С помощью ??? Дисперсии выборок значимо не различаются Сравнение дисперсий Р. Фишер построил критерий (односторонний) для сравнения дисперсий (F-тест) и вычислил функцию распределения соответствующей статистики. 22 F 2 1 (большая на меньшую), В Excel имеется функция, вычисляющая это распределение Можно также сравнить дисперсии двух выборок Н0: 1 = 2 против Н1: 1 < 2 =FРАСП(1,5;100;100) =ФТЕСТ(массив1; массив2) Не путайте статистику (критерий) Фишера с точным тестом Фишера! Сравнение дисперсий Дисперсионный анализ (ANOVA) – сравнение нескольких выборок Среднее Дисперсия Рассмотрим набор k выборок: (при k = 2 все сведется к критерию Стьюдента) Выборка 2 x1 x2 12 22 ………. … … Выборка 1 k xk 2 2 2 2 Все выборки x W B т.е. дисперсию объединенной выборки можно разложить на сумму средней дисперсии внутри выборок ( W2 ) и межвыборочную дисперсию ( B2): Р. Фишер показал, что Выборка k k 2 i 1 k k 2 k (x i i 1 k x) 2 2 Ничего, кроме школьной алгебры! Средняя Дисперсия 2 дисперсия средних Статистика F 2B Внутривыборочная Межвыборочная W изменчивость изменчивость Н0: x1 x 2 ... x k Остаточная Факториальная изменчивость Н1: хотя бы одно среднее отличается изменчивость Сравнение нескольких выборок Упражняемся… Для нашей учебной базы данных сравним частоты аберраций хромосом для носителей различных генотипов по локусу GSTP1 Сравнение нескольких выборок Упражняемся… Для нашей учебной базы данных сравним частоты аберраций хромосом для носителей различных генотипов по локусу GSTP1 Межгрупповая дисперсия в 12 раз выше, чем внутригрупповая Можно обойтись пакетом «Анализ данных» в Excel Важное предупреждение t-тест (Стьюдента) F-тест (Фишера) Дисперсионный анализ только для нормально распределенных данных! В противном случае можно получить совершенно абсурдный результат: Средние Фирма 1 Фирма 2 100 120 100 120 100 120 100 120 110 120 110 500 103.3 183.3 В какой фирме зарплата выше? =ТТЕСТ(массив1; массив2; 2; 3) Р = 0.235 Эти средние значимо не различаются по тесту Стьюдента! На этом примере видно, что в ряде случаев надо сравнивать не сами данные, а их порядковые ранги (номера в последовательности) Ранговые статистики Данные Средние Ранги Фирма 1 Фирма 2 Фирма 1 Фирма 2 100 120 1 7 100 120 2 8 100 120 3 9 100 120 4 10 110 120 5 11 110 500 6 12 103.3 183.3 3.5 9.5 0.0002 =ТТЕСТ(массив1; массив2; 2; 2) Другое дело! Хотя и это некорректно… Ранговые критерии Ранговые критерии являются непараметрическими, т.е. такими, которые не зависят от характера распределения данных. В частности они нечувствительны к выбросам отдельных точек Самый простой тест – критерий знаков для пары зависимых выборок Плацебо Лекарство Разность 105 120 + 110 115 + 120 110 - 103 125 + 115 120 + 121 134 + 107 110 + 114 117 + 1 минус из 8 Приводит ли лекарство к увеличению систолического давления? 0.035 =БИНОМРАСП(1;8;0,5;1) Различия значимы по одностороннему тесту (но не по двустороннему!) Ранговые критерии Для сравнения 2 независимых выборок используется тест Манна – Уитни, который основан на вычислении суммы рангов для каждой из выборок Как всегда Н0: выборки взяты из одной генеральной совокупности. Упражняемся … В нашем файле смотрим сопряженность Но заболевания что там сс нормальностью? частотой аберраций Видим различия средних: 0,4 АберХр 0,3 0,2 0,1 0 0 1 Болезнь Проверяем значимость различий по Стьюденту: t-Test: Variance Estimate T Degrees of Freedom Pooled Separate -2,057004362 -2,030799745 97 86,41661279 P 0,042370006 0,045349121 Различия значимы по Стьюденту (независимо от условия равенства дисперсий ) Проверяем нормальность … Строим гистограммы распределений аберраций для больных и здоровых: Болезнь 70 0 1 60 Relative frequency (%) Необходимо использовать непараметрический тест Манна-Уитни 50 Какая уж тут нормальностью! 40 30 20 10 0 Попробуем все это воспроизвести: 0 to 0,1 0,1 to 0,2 to 0,3 to 0,4 to 0,5 to 0,6 to 0,7 to 0,8 to 0,9 to 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 АберХр Незначимо! Проверяем значимость различий по Стьюденту: t-Test: Variance Estimate T Degrees of Freedom Pooled Separate -2,057004362 -2,030799745 97 86,41661279 P 0,042370006 0,045349121 Различия значимы по Стьюденту (независимо от условия равенства дисперсий ) Что значит «незначимо»? Допустим мы не обнаружили статистическую значимость различий, о чем с грустью сообщаем в публикации. Достаточно ли этого? НЕТ! Мы должны продемонстрировать, что объемы наших выборок достаточны, чтобы обнаружить эффект, если он существует. Мощность (чувствительность) используемых тестов должна быть не ниже 80% (тогда упускаем не более 20% открытий) Только в этом случае незначимые различия можно рассматривать как отрицательный результат Что значит «незначимо»? Допустим, что для 2 выборок имеем: n x SE SD Выборка 1 100 10 1 10 Выборка 1 100 12 1 10 Тогда по тесту Стьюдента различия незначимы и Р = 0.159 Compare2/ Numerical observations/ Normal distributin/mean value Проверим мощность данного теста Compare2/ Power/ Comparison of means Size A - 100 Size B – 100 DETECT a difference 2 Мощность всего 29% т.е. доля упущенных открытий более 70% ! О чем мы обязаны сообщить в публикации (правда биологи этого почти никогда не делают) Чтобы выйти на мощность 80% объемы выборок должны быть 400 и 400 Compare2/ Sample size/ Means ! На сегодня это все Напоследок хочу посоветовать: Проверяйте характер распределения сравниваемых величин. Или хотя бы стройте гистограммы распределений – для себя. Поставьте на свой компьютер WinStat и постройте пример использования дисперсионного анализа На всякий случай проверяйте значимость различий параметрическими и непараметрическими методами. Оценивай мощность теста в случае получения незначимых результатов