Биостатистика 4. Анализ качественных признаков Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН Чем мы занимались на предыдущем занятии? В основном методами сравнения показателей, характеризующих распределения количественных признаков Мы припомнили, что такое тест Стьюдента и каких случаях его можно использовать Познакомились с дисперсионным анализом – методом одновременного сравнения нескольких выборок Узнали, как обрабатывать данные, распределение которых существенно «ненормально» Поговорили о том, как следует осмысливать и преподносить незначимые результаты Качественные признаки Будет правильно, если вы скажите – мы этим уже занимались! Сравнение частот, таблицы 2х2, точный тест Фишера и все такое. Но то было сравнение 2 частот. А как сравнивать несколько пар частот? Например, распределения генотипов при различных вариантах скрещиваний – наблюдаемые и ожидаемые исходя из законов Менделя? Или как сравнить в целом видовой состав в двух регионах? Или частоты встречаемости блондинов, брюнетов, шатенов и т.д. для 2 этносов Во всех этих случаях речь идет либо о сравнении двух выборочных распределений, либо о сравнении наблюдаемого распределения с теоретически ожидаемым Для решении этих задач разработаны тесты, называемые критериями согласия Критерий 2 Соответствие наблюдаемых численностей ожидаемым частотам Класс Наблюдаемая численность Ожидаемая численность 1 n1 p1 N 2 n2 p2 N … … … k nk pk N Всего N N Вычисляется сумма 2 ( Н О ) 2 О 2 ( n p N ) 2 i i pi N i 1 k т.е. В 1900 г. Карл (Charles) Пирсон вычислил распределение этой величины: Оказалось, что 2 распределен как сумма 2 2 2 2 квадратов независимых случайных величин: 1 2 ... k 1 ~ где все i - нормальны k -1– число степеней свободы Если величина 2 достаточно велика, то гипотеза о совпадении наблюдаемых и ожидаемых численностях отвергается. Насколько велика скажет Excel: 0.05 =ХИ2РАСП(3.84;1) Критерий 2 Распределение 2 при различных k Площадь = 0.05 3.84 0.05 =ХИ2РАСП(3.84;1) Упражняемся … В выборке 100 человек имеем 44 мужчины и 56 женщин. Есть ли значимое отклонение от 1:1 ? 2 2 ( 44 50 ) ( 56 50 ) Вычисляем величину 2 1.44 50 50 0.23 =ХИ2РАСП(1.44;1) Вывод: нулевая гипотеза не отвергается. Мужчины и женщины представлены в этой выборке в соотношении 1:1. Вероятность наблюдать такие и еще более сильные отклонения равна 0.23 Подобное мы уже считали на 1-ом занятии: 0.135 =БИНОМРАСП(44;100;0,5;2) Соответствие распределению Харди–Вайнберга – не обходится без 2 Соответствие распределению Харди - Вайнберга Как правило для популяционных частот генотипов АА, аА, аа соблюдается соотношение Харди–Вайнберга (а2также и 2многих других). pq Кастла 2 p 2q Закон настолько прост, что его открывали для себя многие, но стеснялись публиковать. Я запишу это соотношение в виде: PaA 2 Paa PAA и то же самое для численностей: naA 2 naa n AA Т.е. не бывает: [100, 100, 100] , а лишь, например, [50, 100, 50] Класс АА аА аа Всего Наблюдаемая численность nАА nаА nаа N Ожидаемая частота р2 2pq q2 1 где p 1 1 n2 n2 n2 2 2 q , N N p q 1 n1 Упражняемся … условие Важное применимости 2 : Для учебного файла определим частоты генотипов по локусу все ожидаемые > 5GSTP1 Класс АА аА аа Всего Наблюдаемая численность 46 42 11 99 Ожидаемая численность 45.3 43.3 10.4 99 0.76 (Н-О)2/О 0.0095 0.0398 0.0417 0.091 =ХИ2РАСП(0.091; 1) Вывод: нулевая гипотеза не отвергается. Частоты генотипов соответствует Число степеней свободы 1, а не 2. Этонаблюдать потому, что мы и еще более распределению Харди-Вайнберга. Вероятность такие вычисляли ожидаемые через сильные отклонения равна 0.76 наблюдаемые Что означают серьезные отклонения от Харди – Вайнберга? Основная причина выполнения закона Харди-Вайнберга – панмиксия (случайность скрещиваний). Например, существенные отклонения от ХВ возможны в популяциях растений с частичным самоопылением В принципе причинами отклонений от ХВ могут быть - близкородственные скрещивания - подразделенность популяции - генетический дрейф - отбор Но самая реальная причина – ошибки генотипирования Проверяйте ХВ, чтобы убедиться в том, что ваши праймеры работают правильно Критерий 2 и таблицы сопряженности Тест 2 можно использовать для проверки независимости качественных признаков. Например бинарных (да - нет) Вероятности независимых событий перемножаются. Поэтому, если признак А не сопряжен (не связан) с признаком В, то таблица сопряженности этих признаков принимает вид: Признак А есть Признака А нет B _ B A _ A p A pB p_A pB p A p_B p_A p_B Это и есть ожидаемые частоты при условии, что признаки А и В никак не связаны Теперь их можно сравнить с реально наблюдаемым распределением, используя 2 Критерий 2 и таблицы сопряженности Как это делается практически? B _ B A _ A 50 30 20 100 Наблюдаемые Вычисляем: B _ B A _ A 5600 10400 8400 15600 Делим на 200 (сумма по 4 клеткам) _ A A Ожидаемые B 28 52 _ B 42 78 В 2общем случае: 2 (50 28) (30 52) (20 42 ) (100 78)строк-1) 2 (число столбцов-1)(число 44.3 2 28 2 52 А что скажет по этому поводу точный тест Фишерf? 42 2,810-3 2,510-5 78 =ХИ2РАСП(44,3; 1) Критерий 2 и таблицы сопряженности Все это можно делать, используя Критерий 2 и таблицы сопряженности Это все были таблицы Напомню:2х2. во всех численности Для признаков с более, чем 2 клетках значениями, все тоже самое должны быть > 5 Наблюдаемые: n23 n*3 Ожидаемые: n2* n*3 n2* N 2 ( Н О ) 2 О Число степеней свободы = (число столбцов-1)(число строк-1) =ХИ2РАСП(2; Число ст. свободы) Кстати точный тест Фишера считается только для 2х2, и поэтому только и остается, что использовать 2 Критерий 2 и таблицы сопряженности Ассоциация заболевания с полиморфизмом гена GSTP1 Таблица сопряженности 2х3 GSTP1 A313G 90 A/A Relative frequency (%) 80 A/G 70 G/G 60 50 40 30 20 10 0 0 1 Болезнь Критерий 2: проверка однородности данных В практике экспериментатора постоянно возникает вопрос о возможности объедания выборок Данные мониторинга популяций, полученные в различные годы Данные по частотам генов в нескольких выборках в пределах одно локальности Сравнение частот аберраций для экспонированных и контрольных популяций: можно ли объединять данные для различных особей Объедание выборок возможно лишь при условии однородности данных. В случае таблиц сопряженности на однородность указывает низкий 2 (соответствующее р > 0.1) При работе с неоднородными данными возникают невероятные ситуации! Проверка однородности материала Метод, эквивалентный 2 n p N i Можно ли объединить k независимых выборок и оценить частоту как i i i Число клеток Число аберраций Частота N1 n1 p1 N2 n2 p2 …. …. …. Nk nk pk Выборки можно объединять, если N ( p p) i i i p 2 2k т. н. индекс рассеяния для биномиальных выборок На сегодня это все Напоследок хочу посоветовать: Прикиньте с помощью 2 – соотношение мальчиков и девочек в вашей группе отличается значимо от 1:1 ? Классифицируйте своих знакомых на 4 группы: богатый щедрый, богатый скупой, бедный щедрый, бедный скупой. Постройте таблицу 2х2 и таблицу ожидаемых численностей всех групп. Посчитайте 2 . Как по вашим данным связаны достаток и скупость? Не совсем шутка!