Лекция 4. Анализ качественных признаков

реклама
Биостатистика
4. Анализ качественных признаков
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН
Чем мы занимались на предыдущем занятии?
 В основном методами сравнения показателей,
характеризующих распределения количественных признаков
 Мы припомнили, что такое тест Стьюдента и каких случаях его
можно использовать
 Познакомились с дисперсионным анализом – методом
одновременного сравнения нескольких выборок
 Узнали, как обрабатывать данные, распределение которых
существенно «ненормально»
 Поговорили о том, как следует осмысливать и преподносить
незначимые результаты
Качественные признаки
Будет правильно, если вы скажите – мы этим уже занимались! Сравнение частот,
таблицы 2х2, точный тест Фишера и все такое.
Но то было сравнение 2 частот. А как сравнивать несколько пар частот?
Например, распределения генотипов при различных вариантах скрещиваний –
наблюдаемые и ожидаемые исходя из законов Менделя?
Или как сравнить в целом видовой состав в двух регионах? Или частоты
встречаемости блондинов, брюнетов, шатенов и т.д. для 2 этносов
Во всех этих случаях речь идет либо о сравнении двух выборочных
распределений, либо о сравнении наблюдаемого распределения с теоретически
ожидаемым
Для решении этих задач разработаны тесты, называемые критериями согласия
Критерий 2
Соответствие наблюдаемых численностей ожидаемым частотам
Класс
Наблюдаемая
численность
Ожидаемая
численность
1
n1
p1 N
2
n2
p2 N
…
…
…
k
nk
pk N
Всего
N
N
Вычисляется сумма
2
(
Н

О
)
2  
О
2
(
n

p
N
)
2   i i
pi N
i 1
k
т.е.
В 1900 г. Карл (Charles) Пирсон вычислил распределение этой величины:
Оказалось, что 2 распределен как сумма
2
2
2
2
квадратов независимых случайных величин: 1   2  ...   k 1 ~ 
где все i - нормальны
k -1– число степеней свободы
Если величина 2 достаточно велика, то гипотеза о совпадении
наблюдаемых и ожидаемых численностях отвергается.
Насколько велика скажет Excel:
0.05 =ХИ2РАСП(3.84;1)
Критерий 2
Распределение 2 при различных k
Площадь = 0.05
3.84
0.05 =ХИ2РАСП(3.84;1)
Упражняемся …
 В выборке 100 человек имеем 44 мужчины и 56 женщин. Есть ли
значимое отклонение от 1:1 ?
2
2
(
44

50
)
(
56

50
)
Вычисляем величину  2 

 1.44
50
50
0.23 =ХИ2РАСП(1.44;1)
Вывод: нулевая гипотеза не отвергается. Мужчины и женщины представлены в
этой выборке в соотношении 1:1. Вероятность наблюдать такие и еще более
сильные отклонения равна 0.23
Подобное мы уже считали на 1-ом занятии: 0.135 =БИНОМРАСП(44;100;0,5;2)
 Соответствие распределению Харди–Вайнберга – не обходится без 2
Соответствие распределению
Харди - Вайнберга
Как правило для популяционных частот генотипов АА, аА, аа
соблюдается соотношение Харди–Вайнберга (а2также
и 2многих других).
pq  Кастла
2 p 2q
Закон настолько прост, что его открывали для себя многие, но стеснялись
публиковать.
Я запишу это соотношение в виде:
PaA  2 Paa PAA
и то же самое для численностей:
naA  2 naa n AA
Т.е. не бывает: [100, 100, 100] , а лишь, например, [50, 100, 50]
Класс
АА
аА
аа
Всего
Наблюдаемая
численность
nАА
nаА
nаа
N
Ожидаемая
частота
р2
2pq
q2
1
где
p
1
1
n2  n2
n2
2
2
q
,
N
N
p  q 1
n1 
Упражняемся
… условие
Важное
применимости 2 :
Для учебного файла определим частоты генотипов
по локусу
все ожидаемые
> 5GSTP1
Класс
АА
аА
аа
Всего
Наблюдаемая
численность
46
42
11
99
Ожидаемая
численность
45.3
43.3
10.4
99
0.76
(Н-О)2/О
0.0095
0.0398
0.0417
0.091
=ХИ2РАСП(0.091; 1)
Вывод: нулевая гипотеза не отвергается.
Частоты
генотипов
соответствует
Число
степеней
свободы
1, а
не 2. Этонаблюдать
потому, что
мы и еще более
распределению Харди-Вайнберга. Вероятность
такие
вычисляли ожидаемые через
сильные отклонения равна 0.76
наблюдаемые
Что означают серьезные отклонения
от Харди – Вайнберга?
 Основная причина выполнения закона Харди-Вайнберга – панмиксия
(случайность скрещиваний). Например, существенные отклонения от ХВ
возможны в популяциях растений с частичным самоопылением
 В принципе причинами отклонений от ХВ могут быть
- близкородственные скрещивания
- подразделенность популяции
- генетический дрейф
- отбор
 Но самая реальная причина – ошибки генотипирования
Проверяйте ХВ, чтобы убедиться в том, что ваши праймеры
работают правильно
Критерий 2 и таблицы сопряженности
Тест 2 можно использовать для проверки независимости качественных
признаков. Например бинарных (да - нет)
Вероятности независимых событий перемножаются.
Поэтому, если признак А не сопряжен (не связан) с признаком В, то таблица
сопряженности этих признаков принимает вид:
Признак А есть
Признака А нет
B
_
B
A
_
A
p A pB
p_A pB
p A p_B
p_A p_B
Это и есть ожидаемые частоты
при условии, что признаки А и В никак не связаны
Теперь их можно сравнить с реально наблюдаемым распределением, используя 2
Критерий 2 и таблицы сопряженности
Как это делается практически?
B
_
B
A
_
A
50
30
20
100
Наблюдаемые
Вычисляем:
B
_
B
A
_
A
5600
10400
8400
15600
Делим на 200 (сумма по 4 клеткам)
_
A
A
Ожидаемые
B
28
52
_
B
42
78
В 2общем случае: 2
(50  28)
(30  52)
(20  42
)
(100  78)строк-1)
2
(число
столбцов-1)(число
 



 44.3
2
28
2
52
А что скажет по этому поводу
точный тест Фишерf?
42
2,810-3
2,510-5
78
=ХИ2РАСП(44,3; 1)
Критерий 2 и таблицы сопряженности
Все это можно делать, используя
Критерий 2 и таблицы сопряженности
Это все были таблицы
Напомню:2х2.
во всех
численности
Для признаков с более, чем 2 клетках
значениями,
все тоже самое
должны быть > 5
Наблюдаемые:
n23
n*3
Ожидаемые:
n2*
n*3 n2*
N
2
(
Н

О
)
2  
О
Число степеней свободы = (число столбцов-1)(число строк-1)
=ХИ2РАСП(2; Число ст. свободы)
Кстати точный тест Фишера считается только для 2х2,
и поэтому только и остается, что использовать 2
Критерий 2 и таблицы сопряженности
Ассоциация заболевания с
полиморфизмом гена GSTP1
Таблица сопряженности 2х3
GSTP1 A313G
90
A/A
Relative frequency (%)
80
A/G
70
G/G
60
50
40
30
20
10
0
0
1
Болезнь
Критерий 2: проверка однородности данных
В практике экспериментатора постоянно возникает вопрос о
возможности объедания выборок
 Данные мониторинга популяций, полученные в различные годы
 Данные по частотам генов в нескольких выборках в пределах
одно локальности
 Сравнение частот аберраций для экспонированных и
контрольных популяций: можно ли объединять данные для
различных особей
Объедание выборок возможно лишь при условии
однородности данных. В случае таблиц сопряженности на
однородность указывает низкий 2 (соответствующее р > 0.1)
При работе с неоднородными данными возникают
невероятные ситуации!
Проверка однородности материала
Метод, эквивалентный 2
n
p
N
i
Можно ли объединить k независимых выборок и оценить частоту как
i
i
i
Число
клеток
Число
аберраций
Частота
N1
n1
p1
N2
n2
p2
….
….
….
Nk
nk
pk
Выборки можно объединять, если
 N ( p  p)
i
i
i
p
2
 2k
т. н. индекс рассеяния для биномиальных выборок
На сегодня это все
Напоследок хочу посоветовать:
 Прикиньте с помощью 2 – соотношение мальчиков и девочек в
вашей группе отличается значимо от 1:1 ?
 Классифицируйте своих знакомых на 4 группы:
богатый щедрый, богатый скупой,
бедный щедрый, бедный скупой.
Постройте таблицу 2х2 и таблицу ожидаемых численностей
всех групп.
Посчитайте 2 . Как по вашим данным связаны достаток и
скупость?
Не совсем шутка!
Скачать