Филогенетические деревья

реклама
Филогенетические деревья
Часть 2
B
C
D
C
D
C
A
D
B
A
A
A
B
B
2
B
C
D
D
3
1
A
4
C
5
План лекции
• Знакомство с методами построения
филогенетических деревьев
– Метод расстояний NJ
– Метод максимальной бережливости
– Метод максимального правдоподобия
Методы расстояний
• Продолжение
– На прошлой лекции рассмотрели метод UPGMA
(Unweighted Pair Group Method with Arithmetic
Mean)
– Показали неустойчивость этого метода
Метод ближайшего соседа
(Neighbor-joining, NJ)
Метод NJ последовательно объединяет данные до тех пор, пока
все виды не объединятся в некорневое дерево.
1.
Вместо того, чтобы использовать матрицу расстояний
напрямую, чтобы выяснить какой вид группируется с каким на
каждой стадии, NJ использует матрицу S, где
S(i,j) = (N-2)d(i,j) - R(i) - R(j)
N число видов.
R(i) сумма ряда i в матрице расстояний.
R(j) сумма ряда j в матрице расстояний.
2.
Найти наименьшее значение в матрице S - S(x,y).
Вывод формулы для NJ
Образовать новый внутренний узел, z, являющийся
родителем x и y, и посчитать длину ребер от z до x и от z
до y.
d(x,z) = 1/(2(N-2))[(N-2)d(x,y) + R(x) – R(y)]
d(y,z) = d(x,y) – d(x,z)
3.
4.
Пересчитать матрицу расстояний
d(w,z) = ½ (d(x,w) + d(y,w) – d(x,y))
ПОВТОРЯТЬ до тех пор пока для группировки не останутся
два элемента.
Пример NJ
D=
Cat
Dog
Rat
Cow
Dog
Rat
Step 1
3
4
6
Cat
S=
Dog
Dog
-22
Rat
-20
-20
Cow
-20
-20
Rat
5
7
6
R(cat) = 13
R(dog) = 15
R(rat) = 15
R(cow) = 19
e.g. S(cat,dog) = (4-2)x3 – 13 – 15 = -22
S(cat,rat) = (4-2)x4 – 13 – 15 = -20
-22
NJ Example
D=
Cat
Dog
Rat
Cow
Dog
Rat
Step 1
3
4
6
Cat
S=
Dog
Dog
-22
Rat
-20
-20
Cow
-20
-20
Rat
Step 2
5
7
-22
6
Cat
Step 3
d(cat,z) = ¼[2d(cat,dog) + R(cat) – R(dog)]
= ¼ [6 + 13 – 15]
=1
d(dog,z) = 3-1
=2
Rat
z
Dog
Cow
Step 4
d(z,rat) = ½ [d(cat,rat) + d(dog,rat) – d(cat,dog)]
= ½ [4 + 5 – 3]
=3
Cat
d(z,cow) = ½ [6 + 7 – 3]
=5
Rat
z
Dog
Cow
Выводы по методам расстояний
• Наблюдаемые расстояния, полученные из
выравнивания последовательностей, всегда не
дооценивают настоящее число мутаций. Поэтому
всегда надо производить коррекцию на скрытые
изменения.
• Кластерные методы, такие как UPGMA и метод
ближайшего соседа NJ очень быстрые, так как они
принимают только локальные решения, и никогда
не исользуют метод прогонки назад.
• Методы расстояний часто используются в
качестве отправной точки для эвристических
поисков.
Выводы по методам расстояний
• Не все расстояния ложатся на дерево совершенным
образом.
• Методы могут быть неустойчивыми. Например для
некоторых невремяподобных расстояний метод UPGMA
гарантированно построит неправильное дерево.
• UPGMA устойчив для времяподобных расстояний и NJ
устойчив для любых аддитивных расстояний.
Метод максимальной
бережливости
Maximum parsimony
Метод максимальной бережливости
Maximum parsimony
• Основан на символах, а не на расстояниях, поэтому не
нужно измерять расстояния
• Деревья строятся на основе информации об
изменении символов (или признаков)
• Объясняет наблюдаемые последовательности
минимальным числом замен
• Больше всего подходит для небольшого множества
последовательностей с высокой степенью схожести.
Простой пример
• Пусть мы имеем 5 видов, такие что в конкретной
позиции у трех стоит‘C’, а у двух ‘T’
• Минимальное дерево имеет одно эволюционное
изменение :
C
T
C
C
T
C
C
T
TC
2 шага метода максимальной
бережливости (Maximum Parsimony)
• Parsimony: для каждой возможной
топологии деревьев, посчитайте вес
бережливости (заполнение внутренних
узлов по принципу минимального числа
замен)
• Maximum: выберите дерево с наименьшим
весом
Возможные деревья
A
Sequence X: A
Sequence Y: A
Sequence Z: A
Sequence W:
W X Y Z
C
C
C
C
G
G
G
A
C
C
C
C
G
G
A
A
T
T
A
G
W Y X Z
T
T
T
G
G
G
G
G
G
G
A
A
G
G
A
A
W Z X Y
A
Sequence X: A
Sequence Y: A
Sequence Z: A
Sequence W:
T T A G
C
C
C
C
G
G
G
A
C
C
C
C
G
G
A
A
T
T
A
G
T A T G
T
T
T
G
G
G
G
G
G
G
A
A
G
G
A
A
T G T A
Некоторые возможные
эволюционные пути
T T A G
T
T T A G
A
T T A G
T
T T A G
T
A
A
T
G
G
T T A G
A
C
G
Все возможные эволюционные пути
T T A G
AT
GC
AT
GC
# возможных путей :
= (число состояний)(число узлов)
= (число состояний)(число последовательностей -1)
AT
GC
= 43 = 64
Шаг 1. Для конкретного дерева
T T A G
AT
GC
AT
GC
AT
GC
• Как посчитать вес
бережливости?
– Например
1 – произошла
замена
0 – нет замен.
Оценка веса бережливости для всей
последовательности
• Вес считается независимо для каждой
последовательности.
• Вес всей последовательности есть сумма
весов для каждой последовательности.
Шаг 2. выбор дерева
• Выбираем дерево с наименьшим общим
весом
Пример для 4 видов и длины
последовательности 10
1 2 3 4 5 6 7 8 9 10
Species 1 - A G G G T A A C T G
Species 2 - A C G A T T A T T A
Species 3 - A T A A T T G T C T
Species 4 - A A T G T T G T C G
Сколько можно построить некорневых деревьев?
(топологий деревьев)
Сколько возможных деревьев?
1 2 3 4 5 6 7 8 9 10
Species
Species
Species
Species
1
2
3
4
-
A
A
A
A
G
C
T
A
G
G
A
T
G
A
A
G
T
T
T
T
A
T
T
T
A
A
G
G
C
T
T
T
T
T
C
C
G
A
T
G
Считаем вес бережливости для каждого
варианта топологии дерева.
1 2 3 4 5 6 7 8 9 10
1 - A G G G T A A C T G
2 - A C G A T T A T T A
3 - A T A A T T G T C T
4 - A A T G T T G T C G
0
0
0
Считаем вес бережливости
G1
C2
3T
1 2 3 4 5 6 7 8 9 10
3
4A
1 - A G G G T A A C T G
2 - A C G A T T A T T A
3 - A T A A T T G T C T
4 - A A T G T T G T C G
G
T
G
C
3
A
1-G
2-C
T
3
A
C
2
3-T
4-A
Максимальная бережливость
Maximum Parsimony
1 2 3 4 5 6 7 8 9 10
1 - A G G G T A A C T G
2 - A C G A T T A T T A
3 - A T A A T T G T C T
4 - A A T G T T G T C G
03
03
03
Максимальная бережливость
Maximum Parsimony
1 2 3 4 5 6 7 8 9 10
1 - A G G G T A A C T G
2 - A C G A T T A T T A
3 - A T A A T T G T C T
4 - A A T G T T G T C C
032
032
032
Максимальная бережливость
Maximum Parsimony
G
A
A
2
G
4
1-G
2-A
3-A
G
A
A
G
A
G
4-G
2
1
A
G
Максимальная бережливость
Maximum Parsimony
1 2 3 4 5 6 7 8 9 10
1 - A G G G T A A C T G
2 - A C G A T T A T T A
3 - A T A A T T G T C T
4 - A A T G T T G T C G
0322
0322
0321
Максимальная бережливость
Maximum Parsimony
0 3 2 2 0 1 1 1 1 2 13
0 3 2 2 0 1 2 1 2 2 15
0 3 2 1 0 1 2 1 2 2 14
Pro и Contra
•
•
Pro: Гарантировано находит самое “бережливое” дерево
Contra: Может давать неверные результаты когда
частота мутаций на разных ветвях разная
Напоминание Число возможных деревьев
#Seq.s #Trees #Seq.s
3
4
5
1
3
15
10
50
100
#Trees
2 x 10
3 x 10
2 x 10
6
74
182
Поиск оптимального дерева
• Перебор
– Невозможен
• Эвристика
– Быстро
– Обычно начинается с дерева, построенного
методом ближайшего соседа (методом
расстояний)
Вероятностные подходы к
филогении
Вероятностные подходы к
филогении
• Вопрос: как можно восстановить дерево
по набору последовательностей методами
наибольшего правдоподобия.
P(данные|дерево) – правдоподобие
P(дерево|данные) – апостериорная
вероятность
Наибольшее правдоподобие
• Метод впервые был предложен английским
математиком Фишером в 1922 году
– Правдоподобие – это вероятность данных при условии
данной модели
– Вероятность наблюдения данных при условии данной
модели меняется в зависимости от значений
параметров модели.
– Задачей метода максимального правдоподобия
является нахождение такого значения параметра,
которое максимизирует вероятность данных.
Три основных компонента
максимального правдоподобия
• Данные
• Модель, описывающая вероятность
наблюдения данных
• Критерий, который позволяет переходить
от данных к модели для оценки параметров
модели
Эксперимент с подбрасыванием монеты
Мы не знаем вероятности выпадения орла или решки. Монета
может быть шулерская.
Мы подбрасывает монету 10 раз и получаем
последовательность
{O, O, O, Р, О, Р, Р, О, Р, О} - 6 раз орел и 4 раза решка
Модель наблюдения h орлов из n бросков – биноминальное
распределение:
P[h|p,n] = Cn,h ph(1-p)n-h
Критерий
• Параметр, который нам нужно оценить это сама вероятность p
• Функция правдоподобия – это просто
полная вероятность наблюдения данных
при условии данной модели.
• Функция правдоподобия для
подбрасывания монеты
L[p|h,n] = Cn,h ph(1-p)n-h
Максимальное правдоподобие:
вычисления
• Запишем логарифм правдоподобия
logL[p|h,n] = log(n!) – log(h!) – log((n-h)!)
+ hlog p +(n-h)log(1-p)
Его легче вычислять
Факториалы не изменяются при изменении
значения p. Их обычно игнорируют.
Данные
p
ML
3 Heads,7 tails
0.3
0.26682
5 Heads,5 tails
0.5
0.24649
8 Heads,2 tails
0.8
0.30199
9 Heads,1 tail
0.9
0.38742
Оценка p ~ h/n.
Функция
правдоподобия
максимальна, когда p
равна пропорции орлов
в данном эксперименте.
Оценка максимального правдоподобия для
филогенетических деревьев
• Максимальное правдоподобие требует наличие
трех елементов – дерево, модель и наблюдаемые
данные.
• Данные – выравнивание последовательностей
• Дерево –расхождение последовательностей по ветвям с
учетом длин этих ветвей
• Модель – механизм, по которому, мы считаем, все работает.
• Две основных задачи при оценке филогенетических
деревьев :
– (1) Для данной топологии дерева, какие длины ветвей
делают данные наиболее вероятными
– (2) какие из всех возможных топологий наиболее
вероятны.
Пример 1: Правдоподобие одиночной
последовательности с двумя
нуклеотидами А и С.
• Модель
– Есть некий состав последовательности из (ATGC) и есть
процесс
– В модели Джукса-Кантора все нуклеотиды
равновероятны ¼, поэтому правдоподобие
последовательности L=¼*¼=1/16.
– Если у нас в модели 40%A и 10%C, то L=0.4*0.1=0.04
– Если мы возьмем все 16 возможных комбинаций, то
их сумма правдоподбий каждой комбинации будет
равна 1.
Для любой модели, сумма правдоподобий для всех
возможных вариантов данных должна быть равна 1
Пример 2: Правдоподобие одной ветви между двумя
последовательностями
Sequence2
CCGT
Sequence1
CCAT
•Как только у нас появляется больше одной последовательности, связанных между
собой деревом, нам необходим процесс
•Пусть композиционная часть модели будет  = [0.1, 0.4, 0.2, 0.3]. Всего существует
16 возможных переходов от одного нуклеотида к другому. Это можно представить в
виде 4 X 4 матрицей переходов (transition matrix).
P =
A
0.976
0.01
0.007
0.007
C
0.002
0.983
0.005
0.01
G
0.003
0.01
0.979
0.007
T
0.002
0.013
0.005
0.979
A
C
G
T
Правдоподобие перехода от seq1 к seq 2 =
(c) P(c-c) (c) P(c-c) (a) P(a-g) (t) P(t-t) =
= 0.4*0.983 * 0.4*0.983 * 0.1*0.007 * 0.3* 0.979 = 0.0000300
Предположим, что выбранная матрица соответствует 1 CED, правдоподобие для того же
самого выравнивания, но для 2 CED единиц, находится умножением матрицы P на себя.
CED – certain evolutionary distance
A 0.976
P2 = C
0.002 0.983 0.005 0.01
G 0.003
T
0.01 0.007 0.007
0.976
X
0.01
0.007 0.007
0.002 0.983 0.005
0.01
0.953 0.02 0.013 0.015
=
0.005 0.966 0.01 0.02
0.01
0.979 0.007
0.003
0.01
0.979 0.007
0.007 0.02 0 .959 0.015
0.002 0.013
0.005 0.979
0.002 0.013
0.005 0.979
0.005 0.026 0.01 0.959
A
C
G
T
A
C
G
T
A
C
G
T
Правдоподбие перехода от seq1 в seq 2 (длина ветви 2CED)
= c Pc-c c Pc-c a Pa-g t Pt-t
= 0.4*0.983 * 0.4*0.983 * 0.1*0.007 * 0.3* 0.979 = 0.0000300
При увеличении длины ветвей уменьшаются значения диагональных элементов, а другие
значения уменьшаются, потому что изменения становятся более вероятными, чем
вероятности оставаться неизменными.
Branch length Likelihood
(CED) Units
1
0.0000300
2
0.0000559
3
0.0000782
10
0.000162
15
0.000177
20
0.000175
30
0.000152
Таблица правдоподобия для разных длин ветвей
Rooted and unrooted trees for
four taxa
1
2
v1
v2
3
4
v3
5
v4
v2
2
v3
v1
5
•Неизвестные последовательности в узлах
0,5,6 - x0, x5, x6.
v6
O
1
•Известные последовательности 1,2,3,4 для
каждого сайта (K-ый сайт) - x1 , x2, x3, x4
6
v5
v5
site
A G T C………
A A C T………..
G T G C…………
A G G G………..
•ДНК-последовательности длины n,
выравнивание без вставок и делиций.
3
•Пусть Pij(t) вероятность, что нуклеотид i в
момент времени 0 станет нуклеотидом j в
момент времени t в каком-то конкретном
сайте. Здесь i и j относятся к любому A, G, C, T.
6
v4
4
•Скорость замен (r) может меняться от ветви к
ветви, так что удобно измерять эволюционное
время в числе ожидаемых замен v=rt.
Ожидаемое число замен для I-ой ветви vi=riti .
•Функция правдоподобия для k-ого сайта для корневого дерева:
Lk = gx0Px0x5(v5)Px5x1(v1)Px5x2(v2)Px0x6 (v6)Px6x3(v3)Px6x4(v4)
где gx0 – априорная вероятность того, что в узле 0 находился
нуклеотид x0.
•Длина ветвей – это параметры, которые оцениваются с помощью
метода максимального правдоподобия.
•Для каждого сайта считается правдоподобие, и оно будет
различным, в зависимости от модели и дерева.
• Если мы используем обратимую модель, то нет необходимости
учитывать корень. Обратимая модель означает, что процесс
нуклеотидных замен в промежутке времени от 0 до t остается
неизменным, рассматриваем ли мы эволюционный процесс в
прямом или обратном направлении.
•Функция правдоподобия для k-ого сайта для
корневого дерева:
1
2
v1
v2
Lk = gx0Px0x5(v5)Px5x1(v1)Px5x2(v2)Px0x6
(v6)Px6x3(v3)Px6x4(v4)
3
v3
5
•Функция правдоподобия для k-ого сайта для
некорневого дерева
v4
6
v5
попарное выравнивание
последовательностей
4
v6
O
1
v3
v1
5
Lk = gx5Px5x1(v1)Px5x2(v2)Px5x6(v5)Px6x3(v3)Px6x4(v4)
v2
2
v5
3
6
v4
4
Поскольку мы не знаем x5 и x6, правдоподобие – это сумма
предыдущей формулы по всем возможным нуклеотидам в узлах 5 и
6. Поскольку в узлах 5 и 6 могут находиться по 4 нуклеотида, всего
существует 4 * 4 = 16 возможных комбинаций
Lk =   gx5Px5x1 (v1)Px5x2(v2)Px5x6 (v5)Px6x3(v3)Px6x4(v4)
(1a)
=  gx5[Px5x1 (v1)Px5x2(v2)Px5x6(v5)]  [Px6x3(v3)Px6x4(v4)]
(1b)
x5 x6
x5
x6
Запись уравнения (1а) в форме (1b) позволяет существенно
сократить время вычисления
•Правдоподобие (L) полной последовательности- это произведение
Lk по всем сайтам m
L =  Lk
•Тогда логарифм правдоподобия (log likelihood) всего дерева равен
lnL = lnLk
•Можно максимизировать значение lnL, изменяя параметры vi.
Значение максимального правдоподобия для данной топологии
записывается.
Потом берется другая топология дерева, и значения максимального
правдоподобия (ML, maximum likelihood) считаются для другой топологии
дерева, и выбирается максимальное.
Для 4 последовательностей существует всего три различных топологии.
В общем виде, функция правдоподобия для данной
топологии может быть записана как
L=f(x;Q)
x – множество наблюдаемых последовательностей
Q  множество параметров (длина ветвей, топология дерева,
нуклеотидные частоты, вероятности замен)
Все основные принципы метода ML переносятся на аминокислотные
последовательности с матрицей вероятностей замен 20x20
•При увеличении числа видов, резко увеличивается время
вычисления.
•Число нуклеотидных комбинаций для дерева из m видов
(последовательностей) равно 4 m-2 так как существует m-2
внутренних узлов. Если m= 10, нам нужно рассмотреть 65,356
различных комбинаций нуклеотидов и 2027025 топологий.
•Реальное значение ML зависит от используемого численного
метода. Разные компьютерные программы могут давать разные
значения ML. Когда используется большое чилсло
последовательностей, разница между значениями ML между двумя
различными топологиями может быть очень маленькой, и
аккуратность метода вычисления ML играет роль.
•Существование множественных пиков становится проблемой при
анализе большего числа последовательностей.
Вычисление правдоподобие в филогенетике:
Заключение
•Данные – это выравнивание последовательностей
•Для каждого сайта вычисляется правдоподобие
- значение зависит от модели и данных
•Полное правдоподобие – это произведение
правдоподобий для каждого сайта.
- или сумма логарифмов правдоподобий сайтов
•Дерево с максимальным правдоподобием – это такая
топология дерева, которая дает наибольшее
правдоподобие для выбранной модели.
•В обратимых моделях положение корня не имеет
значения.
Статистическая оценка полученного
филогенетического дерева
Бутстрэп
Статистическая оценка полученного
филогенетического дерева
• Аккуратность зависит от множественного выравнивания;
• В настоящее время только один метод выборок позволяет
протестировать топологию филогенетического дерева:
Бутстрэп (Bootstrap)
Суть метода состоит в выборке с замещением колонок в в
используемом для построения дерева множественном
выравнивании, пока размер выборки не достигнет размера
изначального выравнивания (обычно получается, что какие-то
колонки выбраны несколько раз, а какие-то вообще не
выбраны).
Бутстрэп
ATAGCCATA
ATACCCATG
ATACCCATA
100
ATAGCCATA
65
ATCCCCCAT
human
turtle
0
fruit fly
TCAAATGCA
TCGAATCCA
TCAAATCCA
TCAAATGCA
TCAACACCC
100 раз
rat
55
oak
duckweed
Методология
1. Выбрать последовательности для анализа;
2. Выравнить эти последовательности;
3. Применить методы построения филогенетических
деревьев;
4. Произвести статистическую оценку полученных
деревьев.
Программы множественного выравнивания
http://biowulf.nih.gov/apps/clustalw.html
and more…
Пример использования clustalw
Выбрали
последовательности
для выравнивания
File hem_alpha.fasta
Простое использование
>clustalw -infile=$filename -align -type=protein
В нашем случае
>clustalw -infile=hem_alpha.fasta -align -type=protein
результаты:
hem_alpha.aln
hem_alpha.dnd (guide tree)
Откроем выравнивание hem_alpha.aln в JalView
Откроем дерево hem_alpha.dnd в FigTree
>clustalw -infile=hem_alpha.fasta -tree -outputtree=dist -kimura
Results:
Phylogenetic tree file created: [hem_alpha.ph]
Distance matrix file created: [hem_alpha.dst]
Программы множественного выравнивания
Пакет филогенетических программ PHYLIP
Скачать