Филогенетические деревья Часть 2 B C D C D C A D B A A A B B 2 B C D D 3 1 A 4 C 5 План лекции • Знакомство с методами построения филогенетических деревьев – Метод расстояний NJ – Метод максимальной бережливости – Метод максимального правдоподобия Методы расстояний • Продолжение – На прошлой лекции рассмотрели метод UPGMA (Unweighted Pair Group Method with Arithmetic Mean) – Показали неустойчивость этого метода Метод ближайшего соседа (Neighbor-joining, NJ) Метод NJ последовательно объединяет данные до тех пор, пока все виды не объединятся в некорневое дерево. 1. Вместо того, чтобы использовать матрицу расстояний напрямую, чтобы выяснить какой вид группируется с каким на каждой стадии, NJ использует матрицу S, где S(i,j) = (N-2)d(i,j) - R(i) - R(j) N число видов. R(i) сумма ряда i в матрице расстояний. R(j) сумма ряда j в матрице расстояний. 2. Найти наименьшее значение в матрице S - S(x,y). Вывод формулы для NJ Образовать новый внутренний узел, z, являющийся родителем x и y, и посчитать длину ребер от z до x и от z до y. d(x,z) = 1/(2(N-2))[(N-2)d(x,y) + R(x) – R(y)] d(y,z) = d(x,y) – d(x,z) 3. 4. Пересчитать матрицу расстояний d(w,z) = ½ (d(x,w) + d(y,w) – d(x,y)) ПОВТОРЯТЬ до тех пор пока для группировки не останутся два элемента. Пример NJ D= Cat Dog Rat Cow Dog Rat Step 1 3 4 6 Cat S= Dog Dog -22 Rat -20 -20 Cow -20 -20 Rat 5 7 6 R(cat) = 13 R(dog) = 15 R(rat) = 15 R(cow) = 19 e.g. S(cat,dog) = (4-2)x3 – 13 – 15 = -22 S(cat,rat) = (4-2)x4 – 13 – 15 = -20 -22 NJ Example D= Cat Dog Rat Cow Dog Rat Step 1 3 4 6 Cat S= Dog Dog -22 Rat -20 -20 Cow -20 -20 Rat Step 2 5 7 -22 6 Cat Step 3 d(cat,z) = ¼[2d(cat,dog) + R(cat) – R(dog)] = ¼ [6 + 13 – 15] =1 d(dog,z) = 3-1 =2 Rat z Dog Cow Step 4 d(z,rat) = ½ [d(cat,rat) + d(dog,rat) – d(cat,dog)] = ½ [4 + 5 – 3] =3 Cat d(z,cow) = ½ [6 + 7 – 3] =5 Rat z Dog Cow Выводы по методам расстояний • Наблюдаемые расстояния, полученные из выравнивания последовательностей, всегда не дооценивают настоящее число мутаций. Поэтому всегда надо производить коррекцию на скрытые изменения. • Кластерные методы, такие как UPGMA и метод ближайшего соседа NJ очень быстрые, так как они принимают только локальные решения, и никогда не исользуют метод прогонки назад. • Методы расстояний часто используются в качестве отправной точки для эвристических поисков. Выводы по методам расстояний • Не все расстояния ложатся на дерево совершенным образом. • Методы могут быть неустойчивыми. Например для некоторых невремяподобных расстояний метод UPGMA гарантированно построит неправильное дерево. • UPGMA устойчив для времяподобных расстояний и NJ устойчив для любых аддитивных расстояний. Метод максимальной бережливости Maximum parsimony Метод максимальной бережливости Maximum parsimony • Основан на символах, а не на расстояниях, поэтому не нужно измерять расстояния • Деревья строятся на основе информации об изменении символов (или признаков) • Объясняет наблюдаемые последовательности минимальным числом замен • Больше всего подходит для небольшого множества последовательностей с высокой степенью схожести. Простой пример • Пусть мы имеем 5 видов, такие что в конкретной позиции у трех стоит‘C’, а у двух ‘T’ • Минимальное дерево имеет одно эволюционное изменение : C T C C T C C T TC 2 шага метода максимальной бережливости (Maximum Parsimony) • Parsimony: для каждой возможной топологии деревьев, посчитайте вес бережливости (заполнение внутренних узлов по принципу минимального числа замен) • Maximum: выберите дерево с наименьшим весом Возможные деревья A Sequence X: A Sequence Y: A Sequence Z: A Sequence W: W X Y Z C C C C G G G A C C C C G G A A T T A G W Y X Z T T T G G G G G G G A A G G A A W Z X Y A Sequence X: A Sequence Y: A Sequence Z: A Sequence W: T T A G C C C C G G G A C C C C G G A A T T A G T A T G T T T G G G G G G G A A G G A A T G T A Некоторые возможные эволюционные пути T T A G T T T A G A T T A G T T T A G T A A T G G T T A G A C G Все возможные эволюционные пути T T A G AT GC AT GC # возможных путей : = (число состояний)(число узлов) = (число состояний)(число последовательностей -1) AT GC = 43 = 64 Шаг 1. Для конкретного дерева T T A G AT GC AT GC AT GC • Как посчитать вес бережливости? – Например 1 – произошла замена 0 – нет замен. Оценка веса бережливости для всей последовательности • Вес считается независимо для каждой последовательности. • Вес всей последовательности есть сумма весов для каждой последовательности. Шаг 2. выбор дерева • Выбираем дерево с наименьшим общим весом Пример для 4 видов и длины последовательности 10 1 2 3 4 5 6 7 8 9 10 Species 1 - A G G G T A A C T G Species 2 - A C G A T T A T T A Species 3 - A T A A T T G T C T Species 4 - A A T G T T G T C G Сколько можно построить некорневых деревьев? (топологий деревьев) Сколько возможных деревьев? 1 2 3 4 5 6 7 8 9 10 Species Species Species Species 1 2 3 4 - A A A A G C T A G G A T G A A G T T T T A T T T A A G G C T T T T T C C G A T G Считаем вес бережливости для каждого варианта топологии дерева. 1 2 3 4 5 6 7 8 9 10 1 - A G G G T A A C T G 2 - A C G A T T A T T A 3 - A T A A T T G T C T 4 - A A T G T T G T C G 0 0 0 Считаем вес бережливости G1 C2 3T 1 2 3 4 5 6 7 8 9 10 3 4A 1 - A G G G T A A C T G 2 - A C G A T T A T T A 3 - A T A A T T G T C T 4 - A A T G T T G T C G G T G C 3 A 1-G 2-C T 3 A C 2 3-T 4-A Максимальная бережливость Maximum Parsimony 1 2 3 4 5 6 7 8 9 10 1 - A G G G T A A C T G 2 - A C G A T T A T T A 3 - A T A A T T G T C T 4 - A A T G T T G T C G 03 03 03 Максимальная бережливость Maximum Parsimony 1 2 3 4 5 6 7 8 9 10 1 - A G G G T A A C T G 2 - A C G A T T A T T A 3 - A T A A T T G T C T 4 - A A T G T T G T C C 032 032 032 Максимальная бережливость Maximum Parsimony G A A 2 G 4 1-G 2-A 3-A G A A G A G 4-G 2 1 A G Максимальная бережливость Maximum Parsimony 1 2 3 4 5 6 7 8 9 10 1 - A G G G T A A C T G 2 - A C G A T T A T T A 3 - A T A A T T G T C T 4 - A A T G T T G T C G 0322 0322 0321 Максимальная бережливость Maximum Parsimony 0 3 2 2 0 1 1 1 1 2 13 0 3 2 2 0 1 2 1 2 2 15 0 3 2 1 0 1 2 1 2 2 14 Pro и Contra • • Pro: Гарантировано находит самое “бережливое” дерево Contra: Может давать неверные результаты когда частота мутаций на разных ветвях разная Напоминание Число возможных деревьев #Seq.s #Trees #Seq.s 3 4 5 1 3 15 10 50 100 #Trees 2 x 10 3 x 10 2 x 10 6 74 182 Поиск оптимального дерева • Перебор – Невозможен • Эвристика – Быстро – Обычно начинается с дерева, построенного методом ближайшего соседа (методом расстояний) Вероятностные подходы к филогении Вероятностные подходы к филогении • Вопрос: как можно восстановить дерево по набору последовательностей методами наибольшего правдоподобия. P(данные|дерево) – правдоподобие P(дерево|данные) – апостериорная вероятность Наибольшее правдоподобие • Метод впервые был предложен английским математиком Фишером в 1922 году – Правдоподобие – это вероятность данных при условии данной модели – Вероятность наблюдения данных при условии данной модели меняется в зависимости от значений параметров модели. – Задачей метода максимального правдоподобия является нахождение такого значения параметра, которое максимизирует вероятность данных. Три основных компонента максимального правдоподобия • Данные • Модель, описывающая вероятность наблюдения данных • Критерий, который позволяет переходить от данных к модели для оценки параметров модели Эксперимент с подбрасыванием монеты Мы не знаем вероятности выпадения орла или решки. Монета может быть шулерская. Мы подбрасывает монету 10 раз и получаем последовательность {O, O, O, Р, О, Р, Р, О, Р, О} - 6 раз орел и 4 раза решка Модель наблюдения h орлов из n бросков – биноминальное распределение: P[h|p,n] = Cn,h ph(1-p)n-h Критерий • Параметр, который нам нужно оценить это сама вероятность p • Функция правдоподобия – это просто полная вероятность наблюдения данных при условии данной модели. • Функция правдоподобия для подбрасывания монеты L[p|h,n] = Cn,h ph(1-p)n-h Максимальное правдоподобие: вычисления • Запишем логарифм правдоподобия logL[p|h,n] = log(n!) – log(h!) – log((n-h)!) + hlog p +(n-h)log(1-p) Его легче вычислять Факториалы не изменяются при изменении значения p. Их обычно игнорируют. Данные p ML 3 Heads,7 tails 0.3 0.26682 5 Heads,5 tails 0.5 0.24649 8 Heads,2 tails 0.8 0.30199 9 Heads,1 tail 0.9 0.38742 Оценка p ~ h/n. Функция правдоподобия максимальна, когда p равна пропорции орлов в данном эксперименте. Оценка максимального правдоподобия для филогенетических деревьев • Максимальное правдоподобие требует наличие трех елементов – дерево, модель и наблюдаемые данные. • Данные – выравнивание последовательностей • Дерево –расхождение последовательностей по ветвям с учетом длин этих ветвей • Модель – механизм, по которому, мы считаем, все работает. • Две основных задачи при оценке филогенетических деревьев : – (1) Для данной топологии дерева, какие длины ветвей делают данные наиболее вероятными – (2) какие из всех возможных топологий наиболее вероятны. Пример 1: Правдоподобие одиночной последовательности с двумя нуклеотидами А и С. • Модель – Есть некий состав последовательности из (ATGC) и есть процесс – В модели Джукса-Кантора все нуклеотиды равновероятны ¼, поэтому правдоподобие последовательности L=¼*¼=1/16. – Если у нас в модели 40%A и 10%C, то L=0.4*0.1=0.04 – Если мы возьмем все 16 возможных комбинаций, то их сумма правдоподбий каждой комбинации будет равна 1. Для любой модели, сумма правдоподобий для всех возможных вариантов данных должна быть равна 1 Пример 2: Правдоподобие одной ветви между двумя последовательностями Sequence2 CCGT Sequence1 CCAT •Как только у нас появляется больше одной последовательности, связанных между собой деревом, нам необходим процесс •Пусть композиционная часть модели будет = [0.1, 0.4, 0.2, 0.3]. Всего существует 16 возможных переходов от одного нуклеотида к другому. Это можно представить в виде 4 X 4 матрицей переходов (transition matrix). P = A 0.976 0.01 0.007 0.007 C 0.002 0.983 0.005 0.01 G 0.003 0.01 0.979 0.007 T 0.002 0.013 0.005 0.979 A C G T Правдоподобие перехода от seq1 к seq 2 = (c) P(c-c) (c) P(c-c) (a) P(a-g) (t) P(t-t) = = 0.4*0.983 * 0.4*0.983 * 0.1*0.007 * 0.3* 0.979 = 0.0000300 Предположим, что выбранная матрица соответствует 1 CED, правдоподобие для того же самого выравнивания, но для 2 CED единиц, находится умножением матрицы P на себя. CED – certain evolutionary distance A 0.976 P2 = C 0.002 0.983 0.005 0.01 G 0.003 T 0.01 0.007 0.007 0.976 X 0.01 0.007 0.007 0.002 0.983 0.005 0.01 0.953 0.02 0.013 0.015 = 0.005 0.966 0.01 0.02 0.01 0.979 0.007 0.003 0.01 0.979 0.007 0.007 0.02 0 .959 0.015 0.002 0.013 0.005 0.979 0.002 0.013 0.005 0.979 0.005 0.026 0.01 0.959 A C G T A C G T A C G T Правдоподбие перехода от seq1 в seq 2 (длина ветви 2CED) = c Pc-c c Pc-c a Pa-g t Pt-t = 0.4*0.983 * 0.4*0.983 * 0.1*0.007 * 0.3* 0.979 = 0.0000300 При увеличении длины ветвей уменьшаются значения диагональных элементов, а другие значения уменьшаются, потому что изменения становятся более вероятными, чем вероятности оставаться неизменными. Branch length Likelihood (CED) Units 1 0.0000300 2 0.0000559 3 0.0000782 10 0.000162 15 0.000177 20 0.000175 30 0.000152 Таблица правдоподобия для разных длин ветвей Rooted and unrooted trees for four taxa 1 2 v1 v2 3 4 v3 5 v4 v2 2 v3 v1 5 •Неизвестные последовательности в узлах 0,5,6 - x0, x5, x6. v6 O 1 •Известные последовательности 1,2,3,4 для каждого сайта (K-ый сайт) - x1 , x2, x3, x4 6 v5 v5 site A G T C……… A A C T……….. G T G C………… A G G G……….. •ДНК-последовательности длины n, выравнивание без вставок и делиций. 3 •Пусть Pij(t) вероятность, что нуклеотид i в момент времени 0 станет нуклеотидом j в момент времени t в каком-то конкретном сайте. Здесь i и j относятся к любому A, G, C, T. 6 v4 4 •Скорость замен (r) может меняться от ветви к ветви, так что удобно измерять эволюционное время в числе ожидаемых замен v=rt. Ожидаемое число замен для I-ой ветви vi=riti . •Функция правдоподобия для k-ого сайта для корневого дерева: Lk = gx0Px0x5(v5)Px5x1(v1)Px5x2(v2)Px0x6 (v6)Px6x3(v3)Px6x4(v4) где gx0 – априорная вероятность того, что в узле 0 находился нуклеотид x0. •Длина ветвей – это параметры, которые оцениваются с помощью метода максимального правдоподобия. •Для каждого сайта считается правдоподобие, и оно будет различным, в зависимости от модели и дерева. • Если мы используем обратимую модель, то нет необходимости учитывать корень. Обратимая модель означает, что процесс нуклеотидных замен в промежутке времени от 0 до t остается неизменным, рассматриваем ли мы эволюционный процесс в прямом или обратном направлении. •Функция правдоподобия для k-ого сайта для корневого дерева: 1 2 v1 v2 Lk = gx0Px0x5(v5)Px5x1(v1)Px5x2(v2)Px0x6 (v6)Px6x3(v3)Px6x4(v4) 3 v3 5 •Функция правдоподобия для k-ого сайта для некорневого дерева v4 6 v5 попарное выравнивание последовательностей 4 v6 O 1 v3 v1 5 Lk = gx5Px5x1(v1)Px5x2(v2)Px5x6(v5)Px6x3(v3)Px6x4(v4) v2 2 v5 3 6 v4 4 Поскольку мы не знаем x5 и x6, правдоподобие – это сумма предыдущей формулы по всем возможным нуклеотидам в узлах 5 и 6. Поскольку в узлах 5 и 6 могут находиться по 4 нуклеотида, всего существует 4 * 4 = 16 возможных комбинаций Lk = gx5Px5x1 (v1)Px5x2(v2)Px5x6 (v5)Px6x3(v3)Px6x4(v4) (1a) = gx5[Px5x1 (v1)Px5x2(v2)Px5x6(v5)] [Px6x3(v3)Px6x4(v4)] (1b) x5 x6 x5 x6 Запись уравнения (1а) в форме (1b) позволяет существенно сократить время вычисления •Правдоподобие (L) полной последовательности- это произведение Lk по всем сайтам m L = Lk •Тогда логарифм правдоподобия (log likelihood) всего дерева равен lnL = lnLk •Можно максимизировать значение lnL, изменяя параметры vi. Значение максимального правдоподобия для данной топологии записывается. Потом берется другая топология дерева, и значения максимального правдоподобия (ML, maximum likelihood) считаются для другой топологии дерева, и выбирается максимальное. Для 4 последовательностей существует всего три различных топологии. В общем виде, функция правдоподобия для данной топологии может быть записана как L=f(x;Q) x – множество наблюдаемых последовательностей Q множество параметров (длина ветвей, топология дерева, нуклеотидные частоты, вероятности замен) Все основные принципы метода ML переносятся на аминокислотные последовательности с матрицей вероятностей замен 20x20 •При увеличении числа видов, резко увеличивается время вычисления. •Число нуклеотидных комбинаций для дерева из m видов (последовательностей) равно 4 m-2 так как существует m-2 внутренних узлов. Если m= 10, нам нужно рассмотреть 65,356 различных комбинаций нуклеотидов и 2027025 топологий. •Реальное значение ML зависит от используемого численного метода. Разные компьютерные программы могут давать разные значения ML. Когда используется большое чилсло последовательностей, разница между значениями ML между двумя различными топологиями может быть очень маленькой, и аккуратность метода вычисления ML играет роль. •Существование множественных пиков становится проблемой при анализе большего числа последовательностей. Вычисление правдоподобие в филогенетике: Заключение •Данные – это выравнивание последовательностей •Для каждого сайта вычисляется правдоподобие - значение зависит от модели и данных •Полное правдоподобие – это произведение правдоподобий для каждого сайта. - или сумма логарифмов правдоподобий сайтов •Дерево с максимальным правдоподобием – это такая топология дерева, которая дает наибольшее правдоподобие для выбранной модели. •В обратимых моделях положение корня не имеет значения. Статистическая оценка полученного филогенетического дерева Бутстрэп Статистическая оценка полученного филогенетического дерева • Аккуратность зависит от множественного выравнивания; • В настоящее время только один метод выборок позволяет протестировать топологию филогенетического дерева: Бутстрэп (Bootstrap) Суть метода состоит в выборке с замещением колонок в в используемом для построения дерева множественном выравнивании, пока размер выборки не достигнет размера изначального выравнивания (обычно получается, что какие-то колонки выбраны несколько раз, а какие-то вообще не выбраны). Бутстрэп ATAGCCATA ATACCCATG ATACCCATA 100 ATAGCCATA 65 ATCCCCCAT human turtle 0 fruit fly TCAAATGCA TCGAATCCA TCAAATCCA TCAAATGCA TCAACACCC 100 раз rat 55 oak duckweed Методология 1. Выбрать последовательности для анализа; 2. Выравнить эти последовательности; 3. Применить методы построения филогенетических деревьев; 4. Произвести статистическую оценку полученных деревьев. Программы множественного выравнивания http://biowulf.nih.gov/apps/clustalw.html and more… Пример использования clustalw Выбрали последовательности для выравнивания File hem_alpha.fasta Простое использование >clustalw -infile=$filename -align -type=protein В нашем случае >clustalw -infile=hem_alpha.fasta -align -type=protein результаты: hem_alpha.aln hem_alpha.dnd (guide tree) Откроем выравнивание hem_alpha.aln в JalView Откроем дерево hem_alpha.dnd в FigTree >clustalw -infile=hem_alpha.fasta -tree -outputtree=dist -kimura Results: Phylogenetic tree file created: [hem_alpha.ph] Distance matrix file created: [hem_alpha.dst] Программы множественного выравнивания Пакет филогенетических программ PHYLIP