Молекулярная филогенетика (лекция 1) Принципы построения филогенетических деревьев по молекулярным данным В.В. Алёшин 30 сентября 2014 года Истинное филогенетическое дерево – объективные родственные связи всех существующих и существовавших на Земле живых форм; дерево, сконструированное на основании нуклеотидных (аминокислотных) последовательностей современных форм с помощью правил вывода, основанных на теоретических положениях. Сконструированное дерево – это математический объект – связный граф без циклов. Он состоит из вершин (узлов) и соединяющих их ребер. Узлы бывают внутренние – с ним соединено три ребра (или более) и висячие («листья» дерева) – с ними соединено одно ребро. Неформально, висячая вершина – это нуклеотидная (аминокислотная) последовательность современного вида, определенная экспериментально. Ей дают имя и она ОТЕ (англ. OTU). Внутренние узлы дерева можно интерпретировать как гипотетического предка. Дерево – связный граф. Это значит, что из любого узла в любой другой узел существует путь (последовательность соединенных ребер). Это отражает факт, что все нынешние и вымершие виды родственны между собой. Дерево – граф без циклов. Это значит, что путь в дереве между двумя узлами всегда единственный. Таким образом, степень родства каждой пары видов (вершин графа) не произвольная, а строго определенная – определяемая путем между ними по дереву. В частности, любая пара узлов, соединенная в дереве непосредственно, соединена единственным ребром: если ребро соединяет два рассматриваемых узла, то такое ребро единственное. Это отражает эволюционную трансформацию любого вида из вида-предка, причем как единственное событие. Эквивалентные изображения одного и того же немасштабированного бескорневого дерева ((А, В), (С, D)); из четырех ОТЕ Два дерева имеют одинаковую топологию, если они состоят из одинаковых ОТЕ, соединенных в том же самом порядке (т. е. их внутренние вершины можно занумеровать так, чтобы любому пути в одном дереве был такой же точно путь в другом). Примеры текстовой и графической записи одного и того же масштабированного дерева: #NEXUS [File saved Fri Nov 07 09:01:17 2008] BEGIN TAXA; DIMENSIONS NTAX = 4; TAXLABELS A B C D ; ENDBLOCK; BEGIN TREES; TRANSLATE 1 A, 2 B, 3 C, 4 D ; UTREE * PHYLIP_1= ((1:0.2,2:0.25):0.05,(3:0.4,4:0.1)); ENDBLOCK; а A C ((A:0.2,B:0.25):0.05,(C:0.4,D:0.1)); б B 0.1 D в Willi Hennig Филогенетическая система Кумулятивный рост числа публикаций со словами ‘molecular’ AND ‘phylogeny’ в резюме, согласно базе данных ISI 150000 100000 50000 1990 2000 2010 % СВЯЗАВШИХСЯ ФРАГМЕНТОВ ДНК % НУКЛЕОТИДНЫХ ЗАМЕН В ГИБРИДНЫХ ДНК матрицы: ДНК-матрица выравнивание (матрица) матрица попарных расстояний ... Выравнивание. Насколько схожи между собой первичные структуры? Основания (биохимические и генетические) гипотезы молекулярных часов. Выравнивание. Насколько схожи между собой первичные структуры? Основания (биохимические и генетические) гипотезы молекулярных часов. |s| < 1/2Ne ; tфикс.=4Ne => скорость эволюции = скорости мутирования (независимо от размера популяции) Выравнивание. Насколько схожи между собой первичные структуры? Основания (биохимические и генетические) гипотезы молекулярных часов. p-дистанции и почему это не всегда хорошая мера сходства. Идентичность 100% 50 0 время ОТЕ1 †T ОТЕ2 T ОТЕ3 A G †T A 1 †A T †C †C †A †C †A A †G C †G †G †T G †T T Неравноценность различий между близкими и далекими видам Возникает вопрос: насколько сконструированное дерево соответствует исходным данным (даже не истинному дереву, а данным!). Аддитивные (по отношению к матрице) деревья. Свойство аддитивности проявляет и матрица: в этом случае для любых четверок ОТЕ A, B, C, D выполняется условие, что из трех сумм дистанций dAB + dCD, dAC + dBD, dAD + dBC две суммы должны быть равны и больше третьей. Доказано, что если матрица дистанций может быть отображена аддитивным деревом, то такое дерево единственное. Другими словами, для аддитивного дерева матричная и масштабированная графическая форма представления эквивалентны, а для неаддитивного дерева нет. Для большинства природных ОТЕ деревья получаются неаддитивные. Locusta migratoria 98% Gryllus bimaculatus 100% Hodotermopsis sjoestedti 70% 0.1 Nilaparvata lugens 98% Apis mellifera 95% Парафилия Crustacea относительно Hexapoda Tribolium castaneum 100% Pediculus humanus 90% Diaphorina citri 98% Hexapoda Acyrthosiphon pisum 100% Onychiurus arcticus 69% Folsomia candida 42% Collembola Daphnia pulex 97% Artemia franciscana 99% Lepeophtheirus salmonis 44% Homarus americanus 81% Litopenaeus vannamei 92% Peracarida 31% Mesobuthus gibbosus 31% Chelicerata Carcinoscorpius rotundicauda 13% Anoplodactylus eroticus 98% Scutigera coleoptrata 85% 0.50 Myriapoda Onychophora 84% 0.59 0.50 0.50 Xiphinema index 90% Echinoderes horni 85% Priapulus caudatus 55% outgroup Caenorhabditis elegans 100% Toxocara canis 82% Hypsibius dujardini 86% Richtersius coronifer 60% Spinochordodes tellinii 19% Ecdysozoa без Arthropoda Acanthoscurria gomesiana 70% Ixodes scapularis 97% Malacostraca “Entomostraca” Aedes aegypti 100% Phlebotomus papatasi 98% Drosophila melanogaster 98% а outgroup Branchiopoda Maxillopoda Malacostraca Myriapoda Chelicerata г Hexapoda outgroup ж outgroup к Hexapoda # rank item # 1 а # 2 б # 3 в # 4 г # 5 д # 6 е # 7 ж # 8 з # 9 и # 10 - Maxillopoda Branchiopoda б Hexapoda outgroup д Branchiopoda Maxillopoda Malacostraca Myriapoda outgroup Chelicerata Hexapoda в outgroup Maxillopoda Branchiopoda е Hexapoda Malacostraca Myriapoda outgroup Chelicerata Maxillopoda Branchiopoda з Branchiopoda Maxillopoda Malacostraca Chelicerata outgroup Myriapoda obs au np -9.1 0.861 0.616 9.1 0.312 0.118 9.6 0.298 0.109 19.2 0.271 0.086 25.0 0.191 0.038 25.2 0.172 0.034 35.1 0.021 0.002 40.9 0.014 0.001 41.4 0.017 0.001 140.0 1e-007 2e-007 Malacostraca Myriapoda Chelicerata и Hexapoda Malacostraca Chelicerata outgroup Myriapoda | | | | | | | | | | | bp 0.612 0.115 0.109 0.086 0.040 0.035 0.002 0.001 0.001 0 pp 1.000 1e-004 7e-005 5e-009 1e-011 1e-011 6e-016 2e-018 1e-018 2e-061 kh 0.806 0.194 0.178 0.152 0.117 0.115 0.016 0.016 0.015 0 sh 0.994 0.912 0.902 0.830 0.771 0.765 0.636 0.574 0.569 0.054 Hexapoda Maxillopoda Branchiopoda Malacostraca Myriapoda Chelicerata Hexapoda Maxillopoda Branchiopoda Malacostraca Myriapoda Chelicerata Hexapoda Maxillopoda Branchiopoda Malacostraca Chelicerata Myriapoda wkh wsh 0.806 0.999 0.194 0.761 0.178 0.726 0.152 0.697 0.117 0.644 0.115 0.622 0.016 0.126 0.016 0.151 0.015 0.144 0 6e-005 | | | | | | | | | | | MP Длина Число деревьев деревьев минимальная длина ветви BP 2689 1 2690 4 2691 4 2692 10 2693 27 2694 51 2695 113 2696 189 2697 344 2698 517 2699 933 2700 1448 2701 2260 2702 >2850 Ecdysozoa “Scolecida” 133 белоккодирующих генов (31 089 позиций аминокислотного выравнивания) 133 генов 133 белок-кодирующих protein-coding genes (31,089позиций amino acid positions) выравнивания) (31,089 аминокислотного Baurain et al. Lack of resolution in the animal phylogeny: Closely spaced cladogeneses or undetected systematic errors? Mol. Biol. Evol. 24(1):6–9. (2007) A B C A B B C τ A C τ корень корень корень Три корневых дерева идентичной топологии, отличающейся дистанциями между операциональными таксномическими единицами (A, B, C). 59 Pellioditis marina 0.1 100 100 68 97 85 61 60 54 86 80 Pellioditis typica Cruznema Haemonchus Caenorhabditis elegans Protorhabditis Diploscapter Rhabditiodes regina Teratorhabditis Mesorhabditis Pelodera teres 100 Diplogaster Rhabditioides inermis Brevibucca Zeldia Meloidogyne Steinernema 63 Strongyloides 62 Panagrolaimus 50 Cuticularia Rhabditoides inermiformis 98 Myolaimus 76 Teratocephalus Plectus 64 64 100 Ascaris 98 Gnathostoma Cylindrolaimus 65 Daptonema 92 Desmodora Paracantonchus 100 Prismatolaimus Trichodorus 9894 Trefusia Enoplus Longidorus 74 NEMATOMORPHA (Gordius) PRIAPULIDA (Priapulus) 58 66 ARTHROPODA (Craterostigma) TARDIGRADA (Macrobiotus) 100 ROTIFERA (Brachious) ANNELIDA (Glycera) GASTROTRICA (Chaetonotusi CNIDARIA (Atolla) 52 Pelodera strongyloides Pelodera punctata Условия притяжения длинных ветвей (Long Branch Attraction) Joe Felsenstein Число признаков не является параметром! Felsenstein J. 1978. Cases in which parsimony or compatibility methods will be positively misleading. Syst. Zool. V. 27. № 4. P. 401-410. Эффект притяжения длинных ветвей (по: Felsenstein, 1978). (а) Схема возникновения неправильного объединения на бескорневом дереве. При вероятности мутации p, меньшей q2, метод максимальной экономии дает устойчивое объединение неродственных длинных ветвей (1 и 3). (b) На корневом дереве внешняя группа 1 притягивает к себе длинную ветвь 3, маскируя её длину и затрудняя распознавание. При этом нарушается топология дерева. Locusta migratoria 98% Gryllus bimaculatus 100% Hodotermopsis sjoestedti 70% 0.1 Nilaparvata lugens 98% Apis mellifera 95% Парафилия Crustacea относительно Hexapoda Tribolium castaneum 100% Pediculus humanus 90% Diaphorina citri 98% Hexapoda Acyrthosiphon pisum 100% Onychiurus arcticus 69% Folsomia candida 42% Collembola Daphnia pulex 97% Artemia franciscana 99% Lepeophtheirus salmonis 44% Homarus americanus 81% Litopenaeus vannamei 92% Peracarida 31% Mesobuthus gibbosus 31% Chelicerata Carcinoscorpius rotundicauda 13% Anoplodactylus eroticus 98% Scutigera coleoptrata 85% 0.50 Myriapoda Onychophora 84% 0.59 0.50 0.50 Xiphinema index 90% Echinoderes horni 85% Priapulus caudatus 55% outgroup Caenorhabditis elegans 100% Toxocara canis 82% Hypsibius dujardini 86% Richtersius coronifer 60% Spinochordodes tellinii 19% Ecdysozoa без Arthropoda Acanthoscurria gomesiana 70% Ixodes scapularis 97% Malacostraca “Entomostraca” Aedes aegypti 100% Phlebotomus papatasi 98% Drosophila melanogaster 98% Huelsenbeck et al. (1996: Figs 2 and 3) ТРУДНО Монофилию Holozoa выявить ЛЕГКО Монофилию многоклеточных и воротничковых жгутиконосцев выявить Bilateria Cnidaria Porifera Ctenophora Ctenophora Cnidaria Porifera Placozoa Bilateria Cnidaria Placozoa Porifera Bilateria outgroup outgroup 104 белоккодирующих гена 150 белоккодирующих генов outgroup 51 генов (РНК- и белоккодирующие гены) Dunn et al. Nature, 452, Srivastava et al., Nature, 454, Sierwater et al., PLoS Biol, 7:1, (2008) (2008) (2009) Bilateria Cnidaria Porifera: Homoscleromorpha Placozoa Porifera: Demospongia Ctenophora outgroup 1487 белоккодирующих генов Hejnol et al. Proc. R. Soc. B, (2009) Bilateria Placozoa Cnidaria Ctenophora Porifera outgroup 150 белоккодирующих генов Pick et al., Mol. Biol. Evol., 27:1983-1987, (2010) 41 39 42 43 A GA UAACG G A U A G C ACU G C A UU A A AC A CCG CCU CU A A AG GC A A AUUUU UC A GG C U UG UU U GG A G A U U UC U G U U U GU UG AG G CU A G U U AG G U A A G UG U C U G C A A U G G U A G U A A U A GC A A G U A C U GC G C G U A C G U A C U G CA G U C G A U GAG C G UC A C G U G G CUG UU A UC AAA U U G U G U AG A U U U UU UUG A U C C U GG C A G GC G A G G A G A U G C U U A U UU G C A UG C U U G CG C GG G C UC G U A G A C G U G C A U G C UG G U U C AA A A G AGA G C U C U G U U AC U A C U A U A UA A A G G A A U A C G U G C C G A GC C GU U C G A U GCG U C U G C U G G U U CG AG U A AG CC G C A A U U U A G C A A U AAA C G CCGG U C G G CCU UGU GA GC GA A C G G C U GG A U G G CU U GG G U C A GG C A AC G G A C G G C GG U A C U G U G C A U CG A C G C C G AG C G G C A A C G U U U C A A C G A U C C A G GA UA U U G U GC U A A U C G A G C G A U A A G G GC GA U C C CA A U A G C C G U U G U U GG GC G C GG U U G U A C C G G U G UU C G A UU A C U AA CC C A A AG G G C U C G U G UU A A U GA CCGGGA A ACU U G A AG C G A C A U GU U U U G CG CGC GU C C CU A U C GA UA A A C C AA C U A C G A G U A A GC UAAAA A G G G G A U A CA C G C U CAA A GCA A A G A A CU U G AU A A G U A C A AU GA AC G U A C A C A G GC G U G U UGGAAU A A UA C G U A U U A A UGA CG A U UG C U CG G GGG U G U A C G G A ACU G A UG UU U A G A A A U GU U AUU G U G CU CU C U G G A A C A G AU U A C U A A U G GG G A U G G UUA C U A U A A U G C U CG GG A A G C A G CC G A CA A G UC A CG U AUU C U G C CUAUUC G A A U U G U A C G A G U C U U G CUUA G C A A C G U A GG U GG C A G U A A G G A U U U G U C AA U C UGAC GA AGGGC A A AGGA AA C U G C AU A G G U UC GG A C UG U U U C C CG U U U G A G G A C C GU C C U U U U U C C GAUU U C U G U G U CA G CA C CUGGU U G A U G U G C A U G C UG C U A G U G C A UG C U AC CG C U C C C C U C C U U A U C U U U A A G A C A G C AU U AA U A A CA C GU A G C U U U G U G G G U UU AG U G CG C G C C C G U U G U C C A AA CG G CG A U G G U UG GCCG C C A A C C GGUC G AG G C AA C UC G UC G C GG CG CU A C A G o C U U G A U U G A U AUU AC U C U UCCUU AUCUAU A G U G GU U C A GG A C C C A GA A A A A A AC UA G U G A AU CU U U U A AC UA A CA G G G A G A AA C A U G U A GG UG A G A U U AGA GA G AUU AUU A UU UG U A A A G A A G CC A UA AU A U UA A AC G U G CU UU C GCAC G A C AC GA G AG AG A U G C A C G CU C A U UU UGA G CA G A A CG C C G CA GG A U C A U A G G C G A UA G G A A AUCC CC UAA C C AUC GC U AG C GG CUCG G U AG C U C CA A A GA A G G GU U GA A C G G C CU G U UA A C A A G C C GC A A GGC G U G C C A C GC G G A A UUUG CG AACGGCU ACC G UU A A A GC AUG A G C G UG C C G A G G G G A CU AG UC U CG GG AA G A G UC UUU UU UC G C G A A CG U AG A U CG GU G A AG G C GAC G A CG U G C CAA A GGGUUC UCCG A U AUU A A G A GG C U U C A A A A o C U o GUA G A o U ACGG C o A U C GG U U AU G C CA U CA C U A CU AC G U A UU A GCGC UG GC U UC GC U U UG A GU GC AU A UA A UG A UU C A U U A U UU C G U AUUUAU AG G U A A G CGCAC CG U C GCGA U U CCUGG C C A A GCU C A A A U AC UG GUAA G CG C UG A G U C G AA C C C CAG G AA U U C UA A C G U C C A A A A U U U C UG A A AU G AU GC U GA U G C A UC C U G C A A G A G G G C U A A UU UUGG A A C U AG C C A A AC C U G CU G A CAC G A C C GC U GC G U CG U 18S рРНК Enoplus brevis U88336 40 44 38 25 37 29 26 36 24 27 E23_12 E23_9 E23_13 E23_14 46 28 23 34 35 30 45 E23_11 33 31 E23_10 E23_8 E23_4 E23_1 32 2 22 47 21 E23_7 1 3 20 19 48 4 18 6 49 5 16 15 17 14 7 50 13 12 8 9 11 E10_1 10 UPGMA – Uweighted Pair Group Method using Arithmetic averages (невзвешенный парно-групповой метод с арифметическим усреднением) Если гипотеза молекулярных часов правильно описывает эволюцию, то правильно построенное дерево будет не только аддитивным, но будет выполнено дополнительное, более строгое условие: в дереве будет точка (корень), равноудаленная от всех висячих вершин. Такое дерево называют ультраметрическим. Все пути по ультраметрическому дереву (ориентированному графу) к любым висячим вершинам, выходящие из любого внутреннего узла, также будут равны (все современные виды прошли в точности одинаковое расстояние от их общего предка). Если в таком дереве взять за точку отсчета вид (висячую вершину), не принадлежащую к некоторой подгруппе (поддереву), то расстояние от него до всех видов подгруппы должно быть в точности одинаковым (тест относительной скорости (Sarich, Wilson, 1973). Понятие ультраметричности относится не только к дереву, но и к данным. Если для любой тройки ОТЕ расстояния в матрице либо все равны, либо два равны, а третье меньше, то матрица ультраметрическая. Доказано, что по ультраметрической матрице всегда можно построить ультраметрическое дерево. Тест относительной скорости на соотвествие эволюции гипотезе молекулярных часов Условие «четырех точек» 0,1 A a c C x d b B dAB + dCD < dAC + dBD D dAB + dCD < dAD + dB C dAD + dBC = dAC + dBD Условие «четырех точек» позволяет находить соседние ОТЕ на дереве, несмотря на то, что расстояние между ними не минимальное. Расстояния между ОТЕ известны из матрицы, но заранее не известно, какие ОТЕ соседние. Длина пути между ОТЕ в аддитивном дереве равна значениям в матрице парных расстояний. Сравним суммы расстояний между двумя парами ОТЕ, согласно правилу, понятному из приведенной записи. Следуя этому правилу, из четырех ОТЕ (и шести парных дистанций в матрице) можно составить три пары для суммирования. Пусть А и В соседние (см. рис.), тогда известное расстояние dAB между ними в дереве представлено в виде суммы отрезков a и b. Аналогично, известное расстояние dAC между видами A и C – это в дереве сумма отрезков a, x, c. Если в сумму войдет дистанция между А и В – парой соседних ОТЕ, то, согласно выбранному правилу, другим слагаемым (dCD) автоматически окажется тоже дистанция между парой (другой) соседних между собой ОТЕ. Такая сумма будет меньше, чем сумма расстояний между ОТЕ, не являющихся соседними, так как в последнюю, к сумме длин ребер, ведущих в висячим вершинам, добавляется удвоенная длина внутреннего ребра x. Сумма двух пар дистаниций между ОТЕ, не являющимися соседними, будет, как легко в этом убедиться, одинаковая. Метод UPGMA объединил бы ОТЕ A и C, поскольку между ними минимальное расстояние, но такая топология не удовлетворяет условию «четырех точек». Применяя это условие, можно не только найти правильную топологию, но и, при условии аддитивности, однозначно вычислить длины всех ребер дерева. Поскольку получаемое при этой процедуре дерево бескорневое, из него нельзя сделать вывод, что, например, соседние ОТЕ A и B сестринские. Для такой филогенетической интерпретации недостаточно данных, именно, не указано положение корня, которое необходимо установить дополнительными методами. Если корень не попадет на отрезки a и b, то A и B будут сестринскими. При любом из 5 возможных положений корня (по числу ребер на дереве) OTE, например, A и C сестринскими не будут (по: Li, 1997). Деревья с мультифуркациями: примеры совместимых и несовместимых деревьев. A B C D E F A B C B C D г E F A B C б а A D E F A C B E F E D F в D д D E F A B C е Дерево а совместимо с любым из деревеьев б, в, г, д; из последних совместимы только б и в; дерево г совместимо с тремя не изображенными бинарными деревьями, а дерево е не совместимо ни с каким другим на рис. 6. Расширение понятия совместимости на деревья с частично несовпадающим набором ОТЕ. A B D H а E F A H C D б E F A E H G D F в После исключения специфических ОТЕ B, C, G деревья, производные от а и б, приобретут идентичную топологию; с деревом, производным от в, этого не произойдет.