ГЛАВА 5 МЕТОДЫ АНАЛИЗА ЭВОЛЮЦИОННЫХ ОТНОШЕНИЙ МЕЖДУ ПОСЛЕДОВАТЕЛЬНОСТЯМИ ГЕНЕТИЧЕСКИХ МАКРОМОЛЕКУЛ Для выяснения филогенетических взаимоотношений между различными видами организмов и уточнения времени их дивергенции используются методы определения эволюционных дистанций, основанные на сравнении нуклеотидных последовательностей гомологичных генов или аминокислотных последовательностей соответствующих белков. В определенной мере по степени сходства нуклеотидных последовательностей гомологичных генов организмов различных видов можно судить о степени филогенетического родства представителей этих видов. Визуализация филогенетических отношений осуществляется с помощью дендрограммы – чертежа, отражающего родственные связи между генетическими макромолекулами. По структуре дендрограмма напоминает разветвлённое дерево. Нами изложены только общие принципы основных методов построения дендрограмм, сами же математические алгоритмы этих методов сложны для восприятия и воспроизведения. В настоящее время дендрограммы строятся исключительно при помощи специальных компьютерных программ. В качестве объектов для демонстрации основных достоинств и недостатков наиболее широко используемых методов построения дендрограмм нами были выбраны нуклеотидные последовательности мРНК, кодирующих аденилатциклазы актиномицетов: Mycobacterium tuberculosis H37Rv (Rv1625c /AF017731/ и Rv1264 /BX842576/), Mycobacterium bovis (Mb1295 /NC_002945/ и Mb1651c /BX248339/), Streptomyces coelicolor (sco4928 /AL939121/ и cya /X74768/), Corynebacterium glutamicum (NCg10306 /NC_003450/ и Cg10311 /AP005274/), Streptomyces griseus (CyaA /AB018557/), Thermobifida fusca (Tfus1956 /NZ_AAAQ01000037/) и Brevibacterium liqefaciens (cya /X57541/) и цианобактерий: Anabaena cylindrica (cya /D55650/), Anabaena variabilis (cyaA /D17710/), Anabaena sp. (cyaA /D89622/, cyaB1 /D89623/, cyaB2 /D89624/, cyaC /D89625/ и cyaD /D89626/), Spirulina platensis (cyaG /D49531/), Nostoc sp. (all0661 /AP003583/), Thermosynechococcus elongatus (tll2280 /AP005376/) и Synechocystis sp. (cyaA /D90902/). Для построения дендрограмм нами был использован пакет программ MEGA 3 (Molecular Evolutionary Genetics Analysis). Частями дендрограммы являются 1) корень, 2) ветви и 3) последовательности. Взаимное расположение ветвей называется топологией. Длина ветви – расстояние от корня или от последнего разветвления до её конца. Под дендрограммой обычно указывается её масштаб – отрезок, равный определенному эволюционному расстоянию (рис.5.1). Существует несколько форм построения дендрограмм: традиционная (рис.5.1, 5.4, 5.5, 5.6), радиальная (рис.5.2, 5.3) и круговая. Среди всех ныне существующих методов построения дендрограмм выделяются две основные группы: а) дистанционно-матричные методы; и б) дискретные методы. корень группы ветвей (кластеры) последовательности длина ветви Thermosynechococcus Anabaena CyaA Synechocisticus CGl. 0306 SpirCyaG Nostoc MtCya Mb1651c Mb1295 Mt1264 SCoel. масштаб BLiq 0.2 Рис. 5.1. UPGMA-дендрограмма в традиционной форме, построенная на основании эволюционных дистанций, вычисленных методом p-distance. 5.1. ДИСТАЦИОННО-МАТРИЧНЫЕ МЕТОДЫ Эти методы создают дендрограммы по принципу объединения наименее отличающихся последовательностей или групп последовательностей. Для этого последовательности выравниваются и попарно сравниваются друг с другом, после чего высчитываются их эволюционные дистанции с помощью одного из вышеописанных методов (см. главы 1-3). Нами с этой целью использовался сравнительно простой метод p-distance. Созданная на основе вычисленных эволюционных дистанций числовая матрица данных преобразуется в графическую модель эволюционного дерева (дендрограмму) на основе принципов кластерного анализа. Пары наименее различающихся последовательностей объединяются в кластеры первого порядка, наименее различающиеся кластеры первого порядка – в кластеры второго порядка и т.д. В этом заключается принцип действия так называемых дистанционно-матричных методов. Еще раз хочется подчеркнуть, что перед определением эволюционных дистанций последовательности выравниваются. Из этого следует вывод, что размер и характер выборки может существенно повлиять на значения коэффициентов сходства за счёт изменения распределения участков, по которым проводится сравнивание. Зачастую корректность выравнивания последовательностей и метод вычисления эволюционных дистанций оказывают гораздо большее влияние на топологию и длины ветвей дендрограммы, чем собственно метод её построения. 03 06 M tC ya l. CG CGl. 0311 Thermosynechococcus na riabilisD Anabaena Va a Cy ae ab An Метод связывания ближайших соседей (Neighbour-joining – NJ). Это самый распространенный дистанционно-матричный метод. В начале построения NJ-дедрограммы выбирается одна из последовательностей и An сравнивается поочередно со ab ae na всеми остальными. По Anab C ae ya na C результатам сравнений Cy lin dr ica определяется её «ближайший Ana bae na C сосед». После этого yaB Mb1651 c 2 определяется сходство между Anabaena CyaB1 данной парой SpirCyaG s последовательностей и всей icu cist No echo n y sto S остальной выборкой. Далее A a c Cy a n такая же процедура ae ab n A производится для всех Mb 129 оставшихся 5 последовательностей, но уже Рис.5.2. NJ-дендрограмма в радиальной форме, без определенной ранее пары. построенная на основании эволюционных Описанный выше цикл дистанций, вычисленных методом p-distance. повторяется до момента исчерпания выборки. В конечном итоге получается дендрограмма без корня, которая лучше воспринимается в радиальной или круговой форме. При построении дендрограммы NJ-методом в традиционной форме местом «мнимого корня» 264 Mt1 BLiq TFus. 1 956 SG ris . . oel SC 0.1 MtC ya 264 M t1 B L iq TF u s. 1 956 SG r is . na Mb1 295 ae Ther mosy nech ococ cus ab ilis a V aria b aD Cy An An abaen является наибольшее расстояние между двумя последовательностями. При создании матрицы учитываются различия в скоростях эволюции последовательностей генетических макромолекул. В результате этого удается An ab избежать внесения помех в ae na Cy расчеты и ошибочного l in dr c A ic 51 na кластерирования, но a 16 ba b en M aC исключается возможность ya aG C Cy r i Sp применения принципа Anabaena CyaB 2 «молекулярных часов», то есть Nostoc 1 aB Cy при использовании NJ метода Anabaena нельзя рассчитать примерное icus cist CCGl. 0311 ch o e G n время дивергенции между Sy l. 03 aA y C 06 a изучаемыми гомологичными n e a ab генами. An . o el Метод минимальной SC эволюции (Minimum evolution – ME). По своей сути ME-метод является усложненной модификацией NJ-метода. Рис. 5.3. ME-дендрограмма в радиальной форме, Особенностью ME-метода построенная на основании эволюционных является то, что на дистанций, вычисленных методом p-distance. промежуточном этапе строится множество дендрограмм, полученных на основе алгоритма, аналогичного таковому в NJ-методе. Все эти промежуточные дендрограммы отличаются друг от друга лишь первой парой последовательностей, то есть в каждой из дендрограмм процесс построения начинается с новой пары и приводит к некоторым изменениям в длинах ветвей. На заключительном этапе из всех построенных ранее дендрограмм в качестве конечной выбирается та, в которой общая сумма длин ветвей имеет наименьшее значение. Разработчики данного метода исходили из предположения, что наиболее правильный вариант дедрограммы должен отражать принцип минимума эволюционных расстояний. 0.1 Метод попарного невзвешенного кластирования с арифметическим усреднением (Unweighted pair-group method using arithmetic averages – UPGMA). С помощью метода UPGMA можно построить дедрограмму с корнем. Пары последовательностей, между которыми эволюционные дистанции минимальны, группируются в первую очередь и оказываются на соседних ветвях дендрограммы. Эволюционное расстояние между двумя парными последовательностями равно двойной длине их ветви. Расстояние между двумя группами последовательностей равно среднему от коэффициентов сходства каждой последовательности из одной группы с каждой последовательностью из другой. Anabaena CyaA Synechocisticus При построении Anabaena CyaB1 Anabaena CyaB2 дендрограммы этим методом Thermosynechococcus Anabaena CyaD скорость эволюции для всех Anabaena Variabilis MtCya последовательностей Mb1651c SpirCyaG принимается единой (работает Nostoc Anabaena CyaC принцип «молекулярных часов»). Anabaena Cylindrica В связи с этим, использовать CGl. 0311 CGl. 0306 UPGMA рекомендуется только Mb1295 Mt1264 для выяснения эволюционных BLiq TFus. 1956 отношений между генами в одном SGris. SCoel. филогенетическом ряду организмов. В обратном 0.05 случае, когда скорости Рис.5.4. UPGMA-дендрограмма в традиционной мутационных замен в выборке форме, построенная на основании эволюционных значительно варьируют, дистанций, вычисленных методом p-distance. UPGMA-дендрограмма не сможет отразить истинных филогенетических связей. 5.2. ДИСКРЕТНЫЕ МЕТОДЫ Дискретные методы имеют дело непосредственно с последовательностями MtCya нуклеотидов или Mb1651c аминокислот, а не с их Spirulina Nostoc коэффициентами сходства. Str. coelicolor Сам же алгоритм Mb1295 Mt1264 вычисления эволюционных Thermosynechococcus дистанций встроен в метод Anabaena CyaA Anabaena Cylindrica построения дендрограммы. Corynebacterium Один из этих методов Рис.5.5. Дендрограмма, построенная MP-методом в называется методом традиционной форме (только топология). максимальной экономии (Maximum parsimony – МР). В этом методе весь массив выровненных последовательностей анализируется целиком. Свое название этот метод получил из-за того, что с его помощью можно построить дендрограммы на основании сравнения последовательностей только по наиболее информативным положениям. К ним относятся те положения в выровненных последовательностях, в которых минимум два разных нуклеотида (или две разные аминокислоты) встречаются хотя бы два раза. Первый этап MP-метода заключается в определении индексов сходства по наиболее информативным положениям и построении дендрограмм со всеми возможными топологиями на основании этих индексов. На втором этапе для каждой последовательности рассчитывается минимальное число нуклеотидных (или аминокислотных) замен в наиболее информативных положениях, которые могли бы привести к существующей дивергенции. Эта процедура производится для всех возможных топологий. В результате из всех дендрограмм, построенных на первом этапе, выбирается та, в которой общая сумма возможных замен для всех последовательностей является минимальной. В связи со спецификой данного метода, его обычно используют для выяснения родственных отношений между эволюционно близкими генами (белками) с примерно одинаковой скоростью эволюции. Также на достоверность полученных данных влияет общая длина последовательностей (желательно – более 5 – 10 тысяч нуклеотидов) и их количество (от 4 до 20). Большинство исследователей предпочитают отражать на MP-дендрограммах только топологию. 5.3. СТАТИСТИЧЕСКОЕ ПОДТВЕРЖДЕНИЕ КОРРЕКТНОСТИ ДЕНДРОГРАММ Для статистического подтверждения Mb1295 Mt1264 корректности Str. coelicolor дендрограмм было Corynebacterium MtCya предложено много Mb1651c методов, однако большая Thermosynechococcus Anabaena CyaA часть из них основана на Anabaena Cylindrica алгоритме бутстрэп Spirulina Nostoc (bootstrap). Для каждого метода построения дендрограмм существует несколько специальных разновидностей bootstrap Рис.5.6. MP-дендрограмма с рис.5 после обработки тестом bootstrap. метода. Общий его принцип состоит в создании нескольких сот новых последовательностей из случайным образом перемешанных участков исходных, и построении на основании сравнения новых последовательностей множества дендрограмм с использованием того же метода. Если положение ветви в одной из новых дендрограмм соответствует её положению в исходной, индекс BCL (bootstrap confidence level) данной ветви принимает значение 1, в обратном случае BCL – 0. Такая процедура выполняется для каждой вновь построенной дендрограммы (то есть, несколько сот раз), и каждый раз индексы BCL определяются для всех ветвей. Далее для каждой ветви вычисляется среднее значение BCL (результат деления суммы значений всех индексов на количество дендрограмм). После этого строится согласованная с тестом вootstrap дендрограмма, в которой средние значения BCL для каждой ветви должны быть больше 0,95. Следует отметить, что корректные результаты вышеописанный статистический тест даёт только если исследуемые последовательности содержат достаточное число нуклеотидов (или аминокислот). Интересной особенностью Bootstrap теста для UPGMA-дендрограмм является удаление корня. В процессе случайного «перемешивания» участков последовательностей нарушается порядок их расположения, в результате чего последовательность с относительно большим числом нуклеотидов проявляет низкое сродство со всеми относительно короткими последовательностями. Таким образом, тест Bootstrap должен применяться только для выборок с примерно одинаковыми длинами последовательностей. 5.4. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДЕНДРОГРАММ, ПОЛУЧЕННЫХ РАЗНЫМИ МЕТОДАМИ На рис.5.2, рис.5.3 и рис.5.4 (NJ, ME и UPGMA-дендрограммы, соответственно) мРНК аденилатциклаз спирулины и ностока, а также двух ферментов микобактерий (Mtcya и Mb1651c) располагаются на одной общей ветви, отделенной от ветви всех остальных актиномицетов и ветви всех остальных цианобактерий. Подобная картина, только с меньшим числом последовательностей, наблюдается и на рис.5.1 (UPGMA-дендрограмма). Ранее нами показано, что аминокислотные последовательности активных центров аденилатциклаз спирулины, ностока, Mtcya и Mb 1651с проявляют большое сходство как между собой, так и с аналогичными участками аденилатциклаз человека. Этот факт даёт основания для предположения о возможности латерального переноса генов- предшественников данных мембраносвязанных аденилатциклаз от многоклеточных животных к циано- и микобактериям. На рис.5.5 (MP-дендрограмма) мРНК аденилатциклаз спирулины, ностока и двух ферментов микобактерий расположены на одной ветви. Однако после обработки этой дендрограммы тестом bootstrap (рис.5.6) мРНК аденилатциклаз актиномицетов полностью отделяются от аналогичных мРНК цианобактерий. С большой долей вероятности можно полагать, что это связано с разницей в длине мРНК аденилатциклаз актиномицетов (в среднем 1200 нуклеотидов) и цианобактерий (в среднем 2150 нуклеотидов), а также с нарушением выравнивания последовательностей, то есть, с утерей «зёрен сходства» между ними. В заключение хочется отметить, что теоретические и статистические основы всех вышеописанных методов визуализации филогенетических взаимоотношений между молекулами биополимеров были неоднократно проверены с помощью компьютерных симуляций. Согласно результатам этих исследований, NJ, ME, UPGMA и MP методы позволяют строить дендрограммы, которые с высокой степенью вероятности отражают истинные филогенетические отношения. Тем не менее, среди всего многообразия методов построения дендрограмм следует выбирать только те, которые отвечают целям и задачам исследования, то есть, могут корректно (с учетом особенностей сравниваемых последовательностей) работать с данной конкретной выборкой.