2. Наблюдение элементарных эволюционных событий в ближайших гомологах Поскольку ближайший гомолог оказался не слишком близким (92% совпадений), то для изучения был взят фрагмент длиной 100 аминокислотных остатков и соответствующий фрагмент гена длиной 300 нуклеотидов. Постройте два полных парных выравнивания: 1) выравнивание белка DTD_ECOLI и его ближайшего гомолога (фрагмент): Розовым цветом выделены аминокислотные остатки, подвергшиеся замене. 2) выравнивание их генов (фрагмент): Зеленым цветом выделены кодоны, в которых произошла замена одного или нескольких нуклеотидов. Фиолетовым цветом выделены нуклеотиды, замена которых не повлекла за собой аминокислотных замен, розовым – замены, которые привели к аминокислотным заменам. а) Какие элементарные эволюционные события повлекли за собой аминокислотные замены? Отдельно опишите каждый случай, используя стандартный генетический код. На изучаемом фрагменте есть шесть аминокислотных замен. Все они приведены в таблице, вместе с вызвавшими их заменами нуклеотидов: DTD_ECOLI № 17 25 36 59 95 98 а/к G A D E K S g g g g a t Кодон g a c g a t a a a a c a Ближайший гомолог а/к Кодон D g a t P c c a E g a a D g a c G g g c A g c g Красным цветом выделены нуклеотиды, подвергшиеся замене, зеленым – оставшиеся неизменными. Интересно, что во всех из шести случаев произошла замена третьего нуклеотида. В третьем и четвертом случаях (36-й и 59-й аминокислотные остатки) этого оказалось достаточно для аминокислотной замены. Во втором и последнем случаях (25-й и 98-й аминокислотные остатки) заменялся, помимо третьего, и первый нуклеотид – одной этой мутации было бы достаточно для аминокислотной замены. В первом случае (17-й аминокислотный остаток), помимо третьего нуклеотида, был заменен и второй – этой мутации также было бы достаточно для аминокислотной замены. И, наконец, в пятом случае (95-й аминокислотный остаток) замене подверглись все три нулеотида. Получается, количество нуклеотидных замен избыточно по сравнению с аминокислотными, даже если рассматривать только несинонимичные замены. б) Сколько случаев синонимичных замен Вы наблюдаете? Сколько из них произошли в третьих позициях кодонов? Отдельно опишите остальные случаи. На исследуемом фрагменте 32 синонимичные замены. Все они произошли в третьих позициях кодонов. в) Каково соотношение синонимичных и несинонимичных замен нуклеотидов? Соотношение замен в несинонимичных (Ka) и синонимичных сайтах (Ks) Ka/Ks составляет 11/32 = 0,34. Это значение меньше 1, что указывает на сильное воздействие стабилизирующего отбора на белок. Действительно, по функции белок DTD_ECOLI является тирозил-деацилазой, и у него нет предпосылок к повышенной изменчивости. г) Составьте "матрицу замен" нуклеотидов: какие замены наблюдаются и в каком количестве. a 4 11 3 t 12 5 3 g 8 5 11 c 8 12 4 c g t a Известно, что в ДНК довольно часто встречаются неканонические пары A–C и G–T (они способны к достаточно устойчивому взаимодействию за счет образующихся между ними водородных связей). Исходя из этого, мы можем сделать вывод, что аденин должен часто заменяться на гуанин, а тимин – на цитозин (пурин на пурин, пиримидин на пиримидин). Это соответствует общему правилу: транзиции встречаются чаще, чем трансверсии. И действительно, в полученной матрице количество замен A–G и T–C оказалось наибольшим. По сравнению с ними, число других замен невелико, однако число замен G–C все же получилось довольно большим. 3. Исследование зависимости процента совпадений последовательностей белков от процента совпадений последовательностей их генов. Определите процент попарного совпадения последовательностей белков Вашей выборки, а затем процент попарного совпадения последовательностей их генов. p1 p2 p3 p4 p5 p6 Identity* 100 92 91 76 69 50 ID белка P0A6M4 Q57HI8 P58533 Q7N9S2 Q3QLG7 Q43W38 g1 g2 g3 g4 g5 g6 Identity* 100 86 85 69 66 56 ID гена AAD13449 AAX67824 AAL22867 CAE12537 EAN40775 EAM56956 p7 40 Q74IX3 g7 46 AAS09159 * – в выравнивании с исходным белком или геном. 2--3 1--2 1--3 2--4 1--4 3--4 1--5 2--5 3--5 4--5 1--6 2--6 3--6 4--6 5--6 4--7 5--7 3--7 2--7 1--7 6--7 Prot_ID 99 92 92 77 77 77 70 69 69 66 48 47 47 47 45 44 42 41 41 40 39 Gene_ID 99 86 85 68 69 68 66 67 65 60 56 55 55 51 50 51 40 47 47 46 43 Для определения процента совпадений используйте программу needle с параметрами по умолчанию. Напишите скрипт, позволяющий сразу получить все проценты совпадений. needle -aformat3 msf p1.fasta p2.fasta p12.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p1.fasta p3.fasta p13.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p1.fasta p4.fasta p14.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p1.fasta p5.fasta p15.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p1.fasta p6.fasta p16.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p1.fasta p7.fasta p17.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p2.fasta p3.fasta p23.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p2.fasta p4.fasta p24.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p2.fasta p5.fasta p25.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p2.fasta p6.fasta p26.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p2.fasta p7.fasta p27.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p3.fasta p4.fasta p34.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p3.fasta p5.fasta p35.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p3.fasta p6.fasta p36.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p3.fasta p7.fasta p37.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p4.fasta p5.fasta p45.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p4.fasta p6.fasta p46.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p4.fasta p7.fasta p47.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p5.fasta p6.fasta p56.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p5.fasta p7.fasta p57.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf p6.fasta p7.fasta p67.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g1.fasta g2.fasta g12.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g1.fasta g3.fasta g13.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g1.fasta g4.fasta g14.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g1.fasta g5.fasta g15.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g1.fasta g6.fasta g16.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g1.fasta g7.fasta g17.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g2.fasta g3.fasta g23.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g2.fasta g4.fasta g24.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g2.fasta g5.fasta g25.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g2.fasta g6.fasta g26.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g2.fasta g7.fasta g27.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g3.fasta g4.fasta g34.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g3.fasta g5.fasta g35.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g3.fasta g6.fasta g36.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g3.fasta g7.fasta g37.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g4.fasta g5.fasta g45.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g4.fasta g6.fasta g46.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g4.fasta g7.fasta g47.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g5.fasta g6.fasta g56.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g5.fasta g7.fasta g57.needle -gapopen 10.0 -gapextend 0.5 needle -aformat3 msf g6.fasta g7.fasta g67.needle -gapopen 10.0 -gapextend 0.5 На основе полученных данных постройте график, отображающий искомую зависимость. Сравните вид двух графиков: имеющегося в образце и полученного Вами. Опишите ваши выводы в небольшом "сочинении". DTD_ECOLI HAEM 100 80 80 60 60 Gene_ID Gene_ID 100 40 40 20 20 0 0 0 20 40 60 80 100 0 20 40 60 80 100 Prot_ID Prot_ID Основное отличие графиков состоит в том, что кривая DTD_ECOLI располагается ниже, чем кривая для гемагглютинина. Это означает, что, при одних и тех же значениях Identity белка, Identity гена выше у гемагглютинина. Изменчивость вируса гриппа общеизвестна. Изменения происходят в поверхностных антигенах вируса – нейраминидазе и гемагглютинине, который обеспечивает способность вируса присоединяться к клетке. Этот эволюционный механизм приспособляемости обеспечивает выживаемость вируса, потому что новые штаммы вирусов, в отличие от своих предшественников, не связываются специфическими антителами, которые накапливаются в популяции. Другими словами, в этом случае наблюдается сильное давление отбора в сторону разнообразия. Поэтому для гемагглютинина так важна изменчивость и в результате отбора закрепляются именно несинонимичные замены. Число синонимичных замен уменьшается, и Identity гена увеличивается. Кроме того, нельзя забывать о том, что механизм репарации бактерий отличается от механизма репарации вирусов. Сравним также процент содержания аминокислот, кодируемых двумя и четырьмя кодонами, в этих последовательностях: Аминокислоты, кодируемые двумя нуклеотидами Остаток C H Количество Гемагглютинин DTD_ECOLI 17 2 12 0 Аминокислоты, кодируемые четырьмя нуклеотидами Остаток A V Количество Гемагглютинин DTD_ECOLI 29 13 33 16 Q N K D E F Y Всего Длина белка Процент 16 46 42 19 41 20 26 239 566 42% 10 5 4 9 11 6 3 50 146 34% G P T Всего Длина белка Процент 42 18 31 153 566 27% 13 3 8 53 146 36% Содержание аминокислот, кодируемых шестью кодонами (S, R, L), не оказывает влияния, т.к. процент совпадает в обоих белках (21%). Аминокислоты, кодируемые одним и тремя нуклеотидами (W, M и I соответственно) также можно не учитывать, потому что их вклад слишком мал (меньше 5%). Можно видеть, что процентное содержание аминокислот значительно различается. В гемагглютинине много аминокислот, кодируемых двумя кодонами, и мало – кодируемых четырьмя. В этом случае вероятность появления синонимичной замены меньше, чем в DTD_ECOLI с противоположным соотношением, что также объясняет, почему график гемагглютинина проходит выше, чем график DTD_ECOLI.