Быстрые пути эволюции белков. Эволюционный домен. БД PFAM. План • Белок – продукт гена • Пути эволюции белков – Мутации ДНК и их следствия для последовательностей белков – Наблюдаемые явления в последовательностях белков • • • • локальные мутации повторы эволюционные домены мотивы и циклические перестановки – ДНК-метилтрансферазы – [эндонуклеазы рестрикции] – RdRP • БД Pfam • Другие ресурсы «Продукт» гена Г Е Н Г Е Н транскрипция процессинг (модификация РНК) Зрелые rRNA, tRNA и др. RNA РНКпредшественник Сплайсинг (у эукариот) пре-мРНК (предшественник) Трансляция mRNA (зрелая) mRNA (зрелая) Г Е Н пре-мРНК (предшественник) mRNA (зрелая) Посттрансляционная модификация Белок предшественник Белок предшественник Белок предшественник Что определяет последовательность белка: • сигнал начала трансляции • сигналы сплайсинга (эукариоты) • стоп-кодон • (редкие сигналы: запланированный сдвиг рамки, ….) • кодирующая последовательность Зрелый белок 1 (mature protein) Белок 2 Белок 3 Мутации ДНК и их следствия для последовательности белка • Мутации соматические и мутации наследуемые • Пресс отбора • Аллельные варианты (эукариоты) Мутации ДНК и их следствия для последовательности белка • Локальные мутации в сигналах – потеря стоп-кодона: • удлинение на С-конце за счет “случайной” последовательности • слияние белков (прокариоты) – потеря сайта инициации трансляции: • удлинение на N-конце за счет “случайной” последовательности • потеря части N-концевой последовательности – потеря донорного сайта сплайсинга (эукариоты) : • вставки “случайной” последовательности за счет включения интрона • замена C-концевой последовательности на случайную (при сдвиге рамки из-за вставки интрона в экзон) – потеря акцепторного сайта сплайсинга (эукариоты) : • делеция части последовательности из-за потери экзона • делеция части последовательности с заменой последующей C-концевой последовательности на случайную (при сдвиге рамки из-за потери экзона) Примечание. Варианты усложняются при альтернативном сплайсинге Мутации ДНК и их следствия для последовательности белка • Локальные мутации в кодирующей последовательности – замена нуклеотида: • последовательность белка без изменений • замена аминокислотного остатка – мутация типа indel без сдвига рамки: • делеция/вставка аминокислотных остатков – мутация типа indel со сдвигом рамки: • замена C-концевого участка на “случайную” последовательность • слияние белков (прокариоты) – образование стоп-кодона: • потеря C-концевой последовательности – двойная мутация типа indel с восстановлением рамки: • замена участка на “случайную” последовательность – образование нового сайта сплайсинга, донорного или акцепторного (эукариоты): • вставки “случайной” последовательности или делеции участков (много вариантов) Нелокальные мутации ДНК, которые могут изменять последовательности белков • Дупликация фрагмента ДНК – образование паралога – образование повтора в белке • Нерепликативная транспозиция – образование нового белка из частей старых – перестановка частей одного белка • Инверсия фрагмента ДНК Гомология нуклеотидных и аминокислотных последовательностей • При перечисленных видах мутаций ДНК, кроме вставок нескольких нуклеотидов, прослеживается потомком какого нуклеотида генома предка является данный нуклеотид. • При многих видах мутаций (но не всех!) то же верно и для аминокислотных остатков • Поэтому можно говорить о гомологичности последовательностей и их “букв” • Как правило, о гомологичности приходится судить по сходству последовательностей Частоты мутаций • Точечные: 10-11 --- 10-6 на сайт на поколение • Рекомбинация: ??? • при сравнении геномов бруцелл пара процентов замен ДНК ( 10000 замен на 1 млн. п.н.) и, очень грубо, несколько 1000 рекомбинаций (1000? на 1млн п.н.) Примеры сравнений геномов У далеких видов – E.coli и H.influenza – остаются общие гены и, иногда, порядок следования нескольких генов, но не более того! Сравнение двух штаммов et al. Вывод: • Наследуемые рекомбинации бактериальных геномов происходят достаточно часто; хотя по числу их и меньше, чем замен. Что же происходит с белками? Наблюдаемые события в эволюции белков • Замены, вставки, делеции остатков • Эволюционные домены: – протяженные сходные последовательности в разных белках, окруженные негомологичными участками – часто (но не всегда) участвующие в “премешивании доменов” – часто (но не всегда) последовательность изолированного домена имеет стабильную пространственную структуру – часто (но не всегда) домену можно приписать функцию Белки, содержащие два эволюционных домена: гомеодомен и OAR домен (N-концевые участки не показаны) Гомеодомены активно перемешивались в эволюции. • Об этом можно судить по 65(!) различным доменным архитектурам гомеобелков, представленным в банке Pfam Гомеодомен Парный домен и гомеодомен Lim домены и гомеодомен Гомеодомен, продолженный Лейциновой молнией POU домен и гомеодомен Два гомеодомена PBX-домен и гомеодомен Домены, найденные в последовательностях, часто, но далеко не всегда совпадают со структурными доменами. Накопленные данные показывают что существуют “структурные единицы” наследуемой рекомбинации – эволюционные домены; они переставляются/вставляются/удаляются, как правило, целиком Бывают исключения: пример - ДНК метилтрансферазы Вывод: • Домены – структурные единицы эволюции, структуры и функции белка Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции. Словарик Типы мотивов Типы подписей Сайт(site) Мотив (motif) – Паттерн (pattern) – Повтор (repeat)– Профиль–PSSM – Домен (domain) – Профиль–HМM - Семейство – ….. Суперсемейство - Простой пример: CCHC- цинксвязывающий мотив Подпись типа паттерн – CX2CX4HX4C Почему это интересно? Ничто удачное не должно пропасть даром • Точечные мутации медленный путь эволюции • Быстрый путь дупликация • Дуплицируются короткие фрагменты, домены, гены, кластеры генов, хромосомы, геномы • Вторая копия может приобрести новые функции Пример доменных перестроек: не только дупликации! 223 белка ЕС 4.1.2.25 243 белка ЕС 2.7.6.3 507 белков ЕС 2.5.1.15 • 25 белков • 9 белков • 2 белка • 12 белков Пример 4 Pfam • http://pfam.sanger.ac.uk • Большая коллекция семейств доменов Для каждого семейства есть множественное выравнивание и профиль-HMM . • Состоит из 2-х частей: PfamA – курируемая часть, покрывает 76% UniProt PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов, не вошедших в PfamA (раньше – ProDom, теперь – ADDA) . • Удобна для анализа доменной структуры белков. Язык Pfam : Семейство – коллекция гомологичных белков. Домен – структурная единица, которую можно найти во множественном выравнивании. Повтор – короткая единица, нестабильная сама по себе, но образует стабильные структуры, если есть много копий. Мотив – короткая единица структуры вне глобулярных доменов. Клан – группа родственных записей. Сравните Pfam Prosite Prints Blocks Smart (ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown) Создание интегрированной базы данных InterPro PROSITE PFAM Интегрирование PRINTS ProDom SMART родственных подписей «вручную» InterPro entries IPR000001- TIGRFAMs IPR011000 PIRSF SUPERFAMILY InterPro- an integrated resource of protein families, domains and functional sites. Collagen alpha-1(III) chain (HUMAN) … GPP GPA GFP GAP GQN GEP GGK GER GAP GEK GEG GPP GVA GPP GGS GPA GPP GPQ GVK GER GSP GGP GAA GFP … Гипотеза: коллагены возникли в результате тандемных дупликаций девятки пар нуклеотидов (?)