Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать? Что хотим найти ? НАД-связывающий сайт/центр Домен, связывающий сахар Сайты возможной посттрансляционной модификации (РТМ) ДНК-связывающий домен Суперсемейства Ортологи Гомологичное семейство: особенности последовательностей, характерный тип структуры, функции, таксономия и т.п. Семейство 1 Семейство 2 Семейство 3 Основные понятия и термины • Место, сайт(site) - • Паттерн (pattern) – • Позиционно специфическая матрица весов (PSSM) – • Профиль–PSSM – • Профиль–HМM • Подпись (signature) – • «Oтпечатки пальцев» (fingerprints) – • Кластер - • Мотив (motif) – • Домен (domain) – • Семейство – • Суперсемейство - ? Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно независимо сворачивающаяся структура, относительно консервативная в процессе эволюции. Белки могут состоять из одного или многих доменов. nitrogen fixation positive activator protein Мотив ? • Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. • Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры (-спираль, шпилька, -поворот). В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены. Не в любом выравнивании легко найти мотив. Интуитивно понятно: Семейство - группа белков, имеющая общее происхождение. Аминокислотные последовательности выравниваются по всей длине со значимым весом и имеют сходную доменную структуру. Мнения расходятся, когда речь идет о критериях: насколько должны быть похожи белки одного семейства (id>=30%, id>= 50%) ??? должны белки одного семейства иметь в точности одну и ту же доменную структуру? Superfamily Family Subfamily Не корректнее ли говорить о семействах доменов? Основные понятия и термины • Место, сайт(site) - • Паттерн (pattern) – • Позиционно специфическая матрица весов (PSSM) – • Профиль–PSSM – • Профиль–HМM • Подпись (signature) – • «Oтпечатки пальцев» (fingerprints) - • Мотив (motif) – • Домен (domain) – • Семейство – • Суперсемейство - ? Банки белковых семейств и доменов, производные от банков аминокислотных последовательностей Коллекции мотивов Коллекции доменов PROSITE , 1989 BLOCKS PRINTS Pfam SMART ProDom, 1995 SUPERFAMILY InterPro, 1999 (Integrated Resource of Protein Families) БД белковых доменов, семейств и функциональных сайтов. Содержит описание объектов + описание паттернов, профилей и правил для их обнаружения. Выравнивание хорошо изученного семейства Функционально важные остатки 4-5 консервативных остатков Паттерн Поиск в SP Если находим только«правильные», то ОК Если много лишнего, то увеличиваем паттерн Паттерн – регулярное выражение UNIX’a: [AC]-x-V-x(4)-{ED} Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu и не Asp) PROSITE - биологически значимые сайты, паттерны и профили, http://www.expasy.ch/prosite/ F F Y F F L F K K P P K E K L A I V V F L L F V V L I L S H C G K A S G Q E A E N E A V C V PROSITE G Q T Профиль или весовая матрица(PSSM) A C D E F G H I K L M N P Q R S T V W Y L M L I I I L -18 -22 -35 -27 60 -30 -13 3 -26 14 3 -22 -30 -32 -18 -22 -10 0 9 34 L F L L A I V -10 -33 0 15 -30 -20 -12 -27 25 -28 -15 -6 24 5 9 -8 -10 -25 -25 -18 V Q G K D Q C Релиз 19.22, 08.03 2006 1403 документов, 1330 паттернов, 595 профилей + ? правил. -1 -18 -32 -25 12 -28 -25 21 -25 19 10 -24 -26 -25 -22 -16 -6 22 -18 -1 -8 -18 -33 -26 14 -32 -25 25 -27 27 14 -27 -28 -26 -22 -21 -7 25 -19 1 8 -22 -7 -9 -26 28 -16 -29 -6 -27 -17 1 -14 -9 -10 11 -5 -19 -25 -23 -3 -26 6 23 -29 -14 14 -23 4 -20 -10 8 -10 24 0 2 -8 -26 -27 -12 3 22 -17 -9 -15 -23 -22 -8 -15 -9 -9 -15 -22 -16 -18 -1 2 6 -34 -19 -10 -24 -34 -24 4 -33 -22 33 -27 33 25 -24 -24 -17 -23 -24 -10 19 -20 0 -2 -19 -31 -23 12 -27 -23 19 -26 26 12 -24 -26 -23 -22 -19 -7 16 -17 0 -8 -7 0 -1 -29 -5 -10 -23 0 -21 -11 -4 -18 7 -4 -4 -11 -16 -28 -18 Pfam • http://www.sanger.ac.uk/Software/Pfam/index.shtml • Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них. • Состоит из 2-х частей: PfamA – курируемая часть, покрывает 73% SWISS-Prot+TrEMBL PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов ProDom, не вошедших в PfamA. • Удобна для анализа доменной структуры белков. Pfam 1. Множественное выравнивание (ClustalX) некоторого семейства или кластера. 2. Экспертиза и корректировка выравниваниязатравки. 3. Построение профиля-НММ для затравки. 4. Поиск в базе данных а.к.последовательностей новых членов данной группы. ProDom • http://www.toulouse.inra.fr/prodom.html • Рассматриваются все последовательности в SWISSProt+TrEMBL. • Автоматическое выделение доменов (программа DOMAINER: сначала локальное попарное выравнивание (blastp) всех против всех, затем кластеризация) • Некоторые семейства выделены на основе выравниваний из PfamA. • Гомогенность семейства оценивается с помощью диаметра (max расстояния между 2 доменами в семействе) и радиуса (ср.кв. расстояние между доменами и консенсусом семейства). Оба параметра измеряются в РАМ Статистика ProDom, ноябрь 2005 Всего белков (non fragmentary sequences from SwissProt (Rel 44.5) + TREMBL (Rel 27.5) - Sep 13, 2004 Семейств доменов Семейств доменов с ≥ 2-мя последовательностями 1 067 651 736 449 275 561 Сравнение Pfam Prosite Prints Blocks Smart (ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown) Example: ENTK_HUMAN (Enteropeptidase precursor) Создание интегрированной базы данных InterPro PROSITE PFAM Интегрирование PRINTS ProDom SMART родственных подписей «вручную» InterPro entries IPR000001- TIGRFAMs IPR011000 PIRSF SUPERFAMILY InterPro- an integrated resource of protein families, domains and functional sites. Entry types in InterPro • Family group of evolutionarily related proteins, that share one or more domains/repeats in common. • Domain independent structural unit which can be found alone or in conjunction with other domains or repeats. • Repeat region occurring more than once that is not expected to fold into a globular domain on its own. • PTM (post-translational modification) The sequence motif is defined by the molecular recognition of this region in a cell. • Active site catalytic pockets of enzymes where the catalytic residues are known. • Binding site binds compounds but is not necessarily involved in catalysis. Взаимосвязи подписей в InterPro • Parent/child уровень семейства • Contains/found in состав домена Parent/child- family level