паттерны, домены, семейства … или что, где и как искать?

реклама
Анализ аминокислотной последовательности:
паттерны, домены, семейства
…
или
что, где и как искать?
Что хотим найти ?
НАД-связывающий
сайт/центр
Домен, связывающий сахар
Сайты возможной
посттрансляционной
модификации (РТМ)
ДНК-связывающий домен
Суперсемейства
Ортологи
Гомологичное семейство:
особенности последовательностей,
характерный тип структуры,
функции, таксономия и т.п.
Семейство 1
Семейство 2
Семейство 3
Основные понятия и термины
• Место, сайт(site) -
• Паттерн (pattern) –
• Позиционно
специфическая матрица
весов (PSSM) –
• Профиль–PSSM –
• Профиль–HМM • Подпись (signature) –
• «Oтпечатки пальцев»
(fingerprints) –
• Кластер -
• Мотив (motif) –
• Домен (domain) –
• Семейство –
• Суперсемейство -
?
Домен – единица
эволюции, структуры и функции белков.
Домен – компактная, относительно
независимо сворачивающаяся структура,
относительно консервативная в процессе
эволюции.
Белки могут состоять из одного или
многих доменов.
nitrogen fixation positive activator protein
Мотив ?
• Мотив в аминокислотной последовательности - набор
консервативных остатков, важных для функции белка и расположенных на
определенном (обычно коротком) расстоянии друг от друга в
последовательности.
• Мотив структуры (структурный мотив) – часто
встречающийся в белках элемент пространственной структуры (-спираль, шпилька, -поворот).
В общем случае, структурные мотивы не обязательно соответствуют мотивам в
аминокислотным последовательностях.
Один домен может содержать один или несколько
мотивов в аминокислотной последовательности. Мотив
может не входить в домены.
Не в любом выравнивании легко найти мотив.
Интуитивно понятно:
Семейство - группа белков, имеющая общее происхождение.
Аминокислотные последовательности выравниваются по
всей длине со значимым весом и имеют сходную доменную
структуру.
Мнения расходятся, когда речь идет о критериях:
насколько должны быть похожи белки одного семейства (id>=30%, id>= 50%) ???
должны белки одного семейства иметь в точности одну и ту же доменную структуру?
Superfamily
Family
Subfamily
Не корректнее ли говорить о семействах доменов?
Основные понятия и термины
• Место, сайт(site) -
• Паттерн (pattern) –
• Позиционно
специфическая матрица
весов (PSSM) –
• Профиль–PSSM –
• Профиль–HМM • Подпись (signature) –
• «Oтпечатки пальцев»
(fingerprints) -
• Мотив (motif) –
• Домен (domain) –
• Семейство –
• Суперсемейство -
?
Банки белковых семейств и доменов, производные
от банков аминокислотных последовательностей
Коллекции мотивов
Коллекции доменов
PROSITE , 1989
BLOCKS
PRINTS
Pfam
SMART
ProDom, 1995
SUPERFAMILY
InterPro, 1999
(Integrated Resource of Protein Families)
БД белковых доменов, семейств и функциональных сайтов.
Содержит описание объектов + описание паттернов,
профилей и правил для их обнаружения.
Выравнивание
хорошо изученного семейства
Функционально
важные остатки
4-5
консервативных
остатков
Паттерн
Поиск
в SP
Если
находим
только«правильные»,
то ОК
Если много
лишнего, то
увеличиваем
паттерн
Паттерн – регулярное выражение UNIX’a:
[AC]-x-V-x(4)-{ED}
Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu и не Asp)
PROSITE - биологически значимые сайты,
паттерны и профили, http://www.expasy.ch/prosite/
F
F
Y
F
F
L
F
K
K
P
P
K
E
K
L
A
I
V
V
F
L
L
F
V
V
L
I
L
S
H
C
G
K
A
S
G
Q
E
A
E
N
E
A
V
C
V
PROSITE
G
Q
T
Профиль или
весовая
матрица(PSSM)
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
L
M
L
I
I
I
L
-18
-22
-35
-27
60
-30
-13
3
-26
14
3
-22
-30
-32
-18
-22
-10
0
9
34
L
F
L
L
A
I
V
-10
-33
0
15
-30
-20
-12
-27
25
-28
-15
-6
24
5
9
-8
-10
-25
-25
-18
V
Q
G
K
D
Q
C
Релиз 19.22,
08.03 2006
1403 документов,
1330 паттернов, 595 профилей
+ ? правил.
-1
-18
-32
-25
12
-28
-25
21
-25
19
10
-24
-26
-25
-22
-16
-6
22
-18
-1
-8
-18
-33
-26
14
-32
-25
25
-27
27
14
-27
-28
-26
-22
-21
-7
25
-19
1
8
-22
-7
-9
-26
28
-16
-29
-6
-27
-17
1
-14
-9
-10
11
-5
-19
-25
-23
-3
-26
6
23
-29
-14
14
-23
4
-20
-10
8
-10
24
0
2
-8
-26
-27
-12
3
22
-17
-9
-15
-23
-22
-8
-15
-9
-9
-15
-22
-16
-18
-1
2
6
-34
-19
-10
-24
-34
-24
4
-33
-22
33
-27
33
25
-24
-24
-17
-23
-24
-10
19
-20
0
-2
-19
-31
-23
12
-27
-23
19
-26
26
12
-24
-26
-23
-22
-19
-7
16
-17
0
-8
-7
0
-1
-29
-5
-10
-23
0
-21
-11
-4
-18
7
-4
-4
-11
-16
-28
-18
Pfam
•
http://www.sanger.ac.uk/Software/Pfam/index.shtml
•
Большая коллекция множественных выравниваний, доменов,
семейств и профилей-HMM для них.
•
Состоит из 2-х частей:
 PfamA – курируемая часть, покрывает 73% SWISS-Prot+TrEMBL
 PfamB – большое число маленьких семейств из автоматически
сгенерированной базы доменов ProDom, не вошедших в
PfamA.
•
Удобна для анализа доменной структуры белков.
Pfam
1. Множественное выравнивание (ClustalX)
некоторого семейства или кластера.
2. Экспертиза и корректировка выравниваниязатравки.
3. Построение профиля-НММ для затравки.
4. Поиск в базе данных а.к.последовательностей
новых членов данной группы.
ProDom
• http://www.toulouse.inra.fr/prodom.html
• Рассматриваются все последовательности в SWISSProt+TrEMBL.
• Автоматическое выделение доменов (программа
DOMAINER: сначала локальное попарное выравнивание
(blastp) всех против всех, затем кластеризация)
• Некоторые семейства выделены на основе выравниваний
из PfamA.
• Гомогенность семейства оценивается с помощью
диаметра (max расстояния между 2 доменами в
семействе) и радиуса (ср.кв. расстояние между доменами
и консенсусом семейства). Оба параметра измеряются в
РАМ
Статистика ProDom,
ноябрь 2005
Всего белков
(non fragmentary sequences from
SwissProt (Rel 44.5) + TREMBL (Rel 27.5) - Sep 13, 2004
Семейств доменов
Семейств доменов с ≥ 2-мя
последовательностями
1 067 651
736 449
275 561
Сравнение
Pfam
Prosite
Prints
Blocks
Smart
(ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown)
Example: ENTK_HUMAN (Enteropeptidase precursor)
Создание интегрированной
базы данных InterPro
PROSITE
PFAM
Интегрирование
PRINTS
ProDom
SMART
родственных
подписей
«вручную»
InterPro
entries
IPR000001-
TIGRFAMs
IPR011000
PIRSF
SUPERFAMILY
InterPro- an integrated resource of protein families, domains and functional sites.
Entry types in InterPro
• Family  group of evolutionarily related proteins, that share
one or more domains/repeats in common.
• Domain  independent structural unit which can be found
alone or in conjunction with other domains or repeats.
• Repeat  region occurring more than once that is not expected
to fold into a globular domain on its own.
• PTM (post-translational modification)  The sequence motif
is defined by the molecular recognition of this region in a cell.
• Active site  catalytic pockets of enzymes where the catalytic
residues are known.
• Binding site  binds compounds but is not necessarily
involved in catalysis.
Взаимосвязи подписей в InterPro
• Parent/child
уровень семейства
• Contains/found in
состав домена
Parent/child- family level
Скачать