Q - Kodomo

реклама
Выравнивание полипептидных
цепей в пространстве
С.А. Спирин
20 ноября 2012
Пример 1: гомеодомены
Выравнивание последовательностей
гомеодоменов
Совмещение полипептидных цепей
гомеодоменов
Пример 2: РНК-зависимые РНК полимеразы
Фрагмент выравнивания (по Xu et al., 2003)
Функционально консервативные остатки: 13 из 150 (8%)
Продолжение
Функционально консервативные остатки: 5 из 140 (4%)
Выравнивание мотивов A, B, C РНКзависимых РНК-полимераз вирусов
Мотив A
Консервативные остатки: 2 из 39 (5%!)
Мотив B
Функционально консервативные остатки: 4 из 37 (10%)
Мотив С
Консервативные остатки: 3 из 22 (14%)
Совмещение в пространстве мотивов A,
B, C из полимераз 9 разных вирусов
Мотив B
Здесь расположен
активный центр
полимеразы
Мотив A
Мотив C
Геометрическое ядро этого семейства
полимераз состоит из 58 C атомов в
каждой из 9-и структур
Критерий сходства –
расстояния между
любыми
соответственными
C отличаются
не более чем на
2 ангстрема
Сходство всех этих полимераз продолжается
на большую часть глобулы, хотя и без
совпадения остовов цепей в пространстве
“Дополнительные” фрагменты цепи некоторых полимераз
не показаны
Пространственная структура
остова полипептидной цепи
консервативнее
последовательности!
Почему в ходе эволюции многих белков сохраняется
геометрическое ядро (с точностью в 1–2 ангстрема) в то
время, как аминокислотные остатки в тех же самых участках
заменяются?
Алгоритмы пространственного
выравнивания 3D структур
Парное выравнивание:
• совмещение в пространстве при заданном
частичном выравнивании последовательностей
• собственно выравнивание по пространственным
данным без заранее заданного выравнивания
последовательностей
Задача: совместить структуры по фрагментам цепей,
последовательности которых хорошо выравниваются
*
20
*
40
*
1osm_C : aeiYnkdgnkLDLYGKIDGLHYFS-DDkd---vDGDqTY----MRLGVKGE :
1e54_D : -------esSVTLFGIVDTNVAYVnKDaagdsrYGLgTSgastSRLGLRGT :
43
44
1. Совмещение в пространстве
Дано:
– n точек в пространстве A1 , …, An – центры C атомов из
выровненных остатков первой структуры
– n точек в пространстве B1 , …, Bn – центры C атомов из
выровненных остатков второй структуры
B1
B3
A3
A1
A4
B2
A2
B1
B4
Структура B
Структура A
A5
B5
1. Совмещение в пространстве
Найти:
Совмещение ломаных A и B в пространстве, при котором
среднее квадратичное расстояние (“Root mean square deviation”)
rmsd=
 [расст.(A ,B ) +расст.(A ,B ) +…+расст.(A ,B ) ]/n
1
1
2
2
2
2
n
будет минимальным
B3
A1
B1
A3
A2
A4
B2
B4
A5 B5
n
2
Задача пространственного совмещения при
заданном выравнивании последовательностей
для критерия rmsd эффективно решается
итеративными процедурами
В PyMol – команда
pair_fit sel_1, sel_2
Алгоритм Sippl&Stegbuchner,
1991
(1) Переместить "центры тяжести" и A, и B в начало координат
(2) Подобрать поворот структуры B вокруг оси X, минимизирующий rmsd
(угол поворота φ вычисляется — существует формула)
(3) – '' – '' – '' – '' – '' – '' – '' – '' – '' – оси Y – '' – получим угол ψ
(4) – '' – '' – '' – '' – '' – '' – '' – '' – '' – оси Z – '' – получим угол ω
(5) Если φ , ψ, ω оказались меньше заданного порога δ, то остановка; иначе
повторить (2) – (4)
Пространственное выравнивание двух
структур – общая постановка задачи
Выбрать набор атомов из одной структуры и
сопоставить каждому выбранному атому по атому
другой структуры.
Каждую сопоставленную пару будем называть
позицией выравнивания
Обычно выбираются Сα-атомы
(тем самым выравнивание последовательностей
белков становится частным случаем этой задачи)
Критерии качества выравнивания
Могут быть основаны:
1. На совмещении выровненных наборов
атомов и вычислении RMSD
2. На сравнении расстояний между атомами
в каждой их структур
Пространственное выравнивание двух
структур без заданного выравнивания
последовательностей
Не существует эффективных алгоритмов,
гарантирующих точное решение задачи (при
любой её разумной формализации).
Все предложенные алгоритмы основаны на
эвристиках. В “простых” случаях дают
правильный ответ, в более сложных – могут
ошибаться.
Алгоритм DALI (Holm&Sander, 1993)
• Основан на сравнении расстояний между
Cα-атомами в каждой из структур
• Может сопоставлять части структур, по-разному
расположенные по последовательности
• Работает в два этапа:
•
•
сначала находятся пары «гексапептидов» (в каждой
паре по шестизвенному участку из каждой структуры)
близкой конфигурации;
затем из таких пар «сшивается» выравнивание
• Может использовать две разные целевые функции:
«жёсткую» (“rigid”) и «эластичную» (“elastic”)
Целевая функция алгоритма DALI
(вес выравнивания, «жёсткий» вариант)
Если выравнивание содержит L позиций, то его «качество»
оценивается величиной S (“rigid similarity score):
i
i
dAij
j
A
dBij
j
B
Здесь каждое i и каждое j означает позицию выравнивания, то
есть пару сопоставленных атомов; dAij и dBij – расстояния
между атомами i и j в структурах A и B
Целевая функция алгоритма DALI
(вес выравнивания, «эластичный» вариант)
Величина S (“elastic similarity score”) вычисляется по той
же формуле, но вклад каждой пары позиций вычисляется
по формуле:
Смысл такого варианта: смягчить требования на удалённые в
пространстве атомы
DaliLite и FSSP
Ускоренный вариант алгоритма DALI, названный DaliLite,
используется для поиска по банку белков, хорошо
совмещающихся с данным.
Имеется также база данных Dali Database (старое название
FSSP – families of structurally similar proteins), в которой
хранятся наборы хорошо совмещающихся белков. См.
http://ekhidna.biocenter.helsinki.fi/dali/start
Алгоритм SSM
(secondary structure matching)
Krissinel&Henrick, 2004
(1) Пространственное
выравнивание двух
структур;
(2) Множественное
пространственное
выравнивание;
(3) Поиск схожих
структур по PDB.
(4) Совмещение,
визуализация etc.
Этапы алгоритма SSM
1.
2.
3.
4.
5.
6.
7.
Построение матрицы элементов вторичной структуры (SSE,
secondary structure elements) для каждой из структур
Нахождение максимальных наборов SSE, сходно
расположенных в двух структурах
Грубое совмещение структур по наборам SSE, найденным в
п.2.
Сопоставление C атомов двух структур (структурное
выравнивание)
Совмещение по сопоставленным C; вычисление rmsd и
“качества” Q
Удаление “слабых звеньев” из структурного выравнивания
для максимизации Q
Выход: структурное выравнивание, совмещение,
показатели, оценивающие результат (Lalign, rmsd, Q, Zscore)
Целевая функция алгоритма
SSM – «качество» Q
Чтобы вычислить Q, сопоставленные
Cα-атомы совмещаются в пространстве и
вычисляется rmsd для них.
Далее применяется формула:
Здесь Lalign – количество позиций выравнивания,
L1 и L2 – длины цепей двух белков,
R0 = 3Å
Первый этап алгоритма: матрица SSE
Элемент матрицы: характеристика взаимного
расположения двух SSE
SSE 1: H
2: S1 3: S2 4: S3
(начальный
(начальный
(начальный
(начальный
SSE
остаток 7A,
остаток 20A, остаток 31A, остаток 45A,
Каждому SSE
приписывается
- его порядковый №
- тип (H или S)
- длина (в числе
остатков)
- ID первого
остатка
всего 10
остатков)
всего 7
остатков)
всего 8
остатков)
всего 5
остатков)
1: H
0
D12
D13
D14
2: S1
D12
0
D23
D24
3: S2
D13
D23
0
D34
4: S3
D14
D24
D34
0
Параметры взаимного расположение направленных
отрезков i и j , идущих из начала в конец SSEi и SSEj :
- расстояние ij между центрами SSEi и SSEj
- углы 1ij, 2ij между i и j и линией, соединяющей эти центры
- угол 3ij между i и j
- торсионный угол 4ij
Dij={ij, 1ij, 2ij, 3ij, 4ij}
Этапы алгоритма SSM
1.
2.
3.
4.
5.
6.
7.
Построение матрицы элементов вторичной структуры (SSE,
secondary structure elements) для каждой из структур
Нахождение максимальных наборов SSE, сходно
расположенных в двух структурах
Грубое совмещение структур по наборам SSE, найденным в
п.2.
Сопоставление C атомов двух структур (структурное
выравнивание)
Совмещение по сопоставленным C; вычисление rmsd и
“качества” Q
Удаление “слабых звеньев” из структурного выравнивания
для максимизации Q
Выход: структурное выравнивание, совмещение,
параметры, оценивающие результат (Lalign, rmsd, Q, Z-score)
2. Даны две структуры (см. рис.) В них надо найти
наборы сходно расположенных в пространстве [и
идущих в одном и том же порядке вдоль полипептидной
цепи] элементов вторичной структуры (SSE)
Сходные наборы SSE:
H—S2  H—S2
H—S3  H—S3
S1—S2  S1—S2
S1—S2  S3—S2
S1—S3  S1—S3
Можно и не учитывать порядок SSE! В таком случае
H-S1-S2-S3
 H-S1-S2-S3
Сравнение матриц SSE
двух структур
Сходство расположения пар SSE из двух структур
определяется близостью значений матричных элементов
Матричные элементы сходно расположенных пар SSE
изображены одинаковыми цветами
1: H
2: S1 3: S2 4: S3
1: S1 2: H
1: H
0
D12
D13
D14
1: S1 0
2: S1
D12
0
D23
D24
2: H
3: S2
D13
D23
0
D34
4: S3
D14
D24
D34
0
3: S3 4: S2
D12
D13
D14
D12
0
D23
D24
3: S3
D13
D23
0
D34
4: S2
D14
D24
D34
0
Сходство расположения пар SSE из двух структур
определяется близостью значений матричных элементов
Структура 1я:
SSE i-й и j-й
Пары (SSEi, SSEj) из 1-ой и
Структура 2я:
(SSEk, SSEl) из 2-ой структуры
SSE k-й и l-й
считаются сходно расположенными,
если
- типы первых SSE пары совпадают
- типы вторых SSE пары совпадают
- длины SSE примерно равны
- Dij  Dkl т.е.
ij  kl , 1ij 1kl, 2ij 2kl,
3ij 3kl, 4ij 4kl
Допустимые погрешности при сравнении двух значений
установлены эмпирически
Граф сходства SSE
(для двух структур)
•
Вершина – пара (SSEi, SSEk) одного типа (H или S)
и примерно одинаковой длины; SSEi из 1-ой
структуры, SSEk – из 2-ой
•
Две вершины V′=(SSEi, SSEk) и V′′=(SSEj, SSEl)
соединены ребром, если пары (SSEi, SSEj) и (SSEk,
SSEl) сходно расположены
Список вершин графа
сходства структур 1 и 2
1
2
Примеры ребер
(H, H)––––(S3,S3)
Так как (H,S3)  (H,S3)
(H,H)
(S1,S1) (S2,S1) (S3,S1)
(S1,S2) (S2,S2) (S3,S2)
(S1,S3) (S2,S3) (S3,S3)
(S1,S3)––––(S2,S2)
Так как (S1,S2)  (S3,S2)
Максимальная клика в графе соответствует
максимальным наборам сходно расположенных
SSE (один набор SSE из 1-ой структуры, другой –
из 2-ой структуры)
Клика – это подграф, в котором
каждая вершина соединена с
каждой
Забудем в этом примере о порядке следования
SSE
(H, H)
(H,S1) из 1й структуры
Расположены так же, как
(H,S1) из 2й структуры.
(S2, S2)
Поэтому вершины (H,H)
И (S1, S1) соединены
ребром
Аналогично – все
остальные ребра
(S1, S1)
(S3, S3)
Упражнение. Постройте весь граф сходства.
Порядок SSE не учитывать
Задача поиска максимальных
клик в графе сложна для
компьютера!
• Алгоритм точного решения, годный для
любого графа, требует невообразимого
времени
• Пользуясь особенностями графов
сходства, можно предложить
эффективные эмпирические алгоритмы.
• Один из них работает в SSM-алгоритме
Этапы алгоритма SSM
1.
2.
3.
4.
5.
6.
7.
Построение матрицы элементов вторичной структуры (SSE,
secondary structure elements) для каждой из структур
Нахождение максимальных наборов SSE, сходно
расположенных в двух структурах
Грубое совмещение структур по наборам SSE,
найденным в п. 2.
Сопоставление C атомов двух структур (структурное
выравнивание)
Совмещение по сопоставленным C; вычисление rmsd и
“качества” Q
Удаление “слабых звеньев” из структурного выравнивания
для максимизации Q
Выход: структурное выравнивание, совмещение,
параметры, оценивающие результат (Lalign, rmsd, Q, Z-score)
3. Совмещение двух структур по
наборам сходно расположенных SSE
• Набор SSE в каждой структуре представляется
началами Bi и концами Ei направленных
отрезков i , идущих от начала к концу SSEi.
Таким образом, в каждой структуре имеем
одинаковое число последовательно идущих
точек пространства (B1, E1, B2, E2, …)
• Эти точки совмещаются одним из алгоритмов
совмещения при заданном сопоставлении
точек. Результат: черновое совмещение
структур.
Совмещение по
сходно расположенным
SSE
Этапы алгоритма SSM
1.
2.
3.
4.
5.
6.
7.
Построение матрицы элементов вторичной структуры (SSE,
secondary structure elements) для каждой из структур
Нахождение максимальных наборов SSE, сходно
расположенных в двух структурах
Грубое совмещение структур по наборам SSE, найденным в
п.2.
Сопоставление C атомов двух структур (структурное
выравнивание)
Совмещение по сопоставленным C; вычисление rmsd и
“качества” Q
Удаление “слабых звеньев” из структурного выравнивания
для максимизации Q
Выход: структурное выравнивание, совмещение,
параметры, оценивающие результат (Lalign, rmsd, Q, Z-score)
4. Совмещение позволяет сопоставить C
атомы, т.е. построить структурное
выравнивание
1) В сопоставленных SSE находятся четверки (для
спиралей) или тройки (для тяжей) идущих подряд
наиболее близких C атомов (черные кружки на
рис.)
2) Сопоставление четверок (троек) продолжается на все
SSE без разрывов и вставок в последовательности
Продолжение
3) Находятся близкие в пространстве пары SSE из
разных структур, которые не были сопоставлены,
но и не противоречат прежним сопоставлениям
4) Для таких пар повторяются п.п.1–2
Пример противоречивого сопоставления
“Серые” SSE сопоставлены
правильно.
Сопоставление “белых” SSE
запрещено т.к. нарушает порядок
SSE вдоль цепи
Продолжение
5)
6)
Для оставшихся неспаренными C атомов находятся
“контакты” – наиболее сближенные пары (A,B), A=C из 1й;
B= C из второй структуры; точный критерий:
1.
B ближайший к A C атом из второй структуры
2.
A ближайший к B C атом из первой структуры
3.
Расст.(A,B) < Rc=3Å
Сопоставление от наиболее близких контактирующих пар
продолжается на соседей по последовательности (см. рис.)
Этапы алгоритма SSM
1.
2.
3.
4.
5.
6.
7.
Построение матрицы элементов вторичной структуры (SSE,
secondary structure elements) для каждой из структур
Нахождение максимальных наборов SSE, сходно
расположенных в двух структурах
Грубое совмещение структур по наборам SSE, найденным в
п.2.
Сопоставление C атомов двух структур (структурное
выравнивание)
Совмещение по сопоставленным C; вычисление rmsd и
“качества” Q
Удаление “слабых звеньев” из структурного выравнивания
для максимизации Q
Выход: структурное выравнивание, совмещение,
параметры, оценивающие результат (Lalign, rmsd, Q, Z-score)
5. Вычисление качества Q
пространственного выравнивания
1)
Улучшение пространственного совмещения. Для
этого используется построенное (структурное)
выравнивание.
2)
Вычисление rmsd по сопоставленным C атомам
3)
Вычисление Q
Качество Q
• 0<Q1;
Q = 1  rmsd=0 и L1=L2=Lalign
• Увеличение rmsd при той же длине
выравнивания Lalign приводит к уменьшению Q
• Увеличение длины выравнивания Lalign при
неизменном rmsd приводит к увеличению Q
• Одно и то же значение Q может быть получено
при разной длине Lalign . Чем больше Lalign , тем
слабее требования к rmsd
Этапы алгоритма SSM
1.
2.
3.
4.
5.
6.
7.
Построение матрицы элементов вторичной структуры (SSE,
secondary structure elements) для каждой из структур
Нахождение максимальных наборов SSE, сходно
расположенных в двух структурах
Грубое совмещение структур по наборам SSE, найденным в
п.2.
Сопоставление C атомов двух структур (структурное
выравнивание)
Совмещение по сопоставленным C; вычисление rmsd и
“качества” Q
Удаление “слабых звеньев” из структурного
выравнивания для максимизации Q
Выход: структурное выравнивание, совмещение,
параметры, оценивающие результат (Lalign, rmsd, Q, Z-score)
6. Удаление “слабых звеньев” для
получения лучшего качества Q.
При выкидывании пары C из списка сопоставленных
остатков Lalign уменьшается (что плохо), но и rmsd
уменьшается (что хорошо). Q может уменьшиться, а может
и увеличиться!
• Из списка сопоставленных атомов выкидывается наиболее
разошедшаяся пара
• Пересчитывается качество Q
• Эта процедура повторяется до тех пор, пока не будет
достигнут максимум Q
• Оставляются только не менее трёх идущих подряд
сопоставленных C; изолированные или пары идущих
подряд C выкидываются
7. Результат
• Полученное выравнивание с максимальным Q
и считается результатом
• Кроме того, процедура повторяется со всеми
другими сходными наборами SSE,
включающими столько же SSE, что и первый,
или на один или два SSE меньше
• Все полученные выравнивания сортируются по
Q и первым выдается то, у которого Q
наибольшее
Обсуждение алгоритма SSM
• Работоспособен. На уровне нескольких других
алгоритмов.
• Не гарантирует правильного ответа в достаточно сложной
ситуации; бывают ошибки.
• Плюс: использование элементов вторичной структуры.
• Минус: не все “знания” о структурных элементах
использует (бета-листы; геометрическое ядро семейства
доменов при поиске по банку; гидрофобное ядро; …)
• Ещё минус: много параметров, значения которых взяты
произвольно
• Имеется web-сервер: http://www.ebi.ac.uk/msd-srv/ssm/
(“PDBeFOLD”)
Всё, что было изложено –
«жёсткое выравнивание»
Критерии качества основывались на
предположении, что белки совмещаются
как твёрдые тела.
Вообще говоря, выравниванием следует считать
любое обоснованное сопоставление остатков
одного белка остаткам другого. В частности,
сопоставляемые части могут двигаться
относительно друг друга. Про то, как быть в такой
ситуации – в следующей лекции.
Скачать