Предсказание мембранной разметки альфа-спиральных мембранных белков Роман Сутормин sutor_ra@mail.ru Примерный план • Мембранные белки • Методы предсказания мембранной разметки • Дальнейшее развитие Мембранные белки Бета-слойные белки составляют около 10% всех мембранных белков. Функции • транспорт строительного материала • запасание энергии, создание перепада концентраций вдоль мембраны • передача сигналов между клетками • преобразование энергии света (в бактериях) • сортировка белков между отделами клетки и т.д. • вывод продукта из клетки, … [транс-] мембранность Кол-во белков (NCBI) Предсказ. как мембранные, Pedant System Классифицир. как трансмембранные, Saier-Paulsen Escherichia coli K12 4237 1035 (24%) 351 (8.3%) Bacillus subtilis 168 4105 1134 (28%) 290 (7.1%) Mycoplasma genitalium G-37 484 140 (29%) 26 (5.4%) Buchnera sp APS 564 118 (21%) 14 (2.5%) Drosophila melanogaster 14148 4854 (34%) 639 (4.5%) Homo sapiens NCBI 26979 5602 (21%) 805 (2.0%) Геномы Pedant System - http://pedant.gsf.de/ Saier-Paulsen classification - http://www.membranetransport.org/ Все белки 25000 20000 15000 PDB: Мембранные белки 40000 35000 5000 0 Дата 04 .0 3. 25 04 .0 5. 27 04 .0 7. 29 04 .0 9. 30 04 .1 1. 18 05 .0 1. 27 05 .0 3. 31 05 .0 5. 26 05 .0 7. 25 05 .0 9. 26 05 .1 1. 28 06 .0 1. 27 06 .0 3. 24 04 .0 3. 25 04 .0 5. 27 04 .0 7. 04 29 .0 9. 30 04 .1 1. 18 05 .0 1. 27 05 .0 3. 31 05 .0 5. 26 05 .0 7. 25 05 .0 9. 05 26 .1 1. 28 06 .0 1. 27 06 .0 3. 24 PDB 700 600 30000 500 400 300 10000 200 100 0 Дата количество мембранных белков – около 1,6% всех белков, количество бета-слойных белков – около 20% всех мембранных. (информация взята с ресурса PDBTM) Задача предсказания Задачу поставили Kyte и Doolittle еще в 1982 Реальные мембранные сегменты Метод предсказания Предсказанные мембранные сегменты Критерий правильности предсказания разметки 1) однозначное соответствие сегментов 2) соответствие положений в каждой паре Качество предсказания: 1 - правильно 0 - нет Оценка качества = усреднение по известным белкам Зачем • пространственная структура • информация для понимания метаболических путей • предсказание функции по структуре • улучшение гомологического поиска Сравнение качества ConPred ENSEMBLE Rost THUMBUP Усреднени е MEMSAT 65,2 72,8 - 81,0 73,0 HMMTOP 63,8 72,9 66,0 73,0 68,9 TMHMM 60,9 71,9 72,0 68,0 68,2 PHDhtm - 67,0 67,0 - 67,0 PRED-TMR - - 58,0 - 58,0 TMAP 45,7 - - 67,0 56,4 SOSUI 59,4 - 49,0 - 54,2 DAS 34,8 - 39,0 - 36,9 Различные критерии соответствия сегментов: ConPred – расст. между центрами предск. и действит. сегмента <=11 остатков Ensemble - перекрывание предск. и действ. сегментов >=9 остатков Rost - перекрывание предск. и действ. сегментов >=3 остатков THUMBUP - перекрывание предск. и действ. сегментов >=5 остатков Метод DAS Карта локальных выравниваний (Dense Alignment Surface) Библиотечный белок RReM – матрица весов пар аминокислот, отражающая перепредставленные пары в белковой последовательности на расстоянии 10 аминокислот. Аккомулированные весовые профили усредняются по всем библиотечным белкам. Мембранные сегменты - области, где профиль больше парога. Анализируемый белок Метод SOSUI Карта разделения Гидрофобность Амфифильность слабо полярные (Trp, Ter) сильно полярные (Lys, Arg, His, Glu, Gln) Метод TMAP Для 7756 сегментов, описанных в SwissProt как “FT TRANSMEM” взяты (-15,+15) области вокруг средних позиций. Pei f ei / f i Алгоритм для выравнивания: 1) для каждой позиции каждой последоват-ти вычисл. Pm и Pe как среднее по окну длиной 15 и 4; 2) для каждого столбца вырав-я Pm и Pe усредняются в соотв. с весом последовательности 3) 8 подряд идущих столбцов с Pm больше 1.23 – кандидат для TM 4) на краях кандидатов добавл-ся столбцы, где Pm>1.17 5) точное положение краев устанавливается там, где Pe>1.08 6) очень длинные сегменты разрезаются и т.д. Pmi f mi / f i – величины propensity Метод PRED-TMR - величины propensity аминокислот в мембране похожи на TMAP - на краях propensity вычисляется отдельно для каждой позиции 9 [ k 5 i ] P Peseq ,i k left i 0 Вес сегмента, длины l начинающегося с k-ой позиции. 9 k [ k 4 i ] Pright Peseq ,i i 0 len k ,len k k len Pseg f ( Pleft , Pright ) Pmseq[ k i 1] e l 21 i 1 Применяется жадный алгоритм, находящий сегменты с наибольшим весом. Метод PHDhtm Query Sequence Nonoptimized Filtering (длинные сегменты разрезаются, короткие – удаляются или склеиваются) Метод TMHMM, часть 1 (от TransMembrane HMM, где HMM = Hidden Markov Model) -N-I-E-T-L-L-F-M-V-A-V-W-S-W-W-G-R-T-Y-l-l-l-l-m-m-m-m-m-m-m-m-m-m-m-l-l-l-l- m l L-L-F-M-V-A-V-W-S-W-W / \ -N-I-E-T G-R-T-Y- pij – вероятности переходов между состояниями bs(a) – вероятности символов в состояниях P( seq ) bl ( N ) pll bl ( I ) pll bl ( E ) pll bl (T ) plm bm ( L) pmmbm ( L) pmm bm (W ) pml bl (G ) pll bl ( R) pll bl (T ) pll bl (Y ) - Алгоритм (Баума-Велча) обучения по размеченным последоват-ям; - Алгоритм (Витерби) максимизации вероятности по разметке. Метод TMHMM, часть 2 Схема скрытой марковской модели: Каждая из трех петель: Каждый из двух мембр. сегментов: Метод HMMTOP Метод MEMSAT Устроен очень схожим с HMM образом. Исп. схожий с HMM граф динамического программирования (ДП). Модель включает 5 состояний: - внешняя петля, - внутренняя петля, - внутр. часть TM-сегмента - средняя часть - внешняя часть Есть веса букв в каждом состоянии и штрафы за смену состояний. Метод работает с частотным профилем множественного выравнивания, и есть локальный вариант, где можно его задать. Разработан метод FwdBck Был разработан метод, совмещающий преимущества: - HMM - дополнительная эволюционная информация (множественное выравнивание) В основе лежит не алгоритм Витерби поиска наилучшей разметки (как TMHMM и HMMTOP), а алгоритм Forward-Backward. m l L-L-F-M-V-A-V-W-S-W-W / / \ -N-I-E-T-L G-R-T-Y- Можно оценить вероятность данной буквы находиться в каждом состоянии не зависимо от остальных букв. FwdBck, продолжение Схема TMHMM + Работа с частотным профилем (множ.выр.), делеции усиливают петлевой частотный фон (т.к. в мембранных сегментах делеций мало) Алгоритм Forward-Backward Тестовая выборка Задача: Структурные выравнивания мембранных белков + TM сегменты 1) Взяли 442 мембранных белка (+ структуры) с PDBTM; 2) Проcеяли дубли по правилу identity<95% (CLUSTALW); 3) Кластеризовали методом ближайшего соседа (Neighbor joining) с нижним попрогом identity=20%; 4) Поднимали парог для кластеров с размером >20 белков; 5) Для каждого из 11 кластеров (55 белков) проделали структурное выравнивание (алгоритм MAMMOTH); 6) Для каждого из 55 белков по структуре установили TM-сегменты (алгоритм TMDET); 7) Чтобы избежать ошибок в определении положения мембраны вокруг белковой структуры по краям предсказанной мембраны были введены области толщиной 5 ангстрем; 8) На выравниваниях построены TM-ядра (если в столбце 60% букв лежат в мембране, то столбец – мембранный. Тестовая выборка (2 часть) Типичная картина TM-ядер в кластерах: TM-ядра выделены рамочкой, K – аминокислоты в 5-ти ангстремных слоях на поверхности мембраны , V – аминокислоты внутри мембраны. Точками выделены столбцы, выравниванию в которых можно доверять. Некоторые ядра были изъяты (если они не покрыты точками на 60% или если длина <5 столбцов). В двух кластерах были выкинуты 6 ядер. Осталось 56 TM-ядер. Проверка качества Проверялось качество трех методов предсказания: - MEMSAT - FwdBck (разработанный нами) - HMMTOP, результаты усреднялись по выравниванию Критерий: пара сегментов соответствия пересекается хотя бы по 7-ти аминокислотам. (Если предсказанный сегмент не покрывался на 60% точками достоверных столбцов, то он не рассматривался). Результаты MEMSAT: 0.82 FWDBCK: 0.91 HMMTOP: 0.73