Структурное выравнивание • Структурное выравнивание - Структура vs Структура - Докинг • Структурное моделирование (Структура vs Структура) - Homology modeling - Fold recognition/ Threading Structural Alignment 1) похожие структуры Conserved 1º sequences ? 2) Похожие структуры conserved 1º sequences Почему структурное выравнивание? • Группировка/классификация белков по структурам (по схожести) • Определение вклада отдельных аминокислот в образование 3D структуры • Определение дистантных гомологов в белковых семействах • Предсказание функции белков с низким уровнем sequence similarity с другими белками • Исследования: – Структурно-функциональные отношения – Эволюция – Общие блоки\сайты связывания - мотивы Distance Based Matrix A B DDM’s • Самый простой метод сравнения структур • Не требует ни трансформаций, ни поворотов, ни совмещений • Очень эффективен для поиска движений в шарнирах или локальных отличий • Интуитивно понятная мера похожести Совмещение структур A B Выравнивание структур белков • Уровни описания структуры: – – – – Atom Group Fragment Элементы вторичной структуры (SSE) • Описание структуры - особенности: – Геометрия/архитектура - координаты/относительные позиции – Топология - порядок аминокислот в белке, взаиморасположение мотивов – Свойства - физико-химические свойства аминокислот 6 Описание структур Structure I Structure II Feature Extraction Structure Description I Structure Description II Comparison Algorithm Equivalence Assessment Statistical Significant? Accurate? Constrains Scoring RMS Scoring •Scoring Equivalences: •Coordinate based - defined using a transformation of one structure onto the other:root mean square deviation – RMSd •Similarity of properties between equivalenced elements conserved/similar amino acid •Similarity of relations between pairs of equivalenced elements - similar distances, internal RMSd •Pitfalls of RMSD: •all atoms are treated equally (residues on the surface have a higher degree of freedom than those in the core) •best alignment does not always mean minimal RMSD •significance of RMSD is size dependent •Alternative RSMDs •aRMSD = best root-mean-square deviation calculated over all aligned alpha-carbon atoms •bRMSD = the RMSD over the highest scoring residue pairs •wRMSD = weighted RMSD ( W. Taylor(1999), Protein Science, 8: 654665. http://www.prosci.uci.edu/Articles/Vol8/is sue3/8272/8272.html#relat) Поиск оптимального выравнивания B • Поиск наибольшего количества атомов, выравненных с наименьшим RMSD (Root Mean Squared Deviation) • Поиск баланса между локальными областями с очень хорошим выравниванием и общим выравниванием Требования для сравнения структур 1. Какой атом структуры A соответствует другому атому структуры B? Вариант ответа – в выравнивании последовательнсотей THESESENTENCESALIGN----NICLEY | | | || || || | | ||| | | ||| | | THE—SEQ--ENCE--ALIGNEDNICELY 2. Позиции\координаты атомов в структуре? Ответ: PDB-файлы (Dihedral angles, bond lengths …) How good is a particular choice of heuristic and what is the computational cost of the search? 9 Локальное выравнивание вторичных структур Поиск первичного выравнивания двух белков при помощи динамического программирования для векторов вторичной структуры A B Сопоставление атомов • Применение жадных методов ближайшего соседа для минимизации RMSD между Cα атомами пробы и шаблона (i.e. поиск локальных минимумов в пространстве выравнивания) Core Superposition Поиск лучшего выравнивания последовательно идущих Cα атомов и минимизация RMSD между ними RMSD в множественном выравнивании структур A B RMSD без выравнивания • 0.0-0.5 Å -> Essentially Identical • <1.5 Å -> Very good fit • < 5.0 Å -> Moderately good fit • 5.0-7.0 Å -> Dubious relationship • > 7.0 Å -> Structurally related • > 12.0 Å -> Completely unrelated Пример: Zinc Fingers 3znf and 4znf 248 atoms RMS = 1.42Å 30 CA atoms RMS = 0.70Å Сервера для выравнивания структур • LOCK - hierarchical protein structure Superposition • 3dSearch - fast secondary structure superposition • CE - Tools for 3-D Protein Structure Comparison and Alignment Using the Combinatorial Extension (CE) Method (no hetero atoms). •Дополнительная информация об алгоритмах •http://cmgm.stanford.edu/~brutlag/Papers/singh00.pdf Алгоритмы структурного выравнивания Distance based methods: DALI (Holm and Sander): Aligning scalar distance plots (similarity between the 2-D distance matrices) STRUCTAL (Gerstein and Levitt): Dynamic programming using pair wise inter-molecular distances SSAP (Orengo and Taylor): Dynamic programming using intra-molecular vector distances MINAREA (Falicov and Cohen): Minimizing soap-bubble surface area Vector based methods: VAST (Bryant): Graph theory based secondary structure alignment 3dSearch (Singh and Brutlag): Fast secondary structure index lookup Both LOCK (Singh and Brutlag): Hierarchically uses both secondary structure vectors and atomic distances Docking и Scoring How Do You Du(o)ck? Ресурсы Reviews in computational chemistry, vol. 17, 2001, 1-59 http://www.zbi.unisaarland.de/zbi/stud/lehrveranstaltungen/ws01/bioinfor matikI/materialien/PL-Docking.pdf Reviews in comp. chem., Vol 17. 2001. Ed. Kenny B. Lipkowitz, Donald B. Boyd Почему докинг? Молекулярное узнавание – центральный феномен в биологии • Ферменты Субстраты • Рецепторы Сигналы (лиганды) • Антитела Антигены Классификация проблем докинга • Докинг белок-лиганд – Rigid-body докинг – Flexible докинг • Докинг белок-белок • Докинг белок-ДНК Проблема молекулярного докинга Дано: две молекулы в 3D с атомарным разрешением: • Связываются ли они друг с другом? Если да: • Как выглядит комплекс? • Насколько сильно связывание? Структуры белок-лиганд • X-ray (PDB: 20946 entries from X-ray) • NMR Важность 3D структур • Разрешение < 2.5Å • Проблема моделирования гомологов Основные принципы Связывание молекул основано на взаимодействии • H-связи, солевые мостики, гидрофобные контакты, эдектростатические взаимодействия • Очень сильное отталкивающее влияние VdW на коротких дистанциях. Случайные взаимодействия – слабые и короткие. • Сильное связывание предполагает комплементарность поверхностей. Большинство молекул гибкие. Binding Affinity Склонность к связыванию – энергетическая разность между связанным и свободным состояниями. • Среда (обычно вода) играет важную роль. • Энтропия вносит значимый вклад. Binding affinity описывает комплекс, а не единичные структуры. Applications Оценка склонности к связыванию • Поиск ключевых структур для белка\ов (виртуальный скрининг). • Оценка влияния модификаций ключевых структур. • Дизайн лигандов De Novo. • Создание библиотек. Предсказание молекулярных комплексов. • Распознавание вида связывания. • Оптимизация ключевых структур. Docking и Scoring Идентификация верного связывания лиганда с активным сайтом • Пробы • Spatial DOF • Internal DOF Идентификация верного связывания по наименьшей энергии • Функции скоринга оценка Требования Характеристки Требования и характеристики Требования • Осуществить докинг и его оценку для базы структурно различных (гипотетически) соединений. • Идентифицировать weak binders среди non-binders. • Идентифицировать как минимум одно соединение с низкой IC50 mM активностью. • Оценить ~10000 лигандов в день на процессор. • RMS между экспериментом и моделью дока < 2Å допустимо. Характеристики • Высокий уровень false positives и false negatives. • Отсутствие универсальной функции оценки. False Positive и False negative Допустим База данных – 100000 соединений, среди которых 20 хорошо связывающихся. При 50% false negatives имеем 10 binders. При 1% false positives имеем 1000 false positives. Если мы можем лабораторными методами проверить 50 50 молекул (серьезный труд) из 1010 позитивных хитов, то 60% за то, что мы не получим ни одного верного соединения. Для того, чтобы достичь 90% успеха в определении верного хита уровень false positives должен быть 0.2% Что такое Docking? • Вычислительный подход к предсказанию взаимодействий между белками или между белками и другими молекулами (лигандами) • Предположение: компоненты, которые хорошо стыкуются, могут и связываться друг с другом. • Предсказание какие протеины могут взаимодействовать друг с другом • Предсказание сайтов для такого взаимодействия • Автоматизированное взаимодействия предсказание для белок–лекарственного • Улучшение и облегчение инженерии белков и разработки лекарств (drug design) Docking – почему это важно? • Биомолекулярные взаимодействия – ядро всех регуляторных и метаболических процессов. • Роль компьютерного анализа возрастает, поскольку растут объёмы баз данных известных структур. • Увеличение вычислительных мощностей позволяет производить более детальный анализ и предсказание молекулярных взаимодействий. • Автоматизированное предсказание молекулярных взаимодействий – ключ к рациональной разработке новых лекарств. Цели докинга • Для двух заданных биомолекул определить: 1. Могут ли они взаимодействовать согласно Gibbs free energy Есть ли такая энергетически выгодная ориентация двух молекул, при которой одна может модифицировать функцию\свойства другой? Могут ли две молекулы «соответствовать» друг другу в какомлибо энергетически выгодном состоянии? 2. Если могут, то какова их ориентация, которая сделает взаимодействие максимальным при минимизации общей «энергии» комплекса? • Цель: Найти такие молекулы в базах данных молекулярных структур. Docking – Совмещение (Superposition) • Найти матрицу трансформации, которая наилучшим образом перекроет стол и стул. Иными словами найти такую матрицу трансформации, которая минимизирует RMS между соответствующими точками стола и стула. • Соответствия: • Верх стула – верх стола • Бок стула – бок стола и т.д. Docking – Совмещение (Superposition) Алгоритм абсолютной ориентации Ключ – нахождение соответствующих точек между двумя структурами Docking – почему это так непросто? Обе молекулы гибкие и могут изменять друг друга во время взаимодействия: • Степени свободы • Допустимые конформации Белок-белковое взаимодействие • Обе молекулы рассматриваются как rigid bodies (но можно и иначе!). • Огромная область для поиска (6 dof: 3 поворота, 3 перемещения) • Стерические/энергетические ограничения для уменьшения области поиска. Полости, впадины и взаимодействие •CASTp Идентификация и характеризация областей на поверхности (и внутренних, недоступных для взаимодействия) белков и иных молекул. •MolSurfer Белок-белковые интерфейсы •PASS Быстрое определение и визуализация впадин для предсказания сайтов связывания •Surface Racer Расчет доступной дл явзаимодействия поверхности, её кривизны и впадин (включая внутренние). •SURFNET Поверхности и доступные области на молекулярных поверхностях •ASC Набор скриптов для расчета поверхностей на базе PDB файла CAPRI • CAPRI: Critical Assessment of PRediction of Interactions First community wide experiment on the comparative evaluation of protein-protein docking for structure prediction Hosted By EMBL/EBI-MSD Group Жесткий докинг Допущения • Ригидный белок • Ригидный лиганд Применения метода • Докинг малых или очень ригидных молекул. • Докинг фрагментов (гибкий докинг дизайн De Novo). • Докинг по базе мульти-конформеров. The Clique Method Сопоставляем подходящие точки/характеристики двух молекул (рецептора и лиганда). Ba Bb Bc Da Aa A a B D C рецептор 1. 2. 3. 4. c b лиганд Ab Db Dc Ca Cb Cc Distance compatibility graph Ac Для N сайтов рецептора и n сайтов лиганда образуем N x n узлов. Для каждой пары узлов определяем Δd = D receptor sites – D ligand sites. При Δd < ε, соединяем узлы линиями. A clique – подграф, в котором все узлы соединены между собой. The Dock Program http://www.cmpharm.ucsf.edu/kuntz/dock35/dock_demo.html X-ray structure of HIV protease Connolly surface for active site Active site заполнен сферами. Их центры – потенциальные места для атомов лиганда. The Dock Program Лиганд представляется как перекрывающиеся сферы (или как атомы) Центры сфер соответствуют атомам лиганда. Используя clique technique (до 4 точек на cliques), можно определить возможные ориентации лиганда. Обычно генерируется несколько десятков тысяч ориентаций для каждой молекулы. Scoring Shape scoring – используя аппроксимацию: Lennard-Jones potential. Electrostatic scoring – ПО DELPHI , расчет электростатического потенциала. Force-field scoring – потенциал AMBER. Модель с наивысшим score vs X-ray структура Гибкий докинг: Допущения Гибкость лиганда ограничена торзионными углами + кольцевыми структурами. • Конформационные ансамбли –Жесткий докинг пула конформаций для каждой молекулы (DOCK). • Фрагментация лиганда – Постепенно наращиваемые конструкции (FlexX) – «Вписываем-соединяем» • Явный конформационный поиск – Генетические алгоритмы (GOLD) – Monte Carlo (LigandFit) • Симуляции Белок рассматривается как почти полностью жесткая молекула • Множественные модели белка (FlexE) • Симуляции Гибкий докинг: Применения Анализ комплексов, поиск возможных вариантов связывания. Виртуальный скрининг по базам малых молекул. Incremental Construction Стратегия • Разбиение молекулы на фрагменты. • Вставка одного или нескольких фрагментов в активный сайт, игнорируя положение остальных. • Последовательное добавление остальных фрагментов. Стратегия поиска • Жадный поиск: После добавления фрагмента – выбор конформацию с наивысшей оценкой. Остальные отбрасываем. – Линейный масштаб от количества фрагментов. – Без учета возможных взаимодействий между фрагментами. The FlexX Program http://cartan.gmd.de/flexx/ Взаимодействия белок-лиганд описываются типами и геометрией. Типы взаимодействия делятся на группы и «антигруппы». Group Counter group Hydrogen bond acceptor Metal acceptor Aromatic ring atom, methyl, amide Aliphatic carbons, aromatic carbons, sulfur Hydrogen bond donor Metal Aromatic ring center Level 3 3 2 1 Уровень взаимодействия - геометрия. Чем выше уровень, тем более строгие требования к геометрии взаимодействия. Геометрия взаимодействия Взаимодействие между группой A лиганда и группой B белка наблюдается, если: 1. Группа взаимодействия B находится в антигруппе A. 2. Центр взаимодействия A лежит примерно на поверхности взаимодействия B и наоборот. Поверхность взаимодействия Центр взаимодействия H-bond donor H-bond acceptor Геометрия взаимодействия Hydrogen bonds (3) Hydrophobic: Aromatic (2) Hydrophobic: Aliphatic (1) Гибкость белков • Protein flexibility and drug design: how to hit a moving target • Несмотря на миллионы лет эволюции, создававшей рецепторы, которые могут распознавать специфический лиганд мы все ещё можем идентифицировать молекулы, которые связываются с ним с большей афинностью • Сайт связывания может взаимодействовать с множеством молекул – существует возможность реорганизации сайта с относительно небольшим «штрафом» для соответствия малой молекуле. • Двойная природа сайта связывания– высокая стабильность и высокая гибкость (зачастую большая, чем у белка в целом). • Парадигма «Ключ-замок» устарела. Белок – совокупность предопределенных состояний. Carlson/ Curr. Op. Chem. Biol. 2002, 6: 447-452. Решения Использование единичной структуры белка в эксперименте докинга может пропустить возможное взаимодействие Cross docking • Докинг всех лигандов на все имеющиеся структуры белка с дальнейшим объединением в ранжированный список. • Ограничено имеющимися конформациями белка. Protein flexibility • FlexE – Включает все комбинации структур белка. Гибкость белков Взаимодействие «Белок-Лиганд» Идентификация сайтов взаимодействия между белком (rigid body) и подвижной, гибкой малой молекулой (лигандом) Очень большое поле поиска Рассматривать лиганд как rigid body Или как фрагменты rigid body, соединенные гибкими связками. Метод Монте-Карло или MD. Лиганд 2 типа: -Связывание средней силы, но в конформации c минимальной свободной энергией (most populated). или - Сильное связывание с менее выгодной конформацией (less populated). Связывание может сдвигать распределение (induced-fit system). Взаимодействие «белок-лиганд». Серверы LPC-CSU Server: Предсказание контактов «лигандбелок» и контактов структурных элементов LigBase: Структурная БД сайтов связывания Multiple Protein Structure •Abl связывается с STI-571 в неактивной конформации петли Abl. •Abl связывается с PD173955 – «петля активации» в иной конформации (активная киназа). Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002 MPS Nagar et al./ CANCER RESEARCH 62, 4236–4243, August 1, 2002 Grid Based Dock Scoring • Сначала - Расчет вероятных взаимодействий •Построение сети – объем такой же, как и у белка • Расчет стерических и электростатических взаимодействий в каждой точке сети • Ориентация лиганда – scoring суммированием взаимодействий с точками сети Пренебрегаем: • электростатические взаимодействия с растворителем • изменения энтропии • изменения конформации белка Drug Design Drug Design ~6-7 лет. 3 фазы