Оценка качества модели пространственной структуры Тернистый путь создания модели Ян Вермеер Дельфтский Аллегория живописи 1666 Структура белка - это созданная человеком на основании экспериментальных данных модель The structures in the PDB are based on a subjective interpretation of experimental data, which may itself be of variable quality, a process that can lead to errors with varying degrees of impact (Bra¨nde´n & Jones, 1990; Morris et al., 1992; Kleywegt & Jones, 1995, 1996, 1997, 2002; Hooft et al., 1996; Kleywegt, 2000, 2007, 2009; Chen et al., 2010). For this reason, it is crucial to assess the quality and reliability of the resulting models, a process known as validation (Kleywegt, 2000, 2009). Gore, Velankar and Kleywegt, Implementing an X-ray validation pipeline for the Protein Data Bank, 2012 1. Примеры ошибок Полностью ошибочная модель, 1989 1PHY, 2.4 Å McRee et al. 1989 2PHY, 1.4 Å Borgstahl et al. 1995 Две структуры одного и того же белка радикально отличаются. В PDB 1PHY заменена на 2PHY Полностью ошибочная модель, 2006 SCIENCE VOL 314 22 DECEMBER 2006 Experimental Data for 13 JULY Structure Papers We are writing to address the retraction of five papers on structural studies of ATP-binding cassette (ABC) transporters—three in Science (G. Chang et al., “Retraction,” Letters, 22 Dec. 2006, p. 1875), one in the Proceedings of the National Academy of Sciences (1), and one in the Journal of Molecular Biology (2). We have much sympathy for your readers but very little for the magazine. This is not the first time incorrect structures have been published in Science (3), and it will not be the last time. We and all of your readers make mistakes; crystallography is fortunate that by careful treatment of the experimental and derived data, most serious mistakes are caught and corrected before publication. The necessary tools and techniques are well described [for example, (4), and references therein] and widely used by our community. Inherent in structural analysis is a degree of subjectivity (3), which is particularly relevant in low-resolution studies such as those made by Chang and co-workers. Essentially correct structures have been built at 4.5 Å resolution, but it is not surprising that some of them turn out to be wrong upon further scrutiny. 2007 VOL 317 SCIENCE We are writing to address the retraction of five papers on structural studies of ATP-binding cassette (ABC) transporters—three in Science (G. Chang et al., “Retraction,” Letters, 22 Dec. 2006, p. 1875), one in the Proceedings of the National Academy of Sciences (1), and one in the Journal of Molecular Biology (2). We have much sympathy for your readers but very little for the magazine. This is not the first time incorrect structures have been published in Science (3), and it will not be the last time. ROBBIE P. JOOSTEN AND GERT VRIEND 2009 год… Университет Алабамы обращается к руководителям PDB c запросом на удаление следующих структур, депонированных сотрудниками университета. Также просит журналы отозвать 9 соответствующих публикаций 1BEF, 1CMW, 1DF9 2QID, 1G40, 1G44, 1L6L, 2OU1, 1RID, 1Y8E, 2A01, 2HR0 Пример “сдвига рамки” при расшифровке: две модели, построенные по тем же экспериментальным данным 1CHR: Hoier et al., 1993 Разрешение 3.00 Å Ala5 Ala5 2CHR: Kleywegt et al., 1996 Разрешение 3.00 Å Gln20 Ser22 Lys16 Gly40 Gly40 Lys16 Выравнивание последовательностей 1CHR и 2CHR по близости C_alpha атомов при наложении структур “Мелкие” ошибки. Противоречие физике и химии 1DLP 167-169:C, Разрешение 3.3 ангстрема (2000г) 2013. Структура, по-прежнему, лежит в PDB Примеры плохого соответствия модели “экспериментальной” ЭП Из протокола Алисы Гараевой Из протокола Льва Шагама, 2006 Уровень подрезки 2.5 sigma Это явная неточность расшифровки. … сталкиваемся с полным произволом авторов структуры. То есть если на уровне подрезки 1 на месте бокового радикала этого остатка ещё есть какая-то электронная плотность, то на этом уровне от неё не остаётся и следа. Наибольшая электронная плотность (3 sigma) наблюдается вокруг Сαатома, наименьшая (около 0.1 sigma!) – у Сδ – атома. 2. Источники ошибок Этапы РСА Этап Результат 1. Кристаллизация 1. Кристалл 2. Рентгеновский эксперимент 2. Структурные факторы= амплитуды гармоник Фурье, кристаллографическая ячейка, группа симметрий, разрешение 3. Решение фазовой проблемы 3. Фазы гармоник Фурье, функция ЭП 4. Построение черновой модели 4. Модель (“черновой” pdb файл) 5. Оптимизация модели 5. Модель для PDB 6. Проверка качества Ошибки, влияющие на качество модели • Ошибки измерения структурных факторов • Ошибки в размерах и симметриях кристаллографической ячейки • Плохие фазы • Ошибки вписывания атомов в черновую ЭП • Неудачная оптимизация модели 3. Разрешение “Одномерный кристалл” 1) В ячейка 30 ангстрем 3 тяжелых атома и водород. Их положение известно. 2) График функции ЭП 4) Разрешение гармоники = расстояние между максимумами. Например, разрешение 3й гармоники равно 30 Å/3 = 10 Å 4) Разрешение в зависимости от набора измеренных гармоник Набор гармоник Разрешение Полнота данных 0-3 10 Å 100% 0-20 1,5 Å 100% 3)Ряд Фурье функции ЭП 0-30 1Å 100% ρ(x)=F0 + +F1cos( 1* 2π/30*x + φ1) + +F2cos(2*2π/30*x + φ2) + +F3cos(3*2π/30*x + φ3) + +… 2-30 1Å 93.6% 2-10, 12-30 1Å 90.3% 2-20, 30 1Å 64.5% 2-10, 12-20, 30 1.5 Å 90.5% Разрешение структуры • Проведен РСА эксперимент: найдены параметры кристаллической ячейки и получен файл структурных факторов : CRYST1 77.553 192.966 93.740 90.00 90.00 90.00 0 0 4 211.0 0 0 6 1642.7 ………………. 1 1 3 160.9 • Для каждой гармоники (h, k, l) рассчитываем разрешение dhkl (параметры кристаллической решетки известны!) • Имеем множество измеренных рефлексов (h, k, l) (см. рис) • Если измерены все рефлексы с разрешением d и больше, и d – минимальное с таким свойством, то говорят, что разрешение структуры d (ангстрем) • Слово “все” следует заменить на слова “почти все” (добавив, для честности, параметр “полнота данных”) потому, что это эксперимент, а не теория. • Так, например, рефлексы, отвечающие самым маленьким тройкам чисел (h,k,l): (0,0,0), (1,0,0) …. не могут быть измерены [почему?] • Кроме того, некоторые измеренные амплитуды не используют из-за их плохого качества Разрешение как показатель качества модели структуры • Характеризует экспериментальные данные, а не модель! • Остается небольшая доля субъективности в определении разрешения структуры • По данным РСА с плохим разрешением можно построить хорошую модель; при хорошем разрешении в модели могут быть ошибки Условные градации разрешения • Высокое разрешение: <1.5 Å • Хорошее разрешение: 1.5 – 2.5 Å (в моделях с разрешением < 2.5 Å обычно моделируют и молекулы воды) • Удовлетворительное: 2.5 – 3.5 Å • Низкое: > 3.5 Å Но и модели с разрешением 5 Å и более могут быть очень важными! Например, первые расшифровки рибосомы Менее 10% структур, полученных с помощью рентгеноструктурного анализа, имеют разрешение менее, чем 1,5 ангстрем 4. R-фактор и R-free Вписывание полипептидной цепи: черновая модель пространственной структуры неточна! • неточность структурных факторов и фаз • произвол при вписывании – тем больший, чем хуже ЭП 2.5 Å, MIR Оптимизация координат атомов В.Ю.Лунин, лекция 3 • Что оптимизируется: – Соответствие рефлексов: » Fhkl(calc) - рассчитанных по координатам атомов в модели, и » Fhkl(obs) – полученных в эксперименте – Длины валентных связей – Валентные углы • Какая величина оптимизируется: Составной R-фактор (измеряется в % или долях единицы): R = wX -ray RX -ray + wdist Rdist + wangle Rangle RX-rayR== calc obs F F hkl hkl hkl F obs hkl hkl 100% В.Ю.Лунин, лекция 3 Оптимизация координат атомов • Как оптимизируется – Немножко меняются координаты всех атомов в текущей n-й модели , получаем новую, (n+1)-ю модель – Рассчитывается Rn+1 для новой модели – Если Rn > Rn+1 , то берем (n+1)-ю модель – Поступаем так до тех пор, пока R-фактор не перестанет уменьшаться • Существуют алгоритмы как выбирать смещения атомов для очередной модели R-фактор отражает соответствие модели и эксперимента: чем меньше R-фактор, тем модель лучше! Хорошие значения: R<25% Но… Подгонка под ответ! Борис Кустодиев Сапожник 1924 Пример “успешной” подгонки (свобода, право) Структура белка CRABP (вольности) Структура CRABP, вписанная в обратном порядке и оптимизированная ЧТО ПОЛУЧАЕТСЯ: • R-фактор является тем параметром, который минимизируется в процессе уточнения модели • При минимизации уточняются координаты всех атомов => “подкручиваются много тысяч ручек” (параметров) • С помощью тысяч “ручек” один параметр можно минимизировать почти до нуля по случайным причинам! R-free В.Ю.Лунин, лекция 3 В любом эксперименте необходим контроль! Служат для оптимизации рабочие все рефлексы контрольные модели Используются после получения окончательной модели для контроля. R-free вычисляется по той же формуле, что и R_x-ray, но только по контрольным рефлексам и только по окончательной модели! • Если модель правильная, то R-free окажется примерно равным R-X-ray или немногим больше! • Может ли быть так, что R-free < R? • Если модель подогнана под рабочие рефлексы – “переоптимизирована”, - то R_free окажется большим! Интерпретация R_free • Хорошие значения: R_free<20% • Плохие значения: R_free>40% • Значения (R_free – R)>10% настораживают в отношении переоптимизации (ovefitting) REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK 3 3 3 3 3 3 3 3 3 3 FIT TO DATA USED IN REFINEMENT. CROSS-VALIDATION METHOD FREE R VALUE TEST SET SELECTION R VALUE (WORKING + TEST SET) R VALUE (WORKING SET) FREE R VALUE FREE R VALUE TEST SET SIZE (%) FREE R VALUE TEST SET COUNT : : : : : : : THROUGHOUT RANDOM 0.15621 0.15185 0.19471 10.1 5989 • Авторы получили в эксперименте 59 297 рефлексов • Они утверждают, что 5 989 (10%) рефлексов спрятали в сейф, опечатали и никому не показывали • По оставшимся 53 308 рефлексам оптимизировали модель и получили R=15% • После этого достали тайные рефлексы из сейфа и рассчитали R-фактор по ним. Это и есть Rfree . Авторы получили Rfree = 19%. • Все общественно признанные критерии удовлетворены: • Rfree <20% - приемлемое значение для хорошей модели • Rfree- R <10% - нет доводов в пользу переоптимизации • Значит, можно отправлять в PDB и публиковать статью! Польза R_free демонстрируется в работе Структура белка CRABP Структура CRABP, вписанная в обратном порядке и оптимизированная 5. Карта Рамачандрана Степени свободы полипептидной цепи Длины валентных связей и валентные углы имеют известные значения. Отклонения от этих значений энергетически невыгодны. Поэтому в модели соблюдаются табличные значения этих параметров с хорошей точностью. См. соответствующие слагаемые в R-факторе. Укладка полипептидной цепи определяется тремя торсионными углами , , Торсионный угол 1 3 4 2 Рис.1. Упорядоченная четверка атомов в пространстве 1 2 3 4 • Определяется для упорядоченной четверки атомов: 1-2-3-4 • Если расположить атомы над плоскостью проекции так, чтобы 3-й и 2-й проектировались в одну точку, 3й – выше 2-го, то торсионный угол равен углу между проекциями ребер 1-2 и 2-3 • торсионный угол отсчитывается от проекции ребра 1-2 против часовой стрелки Рис.2. Проекция четверки • торсионный угол измеряется в на плоскость. Торсионный угол – пределах от -180º до -+180º градусов примерно +160º Угол принимает определенные значения: 180° почти всегда (trans - конформация) 0° крайне редко (cis - конформация), бывает, в основном, у пролина Cα(i) N Cα(i+1) C Рис.2 Trans конформация: “кочерга” Cα(i+1) Рис.1 Cis и trans конформации полипептидной цепи N Cα(i) C Рис.3 Cis конформация: “чашка” Существенно разные (но не любые) значения могут принимать углы , . Пара чисел от -180° до +180 ° соответствует точке в квадрате на координатной плоскости Квадрат -180° до +180 °, предназначенный для отображения торсионных углов (φ,ψ) называется картой Рамачандрана Карта Рамачандрана (по Рамачандрану) Каждой точке на карте можно приписать энергию такой конформации полипептидной цепи остатка. ψ Крестиками отмечены пары (φ,ψ) для остатков одной структуры +180° 0° Области низкой энергии, т.е. предпочитаемых значений (φ,ψ), обведены контурами -180° -180° 0° +180° φ Области на карте Рамачандрана 1CNR, разрешение 1.05 ангстрем Классификация областей (PROCHECK): - предпочитаемая (A,B,L) - разрешенная (a,b,l,p) - допустимая (~a,~b,~l,~p) - запрещенная Карта Рамачандрана по последним данным (Lovell et al., 2003; Davis et al., 2004) Внутренний контур окружает 98% остатков Внешний - 99.95 % остатков (!) Области на карте Рамачандрана, используемые в программах, определены на основании статистики по PDB Рекомендуемая VTF программа - MolProbity Выводы • ВСЕ остатки, не попадающие в обведенные области на карте Рамачандрана, следует считать маргинальными: – либо координаты остовных атомов существенно неточны – либо это крайне редкие особенности (встречаются реже 1 на 2000 случаев), требующие объяснения Карта Рамачандрана модели белка как индикатор её качества • Этот индикатор хорош потому, что независим от процедуры оптимизации модели (как правило) • В хорошей модели >90% остатков, не считая Gly, Pro, находятся в предпочитаемой области • Этот критерий нынче известен всем, поэтому авторы стараются подогнать модель! Сравните две карты Рамачандрана Инверсия пептидной цепи (pep-flip) Индикатором возможности инверсии служат два идущих подряд остатка на карте Рамачандрана попавшие в неблагоприятные области 6. Торсионные углы боковых цепей. Ротамеры Конформации боковых цепей • Боковые цепи имеют от 0 (Gly, Ala) до 4х (Lys, Arg) степеней свободы • Эти степени свободы - вращения вокруг ковалентных связей – торсионные углы • Соответствующие торсионные углы обозначаются χ1, ..., χ4, отсчёт идет от связи C_alpha – C_beta Распределение угла χ1 в моделях PDB Всего в выборке было 67608 остатков Карта углов χ1 и χ2 для Leu Ось X: chi_1 (0-360°) Ось Y: chi_2 (0-360°) Всего 6638 остатков Изображены линии уровня плотности числа остатков Ротамеры - это боковые цепи в типичных для данного типа остатка конформациях У каждого типа остатков (Leu, Trp, Arg и т.п.) свое число ротамеров Имеются базы данных ротамеров, для каждого остатка указаны средние и доверительные интервалы Программы “знают” ротамеры боковых цепей Боковые цепи, конформация которых существенно отличается от одной из предпочитаемых, считаются маргиналами. Рекомендуемая VTF программа - MolProbity 7. Пространственный R-фактор (RSR) RSR оценивает соответствие модели экспериментальным данным Простой метод найти ошибку в положении атомов – посмотреть как согласуются экспериментальная электронная плотность и построенная по модели. Проблема в том, что … эксперимент не даёт функцию электронной плотности! Эл.пл-ть, полученая в результате решения фазовой проблемы, служит только для построения черновой модели структуры! Как рассчитать “экспериментальную” электронную плотность? • Фазы - по модели (больше неоткуда взять!) • Рефлексы – из эксперимента • Используют трюк “2F_эксп – F_модель” для контрастирования ошибок. В результате трюка получается лучшее приближение к правильной электронной плотности Продолжение • Карты электронной плотности моделей, для которых в PDB есть файл структурных факторов, доступны на сайте Electron Density Server (EDS) Как сравнить “экспериментальную” электронную плотность с электронной плотностью, построенной по модели? • Real Space R (RSR) характеризует насколько модель атомов (или даже отдельного атома) соответствует “экспериментальной” электронной плотности Сумма берется по узлам пространственной решетки в окружении всех атомов (или группы атомов) Хорошие значения: RSR<10% Плохие: >20% RSR: пространственный R-фактор для всех остатков структуры 1CHR (сервер EDS) Для маргиналов с RSR>20% имеет смысл посмотреть как остаток вписан в электронную плотность Относительная оценка RSR: RSR – Z-score • Для вычисления Z остатка (напр. Ala57) его RSR сравнивается со средним RSR для того же типа остатков (Ala) по выборке из PDB с примерно таким же разрешением (напр. 1.5-1.8 Å) Z = (RSR - <RSRresolution>) / Sigmaresolution • Если RSR плохой, а RSR-Z – хороший, то значит координаты атомов расшифрованы плохо, но не хуже, чем в других подобных структурах. Z-score для всех остатков структуры 1CHR Высокие положительные значения Z > 2 свидетельствуют о том, что остаток плохо вписан в электронную плотность по сравнению с другими структурами с тем же разрешением (=>маргинал) 8. “Комфортность” окружения атома • Пересечения ван-дер-Ваальсовых радиусов, включая водород, (более, чем на 0.4 Å), физически невозможны (clash) • Заряд остатка должен компенсироваться взаимодействием с зарядом противоположного знака • Донорам/акцепторам протона выгодно образовывать водородную связь; если таковой нет, то остаток - маргинал • Неполярным атомам предпочтительно находиться в гидрофобном окружении Комфортность окружения для отдельных остатков. Пример: две модели одного и того же белка 1CHR: Arg35 оказался в гидрофобном кармане 2CHR: Arg35 взаимодействует с кислотой Пример из Read et al., Structure, 2011 Figure 1. Correction of a Local Error for Thr 32 in PDB 1sbp, a Quite Good Older Structure at 1.7A° Resolution (A) This side-chain in 1sbp (He and Quiocho, 1993) has many serious all-atom steric clashes (clusters of red spikes) and no hydrogen bonds, and the tetrahedral angles at N-Ca-Cb and at Cg2-Cb-Og1 (labeled) are bad outliers. (B) The side-chain has been turned 180 and now has ideal geometry, no clashes, two good hydrogen bonds, and a slightly better fit to the density. Существуют несколько интегральных критериев комфортности окружения. Можно использовать те, которые приведены в протоколах PDBReport, создаваемых программой WhatCheck Интегральная оценка комфортности окружения остатка • В программе WhatCheck рассчитывается Zscore для комфортности окружения каждой боковой цепи • Маргиналы – Z-score < -5 • Более показательны участки цепи с низким Z, для их обнаружения строится сглаженный график зависимости Z от номера остатка • Маргиналов по окружению стоит проверять визуально: часто маргинальность объясняется выходом на поверхность глобулы, контактом с белком из соседней ячейки и др. Некоторые специальные ситуации Анализ водородных связей • В моделях встречается инверсия боковых цепей His, Asn, Gln (flip) His Asn Gln Графики (r) для разных атомов (из лекции Лунина) 200 H C N O S 150 100 50 0 0 0,2 0,4 0,6 Инверсия (?) в Asn51 гомеодомена №2 №2 №1 Asn51 Атом ND2 ? ? Атом N7 – акцептор H A103 Атом OD1 Атом N6 – донор H Еще в 36 структурах гомеодоменов – так же, как в 1й; еще в 2х – как во второй 9. Молекулы воды и ионы Анализ молекул воды. Пример из модели 1CBS HOH375 Может ли HOH376 фиксироваться в одинаковых точках во всех ячейках кристалла!??? 4.3Å 3.9Å Очевидно, нет HOH376 Leu28.CD Вопрос: что еще нужно проверить? 10. Две одинаковых молекулы в асимметрической ячейке Два мономера в асимметрической ячейке Пример. Хлормуконат циклоизомераза из Alcaligenes eutrophus: структуры 1chr и 2chr 1CHR: Hoier et al., 1993 Разрешение 3.00 Å 2CHR: Kleywegt et al., 1996 Разрешение 3.00 Å Использованы те же экспериментальные данные! Совмещение остовов 1CHR_A и 2СHR 11. Фильтрация экспериментальных данных 1) График Вилсона (Wilson plot). 2) Сила сигнала = = Fhkl /σhkl . Амплитуды с силой сигнала >3 можно считать достаточно хорошими для синтеза Фурье Рис. График Вильсона. Одна точка соответствует одному измеренному рефлексу. X – разрешение гармоники. Y – нормированная интенсивность сигнала. Теоретически, должна хорошо приближаться прямой. Сильно отклоняющиеся рефлексы подозрительны и должны быть отфильтрованы. 12. Повторная оптимизация pdb файла (re-refinment) Science 2007: Vol. 317. no. 5835, pp. 195 - 196 PDB Improvement Starts with Data Deposition Robbie P. Joosten, Gert Vriend In 1996, Hooft et al. (4) reported one million anomalies in the PDB, and we recently detected 10 times as many anomalies in a PDB that is 10 times as large. Most of these anomalies are of minor importance, and a small fraction are genuine discoveries that warrant further studies. However, a substantial number are serious errors. Using today's tools, we can correct many of the erroneous structures, provided that the original experimental x-ray data are available. We re-refined all 1195 PDB files that had a reported resolution of 2.0 Å and that were deposited after 1992 with the use of an experimental data file that included an Rfree set. http://swift.cmbi.ru.nl/pdb_redo/ 13. Две задачи: - Выбор лучшей PDB модели из нескольких (интегральная оценка) - Выявление маргинальных групп атомов (локальная оценка) Основные индикаторы качества модели: лучшие Индикатор Свободный Rфактор (R_free) и (R_free – R) Глобаль Локальный ный да нет Карта да Рамачандрана Комфортность да окружения атомов (Packing score) да да Значимость ++ ++ ++ ++ Основные индикаторы: хорошие Индикатор Разрешение Глобальн Локальный ый да нет Ротамеры да да Пространственный да R-фактор (RSR) да Значим ость + + + Основные индикаторы: хорошие Индикатор Глобальн Локальный ый да да Сравнение двух копий из асимметрической единицы Инверсия нет пептидной цепи между двумя C (pep-flip) да Значим ость + + Основные индикаторы: ”плохие” (с оговорками) Индикатор R-фактор Температурный фактор Геометрические: длины ковалентных связей, валентные углы, , планарность, хиральность, сближение несвязанных атомов Глобальн Локальный ый да нет да да да да Значим ость -/+ -/+ -/+ Плохие в том смысле, что хорошие их значения не говорят о хорошем качестве модели Сервисы и программы • PDBsum • PDB • PDBCheck (программа WhatCheck из пакета WhatIf) • MolProbity • PROCHECK • PDBReport • EDS (RSR во всех видах, файлы с электронными плотностями) Продолжение • Ramachandran plots for all types of residues (http://xray.bmc.uu.se/gerard/supmat/ramarev.html) • Rotamers for all types of side chains (http://xray.bmc.uu.se/gerard/supmat/chi.html) Validation Task Forses (VTF), 2008 • Организация экспертов, созванная PDB • Вырабатывает рекомендаций по – построению моделей структур – методам проверки; создает поток (pipline) по автоматической проверке PDB-файлов и выявлению ошибок Конец