1. Построение выравнивания последовательностей пары протеинкиназ с разметкой кластеров плюс-блоков. Рассмотрим цепи В структур протеинокиназ 1AD5 и 1K9A. Первый белок представляет собой тирозин-киназу Hck кроветворных клеток, второй – карбоксил-терминальную Src киназу. Длины выбранных цепочек – 531 и 450 а.о. соответственно, длина выравниваемых цепей - 438 и 441 а.о. (причина лежит в отсутствии некоторых координат). Данные цепочки были поданы на вход программе гибкого выравнивания FATCAT. Некоторая информация о полученном выравнивании: P-value = 1.11e-16, RMSD = 2.72, выравнивание содержит 2 изгиба, 416 эквивалентных позиций. Оригинальное выравнивание находится в файле fatcat.txt в папке с заданием, далее же будет представлено выравнивание в формате msf , конвертированное с помощью скрипта fatcat_to_fasta.py, с выделенными консервативными позициями и кластерами: Всего было найдено 3 кластера плюс-блоков. Длина выравнивания – 446, суммарная длина обоснованного выравнивания – 416, процент от длины меньшей последовательности в выравнивании – 416/438 = 94,98%. Суммарное число совпадающих букв в кластере Identity % Суммарное число сходных букв в кластере Similarity % Мера сходства конформаций двух фрагментов из кластера блоков Block2 (С) Суммарное число позиций обоснованного выравнивания в кластере Block1 (B) 1-33, 36-44, 46-63 70-90, 93-117, 123-134, 136-175 183-215, 217-226, 228-260, 263-339, 342-446 Число плюсблоков в кластере Block0 (A) Положение в выравнивании Идентификатор кластера Сравним полученные кластеры: 3 60 18 30 31 51,7 score 159.26 rmsd 1.38 4 98 32 32,65 41 41,8 score 254.39 rmsd 1.89 5 258 113 43,8 153 59,3 score 639.72 rmsd 1.30 СОВМЕЩЕНИЕ одной структуры с изогнутой второй в PDB формате с раскрашенными кластерами плюс-блоков: 1. c сайта FATCAT был скачен файл 1AD5B.1K9AB.pdb (где цепь А – структура 1ad5B, a цепь B – модифицированная структура 1k9aB) и rasmol-скрипт 1AD5B.1K9AB.script 2. rasmol-скрипт для покраски кластеров преобразован в скрипт для PyMol: load 1AD5B.1K9AB.pdb bg_color white hide all show cartoon color gray color color color color color color palecyan, a/82-143/ cyan, b/10-71/ wheat, a/144-249/ yellow, b/78-175/ slate, a/254-526/ marine, b/183-450/ ЗАКЛЮЧЕНИЕ 1. Хорошее совмещение кластеров плюс-блоков в пространстве (без видимых крупных погрешностей), низкое значение RMSD (<2), а также довольно высокий процент идентичности а.о. (>30) позволяют говорить о высокой степени доверия данному выравниванию. Подозрения об ошибках программы в ходе выполнения работы не возникли. 2. Рассмотрим доменную организацию совмещаемых цепей (согласно pDomains): Selected Protein: 1AD5 Chain: B CATH 1AD5B1 1-63 1AD5B2 64-165 1AD5B3 176-261 1AD5B4 262-426 SCOP 1AD5B1 1-63 1AD5B2 64-166 1AD5B3 167-438 Selected Protein: 1K9A Chain: B CATH 1K9AB1 6-67 1K9AB2 86-171 1K9AB3 187-272 1K9AB4 273-443 SCOP 1K9AB1 4-76 1K9AB2 77-177 1K9AB3 178-450 Границы доменов двух цепей незначительно отличаются от координат кластеров плюс-блоков и друг от друга, эти различия в совокупности с делением методом CATH последнего домена на два указывают на некоторую степень изменчивости конформации рассматриваемых белков, что скорее всего говорит об их конформационной подвижности, также небольшой вклад могут вносить ошибки и погрешности кристаллизации, особенно на граничных участках кластеров. Белок 1AD5 был получен из организма человека, а 1K9A выделен из организма крысы, так что роль эволюционной изменчивости в изменчивости конформации невелика, против нее также говорят высокие проценты идентичности и сходства а.о. в цепях. 2 Построение гибкого выравнивания с помощью сервиса RAPIDO для структур из упр.1. Информация о полученном выравнивании с размеченными кластерами): (по ссылке можно посмотреть выравнивание 1st struct. 1AD5_B (438) 2nd struct. 1K9A_B (441) #aligned 399 RMSD rigid 22.90 #rigid 351 RMSD flex 0.96 # rigid bodies 4 Идентификатор кластера Размер 1 191 1AD5_B: B267-B287, B289-B298, B316-B325, B335-B352, B357-B404, B407, B425B464, B470-B483, B486-B514 1K9A_B: B195-B225, B242-B251, B263-B280, B285-B332, B335, B349-B388, B394B407, B410-B438 0.86 2 83 1AD5_B: B146-B163, B170-B191, B197-B205, B210-B221, B224-B245 1K9A_B: B80-B97, B102-B132, B136-B147, B150-B171 0.84 3 55 1AD5_B: B84-B114, B116-B124, B126-B140 1K9A_B: B12-B42, B45-B68 1.04 4 22 1AD5_B: B262-B266, B306-B307, B310-B315, B326-B334 1K9A_B: B190-B194, B232-B233, B236-B241, B252-B257, B260-B262 1.68 Координаты Прежде всего стоит отметить очень низкое значение RMSD; а также наличие плюс-блока, состоящего всего из 1 а.о. (выделен жирным в таблице), причина скорее всего заключается в том, что соседние а.о. отсутствуют в структуре. RMSD Далее следует заметить, что по сравнению с FATCAT кластеры содержат большее количество плюс-блоков (вплоть до восьми). В отличии от FATCAT, RAPIDO обнаружил 4 кластера, для структуры 1K9A_B координаты первых двух кластеров сходны с FATCAT, третий кластер поделен на 2, причем, что самое интересное, расположение плюс-блоков этих двух кластеров чередуется. Для структуры 1AD5_B координаты кластеров сильно различаются: FATCAT RAPIDO 1-63 70-175 84-140 183-446 146-245 267-514 262-334 расположение кластеров, согласно RAPIDO, смещену в сторону N-конца последовательности, опять же присутствуют два кластера с чередующимися плюс-блоками. 3. Сравнение пары структур одного и того же белка с помощью гибкого выравнивания Рассматриваемый белок - гемофор HasA из бактерии S. marcescens (записи 2cn4 и 1dk0, сравниваем цепи A), отвечающий за “кражу” бактерией железа из эритроцитов. Результаты работы сервиса FATCAT: длина выравнивания – 173 позиции, RMSD = 0.47, Последовательности полностью идентичны. Координаты кластеров – 2-48; 50-174. Изображение гибкого выравнивания в PyMOL: (зеленым цветом раскрашена цепь 2cn4_A, желтым - 1dk0_A) Структуры в пространстве совмещаются почти полностью, попробуем разобраться в причине их небольших отличий, она может заключаться в конформационной подвижности белка либо в ошибках кристаллизации. 1. Обе последовательности идентичны, каждая структура состоит из двух доменов, расположенных впритык друг к другу и занимающих практически всю цепь, так что вариабельность конформаций невелика (по версии БД SCOP и CATH домен и вовсе один). 2. Проверим вторую версию. Для начала рассмотрим записи по-отдельности, запись 1dk0 содержит идентичных полипептидных цепи, связанные с 2 молекулами гема. 2 2cn4 имеет такую же структуру, но его цепи располагаются более тесно, переплетенно. Каждая молекула гема связана с обоими цепями. Для проверки на предмет наличия ошибок кристаллизации поищем возможные контакты димеров и молекул гема внутри одной ассиметричоской единицы с белками и молекулами гема из других элементарных ячеек. 1dk0: Каждая молекула гема связана с двумя цепями: из своей ассиметрической единицы и из соседней. 2cn4: Тут молекулы гема взаимодействуют с тремя цепями. Скорее всего данное различие обуславливается ошибками кристаллизации. Структура 2cn4 была получена на 7 лет позже (в 2006ом), так что стоит предполагать, что более поздняя структура – более достоверная, к тому же укладка белка, взаимодействие между цепями димера и место связывания молекул гема выглядят гораздо правдоподобней в 2cn4. Подтверждение этой версии можно найти в литературе, в статье Mirjam Czjzek и др. под названием “The Crystal Structure of the Secreted Dimeric Form of the Hemophore HasA Reveals a Domain Swappingwith an Exchanged Heme Ligand”, напечатанной в 2007 (т.е. через год после второй расшифровки и публикации структуры гемафора HasA). В ней правильность структуры 2cn4 доказывается методом ЯМР.