Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2006 года) Осенний семестр 2007 Д.А. Равчеев, М.С. Гельфанд В. Ю. Макеев (некторые слайды) Транскрипция и трансляция в прокариотах Прокариоты Эукариоты 1. Сопряжение транскрипции и трансляции 1.Транскрипция 2. Котранскрипция нескольких генов (опероны) (синтез пре-мРНК) 2. Процессинг пре-мРНК кэпирование сплайсинг полиаденилирование 3. Экспорт мРНК 4.Трансляция Сплайсинг ( эукариоты ) Сборка сплайсосомы Разрез на 5’ конце интрона, образование «аркана» Разрез на 3’ конце интрона, соединение экзонов Транскрипция в прокариотах : Инициация транскрипции Направление транскрипции Старт транскрипции Промотор Транскрипция в прокариотах : Регуляция транскрипции Активация Репрессия Структура ДНК-связывающего домена CI, фаг Структура ДНК-связывающего домена Cro, фаг Белок-ДНКовые взаимодействия CI Cro Регуляция транскрипции у эукариот Регуляция транскрипции у эукариот Регуляторные модули ( В. Ю. Макеев ) Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях Расстояние от регуляторного модуля до кодирующих областей может достигать 100 000 пар оснований Представление сигналов Консенсус Pattern (“образец” - консенсус с вырoжденными позициями) Матрица частот, nucleotide frequency matrix Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile Логические правила РНКовые сигналы – вторичная структура Консенсус Сайты связывания PurR E. coli cvpA purM purT purL purE purC purB purH purA1 purA2 guaB purR1 purR2 consensus CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC ACGAAAACGTTTTCGT Образец Сайты связывания PurR E. coli cvpA purM purT purL purE purC purB purH purA1 purA2 guaB purR1 purR2 CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC consensus ACGAAAACGTTTTCGT pattern amGAAAaCGkTTwCwT Матрица частот Сайты связывания PurR E. coli a m G A A A a C G k T T w C w T 10 0 2 1 2 8 2 1 10 1 0 2 0 13 0 0 1 0 4 8 0 0 1 12 0 0 1 12 4 1 3 5 0 2 0 11 j A C G T 0 0 13 0 1 12 0 0 13 0 0 0 13 0 0 0 0 0 13 0 Информационное содержание : I = j b f (b, j) [log f (b, j) / p (b)] где f (b, j) – частота нуклеотида b в позиции j p (b) – частота нуклеотида в геноме 0 11 1 1 1 4 5 3 Диаграмма Лого (Logo) Сайты связывания PurR E. coli I = j b f (b, j) [log f (b, j) / p (b)] Позиционная весовая матрица (профиль) a m G A A A a C G k T T w C w T 10 0 2 1 2 8 2 1 10 1 0 2 0 13 0 0 1 0 4 8 0 0 1 12 0 0 1 12 4 1 3 5 0 2 0 11 j A C G T 0 0 13 0 1 12 0 0 13 0 0 0 13 0 0 0 0 0 13 0 0 11 1 1 1 4 5 3 W(b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5] A 1,6 -0,2 -0,8 C -1,4 1,0 -0,8 G 0,2 -0,2 2,5 T -0,3 -0,7 -0,8 0,0 2,1 -1,1 -1,1 2,5 -0,8 -0,8 -0,8 2,5 -0,8 -0,8 -0,8 1,6 -0,3 -1,4 0,2 -0,8 2,5 -0,8 -0,8 -0,8 -0,8 2,5 -0,8 -0,4 -1,5 0,7 1,3 -1,1 -1,1 0,0 2,1 -1,1 -1,1 0,0 2,1 0,3 -0,8 0,0 0,5 -1,3 1,8 -0,2 -0,2 -0,8 0,3 0,5 0,0 -1,2 0,4 -1,2 1,9 Позиционная весовая матрица (профиль) A 1,6 -0,2 -0,8 C -1,4 1,0 -0,8 G 0,2 -0,2 2,5 T -0,3 -0,7 -0,8 0,0 2,1 -1,1 -1,1 2,5 -0,8 -0,8 -0,8 2,5 -0,8 -0,8 -0,8 1,6 -0,3 -1,4 0,2 -0,8 2,5 -0,8 -0,8 -0,8 -0,8 2,5 -0,8 -0,4 -1,5 0,7 1,3 -1,1 -1,1 0,0 2,1 -1,1 -1,1 0,0 2,1 0,3 -0,8 0,0 0,5 -1,3 1,8 -0,2 -0,2 -0,8 0,3 0,5 0,0 Термодинамическая мотивировка : свободная энергия Предположение: независимость соседних позиций -1,2 0,4 -1,2 1,9 Составление выборки Начало: GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи) Исправление ошибок Проверка литературных данных предсказанные сайты Удаление дубликатов Перевыравнивание Первоначальное выравнивание по биологическим признакам промоторы: старт транскрипции участки связывания рибосом: стартовый кодон сайты сплайсинга: экзон-интронные границы Выделение сигнала в скользящем окне Перевыраванивание и т.д. пока не сойдётся Начала генов Bacillus subtilis Позиционное информационное содержание до и после перевыравнивания после до