Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2007 года) Осенний семестр 2008 Д.А. Равчеев, М.С. Гельфанд В. Ю. Макеев (некоторые слайды) Транскрипция и трансляция в прокариотах Прокариоты Эукариоты 1. Сопряжение транскрипции и трансляции 1.Транскрипция 2. Котранскрипция нескольких генов (опероны) (синтез пре-мРНК) 2. Процессинг пре-мРНК – кэпирование – сплайсинг – полиаденилирование 3. Экспорт мРНК 4.Трансляция Сплайсинг ( эукариоты ) Сборка сплайсосомы Разрез на 5’ конце интрона, образование «аркана» Разрез на 3’ конце интрона, соединение экзонов Транскрипция в прокариотах : Инициация транскрипции Направление транскрипции Старт транскрипции Промотор Транскрипция в прокариотах : Регуляция транскрипции Активация Репрессия Структура ДНК-связывающего домена CI, фаг l Структура ДНК-связывающего домена Cro, фаг l Белок-ДНКовые взаимодействия CI Cro Регуляция транскрипции у эукариот Регуляция транскрипции у эукариот Регуляторные модули ( В. Ю. Макеев ) Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях Расстояние от регуляторного модуля до кодирующих областей может достигать 100 000 пар оснований Представление сигналов Консенсус Pattern (“образец” - консенсус с вырoжденными позициями) Матрица частот, nucleotide frequency matrix Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile Логические правила РНКовые сигналы – вторичная структура Консенсус Сайты связывания PurR E. coli cvpA purM purT purL purE purC purB purH purA1 purA2 guaB purR1 purR2 consensus CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC ACGAAAACGTTTTCGT Образец Сайты связывания PurR E. coli cvpA purM purT purL purE purC purB purH purA1 purA2 guaB purR1 purR2 CCTACGCAAACGTTTTCTTTTT GTCTCGCAAACGTTTGCTTTCC CACACGCAAACGTTTTCGTTTA TCCACGCAAACGGTTTCGTCAG GCCACGCAACCGTTTTCCTTGC GATACGCAAACGTGTGCGTCTG CCGACGCAATCGGTTACCTTGA GTTGCGCAAACGTTTTCGTTAC TTGAGGAAAACGATTGGCTGAA TTTAAGCAAACGGTGATTTTGA TAGATGCAATCGGTTACGCTCT TAAAGGCAAACGTTTACCTTGC AACGAGCAAACGTTTCCACTAC consensus ACGAAAACGTTTTCGT pattern amGAAAaCGkTTwCwT Матрица частот Сайты связывания PurR E. coli a m G A A A a C G k T T w C w T 10 0 2 1 2 8 2 1 10 1 0 2 0 13 0 0 1 0 4 8 0 0 1 12 0 0 1 12 4 1 3 5 0 2 0 11 b A C G T 0 0 13 0 1 12 0 0 13 0 0 0 13 0 0 0 0 0 13 0 Информационное содержание : I = j b f (b, j) [log f (b, j) / p (b)] где f (b, j) – частота нуклеотида b в позиции j p (b) – частота нуклеотида в геноме 0 11 1 1 1 4 5 3 Диаграмма Лого (Logo) Сайты связывания PurR E. coli I = j b f (b, j) [log f (b, j) / p (b)] Позиционная весовая матрица (профиль) a m G A A A a C G k T T w C w T 10 0 2 1 2 8 2 1 10 1 0 2 0 13 0 0 1 0 4 8 0 0 1 12 0 0 1 12 4 1 3 5 0 2 0 11 j A C G T 0 0 13 0 1 12 0 0 13 0 0 0 13 0 0 0 0 0 13 0 0 11 1 1 1 4 5 3 W(b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5] A 1,6 -0,2 -0,8 C -1,4 1,0 -0,8 G 0,2 -0,2 2,5 T -0,3 -0,7 -0,8 0,0 2,1 -1,1 -1,1 2,5 -0,8 -0,8 -0,8 2,5 -0,8 -0,8 -0,8 1,6 -0,3 -1,4 0,2 -0,8 2,5 -0,8 -0,8 -0,8 -0,8 2,5 -0,8 -0,4 -1,5 0,7 1,3 -1,1 -1,1 0,0 2,1 -1,1 -1,1 0,0 2,1 0,3 -0,8 0,0 0,5 -1,3 1,8 -0,2 -0,2 -0,8 0,3 0,5 0,0 -1,2 0,4 -1,2 1,9 Позиционная весовая матрица (профиль) A 1,6 -0,2 -0,8 C -1,4 1,0 -0,8 G 0,2 -0,2 2,5 T -0,3 -0,7 -0,8 0,0 2,1 -1,1 -1,1 2,5 -0,8 -0,8 -0,8 2,5 -0,8 -0,8 -0,8 1,6 -0,3 -1,4 0,2 -0,8 2,5 -0,8 -0,8 -0,8 -0,8 2,5 -0,8 -0,4 -1,5 0,7 1,3 -1,1 -1,1 0,0 2,1 -1,1 -1,1 0,0 2,1 0,3 -0,8 0,0 0,5 -1,3 1,8 -0,2 -0,2 -0,8 0,3 0,5 0,0 -1,2 0,4 -1,2 1,9 Термодинамическая мотивировка : свободная энергия Предположение: независимость соседних позиций Сравнение частотной и весовой матриц ... ... ... ... A G G G ... ... ... ... A G G C ... ... ... ... Частоты A C G T 1 0 3 0 1 1 2 0 1 1 1 1 A G C T ... ... ... ... Веса A C G T 0,34 0,15 -0,76 0,15 1,18 0,66 -0,76 -0,95 0,00 0,00 0,00 0,00 Составление выборки Начало: GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи) Исправление ошибок Проверка литературных данных предсказанные сайты Удаление дубликатов Перевыравнивание Первоначальное выравнивание по биологическим признакам промоторы: старт транскрипции участки связывания рибосом: стартовый кодон сайты сплайсинга: экзон-интронные границы Выделение сигнала в скользящем окне Перевыраванивание и т.д. пока не сойдётся Начала генов Bacillus subtilis Позиционное информационное содержание до и после перевыравнивания после до Оптимизация Expectation - Maximization Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль) k-мер : ACGT Матрица (профиль) весов Матрица частот A C G T 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 A C G T 0,8 -0,3 -0,3 -0,3 -0,3 0,8 -0,3 -0,3 -0,3 -0,3 0,8 -0,3 -0,3 -0,3 -0,3 0,8 Оптимизация Expectation - Maximization Для каждого профиля : найти наилучшего представителя в каждой последовательности обновить профиль Повторять пока не сойдётся http://meme.sdsc.edu/meme/meme.html Оптимизация Expectation - Maximization Недостатки метода : Алгоритм сходится, но не может покинуть область локального максимума Поэтому если начальное приближение было плохим, он сойдётся к ерунде Решение: стохастическая оптимизация Имитация теплового отжига Цель: максимизировать информационное содержание I I = j b f (b, j) [log f (b, j) / p (b)] или любой другой функционал, измеряющий однородность множества сайтов Имитация теплового отжига Алгоритм A – текущий сигнал (множество потенциальных сайтов) I (A) – информационное содержание A – сигнал, отличающийся от А выбором сайта в одной последовательности I (B) – информационное содержание B B если I (B) I (A), B принимается если I (B) < I (A), B принимается с вероятностью P = exp [ (I(B) – I(A)) / T ] Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р 1). Gibbs sampler A – текущий сигнал (множество потенциальных сайтов) I (A) – информационное содержание A На каждом шаге в одной последовательности выбирается новый сайт с вероятностью P ~ exp [ (I(Anew) ] Для каждого потенциального сайта подсчитывается, сколько раз он был выбран. Использование свойств сигнала ДНК-связывающие белки и их сигналы Кооперативные однородные Палиндромы Прямые повторы Кооперативные неоднородные Кассеты Другие РНК-сигналы Распознавание сайтов : весовые матрицы (профили) Позиционные веса нуклеотидов W(b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5] Вес потенциального сайта (k-мера) b1…bk – сумма соответствующих позиционных весов : S(b1…bk) = i=1…k W(bi , j) Распознавание сайтов : весовые матрицы (профили) Escherichia coli K-12 carA GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT A C G T 1,6 -1,4 0,2 -0,3 -0,2 1,0 -0,2 -0,7 -0,8 -0,8 2,5 -0,8 0,0 2,1 -1,1 -1,1 2,5 -0,8 -0,8 -0,8 2,5 -0,8 -0,8 -0,8 1,6 -0,3 -1,4 0,2 -0,8 2,5 -0,8 -0,8 -0,8 -0,8 2,5 -0,8 -0,4 -1,5 0,7 1,3 -1,1 -1,1 0,0 2,1 Вес данного потенциального сайта : S = 21,2 -1,1 -1,1 0,0 2,1 0,3 -0,8 0,0 0,5 -1,3 1,8 -0,2 -0,2 -0,8 0,3 0,5 0,0 -1,2 0,4 -1,2 1,9 Распределение весов сайтов связывания рибосом Кол-во сайтов сайты не сайты вес Оценка качества алгоритмов Чувствительность = Специфичность = правильно предсказанные все правильные правильно предсказанные все предсказанные Трудно составить тестирующую выборку: — неизвестные сайты — активация в определенных условиях — неспецифическое связывание Промоторы Escherichia coli K-12 Профиль предсказывает 1 сайт на 2000 нт Чувствительность: – 25% на всех промоторах – 60% на конститутивных (неактивируемых) промоторах Эукариотические промоторы Случайные предсказания Сайты связывания рибосом Надежность предсказания зависит Правильно предсказанные старты трансляции (в %) от информационного содержания Информационное содержание CRP (Escherichia coli) % 110 100 90 80 70 60 50 40 30 20 10 0 OV UN 3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5 ПОРОГ OV = 1 – специфичность перепредсказание (% лишних среди всех предсказанных) UN = 1 – чувствительность недопредсказание (% потерянных правильных) Запись GenBank для гена aroP E. coli gene CDS protein_bind protein_bind protein_bind promoter protein_bind protein_bind complement(120178..121551) /note="b0112" /gene="aroP" complement(120178..121551) /gene="aroP" /product="aromatic amino acid transport protein" complement(121599..121617) /bound_moiety="TyrR documented site" complement(121622..121640) /bound_moiety="TyrR documented site" complement(121653..121664) /bound_moiety="PutA predicted site" complement(121683..121711) /note="factor Sigma70; promoter aroP; documented +1 at 121671" complement(121810..121823) /bound_moiety="OxyR predicted site" complement(121813..121835) /bound_moiety="ArgR predicted site" promoter aroP TyrR TyrR PutA OxyR ArgR Что же делать ? Выход : филогенетическое картирование (филогенетический футпринтинг) : “правильные” сайты консервативны Консервативная область purL STY ECO YPK CAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGCGG-TGATT---------TTATTTCT-CAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGATGG-TGATT---------TTATTTCC-CAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGCGGCTGTTTCTGACTGAATTATTAATAA **** *** * ** * * * * ** ** ** ***** PurR STY ECY YPK -----ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGTTTCCCCCC------------------ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCC------------TAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGTTTTGCCCTGTTGTTGCGCCAAT ***************** *** ******** ******* ** ***** *** STY ECO YPK -----TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT -----TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT GAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGATTATGGAAATACTGCGT *** * ** ** **** ************ **** * ******** ****** Менее консервативная область yjcD PurR STY ECO YPK AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG-AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA--AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACA * **** ** ************* ** ***** * * *** * *** *** * PurR STY ECO YPK -CCACCC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G -CCACCC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-A TCTGCCCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATG ****** ******** **** * *** ** ** * *** * * *** STY ECO YPK -TTGTCGTAAATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATAC ATTGTCGCAAACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCT AGTCAGGGAGAGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGC * ** * ** * ** * * * **** * * * * * * * STY CGACGAATAATAAATTCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACT ECO TGACGAAAATTAAACTCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACT YPK TATTTTAAAATGA-CACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCT ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ ** * ** * *** * * ** * ****** * ******* * * * * * rbsD в энтеробактериях RbsR STY SEN SEN ECO YPE AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC GGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** STY SEN STM SEN YPE ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** *** **** * **** ** *********** ***** *** * Сложная ситуация сайты консервативны … Сайты связывания FruR перед ppsA YPK PCA PLU SMA STY ECO GGTTGATCGATTCACC AGCCAACAAAAAATTTTTCTTGTTGGGTTGATCGATTCACCTGTCCATAGGTTATGGATCATTGTGCT GCCATGAAATCAGTTTTTTTTCATAGGTTGATCGATTCACCTGTCCATGTTCATCAAAACGCTATGCT TACCTAAGAAAAAAATAATGTGTTGGGTTGATCGATTCACCTTTCTATGTGTGCGAAAACATTGTGTT CTCTTAAAAACCACTTTCTTCAGTGGGTTGATCGATTCACCTTTCCATTTTCCCCAGATCAGTGTGCT TCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTTTAAGTATGCCA GTCTTAAAAAGTAAAAAAAATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGTTAAATATGCAA * * * **** ********* * * Сложная ситуация … но не на выравнивании YPK PCA PLU SMA STY ECO TTGGGTTGATCGATTCACCTGTCCATAGGTTA--TGGATCATTGTGCTAGTCTGAAATGGCT-GAT--TTTTCAG CGATATTGG--ATTTTTACCG-CGTTAAGCAA--TCATTCGCCATGA-AATCAGTTTTTTTT-CAT-AGGTTGAT TGAAACCGA--GAGT---C-GATTTTCTGCAA--AGTATACCTAAGA-AAAAAATAATGTGT-TG---GGTTGAT CGATTGGGAACGGTTCCCAGGCAAATCAGCCGGTTAGGACATTCTCTTAAAAACCACTTTCTTCAGTGGGTTGAT CTTGAAACGCAGTTTATGCCGGGAGTGATTAA--GGGAATGCCGTGCTATGCGCGGGTTTGCGCAACTACGTAAA -TTATGGTTTCGTTTATACCGATGGTTTATGT--GGAAAT-TGTCGAAGAGAGCAGATTTGCGCAACGCTGGGAT * * * * YPK PCA PLU SMA STY ECO CGACGATAACGGTTGTCCGTACCCTACAGACTGTTCGTCACTCGTCGGCGATGT-AATAACTAATCGACGGTGTA CGATTCACCTGTCCATGTTCATCAAAACGCT-ATGCTAACCTGATTGTGTTGA------------------GGCG CGATTCACCTTTCTATGTGTGCGAAAACATT-GTGTTAGTCTATTTGTGACT-------------------GCTC CGATTCACCTTTCCATTTTCCCCAGATCAGT-GTGCTAGTCTGATTCGGCTC--------CGTGTTAGCGGCGCC CAATCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTT-TAAGTAT-GCCAGG CAGTCTTAAAAAGTAAAAAAATATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGT-TAAATAT-GCAAAG * YPK PCA PLU SMA STY ECO ATA-ACTAATCGGCG-------ATGTAATAACTAATCGACAATGTA-AAAGGATTGTT-TCGATGTCCAACAATG ---ATTCTCAACCGAACTCT---TTCATACCCTAATTGT--ATGCAGAAAGGATTATTTTCGATGTCCAATAACG ----TATGCAGTGCTAATTT---CCCGATTTGTACCCAA--ATGCTAAAAGGATTGTTTT-AATGCCCAATAATG GTAAAGCAAGCGAATTAAATCCGTCTTTACCCTACTGAT--A-GCAATAAGGATTGTC-TCGATGTCCAACAATG ATA-AATACGCAACTATGTG-TTTCTTAAACTCGTTCATTTATCACAAAAGGATTGT--TCGATGTCCAACAATG ATA-AATGCGCAGAAATGTG-TTTCTCAAAC-CGTTCATTTATCACAAAAGGATTGT—-TCGATGTCCAACAATG * ********* * ************* Метод проверки соответствия Базовый геном Геномы родственных организмов регулируется НЕ регулируется ? http://genome.lbl.gov/vista/rvista/submit.shtml rVista Матрицы TRANSFAQ (частотные) или консенсус rVista all sites aligned sites conserved sites CNS = conserved non-coding sequences rVista Conserved sites : располагаются в участках последовательности, консервативность которых не менее 80% в окне 24 п.н. Aligned sites : ключевые позиции идентичны в обеих последовательностях All sites : все сайты : conserved+aligned+все остальные предсказанные rVista