Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Лаборатория структуры и функций генов человека Использование NGS в анализе транскриптомов бактерий на примере микобактерий Тимофей Скворцов Москва 2013 I. Бактериальный транскриптом и NGS Бактериальный транскриптом Содержание основных классов РНК в транскриптоме Размер генома типичной бактерии: Масса РНК в одной бактериальной клетке: ≈5 млн п.о. ≈0.1-0.2 пг Сложность бактериального транскриптома транс-малые РНК цис-малые РНК (Toledo-Arana and Solana, 2010, Bioessays) Сложность бактериального транскриптома Рибопереключатели Длинные НТО Перекрывающиеся НТО Безлидерные РНК (Guell et al., 2011, Nat Rev Microbiol) (Toledo-Arana and Solana, 2010, Bioessays) Сложность бактериального транскриптома Альтернативная транскрипция Влияние хроматина и структуры нуклеоидов на регуляцию транскрипции Эпигенетические модификации Локализованная трансляция Сплайсинг РНК Полиаденилирование РНК (Guell et al., 2011, Nat Rev Microbiol) Редактирование РНК Процессинг РНК Упрощенная схема анализа транксриптома бактерий Выделение РНК Синтез кДНК Пробоподготовка и секвенирование @read1 GCATGATCGTA + 9:;<=>?@ABC РНК Бактерии • • • Культура In vivo/in planta Некультивированные образцы • • • • Обогащение Фракционирование Фрагментирование Модификации Данные NGS кДНК • • • Амплификация Модификации Фракционирование • • • Платформа Мультиплексирование Paired end/Single end sequencing Схема анализа данных NGS FASTQ file(s) Контроль качества FASTQC Фильтрация ридов Удаление адаптерных последовательностей FASTX toolkit IGV, Artemis Картирование ридов Bowtie, BWA, SOAP, Tophat etc. Визуализация SAM/BAM file(s) Качественный анализ Фильтрация Дедупликация Различные программы GTF/GFF/BED file(s) reference genome FASTA file SAMtools, Picard tools Количественный анализ edgeR, DESeq, bayseq etc. Gene set enrichment анализ GOSeq, GSEA, DAVID etc. Бактериальный транскриптом Выявление функциональных особенностей генома (Sorek and Cossart, 2010, Nat Rev Genet) Бактериальный транскриптом Поиск дифференциально экспрессирующихся генов Нормализация: RPKM/FPKM, TMM etc. Сравнение: edgeR, DESeq, DEGSeq, bayseq, NOISeq etc. Условие 1 Условие 2 Ген 1 Ген 2 Ген 3 II. Качественное описание бактериального транскриптома на примере Mycobacterium avium Mycobacterium avium Согласно современной таксономической классификации, род Mycobacterium включает более 60 видов и более 100 подвидов. Mycobacterium avium Условно-патогенные микобактерии. Вызывают диссеминированные инфекции у людей с иммунодефицитами. Возможно вызывает болезнь Крона. Mycobacterium avium paratuberculosis вызывают болезнь Джонса у жвачных животных. Mycobacterium avium внутри макрофагов Новые малые РНК Mycobacterium avium Положение sRNA-кандидатов в геноме Нами были обнаружены 4 кандидатных малых РНК Mycobacterium avium, 3 из них были гомологичны уже известным малым РНК M. tuberculosis. MAV_1034-1035 не имеет гомологии в геноме M.tuberculosis и обладает стабильной вторичной структурой (RNAfold). (Ignatov et al. 2010) Mycobacterium avium – транскриптом in vitro Мы провели RNA-seq (Illumina) транскриптома M. avium subsp. avium TMC724 из культуральной среды в mid-log фазе клеточного роста. Было получено ≈42 млн ридов, 28.2 млн ридов было картировано на геном M. avium. 0.2 млн 1% Representation of functional classes among the genes with the highest expression (top 10% of genes ranked by their RPKM values) 4.4 млн 16% 3.6 млн 13% Transport and binding proteins Unknown function Central intermediary metabolism Mobile and extrachromosomal element… Fatty acid and phospholipid metabolism Amino acid biosynthesis Cell envelope DNA metabolism Cellular processes Energy metabolism Purines, pyrimidines, nucleosides, and… Biosynthesis of cofactors, prosthetic groups,… Signal transduction Regulatory functions Protein fate Transcription Protein synthesis 18.8 млн 70% reads mapped to rRNA operon reads mapped to CDS reads mapped to CDS (antisense orientation) reads mapped to IGR -3 -2 -1 0 1 2 3 4 5 (Ignatov et al., unpublished results) Mycobacterium avium – транскриптом in vitro Точки старта транскрипции (TSS) Для 844 генов были определены точки старта транскрипции (TSS), для 652 из них в 5-8 п.о. upstream от TSS были найдены консенсусные промотерные последовательности. 33% из предполагаемых TSS были картированы в ±3 п.о. от старт-кодонов соответствующих генов, что говорит в пользу того, что их мРНК являются безлидерными. Визуализация картирования ридов на геном (Artemis) Для остальных генов 5’-НТО были от 3 до 728 п.о. в длину, среднее значение – 83 п.о. 6 из этих генов имели в составе 5’-НТО рибопереключатели, из них 3 – лидерные последовательности ykok, Mg2+-сенсоров, контролирующих экспрессию белковтранспортеров ионов магния. (Ignatov et al., unpublished results) Mycobacterium avium – транскриптом in vitro Антисмысловая транскрипция Нами было выявлено 86 кандидатных антисмысловых РНК, протяженностью от одного до нескольких генов. Также было обнаружено 10 кандидатных транс-малых РНК, 4 из которых не имели гомологии с геномом M. tuberculosis. Малая РНК MAV_1034-1035 представляет особый интерес для дальнейшего изучения, т.к. обладает высоким уровнем экспрессии и не имеет гомологии с геномом M.tuberculosis. (Ignatov et al., unpublished results) III. Сравнительный анализ транскриптомов бактерий на примере Mycobacterium tuberculosis Mycobacterium tuberculosis Mycobacterium tuberculosis Патогенные микобактерии, возбудители туберкулеза. Примерно 30% населения Земли инфицировано M. tuberculosis. Туберкулез уносит каждый год около 1.5 млн человеческих жизней (больше, чем рак легкого). Mycobacterium tuberculosis Mycobacterium tuberculosis – дормантное состояние Активные MTB Овоидные формы MTB (По Chao and Rubin, 2010, Annu Rev Microbiol) (Shleeva et al., 2011, Tuberculosis) Поиск дифференциально экспрессирующихся генов Мы провели сравнение транскриптомов M. tuberculosis H37Rv в дормантном состоянии (Dorm) и логарифмической фазе роста (Log). Секвенирование проводилось на платформе Illumina, в биологических трипликатах. Репликат Число Число прочтений, картированных прочтений на геном 1 раз Dorm 1 27 913 346 9 019 444 (32%) Dorm 2 7 352 103 6 007 569 (82%) Dorm 3 13 973 841 11 803 273 (85%) Log 1 18 798 208 10 422 051 (55%) Log 2 17 736 079 15 828 832 (89%) Log 3 11 046 464 9 914 746 (90%) (Ignatov et al., unpublished results) Поиск дифференциально экспрессирующихся генов Вычисление корреляции между репликатами. D1 Dorm 1 Dorm 2 Dorm 3 Log 1 Log 2 Log 3 D2 D3 L1 L2 L3 1 0,85 1 0,86 0,88 1 0,77 0,6 0,61 1 0,74 0,63 0,64 0,95 1 0,71 0,6 0,62 0,93 0,99 D1_AS D2_AS D3_AS L1_AS L2_AS L3_AS Dorm 1_AS 1 Dorm 2_AS 0,74 1 Dorm 3_AS 0,77 0,74 1 Log 1_AS 0,65 0,5 0,53 1 Log 2_AS 0,65 0,54 0,57 0,93 1 Log 3_AS 0,61 0,52 0,54 0,91 0,97 1 1 Мы вычислили корреляционный коэффициент Спирмена для выявления сходимости репликатов. Сходимость результатов внутри групп была высокой (до 0,99) и превышала межгрупповую. Для антисмысловых транскриптов (AS) сходимость была ниже, тем не менее оставаясь значимой. (Ignatov et al., unpublished results) Поиск дифференциально экспрессирующихся генов Top 30 генов с повышенной экспрессией при переходе в Dorm Gene PE_PGRS17 PE_PGRS10 Rv0789c Rv3424c Rv2662 Rv1405c Rv2013 Rv3428c Description PE-PGRS family protein PE_PGRS17 PE-PGRS family protein PE_PGRS10 Hypothetical protein Hypothetical protein Hypothetical protein Putative methyltransferase Transposase Possible transposase fadD18 cut1 PE_PGRS18 PPE39 bpoA Rv0841 Rv2656c galK PE_PGRS49 Rv1403c Rv0612 lpqX PE_PGRS56 PE_PGRS27 PE_PGRS25 PE_PGRS34 PE_PGRS50 PE_PGRS3 PE_PGRS54 Probable fatty-acid-CoA ligase FadD18 Probable cutinase Cut1 PE-PGRS family protein PE_PGRS18 PPE family protein PPE39 Possible peroxidase BpoA (non-haem peroxidase) Probable conserved transmembrane protein Possible PhiRv2 prophage protein Probable galactokinase GalK (galactose kinase) PE-PGRS family protein PE_PGRS49 Putative methyltransferase Conserved hypothetical protein Probable lipoprotein LpqX PE-PGRS family protein PE_PGRS56 PE-PGRS family protein PE_PGRS27 PE-PGRS family protein PE_PGRS25 PE-PGRS family protein PE_PGRS34 PE-PGRS family protein PE_PGRS50 PE-PGRS family protein PE_PGRS3 PE-PGRS family protein PE_PGRS54 Мы применили программу edgeR для поиска генов, чья относительная представленность транскриптов которых внутри каждого из транскриптомов увеличилась/уменьшилась. 890 генов увеличает экспрессию при переходе в дормантное состояние (Dorm), при это снижается экспрессия 939 генов (Ignatov et al., unpublished results) Поиск дифференциально экспрессирующихся генов Анализ категорий генной онтологии (Gene Ontology, GO) и представленности генов (Gene Set Enrichment Analysis, GSEA) был предпринят при помощи программы GOseq. Обогащено в Dorm Обогащено в Log Категория Категория PE-PGRS F0F1-type ATP synthase Common Pathway For Synthesis of Aromatic Compounds (DAHP synthase to chorismate) Respiratory Complex I DNA repair, bacterial RecBCD pathway Ribosome SSU bacterial Chorismate Synthesis Ribosome LSU bacterial Arginine Biosynthesis extended TCA Cycle (Ignatov et al., unpublished results) IV. Перспективы транскриптомики бактерий Перспективные направления РНК-белковые взаимодействия Модификации РНК (Guell et al., 2011, Nat Rev Microbiol) Вторичная структура РНК Альтернативная транскрипция Перспективные направления Пространственная организация (локализомика) Секвенирование транскриптома одной клетки (Guell et al., 2011, Nat Rev Microbiol) (Campos and Jacobs-Wagner, 2013, Curr Opin Microbiol) (Raj and van Oudenaarden, 2008, Cell) Наш коллектив ИБХ РАН • Ажикина Т.Л. • Игнатов Д.В. • Скворцов Т.А. ЦНИИТ РАМН МГУ, кафедра биотехнологии Институт биохимии им. А.Н. Баха РАН • Апт А.С. • Майоров К.Б. • Малахо С.Г. • Капрельянц А.С. • Салина Е.Г. Спасибо за внимание Сложность бактериального транскриптома Сложность бактериального транскриптома Сложность бактериального транскриптома Малые РНК бактерий Сложность бактериального транскриптома Инфекционный цикл туберкулеза Излечение Трансмиссия Латентная инфекция ≈2 000 000 000 человек Смерть ≈2 000 000 случаев в год Стерилизация инфекции Активный туберкулез (вероятность – 10% в течение жизни) ≈10 000 000 случаев в год Mycobacterium avium – транскриптом in vitro (Ignatov et al., unpublished results) Схема анализа Новые малые РНК Mycobacterium avium Положение sRNA-кандидатов в геноме Нами были обнаружены 4 кандидатных малых РНК Mycobacterium avium, 3 из них были гомологичны уже известным малым РНК M. tuberculosis. MAV_1034-1035 не имеет гомологии в геноме M.tuberculosis и обладает стабильной вторичной структурой (RNAfold). (Ignatov et al. 2010) Поиск дифференциально экспрессирующихся генов В Dorm клетках содержится в ≈100 раз меньше мРНК, чем в Log. Мы применили программу edgeR для поиска генов, чья относительная представленность внутри каждого из транскриптомов увеличилась/уменьшилась. (Loven et al., 2012, Cell)