Сравнительная геномика и метаболическая реконструкция: что можно сказать об организме, зная только его геном М.С.Гельфанд (ИППИ РАН) 3-й съезд ВОГиС, Москва, июнь 2004 красный: статьи синий: последовательности 10000000 1000000 100000 10000 1000 100 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 год Анализ индивидуальных генов • Поиск родственных белков в банках последовательностей – перенос функции от гомологов • Функциональные сайты (каталитические центры) • Функциональные участки (трансмембранные сегменты, сигнальные пептиды и т.п.) • Анализ на уровне индивидуальных генов даёт возможность охарактеризовать 50-75% генов в новом геноме Но: • ~100 универсально отсутствующих генов (нет ни одного известного гена для известной функции) • множество функций, для которых неизвестны представители в больших таксонах • в каждом геноме ~5-10% консервативных генов с неизвестной функцией • трудно предсказывать специфичность в мультигенных семействах (транспортёры, факторы транскрипции) • нельзя найти что-то принципиально новое 90 84 80 Полные геномы 70 60 55 50 40 30 30 10 19 18 20 14 9 2 0 1995 4 1 2 1 3 2 1996 1997 1998 4 2 10 7 4 1999 2000 15 8 2001 2002 Сравнительная геномика и метаболическая реконструкция • Метаболическая реконструкция Идентификация пробелов • Позиционный анализ (гены и домены) Анализ филогенетического распределения Анализ регуляторных сигналов Отнесение генов к функциональным и метаболическим системам Уточнение специфичности • • Утилизация пектина E. chrysanthemi … и транспорт олигогалактуронатов E. chrysanthemi Y. pestis K. pneumoniae предсказание и подтверждение Новые члены регулона KdgR у E. chrysanthemi + ppsA фосфоенолпируват-синтаза + ydiA – chmX хемотаксис (акцептор метила) – dhfX периплазматическая эстераза – spiX изомераза (аналог KduI) – yjgK участвует в нижней части пути – tpfX – ydiV транспортер – sotA экспорт сахаров (токсичных интермедиатов?) – gntDBMNAC ABC-транспортер – yeeO транспортер YpaA: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный RFN-элемент => корегуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника • S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: • YpaA переносит рибофлавин (генетический анализ, Кренева и др., 2000) • ypaA регулируется рибофлавином (анализ экспрессии на микрочипах, Lee et al., 2001; прямой эксперимент, Winkler et al., 2002). Новое семейство транспортёров аминокислот S-box (rectangle frame) MetJ (circle frame) LYS-element (circles) Tyr-T-box (rectangles) Pasteurellaceae NMB SON-2 BL1111 SON-1 VC-2 VC-1 BH SON-3 clostridia OB CAC0744 LysT CB EF-nhaC1 PPE Archaea LP-nha2 LGA LME LP-nha1 LB EF-nhaC2 TyrT BC1434 FN1414 BT1270 CB NMB05 36 FN0352 BC4121 TTE-nhaC SA2117 CJ OB2874 269. 47 CTC CPE DF FN0978 OB1118 HP MetT BS-yheL FN0650 BC1709 CTC00901 FN062 4 CTC02520 BS-mleN BB0637 CPE2317 FN1420 CTC02529 VCA0193 SO1087 FN1422 BC0373 BB0638 FN207 7 BH3946 VC2037 SA2292 HI1107 VV21061 MleN malate/lactate L-aspartate Метаболическая реконструкция пути биосинтеза лизина lysC,thrA,metL lysC,dapG,yclM -aspartyl-phosphate asd aspartate semialdehyde dapA hom homoserine thrA, metL dihydrodipicolinate dapB tetrahydrodipicolinate dapD N-succinyl-2-amino-6-ketopimelate dapC(argD) N-succinyl-L,L-diaminopimelate dapE dapD N-acetyl-2-amino-6-ketopimelate patA N-acetyl-L,L-diaminopimelate ykuR L,L-diaminopimelate dapF, dal meso-diaminopimelate Lysine transport lysA ddh Идентификация пути ацетилированных интермедиатов в B. subtilis и родственных бактериях - 0 dapD (yquQ): • ортолог известного гена E. coli Идентификация пути ацетилированных интермедиатов в B. subtilis и родственных бактериях - 1 patA: • пиридоксаль-фосфатзависимая аминотрансфераза (по гомологии) • ко-локализуется и корегулируется с генами биосинтеза лизина во многих грам-положительных бактериях Идентификация пути ацетилированных интермедиатов в B. subtilis и родственных бактериях - 2 ykuR: • N-ацил-L-аминокислота амидогидролаза (по гомологии) • ко-локализуется и корегулируется с геном биосинтеза лизина dapD во многих грамположительных бактериях • в некоторых случаях принадлежит к большому лизиновому оперону, регулируемому LYS-элементом Идентификация пути ацетилированных интермедиатов в B. subtilis и родственных бактериях - 3 dapX: • dapF отсутствует у некоторых бактерий (Staphylococcus aureus, Oenococcus oeni, Leuconostoc mesenteroides) • во всех этих геномах есть dapX, гомологичный аланиновой рацемазе и другим эпимеразам • в S. aureus dapX принадлежит к большому лизиновому оперону • в O. oeni оперон dapX-asd регулируется LYS-элемен dapX том Транспорт кобальта cbiMNQO, hoxN, hupE, cbtAB, cbtC, cbtD, cbtE, cbtG, cnoABCD cysG Метаболическая реконструкция пути биосинтеза кобаламина (витамина В12) cobI cbiL Прекоррин 3A Кобальт-прекоррин 3 O2 cobG Прекоррин 3B cobJ cbiH cbiG? Прекоррин 4 Кобальт-прекоррин 4 cobM cbiF Прекоррин 5 Кобальт-прекоррин 5 cobF cbiD? Прекоррин 6x Кобальт-прекоррин 6x cobK cbiJ Прекоррин 6y Кобальт-прекоррин 6y cobL cbiET Прекоррин 8x Кобальт-прекоррин 8x cobH cbiC Гидробириновая кислота cobB Треонин cbiA a,c-диамид гидробириновой кислоты cobNST a,c-диамид коб(II)ириновой кислоты a,c-диамид коб(I)ириновой кислоты Треонин-3-фосфат cbiP cobD аминопрпанол-2фосфат cbiB Аленозилкобинамид cobT Кобириновая кислота cobP Кобинамид cobU -рибазол-5-фосфат cobC cobS -рибазол Кобаламин btuFCDE идентификация новых ферментов, транспортёров кобаламина, промежуточных продуктов и кобальта 2+ Co Предсказания: ферменты • синтез жирных кислот: FadR • синтез тиамина: ThiN • биосинтез лизина – путь ацетилированных интермедиатов • обратный путь синтеза цистеина из метионина и путь ре-утилизации метионина • биосинтез кобаламина: ChlID, BluB, PduO, PduX, CobY, CobZ, CblXY, CblZ, BhiB, BtuS • пути катаболизма различных сахаров и олигосахаридов • синтез триптофана и фолата: семейство TrpG/PabA • биосинтез биотина: BioZ, BioK Предсказания: транспортёры • аминокислоты – – – – – – метионин тирозин триптофан лизин аргинин гистидин • нуклеотиды • сахара и олигосахариды – в том числе, важные для патогенеза (стрептококки, растительные патогены) • металлы – – – – железо цинк кобальт никель • витамины и их предшественники – – – – биотин тиамин (В1) рибофлавин (В2) кобаламин (В12) Предсказания: регуляторные сигналы • • • • • • • • • MtaR (метиониновый репрессор стрептококков) BioR (биотиновый репрессор – бактерии и археи) ZUR и AdcR (цинковые репрессоры) регуляция катаболизма сахаров и олигосахаридов (несколько десятков регуляторов) регуляция синтеза ароматических аминокислот (стрептококки) регуляция систем ответа на перенаселение (quorum sensing – лактококки и лактобациллы) РНКовые переключатели (рибофлавин, тиамин) аттенюаторы аминокислотных оперонов регуляторные системы архей (тепловой шок, пурины, утилизация азота, синтез триптофана) Подтверждённые предсказания предсказание геном(ы) аргининовый транспортёр yqiXYZ: специфичность и регуляция бактерии (Bacillus subtilis) рибофлавиновый транспортёр YpaA: специфичность и регуляция Грам-положительные бактерии (Bacillus subtilis) ацил-КоА дегидрогеназа FadE кодируется геном yafH гамма-протеобактерии (Escherichia coli) рибофлавиновый РНК-переключатель бактерии (Bacillus subtilis, Escherichia coli) тиаминовый РНК-переключатель бактерии и археи (Bacillus subtilis, Escherichia coli) ThiN (= ThiD), биосинтез тиамина T. maritima, археи (Methanobacterium thermoautotrophicum) метиониновый транспортёр MetD Bacillus subtilis, Escherichia coli транспортёр олигогалактуронидов ogtABCD (togMNAB) гамма-протеобактерии (Erwinia chrysanthemi) Сравнительная геномика систем утилизации цинка Две роли цинка в бактериях: • Структурная в ДНК-полимеразах, праймазах, рибосомных белках • Каталитическая в протеазах и других белках Геномы и регуляторы ??? nZUR FUR family pZUR AdcR ? FUR family MarR family nZUR- Регуляторы и сигналы GATATGTTATAACATATC nZUR- GAAATGTTATANTATAACATTTC GTAATGTAATAACATTAC TTAACYRGTTAA pZUR TAAATCGTAATNATTACGATTTA AdcR Выравнивание сигналов nZUR GTAATGTAA TAACATTAC (alpha – most genera) GATATGTTA TAACATATC (alpha – Rhodobacter) GAAATGTTATANTATAACATTTC (gamma) GaaATGTtA-----TAACATttC (consensus of consensi) Транспортеры • Ортологи транспортных систем AdcABC и YciC • Паралоги компонентов систем AdcABC и YciC • Потенциальные транспортеры с ранее не известной специфичностью zinT: регуляция zinT одиночный zinT регулируется цинковыми репрессорами (nZUR-, nZUR-, pZUR) E. coli, S. typhi, K. pneumoniae Gamma-proteobacteria A. tumefaciens, R. sphaeroides Alpha-proteobacteria B. subtilis, S. aureus Bacillus group S. pneumoniae, S. mutans, S. pyogenes, L. lactis, E. faecalis Streptococcus group домен: adcA-zinT adcA-zinT регулируется цинковыми репрессорами (pZUR, AdcR) (ex. L.l.) ZinT: анализ белковой последовательности Y. pestis, V. cholerae, B. halodurans S. aureus, E. faecalis, S. pneumoniae, S. mutans, S. pyogenes E. coli, S. typhi, K. pneumoniae, A. tumefaciens, R. sphaeroides, B. subtilis L. lactis TM Zn AdcA ZinT ZinT: резюме • ZinT часто является доменом цинкового транспортёра • zinT экспрессируется при недостатке цинка • ZinT локализован на поверхности клетки (имеет трансмембранный якорь) • ZinT имеет цинк-связывающий домен вывод: • ZinT – новый тип цинк-связывающей компоненты ABC транспортёра Регуляция белков PHT (pneumococcal histidine triad) в стрептококках S. pneumoniae S. pyogenes S. equi S. agalactiae регуляция цинком показана экспериментально lmb phtD phtA phtE phtB lmb phtD phtY lmb phtD Структурные свойства белков PHT • Белки PHT содержат множественные копии мотива HxxHxH • Белки PHT из S. pneumoniae – это паралоги с уровнем сходства 65-95% • Белки PHT имеют N-концевые гидрофобные пептиды • Локализация белков PHT из S. pneumoniae на поверхности бактериальной клетки была показана проточной цитометрией Белки PHT: • экспрессируются в условиях недостатка цинка • локализуются на поверхности клеточной мембраны • содержат цинк-связывающие мотивы Гипотеза: • это новое семейство транспортёров цинка … неверно • цинк-связывающие мотивы в транспортёрах: EEEHEEHDHGEHEHSH HSHEEHGHEEDDHDHSH EEHGHEEDDHHHHHDED DEHGEGHEEEHGHEH (гистидин-аспартатглутамат) • гистидиновые триады в белках PHT: HGDHYHY HGDHYHF HGNHYHF HYDHYHN HMTHSHW 7 out of 21 2 out of 21 2 out of 21 2 out of 21 2 out of 21 (специфическое расположение гистидинов и ароматических аминокислот) … продолжение анализа • Ген phtD входит в оперон с геном lmb во всех стрептококках – Lmb: адгезин, участвующий в связывании стрептококков с эпителиальными клетками • PhtY в S. pyogenes: – phtY регулируется AdcR – PhtY состоит из трех доменов: 4 HIS TRIADS PHT LRR IR HDYNHNHTYEDEEGH AHEHRDKDDHDHEHED internalin H-rich Белки PHТ: вторая попытка • • • • • белки PHT продуцируются при недостатке цинка белки PHT локализуются на поверхности клетки белки PHT содержат цинк-связывающие мотивы phtD образует потенциальный оперон с геном адгезина PhtY содержит домен интерналина отвечающий за инвазию Гипотеза Белки PHT – это адгезины связанные с прикреплением к клетке хозяина для дальнейшей инвазии AdcR pZUR nZUR Цинк и паралоги белков рибосом L36 E. coli, S.typhi – K. pneumoniae – Y. pestis,V. cholerae – B subtilis – S. aureus – Listeria spp. – E. faecalis – S. pne., S. mutans – S. pyo., L. lactis – L33 – – – –+– ––– –– ––– ––– ––– L31 –+ –– –+ –+ – – – – – S14 – – – –+ –+ –+ –+– – –+ AdcR pZUR nZUR (в скобках – мотив «цинковая лента») L36 E. coli, S.typhi (–) K. pneumoniae (–) Y. pestis,V. cholerae (–) B subtilis (–) S. aureus (–) Listeria spp. (–) E. faecalis (–) S. pne., S. mutans (–) S. pyo., L. lactis (–) L33 – – – (–) + – (–) – – (–) – (–) – – (–) – – (–) – – L31 (–) + (–) – (–) + (–) + – – – – – S14 – – – (–) + (–) + (–) + (–) + – (–) (–) + Сводка наблюдений: • Makarova-Ponomarev-Koonin, 2001: – L36, L33, L31, S14 – это единственные рибосомные белки, дуплицированные более, чем в одном геноме – L36, L33, L31, S14 – четыре из семи рибосомных белков, содержащих мотив цинковой ленты (четыре цистеина) – Из двух (или более) копий L36, L33, L31, S1, обычно одна содержит мотив цинковой ленты, а другая – нет • Среди генов, кодирующих паралоги рибосомных белков, как правило одни регулируется цинковым репрессором, а соответствующий белок никогда не имеет мотива цинковой ленты Плохой сценарий недостаточно цинка: весь цинк потреблен рибосомами, достаточно цинка ферменты голодают Хороший сценарий достаточно цинка недостаточно цинка: часть рибосом включает белки, не содержащие цинка – остается для ферментов Регуляторный механизм Sufficient Zn ribosomes repressor R Zn-dependent enzymes Zn starvation R Предсказание … (Proc Natl Acad Sci U S A. 2003 Aug 19;100(17):9912-7.) … и подтверждение (Mol Microbiol. 2004 Apr;52(1):273-83.) Перспективы • Другие типы данных – – – – – Экспрессия генов на олигонуклеотидных чипах Концентрации метаболитов Протеомика: концентрации белков Белок-белковые взаимодействия Белок-ДНКовые взаимодействия • Автоматизация • Эукариоты • Моделирование метаболизма – Потоковые алгоритмы – Связь с результатами геномного анализа • А.А.Миронов • А.Б.Рахманинова • • • • • • • В.Ю.Макеев М.А.Ройтберг В.А.Любецкий Eugene Koonin Andrei Osterman Pavel Pevzner Nicole Hugovieux-CottePattat • • • • • • • • • • • • П.Новичков Д.Родионов А.Витрещак Е.Панина Э.Пермина О.Лайкова А.Казаков А.Герасимова Е.Котельникова Н.Садовская Д.Равчеев Г.Ковалёва