Изучение эволюции и классификация геномных локусов углеводного метаболизма у бактерий Казнадзей А.Д., Шелякин П.В. ИППИ РАН vzmisha4@gmail.com, f.serval@gmail.com встречающихся в бактериальных геномах наборов деталей позволяет вычислить "стандартные" варианты локусов и создать соответствующую локусную классификацию для разных групп бактерий. В случаях множественной совместимости (когда одна и та же "деталь" встречается в комбинациях с разными деталями другого функционального класса) можно предполагать успешное осуществление горизонтального переноса отдельных генов при возникновении, например, новой субстратной среды, что можно подтвердить за счет анализа бактериального филогенетического дерева построенного для разных составляющих локуса. Помимо вычисления "стандартных" локусов целью работы является определение масштабов и специфики подобных "перетасовок" в рамках бактериальных геномов. Аннотация Целью данной работы является исследование геномных локусов, относящихся к углеводному метаболизму бактерий. В состав локуса, ответственного за метаболизм каждого конкретного сахара или группы сахаров, входит ряд генов, кодирующих белки, которые участвуют в биохимических превращениях углеводов, таких как фосфорелирование, гидролиз, изомеризация, а также, как правило, трансмембранные переносчики и регуляторы транскрипции. Сравнение распределений семейств и подсемейств белков разных функциональных классов по бактериальному филогенетическому древу позволяет обнаруживать комбинации эволюционно совместимых групп и оценивать степень функциональной совместимости их представителей. 2. Обсуждение Важнейшим этапом работы являлось определение наиболее адекватной классификации белков углеводного метаболизма. В качестве основных критериев структуризации, подходящей для данной задачи, были протестированы классификации, распределяющие белки по EC-номерам, по Pfamсемействам, по COG-семействам и по группам ортологов на основании bidirectional best hit, а также сделана попытка разделить рассматриваемые белки при помощи множественного выравнивания аминокислотных последовательностей внутри крупных функциональных классов. Наиболее обширной и, вместе с тем, четкой, оказалась структурная система, созданная на основе принадлежности белков к COG-семействам. Итоговая классификация белков была создана на основе COG-системы. Для ряда семейств, в том числе 1. Формулировка задачи Бактериальный углеводный метаболизм характеризуется чрезвычайным разнообразием благодаря способности бактерий усваивать широкий спектр различных субстратов. При этом гены кодирующие ферменты одного участка метаболического пути часто расположены рядом друг с другом на хромосоме, т.е. формируют локусы. Компоненты таких локусов можно представить в качестве своеобразной мозаики, состоящей из генов-"деталей", принадлежащих разным генным «семействам» выделенным на основании функциональных и структурных особенностей кодируемых ими белков. Предполагается исследовать совместимость различных "деталей" между собой за счет изучения вариативности мозаики между разными видами бактерий. Анализ всевозможных 105 [2] Kanehisa, M., Goto, S., Hattori, M., Aoki-Kinoshita, K.F., Itoh, M., Kawashima, S., Katayama, T., Araki, M., and Hirakawa, M., From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Res. (2006), 34, D354-357. [3] Kanehisa, M. and Goto, S., KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. (2000), 28, 27-30. [4] Markowitz VM, Chen, I.A., Palaniappan K, et al. The Integrated Microbial Genomes system: an expanding comparative analysis resource. Nucleic Acids Res. (2010) , 38 [5] R.D. Finn, J. Mistry, J. Tate, P. Coggill, A. Heger, J.E Pollington, O.L. Gavin, P. Gunesekaran, G. Ceric, K.Forslund, L. Holm, E.L. Sonnhammer, S.R. Eddy, A. Bateman, The Pfam protein families database. Nucleic Acids Research (2010), Database Issue 38:D211-222 [6] Marchler-Bauer A, Anderson JB, Chitsaz F, Derbyshire MK, DeWeese-Scott C, Fong JH, Geer LY, Geer RC, Gonzales NR, Gwadz M, He S, Hurwitz DI, Jackson JD, Ke Z, Lanczycki CJ, Liebert CA, Liu C, Lu F, Lu S, Marchler GH, Mullokandov M, Song JS, Tasneem A, Thanki N, Yamashita RA, Zhang D, Zhang N, Bryant SH., CDD: specific functional annotation with the Conserved Domain Database. Nucleic Acids Res. (2009), 37, D205-10. [7] PHYLIP ( http://evolution.genetics.washington.e du/phylip.html) [8] Larkin M.A., Blackshields G., Brown N.P., Chenna R., McGettigan P.A., McWilliam H., Valentin F., Wallace I.M., Wilm A., Lopez R., Thompson J.D., Gibson T.J. And Higgins D.G., ClustalW and ClustalX version 2. Bioinformatics (2007), 23(21): 2947-2948. [9] Caspi, R., Altman, T., Dale, J.M., Dreher, K., Fulcher, C.A., Gilham, F., Kaipa, P., Karthikeyan, A.S., Kothari, A., Krummenacker, M., Latendresse, M., Mueller, L.A., Paley, S., Popescu, L., Pujar, A., Shearer, A., Zhang, P. and Karp, P.D., The MetaCyc Database of metabolic pathways and enzymes and the BioCyc collection of Pathway/Genome Databases Nucleic Acids Res. (2010), 38(1):D473-D479. [10] Selkov E Jr, Grechkin Y, Mikhailova N, Selkov E. MPW: the Metabolic Pathways Database. Nucleic Acids Res. (1998), 26(1):43-5. [11] Tatusov RL, Galperin MY, Natale DA, Koonin EV., The COG database: a tool for genome-scale analysis of protein functions and evolution. Nucleic Acids Res. (2000), 28(1): 33-36. [12] Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B, Galperin MY, Fedorova ND, Koonin EV., The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucleic Acids Res. (2001), 29(1): 22-28. самых крупных, были определены дополнительные подсемейства, основанные на множественном выравнивании с помощью Clustalw; кроме того, массивы таких белков, как гидролазы и лиазы, были дополнительно структурированы с помощью классификации CAZY. Таким образом, каждому белку присваивалось классификационное положение, относящее его к тому или иному семейству или подсемейству; то есть были определены группы "деталей" для дальнейшего анализа локусов. Было рассмотрено взаимное расположение генов-«деталей» внутри бактериальных геномов и на основании их близости друг к другу были определены предполагаемые локусы. Далее анализировалась связанность деталей между собой, и проводился соответствующий статистический анализ. Он включал в себя статистическую оценку «неслучайности» сочетания деталей в локусах (за счёт сравнения с случайным распределением) и выделение «стандартных» сочетаний. Для поиска стандартных локусов гены-«детали» представляли в виде вершин графа соединённых рёбрами в том случае, если гены встречались в одном локусе. Далее всем рёбрам задавался определённый вес на основании частоты встречаемости пары генов в разных геномах. После этого из графа убирались все рёбра и вводились обратно по одному в порядке уменьшения их веса. При этом строился график роста наибольшей – гигантской – компоненты, резкое изменение кинетики которого указывало на то, что в этот момент образовавшиеся крупные компоненты начинали сливаться друг с другом. Эти крупные компоненты мы решили рассматривать в качестве наиболее частых – стандартных – локусов. И перетасовки генов между этими локусами в первом приближении считать горизонтальным переносом (и подтверждать или опровергать это построением филогенетических деревьев). 3. Литература [1] Kanehisa, M., Goto, S., Furumichi, M., Tanabe, M., and Hirakawa, M. KEGG for representation and analysis of molecular networks involving diseases and drugs. Nucleic Acids Res. (2010), 38, D355-D360. 106