ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 Ю.Л. ОРЛОВ, О.В. ВИШНЕВСКИЙ, Е.Е. ВИТЯЕВ, О.С. КОЖЕВНИКОВА, Д.А. АФОННИКОВ, Н.А. КОЛЧАНОВ Институт цитологии и генетики СО РАН, Новосибирск orlov@bionet.nsc.ru БИОИНФОРМАЦИОННЫЙ АНАЛИЗ ЭКСПРЕССИИ ГЕНОВ В КЛЕТКАХ МОЗГА Биоинформационный анализ молекулярных механизмов деятельности высшей нервной системы имеет огромное фундаментальное значение. В последние годы происходит стремительное расширение фронта нейробиологических исследований, сопровождающееся быстрым ростом объема экспериментальных данных по структуре, функции и эволюции мозга и нервной системы на различных уровнях их иерархической организации. Использование технологий высокопроизводительного секвенирования и анализа данных экспрессии генов позволяет ставить задачи исследования на качественно более высоком уровне. Открыты многие молекулярные компоненты, включенные во внутриклеточные пути передачи информации от рецепторных к эффекторным структурам нейрона, исследовано химическое строение многих белков, вовлеченных в процессы межклеточной и внутриклеточной сигнализации, выявляются гены, экспрессия которых повышена в тканях мозга, и связана, в том числе, с когнитивными заболеваниями. Одним из крупнейших достижений в области нейронаук является создание трехмерных атласов экспрессии генов в мозге мыши и мозге человека. Ключевые слова: биоинформатика, клетки мозга, экспрессия генов, секвенирование ДНК Введение Биоинформационный анализ молекулярных механизмов деятельности высшей нервной системы имеет огромное фундаментальное значение, как для биологии и генетики, так и для исследования процессов познания. При этом компьютерные методы и оптимизационные алгоритмы нейроинформатики могут использоваться собственно для решения биологических задач, изучения структуры генов, их взаимосвязи, координации их Данная работа выполнена при поддержке Интеграционного проекта СО РАН и Минобрануки РФ (согл.8740). ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 работы (экспрессии) в клетках мозга [1]. Использование технологий высокопроизводительного секвенирования и анализа данных экспрессии генов позволяет ставить задачи исследования на качественно более высоком уровне [2,3]. Наряду с молекулярными и клеточными электровозбудимыми сигнальными системами функция нейронов и нейрональных сетей контролируется еще через одну управляющую систему – генные сети – ансамбли координировано функционирующих генов, обеспечивающих биосинтез всех молекулярных, биохимических, метаболических, энергетических и структурных компонент нейрона, включая те, из которых сформированы его мембраны и синапсы. Также как существует иерархия сетей нейронов, вплоть до глобальной нейронной сети, соответствующей мозгу и нервной системе, существует и соответствующая иерархия генных сетей. При этом генные сети отдельных нейронов, объединяясь в генные сети более крупных клеточных образований, формируют иерархию генных сетей вплоть до единой генной сети мозга и нервной системы. Следует подчеркнуть, что взаимосвязи между функциями нейронов и генных сетей проанализированы крайне слабо. Ценная информация для изучения этого вопроса может быть получена с помощью компьютерного анализа 3D баз данных экспрессии генов в мозге мыши и человека [4]. В последние годы все больше внимание уделяется компьютерным моделям нейронов и сетей нейронов, ориентированным на максимальное сходство с их биологическими прототипами не только по морфологическим, но и функциональным характеристикам [4,5], Например, результатом проекта BlueBrain стало моделирование одной колонки неокортекса крысы [6]. Большие надежды связаны с моделированием простейшей нервной системы целиком, в частности для нематоды C. Elegans с известной архитектурой ее нейронной сети, включающей всего 302 нейрона, способной к обучению и запоминанию [7]. Одним из крупнейших достижений последнего времени в области нейронаук является создание трехмерных атласов экспрессии генов в мозге мыши и человека. Первым и до настоящего времени наиболее полным и детальным ресурсом такого рода является компьютерная база данных Allen Brain Atlas (ABA) (http://www.brain-map.org) [4,5]. При ее создании с помощью in situ гибридизации оценивался уровень экспрессии всех (около 20000) генов в тонких срезах замороженного мозга мыши (толщиной до 25 микрон) с его полным сечением в двух ортогональных плоскостях. После наложения слоев друг на друга результаты анализа были суммированы в трехмерных стереотаксических координатах мозга мыши. При этом для повышения устойчивости оценок экспрессии результаты анализа ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 были усреднены по элементарным объемам (вокселям). Работы по созданию атласа осуществлялись с помощью специальных роботизированных систем, обеспечивающих полную автоматизацию всего цикла экспериментальных исследований. Рис. 1. Интерфейс базы данных ABA работы с трехмерным атласом мозга, включающим визуализацию экспресии генов в отдельных компартментах (http://connectivity.brain-map.org/static/brainexplorer) В настоящее время разработана большая серия баз данных по экспрессии генов в мозге: GENSAT (Gene Expression Nervous System Atlas) (http://www.gensat.org), MGI (Mouse Genome Informatics) (http://www.informatics.jax.org/), BGEM (Brain Gene Expression Map) (http://www.stjudebgem.org) и многие другие. Также разработаны базы данных, описывающие активность различных структур мозга, основанные на методах магнитного резонанса и томографии. Эти базы данных обладают мощными ресурсами доступа и визуализации, обеспечивая доступ как к первичной экспериментальной информацию, так и к целостной 3D картине локализации паттернов экспрессии генов в различных морфологических структурах мозга человека и лабораторных животных. В настоящее время имеется множество данных об участии различных медиаторных систем мозга в регуляции поведения. В частности, показано вовлечение в контроль над поведением серотониэргической [8], дофа- ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 минэргической и норадренэргической [9] систем. Эти системы имеют очень сложное строение, вовлекая в свое функционирование от сотен до тысяч генов. Каждая из из медиаторных систем вносит свой вклад в особенности регуляции поведения. Функция этих систем может существенным образом меняться в результате мутационных изменений (SNP или ОНП, вариация количества копий генов и др). К настоящему времени в генах нейротрансмиттерных симстем выявлено множество ОНП, оказывающих существенное влияние на поведение человека, имеются работы по поиску ассоциаций между ОНП в генах серотониновой системой мозга и поведением человека [10,11]. Нами проведено компьютерное исследование районов генов человека, активно экспресиирующихся в тканях мозга. Были подготовлены выборки генов, экспрессия которых повышена в целом, и в отдельных районах мозга человека, из банка данных UCSC загружены данные нуклеотидных последовательностей, содержащих эти гены и их регуляторные районы. Выполнялся поиск общих контекстных особенностей нуклеотидных последовательностей. Анализ промоторных районов этих генов позволил статистически показать обогащенность сайтами связывания белка – транскрипционного фактора TBP (по содержанию TATA-бокса). Анализ нейрональной активности с помощью электрофизиологических методов, моделирование информационных входов свидетельствуют о том, что нейроны in vitro способны к осуществлению достаточно сложных ассоциативных реакций, запоминанию, распознаванию образа внешнего сигнала, предсказанию возможных изменений внешних условий и ответа соответствующей реакцией, что делает возможным эксперименты в культуре тканей. Таким образом, удалось приблизиться и к пониманию молекулярных механизмов обучения. Показано, что для формирования устойчивого изменения эффективности межклеточной передачи необходимы структурные изменения в синапсе – элементарной структуре, ответственной за взаимодействие между нейронами и управляемыми ими клетками. Экспрессия генов и некодирующих РНК в тканях мозга Экспрессия генов, т.е. проявление их функции в клетках мозга, является базисом работы нейрона. Обычно, безосносительно к типу клеток, активно транскрибируются в клетке не все гены одновременно, а какая-то относительно небольшая их часть, около 5 % (что соответствует около 1000 генов для 20 000 анотированных генов). Выявление таких генов экспериментальными методами, численная экспериментальная оценка из экспрессии (число транскриптов в клетке) само по себе является сложной задачей молекулярной биологии. Определение дефектов развития, сбоев програм работы клетки, например, при опухолях мозга, позволяет выяв- ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 лять критические элементы в управляющей генной сети. При этом собственно методы нейроинформатики используются для компьютерного исследования генов, их экспресии и регуляции. Полное секвенирование транскриптом показало, что до 50 % транскриптов не кодируют белки [12]. Особое место среди них занимают длинные (условно более 300 нуклеотидов) некодирующие РНК. Такие РНК играют большую роль в развитии глиом, их экспрессия имеет предсказательное значение [13]. По отношению к белок-кодирующим генам их можно классифицировать как межгенные, внутригенные (в интронах) и цис-антисенс (в противоположной ориентации к экзонам кодирующих генов). Примеры некодирующих РНК включают гены HULC, MALAT-1, AIR, XIST, и Kcnq1ot [14]. Ряд недавних публикаций отмечает высокий уровень антисенстранскриптов при раке. По разным оценкам, доля цис-антисенс транскриптов в геноме человека достаточно велика, до 20 % [3]. Особый интерес представляет изменения уровня экспрессии ближайшего гена (по независимым данным экспрессии на коммерческих микрочипах или оцененное с помощью других технологий, таких как SAGE, CAGE, EST, секвенирование транскриптом), что может быть оценено при используемой технологии полного секвенирования транскриптома. Известен ряд некодирующих РНК генов, экспрессия которых значительно повышена при раке и может служить строгим маркером для диагностики [3]. В частности ген HULC повышено экспрессируется при карциноме печени, а ген внутриядерной РНК MALAT-1 (Metastasis Associated Lung Adenocarcinoma Transcript #1) был впервые открыт в ходе анализа метастаз рака легких и теперь известен как биомаркер других типов рака [14]. Интересно отметить взаимосвязь механизмов регуляции, включая регуляцию через связывания фактора транскрипции CREB, с последующими модификациями хроматина (деацетилирование и метилирование гистонов) и регуляцию гена HULC через микроРНК. Показано, что некодирующий РНК ген HOTAIR связывает изменения хроматина с метастазированием рака [12]. Интересно отметить еще один механизм регуляции – цис-антисенс транскрипты, то есть кодируемые последовательности, которые транскрибируются в противоположных направлениях и близко расположены – частично перекрываются в геномных координатах. Дискутируется вопрос о распространненности тиках систем регуляции в геномах. Интересно отметить большое число цис-антисенс транскритов в геноме человека, многие из таких транскриптов активны в клетках мозга. Пример приведен на рисунке. Для приведенного примера было исследована экспрессия генов на ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 микрочипах Affymetrix U133 на выборке здоровых тканей мозга (21 пациент, данные GEO NCBI). Рис. 2. Пробы микрочипа, соответствующие генам в противоположной ориентации (геном человека, UCSC Genome Browser) Как видно из рис. 2, существует 9 вариантов антисенс расположения транскриптов (представленных наборами проб); 3 набора проб (Affy probesets) попадают в интроны гена TYMS; 2 набора проб находятся в противоположной ориентации (представлены EST). Таким образом, можно видеть положительную корреляцию транскрипции, что является неожиданным результатом (транскрипция не может происходить одновременно), и свидетельствует о повышенной транскрипционной активности всего района. Табл. 1 содержит коэффициенты корреляции между наборами проб, представляющими гены, на выборке экспериментальных данных. В ИЦиГ СО РАН имеется значительный опыт в области анализа молекулярных механизмов регуляции экспрессии генов, суперкомпьютерных вычислений, использовании технологий секвенирования и микрочипов, в том числе относящихся к экспресии генов в тканях мозга, изучения роли серотониновой системы мозга в регуляции поведения [15-17]. Таблица 1 Ген Affymetrix ID Среднее значение Коэф.-т вариации,CV Число коэффициентов корре- ISBN 978-5-7262-1782-6 CLUL1 C18orf56 TYMS(longer) TYMS(shorter) 206556_at 228989_at 202589_at 1554696_s_ at 213645_at 204142_at 204143_s_at 243016_at 217684_at 217690_at НЕЙРОИНФОРМАТИКА-2013. Часть 3 6.08 7.05 7.981 6.962 ENOSF1(SA) 8.292 ENOSF1(short1) 6.879 ENOSF1(short2) 8.001 TYMS(-1) 7.351 TYMS(+1) 4.012 TYMS(-2) 6.160 ________ * Число значимых позитивных коэффициентов ных в данной структупе (при p < 5 %). 0.063 0.080 0.105 0.104 ляции* 0 8 7 7 0.087 0.136 0.090 0.102 0.223 0.124 7 7 7 8 3 8 корреляции (из 9 возмож- Разработана компьютерная система AndCell/AndVisio [16], позволяющая в автоматическом режиме, основе автоматического анализа текстов научных публикаций и баз данных реконструировать ассоциативные сети, интегрирующие информацию о молекулярно-генетических системах и процессах человека, животных и микроорганизмов. Разработана компьютерная технология GeneNet, позволяющая реконструировать на основе аннотации экспериментальных данных из научных публикаций генные сети - ансамбли координировано функционирующих генов, контролирующих биохимические, молекулярно-генетические, физиологические и процессы [1]. С помощью GeneNet реконструировано более сотни генных сетей, контролирующих различные системы и процессы, в том числе в мозговых тканях, включая генную сеть "Early long-term potentiation", отражающую белковые взаимодействия в дендритных шипиках зоны СА1 гиппокампа. Модели животных На животных моделях показано участие гена ключевого фермента биосинтеза 5-НТ-триптофангидроусилазы-2 в регуляции агрессивного поведения [17,18]. Показано роль 5-НТ1А рецепторов в подавлении агрессии, вызванной страхом и агрессии нападения, в механизмах зимней спячки и ассоциированной с ней глубокой гипотремии [18]. Выявлена роль 5-НТ2А рецепторов в подавлении пассивно-оборонительного защит- ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 ного поведения - каталепсии. Программная система Discovery успешно применялась для решения задач биоинформатики [15] (http://www.math.nsc.ru/AP/ScientificDiscovery). Разработан когнитивный подход к анализу данных с использованием функции конкурентного сходства, который может обрабатывать достаточно разнообразные и нестандартные данные биологии. Рассматривалась задача, связанная с анализом экспрессии генов в тканях мозга лабораторных животных – крыс селектированных по генетическим особенностям, предрасположенности к стрессу, и отличающихся в том числе по когнитивным функциям (спосбности к обучению). Для крыс линии OXYS был выделен набор генов, расположенный на хромосоме 1 и связанный с фенотипом животных [19]. Среди биологических процессов, обогащенных генами данного локуса, интересно отметить передацу сигнала, процессы нейрологической системы и визуальное восприятие. Последнее непосредственно связано с заболеваниями глаза. В табл. 2 приведены биологические процессы. Таблица 2 Биологические процессы signal transduction system process neurological system process synaptic transmission cellular metabolic process visual perception Отношение Значимость наблюдае(P-value) мого числа к ожидаемому 7,7E-08 1,36 9,34E-08 1,51 Число генов в выборке Ожидаемое число генов 259 162 190,5 107,2 145 50 95,0 23,8 2,83E-07 1,36E-06 1,53 2,10 41 31 15,4 17,7 3,32E-08 0,00234 2,67 1,75 Интересно отметить присутствие генов из метаболических путей, связанных с окислительным стрессом: «Inflammation mediated by chemokine» и «Oxytocin receptor mediated signaling» а также «FGF signaling» и «VEGF signaling pathway». Присутствие генов из метаболических путей, связанных с болезнью Альцгемера (Alzheimer disease) может свидетельствовать об экспрессии генов данного локуса в нейронах и тканях мозга. ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 Среди биологических процессов, обогащенных генами данного локуса, интересно отметить передацу сигнала, процессы нейрологической системы и визуальное восприятие. Последнее непосредственно связано с заболеваниями глаза. Среди онтологических категорий «Молекулярные функции» значимо присутствуют категории каталитической активности, белкового связывания, трансмембранной активности и оксидоекдуктазы. Последнее напрямую связано с окислительным стрессом. В то же время отсутствуют и более того, статистически недопредставлены, категории, связанные с иммунитетом, другими защитными механизмами. visual perception # expected cellular metabolic process # Observed synaptic transmission neurological system process system process signal transduction 0 50 100 150 200 250 300 Рис. 3. Онтологические категории «Биологические процессы». Обогащенность генов локуса хромосомы 1 генома крысы (то же в табл.2) Выводы Развитие новых экспериментальных методов геномики, прежде всего, секвенирования, привела к стремительному росту объемов экспериментальных данных, «информационному взрыву» в геномике в целом, и в данных по экспресии генов и их функциях в тканях мозга в частности. Технологическая проблема обработки и анализа данных высокопроизводительного геномного секвенирования требует разработки специализированных компьютерных средств. Программный комплекс ICGenomics предназначен для компьютерной поддержки исследований в геномике, молекулярной биологии, биотехнологии и биомедицине [20]. Основное назначение – функциональная аннотация геномных последовательностей, получаемых в результате массового высокопроизводительного секвенирования. Программный комплекс ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 ICGenomics был реализован и протестирован на вычислительном оборудовании ЦКП «Биоинформатика» СО РАН http://www-bionet.sscc.ru/ icgenomics. Комплекс применялся к ряду задач функциональной аннотации регуляторных районов генов. Планируется развитие компьютерных программ измерения экспрессии генов, и адаптированы применительно к анализу клеток тканей мозга и нервной системы. Будет проведена интеграция с существующими международными базами данных. В ближайшей перспективе будет подготовлена методика сравнения данных экспрессии генов в клетках мозговых тканей человека и лабораторных животных, выбран набор генов со статистически значимо высоким уровнем экспрессии, проведено сравнение с имеющимися международными базами данных. Рис. 4. Интерфейс программного комплекса ICGenomics анализа данных геномики Список литературы 1. Ananko E.A., Podkolodny N.L., Stepanenko I.L. et al. GeneNet in 2005// Nucleic Acids Res. 2005. 33(Database issue). D425-7. 2. Xie J., Zhao T., Lee T., Myers E., Peng H. Anisotropic path searching for automatic neuron reconstruction // Med Image Anal. 2011. V. 15(5). P. 680. 3. Lipovich L., Dachet F., Cai J. et al. Activity-dependent Human Brain ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 Coding/Non-coding Gene Regulatory Networks // Genetics. 2012 Sep 21. [Epub ahead of print] 4. Lein E.S., Hawrylycz M.J., Ao N. et al. Genome-wide atlas of gene expression in the adult mouse brain // Nature. 2007. V. 445(7124). P.168-76. 5. Hawrylycz M.J., Lein E.S., Guillozet-Bongaarts A.L. et al. An anatomically comprehensive atlas of the adult human brain transcriptome // Nature. 2012. V. 489(7416). P. 391-9. 6. Perin R., Berger T.K., Markram H. A synaptic organizing principle for cortical neuronal groups // Proc Natl Acad Sci U S A. 2011. V. 108(13). P. 5419-24. 7. Giles A.C., Rankin C.H. Behavioral and genetic characterization of habituation using Caenorhabditis elegans // Neurobiol Learn Mem. 2009. V. 92(2). P. 139-46. 8. Popova NK, Voitenko NN. Brain serotonin metabolism in hibernation // Pharmacol Biochem Behav. 1981. V. 14(6). P.773-7. 9. Kriks S., Shim J.W., Piao J. Dopamine neurons derived from human ES cells efficiently engraft in animal models of Parkinson's disease // Nature. 2011. V. 480 (7378). P.547-51. 10.Middeldorp C.M., de Geus E.J., Willemsen G., Hottenga J.J., Slagboom P.E., Boomsma D.I. The serotonin transporter gene length polymorphism (5HTTLPR) and life events: no evidence for an interaction effect on neuroticism and anxious depressive symptoms // Twin Res Hum Genet. 2010. V. 13(6). P.544-9. 11.Vasiliev G.V., Merkulov V.M., Kobzev V.F., Merkulova T.I., Ponomarenko M.P., Kolchanov N.A. Point mutations within 663-666 bp of intron 6 of the human TDO2 gene, associated with a number of psychiatric disorders, damage the YY-1 transcription factor binding site // FEBS Lett. 1999. V. 462(1-2). P. 85-8. 12.Hung T., Chang H.Y. Long noncoding RNA in genome regulation: prospects and mechanisms // RNA Biol. 2010. V. 7(5). P. 582-5. 13.Zhang X., Sun S., Pu J.K. et al. Long non-coding RNA expression profiles predict clinical phenotypes in glioma // Neurobiol Dis. 2012. V. 48(1). P. 1-8. 14.Lai M.C., Yang Z., Zhou L. et al. Long non-coding RNA MALAT-1 overexpression predicts tumor recurrence of hepatocellular carcinoma after liver transplantation // Med Oncol. 2012. V. 29(3). P. 1810-6. 15.Vityaev E.E., Orlov Y.L., Vishnevsky O.V., Pozdnyakov M.A., Kolchanov N.A. Computer system "gene discovery" for promoter structure analysis // In Silico Biol. 2002. V.2(3). P. 257-62. ISBN 978-5-7262-1782-6 НЕЙРОИНФОРМАТИКА-2013. Часть 3 16. Demenkov P.S., Ivanisenko T.V., Kolchanov N.A., Ivanisenko V.A. ANDVisio: A new tool for graphic visualization and analysis of literature mined associative gene networks in the ANDSystem // In Silico Biol. 2011. V. 11(3). P. 149-61. 17. Naumenko V.S., Kondaurova E.M., Popova N.K. On the role of brain 5-HT7 receptor in the mechanism of hypothermia: comparison with hypothermia mediated via 5-HT1A and 5-HT3 receptor // Neuropharmacology. 2011. V. 61(8). P. 1360-5. 18. Kulikov A.V., Osipova D.V., Naumenko V.S., Terenina E., Mormède P., Popova N.K. A pharmacological evidence of positive association between mouse intermale aggression and brain serotonin metabolism // Behav Brain Res. 2012. V. 233(1). P. 113-9. 19. Кожевникова О.С., Мартыщенко М.К., Генаев М.К., Корболина М.К., Муралева Н.А., Колосова Н.А., Орлов Ю.Л. (2012) RatDNA: база данных микрочиповых исследований на крысах для генов, ассоциированных с заболеваниями старения // Вавиловский журнал генетики и селекции. 16(4/1): (в печати). 20. Орлов Ю.Л., Брагин А.О., Медведева И.В., Гунбин И.В., Деменков П.С., Вишневский О.В., Левицкий В.Г., Ощепков В.Г., Подколодный В.Г., Афонников В.Г., Гроссе И., Колчанов Н.А. (2012) ICGenomics: программный комплекс анализа символьных последовательностей геномики // Вавиловский журнал генетики и селекции. 16(4/1): (в печати).