Проект программы обучения студентов по специальности «биоинформатика» М.С.Гельфанд, А.А.Миронов (“Integrated Genomics”) А.В.Алексеевский, С.А.Спирин (НИИФХБ им. Белозерского, МГУ) Москва, 2001 Вводные замечания. 1. В этот проект авторы включили все основные, на их взгляд, темы. Программа конкретного курса, несомненно, должна быть адаптирована к составу студентов и, может быть, сокращена. 2. Под биоинформатикой авторы понимают науку, занимающуюся анализом экспериментальных данных молекулярной биологии: секвенированных последовательностей биополимеров, экспериментально определенных пространственных структур биологических макромолекул, данных об экспрессии генов и т.д. Методами биоинформатики являются методы организации информации, широко понимаемые компьютерные методы, методы вычислительной математики и статистики. Близкая трактовка этого термина принята в ведущих зарубежных центрах, таких, как EMBL/EBI (Германия-Великобритания), SIB (Швейцария), NCBI (США) и др. При таком понимании биоинформатики за ее рамками остаются многие другие области науки о живом, связанные с использованием математических и компьютерных методов, например, математическая экология, математические модели в физиологии, концепции биополя, информационного содержания организма и др., а также молекулярная динамика — эти важные науки имеют собственные задачи и методы. Разграничение областей авторы считают необходимым для составления программ обучения. Не следует включать в одну программу “все для всех”. 3. Программа призвана готовить специалистов в области биоинформатики. Иногда таковых называют «компьютерный биолог». Компьютерный биолог занимается получением биологически осмысленных результатов, исследуя содержимое банков данных. Поэтому в идеале он должен владеть арсеналом существующих компьютерных средств (программ, баз данных и др.), знать алгоритмы, заложенные в программах — чтобы уметь интерпретировать результаты, владеть программированием — чтобы реализовывать новые идеи. Спектр необходимых знаний и временных затрат таков, что почти невозможно быть одновременно экспериментатором и “полноценным” компьютерным биологом. Следует признать, что в настоящее время в мире мало “полноценных” компьютерных биологов. Чаще специалист-биоинформатик либо биолог и, в лучшем случае, квалифицированный пользователь программного обеспечения («пользователь»), либо математик и специалист по созданию программного обеспечения («алгоритмист»). Потребность как в тех, так и в других специалистах несомненна. Исходя из реальной ситуации, в детальной программе конкретного курса следует учитывать подготовку студентов: для математиков и алгоритмистов больше внимания уделять изучению алгоритмов вычислительной биологии, для биологов — особенностям использования существующего программного обеспечения. Возможно, следует предусмотреть по два варианта практикумов при едином теоретическом курсе. 1 Тем не менее, представляется нецелесообразным создавать для подспециальностей отдельные программы обучения ввиду быстрого прогресса области и роста потребности в полноценных компьютерных биологах. 4. Программа состоит из двух частей: предварительные курсы (сведения из математики, физики, химии и биологии, необходимые для занятий биоинформатикой) и собственно биоинформатика. Авторы, в принципе, готовы взять на себя или предложить кандидатуры для преподавания основной части. Предварительная часть в зависимости от факультета в той или иной степени охвачена существующими программами. Вероятно, следует предусмотреть краткий «ликбез» по пропущенным темам. ПРЕДВАРИТЕЛЬНЫЕ КУРСЫ для биоинформатиков Биохимия и молекулярная биология Генетика Физика термодинамика физика биополимеров физические свойства аминокислот виды взаимодействий между аминокислотами и/или нуклеотидами первичная, вторичная, третичная структура белков вторичная и третичная структура РНК, псевдоузлы параметры спирали ДНК, плавление ДНК (динамическое программирование), сверхспирализация ДНК, топология ДНК рентгеновская кристаллография, ЯМР-спектроскопия Математика математический анализ линейная алгебра комбинаторика теория вероятностей прикладная статистика Информатика характеристики алгоритмов (время и память) языки программирования операционные системы базы данных Практикум по информатике Интернет Excel UNIX 2 КУРС БИОИНФОРМАТИКИ Основные задачи биоинформатики функциональная аннотация биополимеров структурная аннотация биополимеров эволюция геномика и протеомика Базы данных основы структур баз данных (записи, поля, объекты) классификация баз по способу заполнения (автоматические, архивные, курируемые) основные базы данных: GenBank, EMBL SwissProt, TrEMBL, PIR PDB базы, содержащие результаты глобальных экспериментов по анализу экспрессии, протеомике, и т.п. банки белковых семейств (SCOP, Prosite, ProDom, PFAM, InterPro) метаболические базы данных генетические банки (физические карты, OMIM) специализированные банки данных конкретные белковые семейства, РНК и т.д. конкретные геномы функциональные сайты в белках и ДНК Средства работы с банками данных (практикум) SRS Entrez Сравнение последовательностей выравнивание двух последовательностей глобальное и локальное выравнивание, вес выравнивания, матрицы аминокислотных замен дот-матрицы глобальное выравнивание: алгоритм Нидельмана-Вунша локальное выравнивание: алгоритм Смита-Ватермана другие алгоритмы локального выравнивания другие варианты выравнивания (fitting, overlaps, блочное выравнивание, сплайсированное выравнивание) статистическая значимость выравниваний и ее зависимость от вероятностной модели последовательности (в т.ч. сегменты малой сложности) зависимость выравнивания от параметров множественное выравнивание динамическое программирование последовательное выравнивание (Clustal) 3 другие алгоритмы множественного выравнивания (DIALIGN, Match-Box, алгоритм Леонтовича-Бродского) профили, скрытые марковские модели поиск блоков (максимизация ожидания, Gibbs sampler, имитация теплового отжига и т.д.) Практикум по выравниваниям построение выравниваний (написание или использование программ) сравнение локальных и глобальных выравниваний зависимость выравнивания от параметров оценка статистической значимости Поиск по сходству в базах данных Smith-Waterman хэширование (lookup table) BLAST FASTA оценка значимости (E-value, P-value) фильтрация повторов и обработка участков малой сложности (фильтрация, пересчет значимости) паттерны (Prosite), профили, Psi-BLAST, HMM (PFAM) Практикум по поиску гомологов интерпретация результатов сравнение алгоритмов зависимость от параметров (матрицы, фильтры и т.п.) Автоматическое аннотирование последовательности. Онтология. Пространственная структура биополимеров PDB структура записи PDB визуализация анализ структурных особенностей моделирование предсказание вторичной структуры белков предсказание третичной структуры белков по гомологии threading docking предсказание параметров спирали ДНК предсказание вторичной структуры РНК представление вторичной структуры РНК минимизация энергии вторичной структуры (динамическое программирование) динамические модели РНК сравнительный подход по гомологичным и изофункциональным РНК Практикум по структурам белков 4 RASMOL SwissPDBViewer WhatIf Практикум по вторичным структурам РНК Предсказание функции по последовательности белки анализ гомологов функциональные сигналы лидерные пептиды и трансмембранные сегменты сайты модификации (гликозилирование, фосфорилирование и т.п.) ДНК функциональные сайты гены прокариот гены эукариот (динамическое программирование, HMM) сравнительные методы предсказания генов РНК поиск РНК с заданной структурой (тРНК и т.п., регуляторные участки мРНК) Практикум: аннотация последовательностей поиск белок-кодирующих областей (написание программ или использование существующих серверов) поиск функциональных сайтов (написание программ или использование существующих серверов) предсказание структурных особенностей белков Молекулярная эволюция эволюция молекул и организмов ортологи и паралоги горизонтальный перенос деревья видов и деревья генов филогенетическое дерево как математический объект модели эволюции алгоритмы построения филогенетических деревьев матрица расстояний методы, основанные на матрице расстояний (UPGMA, neighbour-joining, minimal evolution, топологические инварианты и др.) другие методы (максимальная экономия, максимальное правдоподобие) алгоритмические проблемы поиска оптимального дерева bootstrapping согласование деревьев эволюция на уровне генома (синтения, хромосомные перестройки) анализ популяционных данных SNP тандемные повторы митохондрии и Y-хромосомы 5 данные по рестрикции Статистика последовательностей ДНК (ди)нуклеотидный состав (изохоры, GC-острова, картирование старта репликации) частые и редкие слова (вероятностные проблемы) статистика ДНК как характеристика генома Вычислительная геномика метаболическая реконструкция (в т.ч. неортологичные замещения) позиционный анализ эволюция регуляторных взаимодействий эволюция белковых семейств, их доля в геноме Поддержка эксперимента подбор праймеров для ПЦР секвенирование геномов генетическое картирование физическое картирование автоматическое секвенирование сборка фрагментов протеомика анализ данных двумерного фореза (обработка изображений) масс-спектрометрия белков анализ данных по экспрессии генов (microarrays и др.) обработка изображений кластеризация профилей экспрессии диагностика по экспрессии генов 6