Браузер для генома Симонов Сергей Александрович к.ф.-м.н. Центр Геномной Биоинформатики им Ф. Добржанского, СпБГУ п. Лисий Нос 7 ноября 2013 Карта современной науки (РР ноябрь 2013) План Биоинформатика Геном – протеом Элементы генома Визуализация генома Биоинформатика 1012 клеток В каждой клетке – Геном длиной 3.2*109 Азбука Морзе Коды Хаффмена (префиксные) A=1, C=2, G=3, T=4 1 2 n a1x +a2x +…anx =b, 9 n=3.2*10 15 A=A(до); c=B(ре); g=C(ми); t=D(фа) Зачем? Не знаешь функцию – изучай структуру Примеры элементов в геноме Повторы 50% Гены 1-4% Экзоны Интроны Эндоретровирусы 0.0… % SNP, SNV, Metilated site … 0.00… % Как «читают» геном? Берут образец Выделяют ДНК Режут на фрагменты Секвенируют, получая риды (reads) Сибирают риды в контиги, скафолды, хромосомы, геном Есть исходный геном (reference) Что в нем можно закодировать? 4 типа нуклеотида 20 аминокислот Генетический код основан на триплетах – т.н. Кодонах Есть Старт-кодон и три стоп кодона. Т.о. Можно видеть, что код неоднозначный. То же самое для большинства геномных элементов – «похоже», но не тождественно! Около 500 000 белков в базе данных. Как сравнивать последовательности? Локально. Алгоритм Смита-Ватермана. Динамическое программирование Глобально. Эвристика Алгоритм Нудельмана-Вунша - БЛАСТ Сколько вычислений? 109 мега 1012 гига 1015 пета 1018 экса Производительность суперкомпьютеров на уровне пета. К 2016 ожидается превышение экса Вирусы Структура вируса Итак. С помощью алгоритмов выравнивания можно находить: Повторы Белки Вирусы СНИПы Другие элементы Несколько ссылок http://humbio.ru/humbio/molevol/000199bc.htm http://www.ncbi.nlm.nih.gov огромная про геномные элементы база данных с генетической информацией http://webgbrowse.cgb.indiana.edu - открытый для всех геномный браузер http://Garfield2.dobzhanskycenter.org - мой геномный браузер Как увидеть цельную картину и сохранить возможность пристального взгляда? Браузер – как средство «поглазеть»… Посмотреть в интернете (IE, FireFox, Chrome, Safari, etc Увидеть геном (NCBI, Ensembl, UCSC, Gbrowse, Jbrowse etc). СПАСИБО Симонов Сергей Александрович к.ф.-м.н. Центр Геномной Биоинформатики им Ф. Добржанского, СпБГУ