Занятие 3. Геномы. Основной тип исходных данных биоинформатики 20-21 сентября ФББ МГУ имени М.В.Ломоносова 2013 год Чтобы что-то сравнить, надо знать, что это и где Исходные данные: линейные гетерополимерные биологические молекулы (ДНК, РНК, белки) Один из предметов биоинформатики: сравнение их первичных структур (последовательностей) • Полные геномы самых разных организмов (от бактерий до человека) сейчас общедоступны • Поэтому мы начнем сразу со сложного, но интересного: не с последовательности одного гена, но сразу с генома! 1 2 Геномы хранятся как огромные текстовые файлы Нам надо кое-что узнать о «текстовых файлах» и файлах вообще! Расширение файла Расширение – несколько символов в имени файла после самой последней точки (может отсутствовать) имя файла без расширения расширение ( условный тип) mydocument.doc the.pic.bmp myfile.bubububu noextension имя файла ! Расширение НЕ определяет тип файла. Оно нужно: • для ассоциации с файлом той или иной программы, которая открывается в ответ на «запуск» файла (двойной щелчок мыши в Windows, enter в FAR и т.п.) • для быстрой ориентации пользователя в своих файлах (очень актуально для биоинформатика) 3 Двоичная система счисления 4 1 байт Двоичная система счисления: «машинный язык» нулей и единиц 1 бит … 0 0 0 0 0 0 1 В 1 бит можно записать 2 числа: 0 и 1 (0, 1) В 2 бита можно записать 4 (22) числа: 0, 1, 2 и 3 (00, 01, 10, 11) В 3 бита можно записать 8 (23) чисел: 0…7 0 000 1 001 2 010 3 011 4 100 5 101 6 110 7 111 В 4 бита можно записать 16 (24) чисел: 0…15 … В 8 бит можно записать 256 (28) чисел, т.е. числа от 0 до 255 0 … 5 HEX-система счисления 1 байт Шестнадцатеричная система счисления (hex): «user-friendly» интерпретация того же самого: • 15 цифр: 0…9, а потом А, B, C, D, E и F • 1 байт записывается двумя hex-цифрами … 1 бит 0 1 ниббл (полубайт) 0 0 0 0 1 0 0 0 … A Десятеричная 0 10 15 16 17 32 255 256 Шестнадцатеричная 0 A F 10 11 20 FF 100 Пример бинарного файла (можно посмотреть в FAR!) Номер первого Попытка Данные hex-числа в строке декодировать в текст Тройка hex-чисел указывает в данном случае на цвет одного пикселя: первое число показывает интенсивность красного, второе – зеленого, третье – синего 5 пикселей 10 пикселей Рисунок в формате bmp Размер файла = 214 байт 13 * 16 + 6 = 214 6 Текстовый файл HEX-представление файла, конечно, намного удобнее, чем нули-единицы. Но все-таки недостаточно удобно для широкого круга пользователей Поэтому существуют текстовые файлы • каждому нужному символу (английским буквам, цифрам, знакам препинания, знаку конца строки и т.п.) присваивается условный номер. Так возникает кодировка символа числом (см. описание таблицы ASCII в Википедии) • текстовый редактор знает таблицу кодировки и отображает символы (именно это делает редактор FAR) 7 8 Устройство ДНК Договор: в биоинформатике все последовательности ДНК или РНК записывают от 5’ к 3’ 5’ 4’ 1’ 3’ 2’ Прокариотический геном Плазмида 2 Запись в базе данных о плазмиде 2 Геномная ДНК Запись в базе данных о геномной ДНК бактерии Xxx xxx Плазмида 1 Запись в базе данных о плазмиде 1 9 Транскрипция и трансляция 10 База данных ДНК 5’ 3’ ATGCTTCAT… ||||||||| TACGAAGTA… 3’ 5’ Транскрипция мРНК 5’ AUGCUUCAU… 3’ Трансляция Белок Мет Лей Гис Формат базы данных (на примере GenBank) ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ….......... «Шапка» (общие свойства записи) Аннотация участков ДНК (гены и пр.) 11 ACCESSION Уникальный идентификатор DEFINITION Краткое описание (что это такое: геном, плазмида…) LOCUS Чуть более подробное описание (тип нуклеиновой кислоты, длина, замкнутость…) ORGANISM Из какого организма Последовательность (одна цепь, 5’3’) Формат базы данных (на примере GenBank) ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ………… ….......... «Шапка» (общие свойства записи) Аннотация участков ДНК (гены и пр.) CDS Последовательность кодирует белок (от Coding DNA Sequence) tRNA Ген тРНК rRNA Ген рРНК Последовательность (одна цепь, 5’3’) 12 Запись типа CDS: ген белка 13 Для кодирующих генов самая важная запись CDS. Иногда информация из нее дублируется в записях типа gene и др.