Занятие 3. Геномы. Основной тип исходных данных биоинформатики ФББ МГУ имени М.В.Ломоносова

реклама
Занятие 3. Геномы.
Основной тип исходных
данных биоинформатики
20-21 сентября
ФББ МГУ имени М.В.Ломоносова
2013 год
Чтобы что-то сравнить,
надо знать, что это и где
Исходные данные:
линейные
гетерополимерные
биологические
молекулы
(ДНК, РНК, белки)
Один из предметов
биоинформатики:
сравнение их первичных
структур
(последовательностей)
• Полные геномы самых разных организмов (от
бактерий до человека) сейчас общедоступны
• Поэтому мы начнем сразу со сложного, но
интересного: не с последовательности одного
гена, но сразу с генома!
1
2
Геномы хранятся как
огромные текстовые файлы
Нам надо кое-что узнать о «текстовых
файлах» и файлах вообще!
Расширение файла
Расширение – несколько символов в имени файла
после самой последней точки
(может отсутствовать)
имя файла
без расширения
расширение
( условный тип)
mydocument.doc
the.pic.bmp
myfile.bubububu
noextension
имя файла
! Расширение НЕ
определяет тип файла.
Оно нужно:
• для ассоциации с файлом той
или иной программы, которая
открывается в ответ на «запуск»
файла (двойной щелчок мыши в
Windows, enter в FAR и т.п.)
• для быстрой ориентации
пользователя в своих файлах
(очень актуально для
биоинформатика)
3
Двоичная система счисления 4
1 байт
Двоичная система
счисления:
«машинный язык»
нулей и единиц
1 бит
…
0
0
0
0
0
0
1
В 1 бит можно записать 2 числа: 0 и 1 (0, 1)
В 2 бита можно записать 4 (22) числа: 0, 1, 2 и 3 (00, 01, 10, 11)
В 3 бита можно записать 8 (23) чисел: 0…7
0
000
1
001
2
010
3
011
4
100
5
101
6
110
7
111
В 4 бита можно записать 16 (24) чисел: 0…15
…
В 8 бит можно записать 256 (28) чисел, т.е. числа от 0 до 255
0
…
5
HEX-система счисления
1 байт
Шестнадцатеричная
система счисления
(hex): «user-friendly»
интерпретация того же
самого:
• 15 цифр: 0…9, а
потом А, B, C, D, E и F
• 1 байт записывается
двумя hex-цифрами
…
1 бит
0
1 ниббл (полубайт)
0
0
0
0
1
0
0
0
…
A
Десятеричная
0
10
15
16
17
32
255
256
Шестнадцатеричная
0
A
F
10
11
20
FF
100
Пример бинарного файла
(можно посмотреть в FAR!)
Номер первого
Попытка
Данные
hex-числа в строке
декодировать в текст
Тройка hex-чисел указывает в данном случае
на цвет одного пикселя: первое число
показывает интенсивность красного, второе –
зеленого, третье – синего
5 пикселей
10 пикселей
Рисунок в формате bmp
Размер файла = 214 байт
13 * 16 + 6 = 214
6
Текстовый файл
HEX-представление файла, конечно, намного удобнее,
чем нули-единицы. Но все-таки недостаточно удобно
для широкого круга пользователей 
Поэтому существуют текстовые файлы
• каждому нужному символу (английским буквам,
цифрам, знакам препинания, знаку конца строки и т.п.)
присваивается условный номер. Так возникает
кодировка символа числом (см. описание таблицы
ASCII в Википедии)
• текстовый редактор знает таблицу кодировки и
отображает символы (именно это делает редактор
FAR)
7
8
Устройство ДНК
Договор: в
биоинформатике все
последовательности
ДНК или РНК
записывают от 5’ к 3’
5’
4’
1’
3’
2’
Прокариотический геном
Плазмида 2
Запись в базе
данных о
плазмиде 2
Геномная
ДНК
Запись в базе данных
о геномной ДНК
бактерии Xxx xxx
Плазмида 1
Запись в базе
данных о
плазмиде 1
9
Транскрипция и трансляция 10
База данных
ДНК
5’
3’
ATGCTTCAT…
|||||||||
TACGAAGTA…
3’
5’
Транскрипция
мРНК
5’
AUGCUUCAU…
3’
Трансляция
Белок
Мет Лей Гис
Формат базы данных (на
примере GenBank)
…………
…………
…………
…………
…………
…………
…………
…………
…………
…………
…………
…………
…………
…..........
«Шапка»
(общие
свойства
записи)
Аннотация
участков
ДНК
(гены и пр.)
11
ACCESSION  Уникальный
идентификатор
DEFINITION  Краткое описание
(что это такое: геном,
плазмида…)
LOCUS  Чуть более подробное
описание (тип нуклеиновой
кислоты, длина, замкнутость…)
ORGANISM  Из какого организма
Последовательность
(одна цепь, 5’3’)
Формат базы данных (на
примере GenBank)
…………
…………
…………
…………
…………
…………
…………
…………
…………
…………
…………
…………
…………
…..........
«Шапка»
(общие
свойства
записи)
Аннотация
участков
ДНК
(гены и пр.)
CDS  Последовательность
кодирует белок (от Coding DNA
Sequence)
tRNA Ген тРНК
rRNA  Ген рРНК
Последовательность
(одна цепь, 5’3’)
12
Запись типа CDS: ген белка 13
Для
кодирующих
генов самая
важная запись
CDS. Иногда
информация
из нее
дублируется в
записях типа
gene и др.
Скачать