Функциональная аннотация

реклама
Негеномные данные
М.Гельфанд
«Сравнительная геномика»
БиБи 4 курс, Осень 2007
Массовые негеномные данные
•
•
•
•
•
(ко)-экспрессия
Белок-ДНКовые взаимодействия
Состав и концентрации белков
Белок-белковые взаимодействия
Одинарные и двойные мутанты
(жизнеспособность, фенотипы)
• Всякие разные эксперименты (text mining)
• Много баз данных
• Мало удобных средств анализа
Expression arrays
(a.k.a. олигонуклеотидные чипы)
• Олигонуклеотиды (зонды) нанесены на
подложку
• Туда же льют (радиоактивно или
флуоресцентно – можно 2 метки) меченую
РНК или кДНК (например – один раунд с
затравкой полиТ) – получаем
(комплементарные цепи) 3’-концы генов
• Меряем в каждой лунке интенсивность – она
пропорциональна концентрации
«техническая» биоинформатика
•
Как подобрать зонды
– Геномные соображения
• Не участок малой сложности (прилипнет к чему угодно)
• Не повтор (прилипнет ко мноим копиям)
• Уникальность (семейства генов)
– Физические соображения
•
•
•
•
•
•
Одинаковые температуры плавления
Отсутствие комплементарности между зондами
Отсутствие вторичной структуры в олигонуклеотиде
Отсутствие вторичной структуры в мишени
Как переделать интенсивности в концентрации (анализ изображений)
Нормировка измерений в одном эксперименте / однородной серии
экспериментов
–
–
–
–
–
Учет различий в условиях гибридизации и т.п.
Учет неравномерности по полю
Вычитание фона
Нормировка интенсивностей флуоресцентных меток (регрессия)
Логарифмы, потому что хотим
•
•
•
•
нормального распределения ошибок
приблизительно равномерного разброса наблюдений по шкале
приблизительно колоколообразного распределения наблюдений
вычитать, а не делить при анализе (статистические методы так лучше работают)
До и после логарифмирования
(две метки; фибробласты, инфицированные Toxoplasma)
гистограммы
после
до
Виды чипов
• кДНКовые
– ПЦР-амплификация известных генов
– (можно сколь угодно либерально – брать все
сомнительные гены)
– Надо учитывать альтернативный сплайсинг,
полиаденилирование, промоторы (трудно)
– В зависимости от способа приготовления меченой
кДНК, можно предпочитать 3’-концы
• Выстилающие (tiling)
– Весь геном – по ~30 нуклеотидов со сдвигом ~10
нуклеотидов…
– … за исключением повторов, микросателлитов и т.п.
Нормировка
• Для применения статистических методов
надо, чтобы распределения были сравнимы
(одинаковые средние и среднеквадратичные
отклонения)
• для этого для каждого массива
(первоначальных) данных вычитают среднее
и делят на среднеквадратичное отклонение
• у получившегося распределения среднее
равно 0, среднеквадратичное отклонение
равно 1
Типичные задачи
• классификация измерений (например,
диагностика)
• выбор генов, дифференциально
экспрессирующихся в двух классах
(диагностика, до/после)
• поиск групп ко-регулируемых генов
один ген, много измерений в двух независимых
группах – одинаков ли уровень экспрессии?
• стандартные методы сравнения двух
распределений
– параметрические (t-тест) – предполагается
нормальность распределений, но:
• выборки неоднородные,
• распределения не только не нормальные, но могут быть
бимодальные,
• Outliers
=> ложно-положительные результаты (принимаем
желаемое за действительное)
– непараметрические (Уилкоксона-Манна-Уитни)
• небольшая статистическая сила
=> ложно-отрицательные результаты (можно пропустить
значимый эффект)
bootstrapping
• берем те же данные, распределяем
случайным образом по группам того же
объема, и проводим такой же тест на
сравнение распределений (например,
вычисляем t-статистику)
• но теперь не смотрим в таблицу tраспределения, а производим эту операцию
очень много раз и получаем распределение
статистики на имеющихся данных
• и смотрим, какова же значимость
один ген, много пар измерений – есть ли
разница?
• вычитаем первое измерение из второго
и проверяем «среднее=0?»
• те же тесты, что и раньше
множественное тестирование
• статистическая значимость 1%
означает, что в случайных данных 1 из
100 измерений (генов) будет иметь
такое значение
• тысячи генов
• консервативный подход – поправка
Бонферрони (умножать уровень
значимости на количество генов)
– слишком консервативно – ничего не
значимо
bootstrapping
• альтернативный подход – посчитать,
сколько генов пройдет данный порог на
p-value в случайных данных того же
объема
• эта доля генов – false positives
• выбрать уровень значимости с
приемлемым уровнем false positives
• поправка Бонферрони соответствует
0% false positives
классификация выборок (тканей,
диагнозов и т.п.): распознавание образов
• k ближайших соседей
• перцептрон и линейный дискриминантный
анализ: измерения (скажем, пациенты) –
точки в многомерном пространстве
(координаты – уровни экспрессии генов);
проводим плоскость, которая наилучшим
образом разделяет выборки
• нейронный сети (обобщение)
• квадратичный анализ
• support vector machines (другое обобщение)
понижение размерности и over-interpretation
• можно обойтись меньшим числом
измерений (гены-маркеры)
• не следует трактовать различия в
уровне экспрессии как
непосредственные причины (скажем,
болезни)
• можно выбрать другой набор генов,
который даст такое же качество
диагноза
валидация
• стандартные правила гигиены теории
распознавания образов
• обучающая выборка – подбор
параметров
• тестирующая выборка – подбор модели
• экзамен – ОДИН РАЗ
корреляции между уровнями экспрессии генов
сильная
положительная
r = 0.97
слабая
отрицательная
r = –0.43
никакой
r = 0.054
временные ряды
• клеточный цикл (синхронизированные
культуры) или последствия
вмешательства
• измерения уровней экспрессии через
фиксированные отрезки времени
• кластеризация полученных профилей
экспрессии
Кластеризация профилей
мера сходства между профилями:
нужна нормировка
(корреляция нормирует автоматически)
методы иерархической кластеризации
• ближнего соседа
(single linkage)
• дальнего соседа
(complete linkage)
• средневзвешенное
расстояние
(average linkage)
мера близости – корреляция,
метод кластеризации – среднеевзвешенное
кластеризация k-средних
k-means clustering
•
•
•
•
количество кластеров задается заранее
создать случайные кластеры
найти центроиды
перераспределить точки – отнести точку к
тому кластеру, к центроиду которого эта точка
ближе
• повторить пока не сойдется
• не получается иерархической системы:
система кластеров при k+1 не сводится к
разделению одного из k кластеров на два
разнообразные условия –
двойная кластеризация (biclustering)
• если по столбцам – не времена, а
различные условия (да еще и из разных
экспериментов), то не обязательно
корреляция должна наблюдаться на
всем множестве условий
• двойная кластеризация: выделение
групп генов и групп условий, т.ч.
экспрессия этих генов скоррелирована
в этих условиях
базы данных результатов экспериментов по
анализу экспрессии
• ArrayExpress
http://www.ebi.ac.uk/microarray/ArrayExpress/arrayxpress.html
• Stanford Microarray Database
http://genome-www5.stanford.edu/MicroArray/NDEV/index.shtml
• GEO (Gene Expression Omnibus)
http://www.ncbi.nlm.nih.gov/geo/
• Стандартизованная форма данных об
эксперименте (MIAME: Minimal Iinformation
About a Microarray Experiment)
GEO
Развитие
цветка
резухи
Таля
двойная
кластериза
ция – на
генах и на
условиях
Один ген – разные условия
(времена, мутанты)
программы
• R (GNU)
• Matlab
• Expression Profiler (EBI)
http://www.ebi.ac.uk/microarray/ExpressionProfiler/ep.html
Expression
Profiler
http://string.embl-heidelberg.de:8080/
prophecies_html/prophecies.html
STRING:
trpB
co-expression
протеомика – двумерный форез
• двумерный форез
– пятна (масса/заряд)
• масс-спектрометрия
– пептиды
• в обоих случаях нужен геном. Для
фореза – точные гены (старты! точнее
даже белки без сигнальных пептидов)
Pride
протеомика – белковые чипы
• белки наносятся на подложку, потом
можно измерять активность (например,
связывание)
белок-белковые взаимодействия
• комплексы – масс-спектрометрия
• дрожжевые двугибридные системы
– GAL4
– два домена: димеризационный (связывает
галактозу) и ДНК-связывающий
– димер связывается с оператором
– димеризационный и ДНК-связывающий
домены могут быть в разных белках (связь
через тестируемые белки)
Protein-protein interactions
• MIPS, mammals:
http://mips.gsf.de/proj/ppi/
• MIPS, yeast: http://mips.gsf.de/
proj/yeast/CYGD/interaction/
• MRC, links: http://www.hgmp.mrc.ac.uk/
GenomeWeb/prot-interaction.html
• DIP, many model organisms:
http://dip.doe-mbi.ucla.edu/
dip/Main.cgi
STRING:
trpB highthroughput
experiments
ChIP-chip (chromatin immunoprecipitation)
Briefly, cells are fixed with formaldehyde, harvested by sonication, and
DNA fragments that are crosslinked to a protein of interest are enriched
by immunoprecipitation with a specific antibody. After reversal of the
crosslinking, the enriched DNA is amplified and labeled with a
fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of
DNA that has not been enriched by immunoprecipitation is subjected to
LM-PCR in the presence of a different fluorophore, and both IP-enriched
and unenriched pools of labeled DNA are hybridized to a single DNA
microarray containing all yeast intergenic sequences.
фенотипы
• essentiality
– 18.7% non-essential genes in yeast
– 14.4% non-essential genes in E. coli
– … в «богатых» условиях
• RNAi
• synthetic lethals
MIPS
Как это используют
• Так же, как любые слабые соображения
Ингибитор РНКазы L [Huynen, Gabaldon]
• COG1245 – присутствует во
всех эукариотах и археях
• У человека RPLI1 – ингибитор
РНКазы L (интерферонзависимый путь деградации
(вирусных) РНК)
• Но РНКазы L у архей нет. Что
же там делает этот белок?
• Филогенетический профиль (присутствие во всех археях и
эукариотах, отсутствие во всех бактериях) => 55 COGов
– Трансляция, биогенез рибосом, транскрипция, репликация,
рекомбинация, репарация
• В эукариотах – коэкспрессия с рибосомными белками и
белками процессинга рРНК
• В дрожжах – белок-белковое взаимодействие с HCR1
(процессинг рРНК)
• Эксперимент (трипаносома): слабая экспрессия RLI1 =>
уменьшение общего уровня синтеза белков
• N-концевой домен содержит 4 цистеина – связывание с
РНК?
• Предсказание: RLI1 – фактор процессинга рРНК
• Эксперимент: и впрямь
– мутанты по RLI1 имеют дефект процессинга пре-рРНК
– в дрожжах RLI1 связан с незрелыми и зрелыми малыми
субъединицами рибосом
Систематический анализ генов
дрожжей [Kemmeren et al. 2005]
• Белок-белковые взаимодействия
• Корреляция профилей экспрессии
• Ко-локализация
• Сходство фенотипов
KRE33
“killer toxin resistant”, no GO annotation
• 20 связанных
генов
• 13: часть
комплекса U3
snoRNP
(процессинг
рРНК)
• 4: метаболизм
мРНК
FUN11:
“function unknown now”
• Все 5 соседей – инициация трансляции
YDR091c:
“putative member of the ATP-binding cassette
superfamily of non-transporters”
• 10 из 15 соседей – инициация трансляции
YGR205w – HSP104 (ppi+exp+loc)
• HSP104: белок теплового шока; мутанты
термочувствительны. Шаперон.
• Коэкспрессия HSP104 и YGR205w наблюдается при
разных шоках
• Предсказание: YGR205w тоже участвует в ответе на
стресс
• Эксперимент: мутанты по YGR205w имеют
повышенную термоустойчивость
• Та же система, противоположное действие – разные
фенотипы
ASC1 (no annotation)
•
•
•
•
4 гена – процессинг рРНК
6 факторов инициации
трансляции
Ydj1 и ZUO1 имеют домены,
гомологичные DnaJ
(шаперон, работает при
тепловом и (другом) шоке),
ZUO1 – шаперон, связанный
с рибосомой
Предсказания:
– Ydj1 – шаперон
– ASC1 – “a role in stressinduced misfolding”
•
Эксперимент: мутанты по
Ydj1 и ASC1 плохо растут
при повышенной
концентрации NaCl и KCl
Путь синтеза лейцина в дрожжах
• Начинается в митохондрии,
заканчивается в цитоплазме
• Транспортер изопропилмалата
(промежуточный продукт) не
известен
• Кандидат: YOR271cp.
Мотивировка:
– Локализован в митохондрии
– 4 трансмембранных сегмента
– Консервативный сайт связывания
лейцинового регулятора Leu3p
– Регуляторная область YOR271c
связывает Leu3p в ChIP-chip
эксперименте (специфичность и
чувствительность эксперимента
примерно по 50%, других
кандидатов с консервативными
сайтами нет)
– Гомологичен транспортеру
трикарбоксилатов крысы (хотя
эксперимент был подвернут
сомнению; вторая возможная
функция – сидерофлексин, белок,
участвующий в гомеостазе
железа)
Aspergillus nidulans FGSC A4
Cryptococcus neoformans
var. neoformans B-3501A
Sideroflexin 2
Ustilago maydis 521
Bos taurus
Mus musculus
Gallus gallus
Xenopus laevis
Tetraodon nigroviridis
Yor271c p orthologs
Gibberella
zeae PH-1
Neurospora crassa
Magnaporthe grisea 70-15
Yarrowia lipolytica
Debaryomyces hansenii CBS767
Candida albicans SC5314
Kluyveromyces lactis
Ashbya gossypii ATCC 10895
Candida glabrata CBS138
Saccharomyces cerevisiae
Schizosaccharomyces pombe
Rattus norvegicus
Sideroflexin 1
Mus musculus Homo
Bos taurus sapiens
rerio
(Tric arboxylate TetraodonDanio
nigroviridis
Gallus gallus
c arrier protein)
Xenopus laevis
Sideroflexin 3
Homo sapiens
Rattus norvegicus
Mus musculus
Canis
familiaris
Schistosoma japonicum
Dictyostelium discoideum
Caenorhabditis briggsae
Caenorhabditis elegans
Tetraodon nigroviridis
Mus musculus
Homo sapiens
Rattus norvegicus
Xenopus tropicalis
Gallus gallus
Anopheles gambiae str. PEST
Sideroflexin 5
Drosophila melanogaster
Скачать