Гомология, деревья, эволюция БиБи-4 (набор 2003) осень 2006

реклама
Гомология, деревья,
эволюция
БиБи-4 (набор 2003)
осень 2006
Начало
• Дивергенция похожих белков из общего
предка (сходство => гомология)
• Дупликации
• Точечные мутации
• Поэтому можно измерять время до общего
предка
Ошибка Цукеркандля
Теория Кимуры
• Большинство мутаций нейтральны
• Следствие: молекулярные часы
• Доля идентичных позиций в выравнивании
за время T при скорости замен R
Q = 1/4 + 3/4 (1 – 8R/3)T
• Мера расстояния
D = 3/4 ln (3/(4Q-1)) ≈ 2RT
• Поправки:
– На структуру популяций (аллельные различия) –
Джукс и Кантор
– На структуру матрицы замен – Кимура
Теоретические матрицы
аминокислотных замен
• По расстоянию в таблице генетического кода
• По сходству физико-химических свойств
аминокислот
• Работают не очень хорошо:
– плохой поиск по банку
– получаемые оптимальные выравнивания далеки
от «настоящих» (структурных)
– несообразные деревья
Эмпирические матрицы
аминокислотных замен
• Интуитивная формула:
w(a,b) ~ ln (N(a,b) / (N(a) N(b))
• При случайном сопоставлении w(a,b) = 0
PAM = percent accepted mutations
(Margaret Dayhoff)
• Сравниваем близкие последовательности
– можно пренебречь повторными (и обратными) заменами
• Посчитаем количество выравненных пар N(a,b)
• Нормируем на расстояние 1 замена на 100 оснований
• Посчитаем p(a,b) = (вероятность перехода aв за время,
когда происходит 1 замена в 100 позициях). Ясно, что
Σb p(a,b) = 1.
• Вектор частот f – это стационарный вектор матрицы p, т.е.
f = f•p
• Возводя p в степень, получаем серию матриц PAMх
• Перенормируем для использования при выравниваниях
(чтобы можно было складывать): w(a,b) = ln (p(a,b) / f(b))
• Упражнение: Это с точностью до нормировки наша
«интуитивная» формула
BLOSUM = BLOcks Substitution Matrix
(Steven and Jorja Henikoff)
• Недостатки РАМ:
– возведение в степень – плохая процедура
(чувствительна к ошибкам),
– неясно, насколько адекватна эволюционная модель,
позволяющая возводить в степень.
• Следствие: матрицы PAM не очень хорошо
работают на больших расстояниях
BLOSUM:
• Далекие выравнивания (для BLOSUMx исключаем
все пары последовательностей, которые имеют
более x% идентичных позиций)
• Учитываем только уверенно выравненные
сегменты (без вставок/делеций) (BLOCKS)
Определения (деревья и пр.)
• Цикл: замкнутый путь без самопересечений
(начало=конец, каждая вершина посещена один раз)
• Дерево: связный граф без циклов.
• Для простоты полагаем, что нет вершин степени 2
(хотя потом может быть одна такая - корень).
• Вершины степени 1 – терминальные (листы).
• Если на листьях стоят пометки, то это помеченное
дерево. Мы рассматриваем только такие.
• Вершины степени 3 и более – внутренние (узлы)
• Если все внутренние вершины имеют степень 3, то
дерево бинарное
• Ребра дерева будем называть ветвями
Лемма
Пусть Т – помеченное бинарное дерево с n≥3
листьями. Тогда у него n–2 внутренних
вершин, n–3 внутренних ветвей и 2n–3
ветвей.
Существуют g(n)=1•3•5•…•(2n–5) разных
помеченных деревьев с n вершинами.
Доказательство
• При n=3 существует единственное дерево c 1
узлом и 0 внутренними ветвями.
• По индукции: добавление листа добавляет
один узел, одну внутреннюю ветвь и одну
внешнюю ветвь (то есть всего две ветви).
• При (n–1) листах имеем (2n–5) ветвей. Новую
вершину можно присоединить к любой ветви,
стало быть g(n)=g(n–1)•(2n–5).
Метрика
Определение. Пусть i, j – вершины. D(i,j) –
метрика (расстояние), если
• D(i,j)=D(j,i)≥0 для любых i, j
• D(i,j)≤D(i,k)+D(k,j) для любых i, j, k
• Для простоты D(i,j)=0 <=> i=j
Лемма: в дереве между каждыми двумя
вершинами есть только один путь
Определение: аддитивная метрика
D(i,j) = сумма длин ветвей пути между i и j.
Условие четырех точек
Определение. Метрика D удовлетворяет условию
четырех точек, если для любой четверки листьев
i, j, k, l из трех сумм
D(i,j) + D(k,l),
D(i,k) + D(j,l),
D(i,l) + D(j,k)
две равны и больше третьей.
Например, пусть
D(i,j)+D(k,l) ≤ D(i,k)+D(j,l) = D(i,l)+D(j,k)
Упражнение: нарисовать дерево c вершинами i,j,k,l.
Теорема. D – аддитивная метрика некоторого дерева
<=> D удовлетворяет условию четырех точек.
Замечание. (Неаддитивных) метрик намного больше,
чем деревьев. Упражнение. Почему?
Ультраметрика
Определение. D – ультраметрика, если для
любой тройки i, j, k из трех расстояний D(i,j),
D(i,k), D(j,k) два равны и не меньше третьего.
Например, пусть D(i,j) ≤ D(i,k) = D(j,k)
Упражнение: нарисовать дерево с вершинами
i,j,k, найти в нем длины ветвей.
Теорема. Ультраметрика удовлетворяет
условию четырех точек.
Упражнение: Найти положение корня в
нарисованном дереве. Убедиться, что не
получится нарисовать корень при D(i,j) ≥
D(i,k) = D(j,k).
Теорема. Ультраметрика определяет корневое
дерево с постоянной скоростью эволюции.
Набросок доказательства
• Обозначим D* = max {D(k,l) | k,l}. Пусть
D(i, j) = D*, то есть (i,j) = argmax D.
• Все вершины делятся на два cвязных
непересекающихся множества:
I = {k | D(i,k)<D*} и J = {k | D(i,k)=D*}.
• Корень лежит на единственном ребре,
соединяющем I и J, на расстоянии D*/2
от каждого листа.
Упражнение.
Задает ли матрица расстояний метрику?
Ультраметрику?
Удовлетворяет ли она условию четырех точек?
A
B
C
D
E
A
B
C
D
E
0
13
10
11
8
0
10
5
16
0
8
13
0
14
0
Кластерные деревья
Вход:
L={1,…, n} – множество листьев.
D – метрика на L.
Алгоритм:
• while |L|>2
• Find closest a,b, so that D(a,b) = min D.
• Cluster c={a,b}: L  (L – {a,b}) U c.
• Calculate D(c,d) для всех d из L.
Пересчет расстояний
• UPGMA (невзвешенные средние)
D(c,d) = Σiεc,jεd D(i,j) / (|c|•|d|)
• Ближнего соседа
D(c,d) = min {D(i,j) : iεc, jεd}
• Дальнего соседа
D(c,d) = max {D(i,j) : iεc, jεd}
Длины ветвей (r – длина ветви или расстояние по
дереву):
– если c={i,j}, то r(c,i) = r(c,j) = D(i,j)/2
– если c=aUb, то r(c,a) = D(a,b)/2 – r(a,i), где iεa
Лемма (упражнение). Не важно, какой лист iεa
выбрать.
Neighbor-Joining (Saitou-Nei, 1987)
Вначале имеем звезду: вершину о (корень),
соединенный со всеми листьями.
Пусть A(i) = суммарное расстояние от i до всех
остальных вершин = Σk≠i D(i,k).
Найдем пару листьев (i,j), такую, что
D(i,j) – (A(i)+A(j)) / (|L|–2)
минимально («самое отрицательное») и поставим
ей в соответствие узел c.
Определим длины ветвей:
r(i,c) = ( D(i,j) + (A(i)–A(j)) / (|L|–2) ) / 2
r(j,c) = ( D(i,j) – (A(i)–A(j)) / (|L|–2) ) / 2
а также расстояния от c до остальных листьев k
D(c,k) = (D(i,k) + D(j,k) – D(i,j)) / 2
Теорема. Если D удовлетворяет условию четырех
точек, то мы построим соответствующее дерево.
Метод наибольшей экономии
Примеры
(рассматривается происходящее
в одной позиции выравнвиания)
((АТ)Т)А  ([AT]T)A  [T]A  [TA]
Две замены
Но А во всех внутренних узлах – тоже две
замены
((CT)((GT)A)A ([CT][GTA])A) [T]A [TA]
Четыре замены
Но A во всех внутренних узлах – тоже четыре
замены
Проблемы
• Можно эффективно подсчитать
минимальное число замен, но нельзя
построить все минимальные сценарии
для данного дерева
• Нельзя построить (кроме как
перебором) дерево наибольшей
экономии
• Неявно полагаем, что не бывает
повторных, параллельных, обратных
замен. Это не работает для больших
расстояний
Метод наибольшего правдоподобия
Вероятность тривиального дерева
(эволюции из a в b)
P(ab) = f(a)•p(a,b)
Аналогично, P(abc) = f(a)•p(a,b)•p(b,c)
Аналогично же, P(bac) = f(a)•p(a,b)•p(a,c)
Буквы могут быть и одинаковые:
P(aa) = f(a)•p(a,a)
Упражнение. P((baа)a(bbc))
… на самом деле
Надо учитывать длины веток.
Поэтому теперь матрица замен зависит
от времени: p(a,b,t) = exp (q•t),
где t – время, q – матрица скоростей
замен.
Таким образом, для любого дерева с
помеченными узлами можно вычислить
его правдопобие.
Берем самое правдоподобное дерево и
объявляем его правильным.
Отдельные этапы (пометку узлов,
определение длин ветвей) можно
сделать вычислительно эффективными;
топологии надо перебирать, используя
эмпирические приемы.
Качество деревьев
• Притяжение длинных ветвей
• Бутстреп (выборка с возвращением)
• Консенсусное дерево (только ветки с
большими бутстрепами)
Ортологи и паралоги (Фитч, 1970)
Дупликация
• Ортологичные гены:
– результат видообразования
– сохранили клеточную роль
Видообразование
• Паралогичные гены :
– результат дупликации генов
– сохранили общую биохимическую функцию
A1 А2
Геном А
В1 B2
Геном В
Пример:
gluconate and
idonate kinases
глобины
Упражнение:
кто кому ортологи и паралоги
A1
A2
B1
B2
A1
Кластер ортологов
A
A
B
C
B1
A2 B2
A
B
B
A
B
Дерево ортологов
A
B
A
B
C
Как отличать
• Промежуточные (далекие) геномы
• Вообще, (под)дерево ортологичных генов
должно совпадать с деревом видов
Х
A
• Дупликации
A
B
B
• Слишком длинные ветви
A
B
B
Search for orthologs (fast and dirty)
Genome 1
Genome 2
A
A'
B
B'
B"
symmetrical best hit
bidirectional best hit (BBH)
… but the best way is to construct a phylogeentic tree
(time-consuming)
COGs (старые)
Clusters of Orthologous Genes
Построение COGов
1. Perform the all-against-all protein sequence comparison.
2. Detect and collapse obvious paralogs, i.e., proteins from the same
genome that are more similar to each other than to any proteins from
other species.
3. Detect triangles of mutually consistent, genome-specific best hits (BeTs),
taking into account the paralogous groups detected at step 2.
4. Merge triangles with a common side to form COGs.
5. Perform a case-by-case analysis of each COG. This analysis serves to
eliminate false-positives and to identify groups that contain multidomain
proteins by examining the pictorial representation of the BLAST search
outputs. The sequences of detected multidomain proteins are split into
single-domain segments, and steps 1 4 are repeated with the resulting
shorter sequences, which assigns individual domains to COGs in
accordance with their distinct evolutionary affinities.
6. Examine large COGs that include multiple members from all or several of
the genomes using phylogenetic trees, cluster analysis, and visual
inspection of alignments. As a result, some of these groups are split into
two or more smaller ones that are included in the final set of COGs.
COG: monoamine oxidase
In humans,
monoamine
oxidase is an
enzyme of the
mitochondrial
outer membrane
that seems to be
involved in the
metabolism of
antibiotics and
neurologically
active agents and
is a target for one
class of
antidepressant
drugs.
•
•
•
•
•
•
•
Deinococcus radiodurans (DRA0274)
Mycobacterium tuberculosis (Rv3170)
Bacillus subtilis (BS_yobN)
Synechocystis (slr0782)
Pseudomonas aeruginosa (PA0421)
Mesorhizobium loti (mll3668)
Caulobacter crescentus (CC2793 and CC1091)
A universal COG: some duplications,
good resolution of taxonomy
A conserved COG (BirA): single
representative, not in all species
A garden variety COG (aroG). Enzymes:
some duplications, not ubiquitous
A huge COG (LacI). Regulators and
transporters: many duplications
Sugar kinases: impossible to predict
specificity by similarity
От генов к геномам
• Согласование деревьев
– Дупликации и потери
– Горизонтальный перенос
– Ненадежные выравания, малое количество информативных позиций
=> ненадежность глубоких реконструкций
• Построение деревьев по конкатенатам
– Неравномерность скоростей эволюции по позициям (so what?)
– Отсутствующие (в каких-то геномах) гены (рассматриваются как
делеции специального вида)
• Эволюция геномов
–
–
–
–
Генный состав
Полногеномные дупликации
Инверсии и т.п.
Повторы
• Эволюция геномов и таксономия
• LUCA (last universal common ancestor)
потом
Скачать