Вычислительная филогенетика и сравнительные методы

реклама
Вычислительная филогенетика
и сравнительные методы
План занятий
• 4 лекции (датировка, правдоподобие,
Байесовская статистика, сравнительные
методы)
• 6 практических занятий
• Be calm - будет много математики
• Be proactive – задавайте вопросы,
обсуждайте с коллегами
• По результатам - совместные обсуждения
всем классом
Литература
http://www.amazon.com/InferringPhylogenies-JosephFelsenstein/dp/0878931775
http://www.amazon.com/ComputationalMolecular-Evolution-OxfordEcology/dp/0198567022
Интернет ресурсы
www.phylogenetics.ru
www.insidedna.me
Филогенетика и
филогенетические деревья
Молекулярная филогенетика.
Лекция 5
Скорость диверсификации
Nature 491, 444–448 (15 November 2012)
Скорость вымирания видов
и клад
A=Cypereae, B=Disa, C=Indiogofera, D=Lachnaea, E=Muraltia,
F=Podalyrieae, H=Restionaceae, I=Zygophyllum, J=Protea, K=Moraea
Davies et al. (2011) PLoS Biol
Эволюция генов
Эволюция функциональных
особенностей
Nature 473, 208–211 (12 May 2011)
Межвидовые
взаимодействия и экология
Nature 465, 918–921 (17 June 2010)
Эволюция языков
Nature 473, 79–82 (05 May 2011)
Синтез лекарств
Датировка филогенетических
деревьев.
Молекулярная филогенетика.
Лекция 5
Молекулярное
филогенетическое дерево
Методы максимального правдоподобия:
1. Дерево без корня (unrooted)
2. Длины ветвей в единицах генетических замен
С точки зрения биологии интересно:
3. Знать корень дерева
4. Иметь длины ветвей в единицах времени (например, миллионы лет)
Пример датированного
дерева
http://people.duke.edu/~ns137/research.html
Как датируют дерево?
Задача калибровки дерева сложна и сводится к
следующему вопросу.
Зная:
•Топологию дерева
•Длины ветвей = r ∗ t
•Точку(-и) калибровки (s), т.е. информацию о возрасте
узла(-ов) (T)
Можем ли мы откалибровать все оставшиеся узлы
дерева?
Молекулярные часы
Наиболее простое предположение для
датировки - молекулярные часы
•Для калибровки мы должны
предложить модель, связывающую
скрость накопления генетических
изменений и времени
•Наиболее простая модель –
строгие молекулярные часы линейная корреляция между
накоплением замен и временем)
•Предложена впервые
Zuckerkandl and Pauling (1962),
экспериментально - Dickerson
(1971)
Dickerson (1971)
Строгие молекулярные
часы
Предположение:
• Калибровочная скорость r во всех
линиджах одинакова и неизменна во
времени, т.е. длины ветвей
пропорциональны времени
Почему это предположение удобно?
• Построение филогенетических деревьев
значительно упрощается
• Можем оценить время дивергенции
видов
• Хорошо соотносится с нейтральной
теорией Кимуры
Датирование методом
молекулярных часов
1.
Оцениваем парные генетические
расстояния:
d - генетическое расстояние
2.
Выбираем ископаемое для
некоторого узла дерева:
T - время дивергенции видов АС
3.
Определяем калибровочную
скорость – число замен на
единицу времени :
r = d ac/2 T ac
4.
Оцениваем время дивергенции
для остальных пар видов
T ab = d ab/2 r
Особенности молекуляных
часов
Особенности молекулярных часов:
• Временные интервалы между
отдельными заменами в геноме следуют
процессу Пуассона (over-dispersed)
• Это приводит к образованию больших
доверительных интервалов около
оцененных дат
Число событий
на интервале времени
Ожидаемое число
событий
на единицу времени
Причины «погрешностей»
молекулярных часов
Процесс накопления замен
Скорость мутации (mutation
rate):
Скорость замен (substitution
rate):
•
•
•
•
•
Скорость с которой мутации
появляются в геноме во время
репликации
Зависит, в основном, от
механизма репликации
Выражается как число мутаций
на нуклеотидную позицию на
событие репликации
Может быть измерен как in vitro
так и in vivo
•
•
•
Скорость с которой мутации
распространяются и
фиксируются в популяции
Зависи от таких факторов как
генетический дрейф,
естественный отбор, свойства
популяции
Выражается как число замен на
нуклеотидную позицию на
единицу времени (дни, года,
поколения)
Может быть измерен на
последовательностях с разными
скоростями эволюции
Процесс накопления замен
http://www.nature.com/nrg/journal/v14/n12/box/nrg3564_BX1.html
Разница в скорости
эволюции разных генов
Разница в скорости
эволюции разных участков
генов
Разница в скорости
эволюции разных видов
Ядерное ДНК дрозофиллы
Пластидное ДНК растений
РНК вирусы
Связь мутаций и замен
• различия в продолжительности генерации
• различия в метаболизме
• различия в скорости репарации ДНК
• различия в размерах популяции
• различия в силе отбора
Скорость замен
k=N*μ*p
Размер популяции
Связь мутаций и замен
• различия в продолжительности генерации
• различия в метаболизме
• различия в скорости репарации ДНК
• различия в размерах популяции
• различия в силе отбора
k=N*μ*p
Скорость мутации
Связь мутаций и замен
• различия в продолжительности генерации
• различия в метаболизме
• различия в скорости репарации ДНК
• различия в размерах популяции
• различия в силе отбора
k=N*μ*p
Вероятность фиксации
Обобщение
•
Биохимические особенности разных
организмов (скорость и качество
репликации и репарации ДНК - вирусы
RNA – lack proofreading)
•
Размер популяции (population size –
скорость фиксации околонейтральных
мутаций)
•
Измение коэффициентов селекции
(selection coefficients)
•
Жизненный цикл вида (life history)
•
Скорость метаболизма и
продолжительность генерации
Коррекция
«погрешностей»
молекулярных часов и
ослабленные (relaxed) часы
Решение проблемы
молекулярных часов (СМЧ)
Коррекционные модели
KM
Автокорреляционные модели
AM
НМ
Неавтокорреляционные модели
Решение проблемы
молекулярных часов (СМЧ)
1.
Исключение ветвей, скорость которых отличается от
остальных ветвей (Linearized trees; Li & Tanimura, 1987)
2.
Разделение дерева на клады с отличающимися
скоростями замен (rate classes; Local rates method;
Rambaut & Bromham, 1998)
KM
Автокорреляционные модели
AM
НМ
Неавтокорреляционные модели
Решение проблемы
молекулярных часов (СМЧ)
Коррекционные модели
1.
2.
Разница в скорости накопления
замен моделируется явным
образом (Sanderson, 1997, 2003b)
Предполагается, что соседние ветви
дерева имеют схожие
(автоскоррелированные) скорости
накопления замен (Yang, 2004)
KM
AM
НМ
Неавтокорреляционные модели
Решение проблемы
молекулярных часов (СМЧ)
Коррекционные модели
KM
Автокорреляционные модели
AM
1.
НМ
2.
3.
Разница в скорости накопления
замен моделируется явным
образом (Drummond, 2003)
Предполагается, что соседние ветви
дерева не имеют
автоскоррелированные скорости
наколения замен (Huelsenbeck
et al., 2000)
KM
Метод Linearized trees
2n − 3 параметра
Этапы:
1. Определить с помощью relative rate
tests (Li & Tanimura, 1987) ветви,
которые отличаются по скорости
2. Исключить эти ветви
3. Реконструировать дерево и
датировать методом линейной
регрессии (молекулярные часы)
Недостатки:
4. Потеря информации
n − 1 параметра
KM
Метод Local rates
Этапы:
1. Априорно разделить ветви на
категории (классы) с различным
скоростями замен
2. Для каждого класса
оптимизировать параметр скорости
замен и датировать дерево
Недостатки:
3. Чувствительность к выбору
априорных классов
AM
Nonparametric rate
smoothing
Этапы:
1. Для каждой ветви оптимизировать
свою собственную скорость замен ri
2. Для каждой ветви скорость замен
случайным образом выбирается из
логнормального распределения
центированного на скорости замен
предковой ветви rA
3. Оптимизируются скорости замен с
помощью метода максимального
правдоподобия одновременно с
оценкой длин ветвей дерева
AM
Nonparametric rate
smoothing
Этапы:
1. Для каждой ветви оптимизировать
свою собственную скорость замен ri
2. Для каждой ветви скорость замен
случайным образом выбирается из
логнормального распределения
центированного на скорости замен
предковой ветви rA
3. Оптимизируются скорости замен с
помощью метода максимального
правдоподобия одновременно с
оценкой длин ветвей дерева
Недостатки:
4. Как выбрать скорость замена для
основания дерева (нет предковых
ветвей)?
5. Как выбрать параметр σ2?
НМ
Uncorrelated relaxed clocks
Этапы:
1. Для каждой ветви оптимизировать
свою собственную скорость замен ri
2. Для каждой ветви скорость замен
случайным образом выбирается из
некоторого распределения
3. Оптимизируются скорости замен с
помощью методом Байесовского
моделирования одновременно с
оценкой длин ветвей дерева
Недостатки:
4. Избыток параметров для оценки
НМ
Uncorrelated relaxed clocks
Этапы:
1. Для каждой ветви оптимизировать
свою собственную скорость замен ri
2. Для каждой ветви скорость замен
случайным образом выбирается из
некоторого распределения
3. Оптимизируются скорости замен с
помощью методом Байесовского
моделирования одновременно с
оценкой длин ветвей дерева
Недостатки:
4. Избыток параметров для оценки
НМ
Compound Poisson process
Этапы:
1. Для каждой ветви определить
вероятность смены скорости замен
моделируя это с помощью
Пуассоновского процесса
2. В момент смены скорости замен –
вычислить новую скорость как
результат умножения предыдущий
скорости на случайную гаммараспределенную величину
3. Оптимизируются скорости замен с
помощью методом иерархического
Байесовского моделирования
одновременно с оценкой длин
ветвей дерева
Недостатки:
4. Избыток параметров для оценки
Точки калибровки для
датировки деревьев
Откуда берутся данные для
калибровки: ископаемые
http://people.duke.edu/~ns137/research.html
Откуда берутся данные для
калибровки: биогеография
Fleischer 1998, Bromham & Penny 2003
Как можно представить
данные для калибровки?
• точечная калбировка (a)
• жесткая верхняя граница (b)
• жесткая нижняя граница (c)
• мягкая нижняя граница (d)
• нормальное распределение (e)
• логнормальное распределение (f)
• экпоненциальное распределение (g)
Как можно представить
данные для калибровки?
Эффект различных данных
калибровки
Эффект различных данных
калибровки
Заключение
Датировка филогенетических
деревьев:
•
•
•
•
Молекулярные часы – базовое
предположение
Однако молекулярные часы имеют
ряд ограничений
Многообразие моделей
корректирующих предположения МЧ
Важность выбора точек калибровки
Скачать