Выравнивание последовательностей Простое взвешивания +1 : вес совпадения -μ : штраф за несовпадение -σ : штраф за делецию/вставку Вес выравнивания = #совпадения – μ(#несовпадений) – σ (#делеций/вставок) Алгоритм ↑→ = -б = 1 если совпадение = -µ если несовпадение si,j = max si-1,j-1 +1 if vi = wj s i-1,j-1 -µ if vi ≠ wj s i-1,j - σ s i,j-1 - σ Identity AC C TG A G – AG AC G TG – G C AG mismatch indel Identity = 70% Измерение схожести – Идентичность – Консервативность Матрицы весов Для ДНК составим (4+1) x(4+1) матрицу весов δ. Для белков размер матрицы (20+1)x(20+1). Дополнительные строка и столбец нужны для включения gap символа. Это упростит алгоритм следующим образом: si-1,j-1 + δ (vi, wj) si,j = max s i-1,j + δ (vi, -) s i,j-1 + δ (-, wj) Создание матриц весов Матрицы создаются на основе экспериментальных данных. Выравнивания – представления белков, различающихся мутациями. Некоторые из этих мутаций менее пагубно влияют на функцию белка, и, соответственно, штраф δ(vi , wj), будет меньше прочих. Пример матрицы весов A R N K A 5 -2 -1 -1 R - 7 -1 3 N - - 7 0 K - - - 6 • Несмотря на то, что R и K разные аминокислоты, их пара имеет положительный вес. • Почему? Обе являются положительно заряженными полярными аминокислотами Консервативность Замены аминокислот, сохраняющие физико-химические свойства белков. – Полярные на полярные аспартат глутамат – Неполярные на неполярные аланин валин – Прочие похожие лейцин на изолейцин Типы матриц весов Матрицы замен аминокислот – PAM – BLOSUM ДНК матрицы PAM Point Accepted Mutation (Dayhoff et al.) 1 PAM = PAM1 = 1% аминокислот мутировали. – Однако после 100 PAMов эволюции, не все остатки изменятся Некоторые остатки мутируют несколько раз Некоторые остатки вернутся к начальному состоянию Некоторые вообще не изменятся PAMX PAMx = PAM1x – PAM250 = PAM1250 PAM250 широко используемая матрица: Ala Arg Asn Asp Cys Gln ... Trp Tyr Val A R N D C Q Ala A 13 3 4 5 2 3 Arg R 6 17 4 4 1 5 Asn N 9 4 6 8 1 5 Asp D 9 3 7 11 1 6 Cys C 5 2 2 1 52 1 Gln Q 8 5 5 7 1 10 Glu E 9 3 6 10 1 7 Gly G 12 2 4 5 2 3 His H 6 6 6 6 2 7 Ile I 8 3 3 3 2 2 Leu L 6 2 2 2 1 3 Lys ... K ... 7 ... 9 5 5 1 5 W Y V 0 1 7 2 1 4 0 2 4 0 1 4 0 3 4 0 1 4 0 1 4 0 1 4 1 3 5 0 2 4 1 2 15 0 1 10 BLOSUM Blocks Substitution Matrix Веса извлекаются из статистики выравниваний родственных белков Название отображает расстояние между белками выборки – BLOSUM62 была создана на выборке последовательностей с 62% identity Матрица весов BLOSUM50 Локальное выравнивание • Задача глобального выравнивания – найти наиболее весомый путь между вершинами (0,0) и (n,m) графа. • Задача локального выравнивания – найти наиболее длинный путь среди всех путей между вершинами (i,j) и (i’, j’). • В графе с ребрами с отрицательными весами локальное выравнивание может давать более высокий результат нежели глобальное Глобальное выравнивание --T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC | || | || | | | ||| || | | | | |||| | AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C Локальное выравнивание – лучше находит консервативные сегменты. tccCAGTTATGTCAGgggacacgagcatgcagagac |||||||||||| aattgccgccgtcgttttcagCAGTTATGTCAGatc Как? Local alignment Global alignment Время работы - O(n4) Мини-Глобальное выравнивание сегмента Решение – free ride Yeah, a free ride! Вершина (0,0) Алгоритм локального выравнивания Наибольшее значение si,j – лучший вес локального выравнивания. Рекурсия: 0 si,j = max si-1,j-1 + δ (vi, wj) s i-1,j + δ (vi, -) s i,j-1 + δ (-, wj) Лишь одно отличие от глобального выравнивания. Взвешивание делеций/вставок: простой подход. Фиксированный штраф σ за каждую делецию/вставку: – -σ за одну делецию, – -2σ за две делеции подряд, – -3σ за три делеции подряд, и т.д. Афинный штраф за gap В природе, серии последовательных k делеций происходят чаще, чем k одиночных событий: Более предпочтительно Обычное взвешивание оценит эти два Менее выравния одинаково предпочтительно Gaps Gap – непрерывный пропуск в одной из последовательностей. Вес гэпа длины x: -(ρ + σx) где ρ >0 - штраф за открытие гэпа, а σ – штраф за продолжение гэпа. ρ >> σ Афинный штраф за гэпы -ρ-σ за одну делецию 1 indel – -ρ-2σ за две делеции 2 indels – -ρ-3σ за три делеции 3 indels, etc. – Добавление ребер афинных штрафов. Сложность возрастает с O(n2) до O(n3) Как бы сделать попроще? 3-leveled Manhattan ρ δ δ σ δ ρ δ δ σ The 3-leveled Manhattan Grid Переключение между уровнями Уровни: – Основной уровень для диагональных ребер – Нижний уровень для горизонтальных ребер – Верхний уровень для вертикальных ребер Штраф за переход с основного уровня на верхний или нижний (с шагом) (-r- s) Штраф за проход по верхнему или нижнему уровню (-s) Алгоритм 3-х уровнего подхода si,j = max s i-1,j - σ s i-1,j –(ρ+σ) Продолжит гэп в w (делеция) Начать гэп в w (делеция): с середины si,j = max s i,j-1 - σ s i,j-1 –(ρ+σ) Продолжить гэп в v (вставка) si,j = max Начать гэп в v (вставка): с середины Совпадение или несовпадение si-1,j-1 + δ (vi, wj) Закончить делецию: сверху s i,j Закончить вставку: снизу s i,j