Гомологи, ортологи, паралоги. Поиск гомологичных последовательностей Осваиваем программу BLAST Theodosius Dobzhansky "Nothing in biology makes sense except in the light of evolution" Гомология Крыло птицы Крыло летучей мыши рука человека Определения: гомологичными в биологии называют сопоставимые части сравниваемых биологических объектов. гомологичными в биоинформатике называют последовательности, которые произошли от общего предка гомология и аналогия Последовательности могут быть похожими из-за конвергентной эволюции Гомология (общий предок) против аналогии (конвергентная эволюция) крыло птицы крыло летучей мыши крыло бабочки крыло мухи Парадигма родственных белков Существующие сегодня белки произошли от белков-предков в результате замен и отбора. Родственные белки имеют похожие последовательности И похожую структуру И схожие функции. Под ”схожими функциями" можно понимать: •идентичную функцию, •Похожую функцию, т.е.: •Катализ одинаковых реакций в различных организмах; или •Одинаковый механизм катализа но различные субстраты (дегидрогиназы яблочной и молочной кислоты); •Подобные субединицы и домены, которые были соединены вместе в результате перемешивания доменов, например, домены связывания с нуклеотидами в гексокиназе, миозине, HSP70 и АТФсинтазе. Типы гомологов: ортологи и паралоги Две последовательности гомологичны, если существовала молекулапредшественник, от которой произошли обе последовательности Типы гомологов Ортологи: последовательности, происшедшие в результате видообразования Паралоги: последовательности, происшедшие в результате дупликации Cхожесть последовательностей и гомология Следующее утверждение основано на наблюдении и не является истинным a priori: Если две (сложные) последовательности обладают значительной схожестью между первичными последовательностями, у них общий предок и, возможно, одинаковые функции. (хотя некоторые белки обретают совершенно новые функции, как, например, появление альфа-кристаллина). The Size of Protein Sequence Space (back of the envelope calculation) Consider a protein of 600 amino acids. Assume that for every position there could be any of the twenty possible amino acid. Then the total number of possibilities is 20 choices for the first position times 20 for the second position times 20 to the third .... = 20 to the 600 = 4*10780 different proteins possible with lengths of 600 amino acids. For comparison the universe contains only about 1089 protons and has an age of about 5*1017 seconds or 5*1029 picoseconds. If every proton in the universe were a super computer that explored one possible protein sequence per picosecond, we only would have explored 5*10118 sequences, i.e. a negligible fraction of the possible sequences with length 600 (one in about 10662). Посмотрите обучающую программу о том как пользоваться BLAST NCBI Blast Tutorial http://www.youtube.com/watch?v=HXEpBnUbAMo Скопировать сюда Попробуйте найти эту последовательность сами через поиск в базе данных Protein Параметры Выбор базы данных Прокрутите вниз Выбор алгоритма удобно, можно вернуться и изменить параметры поиска Раскройте параметры алгоритма Пока можно оставить параметры по умолчанию Нажмите на кнопку BLAST Откроется промежуточное окно поиска В зависимости от загруженности сервера, надо подождать прокрутите вниз прокрутите вниз Поизучайте выравнивания. Обратите внимание на вес (Score) и ожидание (E-value). Вес получается из матриц счета с учетом пропусков и несовпадений (им присваивается отрицательный вес) Expect - ожидание ожидаемое число последовательностей, которые при выравнивании будут иметь данный вес или лучше (см теорию дальше). Элементы теории локального выравнивания • Задача: по заданной последовательности найти другие в базе данных последовательностей, которые “показывают схожесть” на статистически значимом уровне. • Цели: – мы предполагаем, что похожие последовательности кодируют белки со схожими функциями => предсказывание функций – мы предполагаем, что похожие последовательности произошли от одного общего предка => проследить эволюционную историю Алгоритм BLAST • Программы BLAST (Basic Local Alignment Search Tools) представляют собой набор алгоритмов для сравнения последовательностей. Были впервые опубликованы в 1990 году для поиска оптимального локального выравнивания данной последовательности с другими в базе данных последовательностей. – – Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) “Basic local alignment search tool.” J. Mol. Biol. 215:403-410. Altschul SF, Madden TL, Schaeffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997) “Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.” NAR 25:33893402. 18 19 Какие результаты выдает BLAST… • BLAST выдает “неожидаемые” выравнивания - • отличные от случайных Допущения - • Случайные последовательности Постоянный композиционный состав Выводы - “Неожидаемая схожесть” подразумевает эволюционную гомологию Эволюционная гомология: происхождение от общего предка Не всегда подразумевает подобную функцию 20 Программы BLAST Программа Описание blastp Сравнивает исходную аминокислотную последовательность с последовательностями из базы данных белков blastn Сравнивает исходную нуклеотидную последовательность с последовательностями из базы данных нуклеотидных последовательностей blastx Сравнивает исходную нуклеотидную последовательность, оттранслированную в аминокислотную по всем шести рамкам считывания, с последовательностями из базы данных белков. Используется для нахождения потенциальных продуктов трансляции неизвестной нуклеотидной последовательности. tblastn Сравнивает исходную аминокислотную последовательность с базой данных нуклеотидных последовательностей, динамически транслируемых по всем шести рамкам считывания tblastx Сравнивает все шесть трансляций исходной нуклеотидной последовательности со всеми шестью трансляциями из базы данных нуклеотидных последовательностей. 21 Дополнительные программы BLAST Программы Характеристики Непрерывный Для близких последовательностей Разрывный Для межвидового сравнения PSI-BLAST Автоматически генерирует матрицу счета специфичную к позициями (Position Specific Score Matrix, PSSM) RPS-BLAST Совершает поиск в базе данных матриц PSSMs, сгенерируемых программой PSIBLAST. Megablast Специфичен к позициям 22 Алгоритм BLAST • • Параметр, можно менять • Вес совпадений считается по матрицам счета Последовательности разбиты на слова (words) (по умолчанию длина n=3) – Обеспечивает скорость и вычислительную эффективность Алгоритм BLAST расширяет исзначальный “зародыш” (“seed”) до сегмента с большим весом (High Scoring Pairs, HSP) 23 При поиске близких последовательностей важна статистика • • Различие между настоящим совпадением и артефактом делается с помощью оценок вероятности, что совпадение могло быть случайным. Мы обсудим значение весов (scores, S) и ожиданий (e-values, E), которые ассоциируются с выравниваниями, отобранными BLAST. 24 Как считается вес (score, S) • • • Качество каждого попарного выравнивания представлено в виде веса, по которому так же определяется порядок расположения найденных последовательностей. Для вычисления веса выравнивания, используются матрицы весов. Вес считается по каждому выравненному основанию (ДНК) или аминокислоте (белок). Общий вес выравнивания есть сумма весов для каждой позиции. 25 Матрица весов • Матрицы замен используются для аминокислотных выравниваний • Более простая унитарная матрица используется для ДНКвыравнивания (+1 для совпадения, 2 для несовпадения) 6 26 BLOSUM vs PAM BLOSUM 45 BLOSUM 62 PAM 250 PAM 160 PAM 100 Более разошедшиеся • BLOSUM 90 Менее разошедшиеся По умолчанию в программе BLAST 2.0 используется матрица BLOSUM 62. Хотя она предназначена для поиска умеренно разошедшихся белков, ее использование довольно эффективно при поиске более близких последовательностей. Поиск дальних родственников может оказаться более эффективен с другими матрицами. 27 Что означают значения веса (score) и ожидания (e-value). • Качество выравнивания представлено весом Score (S). • Вес выравнивания расчитывается как сумма замен и пропусков. Вес замен берется из матриц (PAM, BLOSUM), а вес пропусков назначается эмпирически. • Значимость каждого выравнивания вычисляется в виде ожидания E value (E). • Ожидание. Число различных выравниваний с весом равным или большим, чем S, которое ожидается найти в данной базе данных случайным образом. Чем меньше E-value, тем более значим вес. E-value - это не вероятность, а ожидание. Причина, по которой программы BLAST выдают не вероятности, а ожидани, состоит в том, что гораздо легче понять значения ожидания в 5 или 10 последовательностей, чем вероятности 0.993 и 0.99995. Однако при E<0.01 значения вероятностей и ожиданий практически совпадают. • 28 Что надо знать о E-values • Низкие значения E-values означают, что последовательности гомологичны ๏ • ‣ ‣ ‣ Однако, высокие не означают негомологичность Статистическая значимость зависит как от размера выравненного участка так и от размера базы данных Important consideration for comparing results across different searches E-value увеличивается с увеличением размера базы данных E-value уменьшается с увеличением размера участка выравнивания 29 Гомология: некоторые соображения • • • • Схожесть не является индикатором гомологии Вообще говоря, если две последовательности схожи со статистической значимостью по всей длине, то, вероятно, они гомологичны Участки с низкой сложностью могут быть схожи с высокой степенью значимости, но не быть гомологами Гомологичные последовательности не всегда схожи с высокой степенью значимости 30 Предполагаемые порогвые значения BLAST • • Для поиска в базах данных нуклеотидных последовательностей надо рассматривать результаты со значениями ожиданий (Evalues) меньше 10-6 и процентом идентичности последовательностей 70% или более Для поиска в базах данных аминокислотных последовательностей, надо рассматривать результаты со значениями ожиданий (E-values) меньше 10-3 и процентом идентичности последовательностей 25% или более 31 Как работает BLAST? • • Качество и относительная скорость поиска программ BLAST (важные свойства при учете того, что базы данных постоянно растут) достигается с помощью подхода, при котором исходная последовательность и последовательности базы данных разбиваются на фрагменты (слова, "words"), и первоначальный поиск совпадений производится между фрагментами. После изначального нахождения совпадающих “слов” выравнивание расширяется по обоим направлениям с целью сгенерить выравнивание с весом, превышающим некоторое пороговое значение S. 32 Алгоритм BLAST 33 Алгоритм BLAST 34 Расширение выравнивания до достижения максимального веса High Scoring Segment Pair (HSP) Минимальный вес (S) Пороговый вес для первого совпадающего слова (T) 35 Как работает BLAST? Параметры W : Размер слова (Word) – найти совпадающие слова между последовательностями длина 2-3 для aминокислот, 6-11 для нуклеотидов. T : Порог (Threshold) – оставить только слова с весом >T обычно 11-13 X : Потеря веса – остановить расширять выравнивание, когда потеря >X S : Вес (Score) – Финальный вeс сегмента Как работает BLAST? Алгоритм: 1. Выравнивает исходную последовательность с последовательностью из базы данных. 2. Находит “хиты” (“hits”): короткие выравненные сегменты длины W без пробелов с весом не меньше T. 3. Расширяет выравнивание до тех пор, пока вес не уменьшится на величину X от некоторого максимума, который будет обозначен как наилучший вес Этот шаг потребляет основное время процессора (>90%) Как работает BLAST? Как нам быстро избавиться от ненужных последовательностей? • Разеделить базу данных на слова длины W (по умолчанию: W = 3 для белков и и W = 7 для ДНК) • Сохранить слова в специальной таблице, в которой можно производить быстрый поиск WTDFGYPAILKGGTAC WTD TDF DFG FGY GYP … Как работает BLAST? BLAST: как избавиться от ненужных последовательностей • Когда пользователь вводит исходную последовательность, она делится на слова • Поиск в базе данных происходит последовательно по соседним словам • Вес для соседних слов определяется согласно матрице весов (например, BLOSUM62 для белков) с некоторым пороговым значением GFC (20) GFB GPC (11) WAC (5) Как работает BLAST? Последовательность базы данных Соседнее слово Ищем зародыш: хиты на одной диагонали, которые можно объединить По крайней мере, 2 хита на одной диагонали на расстоянии друг от друга меньше, чем определенный порог Исходная последовательность (Query) Стадия фильтрации – множество несвязанных хитов фильтруются, экономя огромное количество времени! Как работает BLAST? Расширение сегмента вдоль выравнивания • Прекращает расширение, когда вес выравнивания уменьшается на X ниже полученного максимального значения • Не рассматривает сегменты с весом < S ASKIOPLLWLAASFLHNEQAPALSDAN JWQEOPLWPLAASOIHLFACNSIFYAS Score=15 Score=17 Score=14 Расширение выравнивания до достижения максимального веса High Scoring Segment Pair (HSP) Минимальный вес (S) Пороговый вес для первого совпадающего слова (T) 42 Как работает BLAST? Результат – ЛОКАЛЬНОЕ выравнивание • В результате BLAST выдает набор локальных выравниваний между исходной последовательностью и различными найденными хитами Introduction to Information Theory Cпрашиваете ребенка - он всегда отвечает “нет” ” Информация = 0 Cпрашиваете ребенка - он отвечает “да” и “нет” Вопрос - любит ли ребенок мороженное? Ответ - нет Удивление Качественно - Информация, или удивление, обратно пропорционально вероятности. Количественно Units: bits or nats Может быть последовательность цифр кости или ATGC Существует частотное распределение Если равновероятно - 1/n, то H=log2(n), и среднее будет таким же. Средняя информация последовательности символов называется … ЭНТРОПИЕЙ Примеры: M (метионин) =0.01 L (лейцин) =0.1 q=0.002 Ratio=2 S=log2(2)=1 bit -> это и есть значение матрицы весов BLOSSUM Оценка лямбда Для одной последовательности может быть два участка c высоким весом. Обратите внимание на координаты 55 Задание 1 1. Найти последовательности двух субединиц белка гемоглобина человека (hemoglobin subunit alpha and hemoglobin subunit beta) через NCBI protein database. Через BLAST найти близких родственников. Выбрать 10 разных видов. Найти полные последовательности выбранных 10 видов через NCBI protein database по идентификационному номеру. Сохранить их все в формате fasta в текстовый файл. Мы их будем использовать для построения филогенетических деревьев Подсказка: hemoglobin subunit alpha [Homo sapiens] http://www.ncbi.nlm.nih.gov/protein/4504347?report=fasta Задание 2 Найти структуру гемоглобина человека в базе данных pdb. Окрасить так, чтобы было видно две субъединицы. Посмотреть гемоглобин с кислородом, без кислорода и при болезни серповидно-клеточной анемии. Подсказка: http://www.rcsb.org/pdb/results/results.do?outformat=&qrid=2FD86D00&tabto show=Current Задание 3 1. Посмотреть интересное видео о проекте “Дерево жизни” Discovering the Great Tree of Life http://www.youtube.com/watch?v=9R8hpPY_9kY