2. Компьютерный анализ и моделирование структурно-

реклама
2. Компьютерный анализ и моделирование структурнофункциональной организации РНК (ИЦиГ СО РАН, ИМ СО РАН,
ИВМиМГ СО РАН)
Цель работы - изучение фундаментальных закономерностей формирования структуры
РНК и их функционирования. Изучение природы физического кода, определяющего
взаимосвязи между первичной, вторичной и третичной структурами РНК, моделирование и
предсказание структуры и специфической активности РНК по их нуклеотидным
последовательностям. Исследование сайтов сплайсинга. Разработка компьютерных методов для
анализа и моделирования структурно-функциональной организации и функции РНК.
Поздняков М.А., Вишневский О.В., Орлов Ю.Л. (ИЦиГ СО РАН), Витяев Е.Е.
(ИМ СО РАН)
Исследование сайтов сплайсинга с помощью компьютерной
системы "Splice Discovery"
Проведено исследование сайтов сплайсинга с целью выявления позиционированных
(имеющих фиксированное положение в пределах сайтов) и не позиционированных (имеющих
нефиксированное положение) контекстных характеристик сайтов сплайсинга.
Проведено исследование контекстного состава 2343 сайтов сплайсинга.
Разработана программа и построены олигонуклеотидные весовые матрицы,
позволяющие достоверно идентифицировать донорные сайты сплайсинга в протяженных
геномных последовательностях.
Разработана компьютерная система "Splice Discovery" для поиска и анализа
контекстных закономерностей с помощью методов Data Mining и Knowledge Discovery.
Отбирались статистически значимые закономерности встречаемости нуклеотидов во
фрагментах длиной 21 п.о. в 5' и 3' позициях относительно целевого сайта. Обнаружен ряд
закономерностей, например "тринуклеотид AGT в 15-17 позициях".
На основе полученных закономерностей выборка сайтов сплайсинга была разбита на
классы с внутренне гомогенным нуклеотидным контекстом, описанном в терминах
закономерностей. Для каждого класса было выполнено множественное выравнивание с
использованием закономерностей, на основе которого построена весовая матрица. Показано,
что выделенные классы обладают статистически значимыми контекстными различиями. Для
каждого класса донорных сайтов сплайсинга построен метод распознавания на основе
полученных закономерностей.
Таблица 2-1. Примеры комплексных слабопозиционированных нуклеотидных сигналов на
сайтах сплайсинга.
№
1
2
3
4
5
6
7
8
9
...
1918
Комплексный сигнал
(закономерность)
Количество
нуклеотидов в
сигнале
Статистическая
значимость
2
2
5
6
6
6
6
6
7
7.221685e-003
4.549541e-002
2.242927e-002
1.886203e-002
2.004277e-002
1.602915e-002
1.644068e-002
2.211978e-002
2.358411e-002
...
2.196624e-002
a<t
a<g
t<c<c<c<a
c<a<c<a<t<t
c<c<a<c<a<a
t<c<c<a<c<a
g<c<c<a<c<a
g<c<a<c<a<g
a<c<a<c<a<t<t
...
c<g<c<a<c<a<a
7
53
Число
последовательнос
тей, несущих
данный сигнал *
6011
7469
2467
770
726
902
880
696
304
...
331
Примечания: Данные в таблицы представлены не полностью из-за большого объема. Пропуски
обозначены многоточиями.
* Один сигнал (особенно короткий, например из двух нуклеотидов) может быть представлен в
последовательности сайта сплайсинга более одного раза.
Рис. 2-1. Пример закономерности g<ca<c<ag, примененной к сайту сплайсига.
Процедура распознавания сайтов сплайсинга на основе закономерностей
Для оценки точности данного подхода был выполнен скользящий контроль, 80% сайтов
было взято в качестве обучающей выборки, остальные - в качестве контрольной.
Имея набор полученных закономерностей, система может оценить вес каждого объекта
(последовательности)
в
выборке.
Число
закономерностей,
выполненных
на
последовательности, может сильно варьировать. К одной последовательности может быть
применимо одновременно несколько закономерностей, к другой последовательности - ни
одной. В то же время, сами закономерности построены статистически, каждая дает разную
точность распознавания. Необходим стандарт для определения распознающей функции. Для
такого построения используется обучающая выборка. Каждая закономерность оценивается по
степени ее выполнимости на обучении, и каждая последовательность в обучающей выборке
получает свой вес в зависимости от количества и силы выполненных на ней закономерностей.
Построение веса объектов (последовательностей) по степени применимости к ним
распознающих правил было описано в работе по распознаванию промоторов с помощью
специфичных олигонуклеотидов (Вишневский О.В., Витяев Е.Е., 2001).
В нашем случае сигналом, используемым в закономерности, является не
олигонуклеотид, как при распознавании промоторов, а отдельный нуклеотид,
позиционированный относительно границы между экзоном и интроном.
Вес анализируемой последовательности в обучающей выборке может быть задан
несколькими способами:
(1) N, общее число различных сигналов в объекте;
(2)  log P(S), сумма логарифмов вероятностей получения наблюдаемых сигналов по
случайным причинам;
(3) Nr, число сигналов, найденных в объекте и участвующих в закономерностях,
выполненных для данного объекта;
(4)  log P(Sr), сумма логарифмов вероятностей получения наблюдаемых сигналов по
случайным причинам для сигналов, найденных в объекте и участвующих в закономерностях,
выполненных для данного объекта.
Четыре дополнительных веса могут быть получены при рассмотрении сигналов,
найденных в исследуемом объекте и наиболее близком к нему объекте обучающей выборке.
Определенный таким образом вес неизвестной, не использовавшейся при обучении,
последовательности и является распознающей функцией. Фактически, при распознавании
используется метод ближайших соседей. Близость последовательности на контроле и
сравниваемой с ней последовательности обучающей выборки оценивается по количеству
закономерностей, одновременно выполненных на обеих последовательностях.
Среди определенных выше четырех типов весов первые два не используют
закономерности, найденные в обучающей выборке, и только другие два - используют. Таким
образом, можно определить относительный вклад закономерности, учитывая только число
сигналов, входящих в эту закономерность, и вероятность наблюдения таких сигналов
(позиционированных нуклеотидов) по случайным причинам.
Для предсказания донорных сайтов сплайсинга в нуклеотидных последовательностях
разработана программа, использующая описанные выше способы оценки веса
54
последовательности по закономерностям. Закономерности отбираются на предварительном
этапе работы и записываются в специализированную базу знаний.
По весам объектов были определены ошибки первого и второго рода. Для донорных
сайтов сплайсинга ошибки первого и второго рода на контроле составили соответственно 4,4%
и 4,0%.
Опишем процедуру распознавания сайта в неизвестных последовательностях с
помощью сканирующего окна более формально.
В качестве оценки сходства между j-м объектом (сайтом) и исследуемой
L
последовательностью
используется
величина
Pj   log ( p k ) ,
где
L
–
длина
k 1
последовательности, pk - вероятность получить закономерность (упорядоченную группу
нуклеотидов) по случайным причинам. Чем больше величина Pj, тем меньше вероятность
наблюдать по случайным причинам обнаруженный в исследуемой последовательности
комплекс мотивов, характерных для j-го объекта.
Среди всех проанализированных объектов из обучающей выборки выбирается такой j+,
для которого значение Pj максимально, Pj+= max {Pj}.
j
Аналогичная процедура производится для всех последовательностей негативной
выборки (случайных последовательностей, не-сайтов). Для них также находится
последовательность, для которой характерно максимальное значение Pr-= max {Pr}, где r r
номер последовательности из негативной выборки. Далее вычисляется величина Р = Pj+- Pr-.
Заметим, что для случайных последовательностей эта величина часто может быть получена
аналитически. При отсутствии точных формул для закономерностей сложной структуры
генерируется негативная выборка случайных последовательностей (от 1000 до 100000
последовательностей). Обработка такого большого массива данных представляет собой
определенную техническую сложность.
Значение функции распознавания F определяется как:
P, если P  0
F 
0, если P  0
В том случае, когда значение F>Fb, где Fb- граничное значение, последовательность,
входящая в рассматриваемое окно, может быть отнесена к функциональному классу (сайтов). В
противном случае, она рассматривается как не-сайт.
При распознавании сайтов в протяженной последовательности, она сканируется окном
длиной L. Для каждого положения окна согласно вышеописанной процедуре вычисляется
значение функции распознавания F. Результаты распознавания могут быть представлены в
текстовом или графическом виде.
Костин В.С., ИЦиГ СО РАН
Естественные классификации сайтов сплайсинга
В отчетный период было продолжено построение естественных классификаций
донорных и акцепторных сайтов сплайсинга на основе учета их контекстных и структурных
характеристик.
На выборке из 2343 фрагментов сайтов сплайсинга длиной 21 нуклеотид, программа
естественной классификации, методически описанная в первой части данного отчета,
обнаружила ряд закономерностей.
Закономерности приведены в таблице 2.2, в частности, NNNNNNNNNN*NNNAGTNNNN закономерность длины 3, в которой посылка (AGT в позиции 15-17) выделяет подвыборку из
699 последовательностей, на которой наблюдается существенное отклонение в распределении
11 нуклеотида, играющего роль целевого признака.
55
Таблица 2-2. Закономерности в сайтах сплайсинга.
Закономерность
Z-отклонение
подвыборка
NNNNNNNNNN*NNNAGTNNNN
24.48
699
NNNNNNNNNC*NNNNNTNNNN
20.20
209
NNNNNNNN*ANNNNNNNNNNN
18.96
1387
NNNNNNNNNNGNNAC*NNNNN
18.96
102
TNNNNTNNNANNNNN*NNATN
18.95
20
TNNNNTANNANNNNN*NNNTN
18.59
18
TNNNNNANNAGNNNA*NNNTN
18.37
29
Распределение целевого нуклеотида (11 позиция)
100.0%
80.0%
60.0%
40.0%
20.0%
0.0%
A
T
G
C
При наличии AGT в позиции 15-17 (699 последовательностей)
Во всей выборке (2343 последовательности)
Рис. 2.2. Распределение частот встречаемости в первом основании интрона.
На этой закономерности наблюдается такое распределение частот встречаемости 11
нуклеотида:
Вся выборка
AGT(15-17)
Z-отклонение
A
205 (8,7%)
106 (15,2%)
7,16
T
G
191 (8,2%) 1862 (79,5%)
144 (20,6%) 393 (56,2%)
14,36
-18,16
C
85 (3,6%)
56 (8,0%)
7,40
Итого
2343 (100,0%)
699 (100,0%)
24,48
Сила этой закономерности, выраженная Z-отклонением статистики Хи-квадрат, равна
24,48.
Для донорных сайтов сплайсинга была выполнена процедура построения идеальных
образов последовательностей на основе закономерностей.
56
Воробьев Д.Г., Титов И.И., Вишневский О.В. (ИЦиГ СО РАН)
Анализ РНК. Контекстные характеристики и энергетические
параметры
В области анализа РНК были изучены распределения энергии комплементарных
взаимодействий между сайтами сплайсинга и малыми ядерными РНК (U1 мяРНК с донорным
сайтом сплайсинга, U2 мяРНК с точкой ветвления). С использованием комплекса методов
расчета низкоэнергетических вторичных структур РНК (FITNESS) была продолжено
исследование вторичной структуры 5- и 3'- нетранслируемых районов мРНК.
Было
продолжено
исследование
значимых
для
инициации
трансляции
позиционированных и не позиционированных контекстных сигналов, то есть сигналов,
расположенных на фиксированном расстоянии от Кэп-сайта, или старт- и стоп-кодона
эукариотических мРНК (в том числе - в тканеспецифически транслирующихся мРНК).
Продолжена разработка методов предсказания эффективности трансляции мРНК на
основе выявленных структурных и контекстных характеристик их 5'- и 3'- нетранслируемых
районов. Исследовано влияние контекстных и структурных характеристик кодирующих
районов мРНК на эффективность их трансляции.
Рис. 2-3. Пример предсказания уровня экспресии РНК для генов двудольных растений.
Проведен компьютерный анализ стабильности взаимодействия окрестностей 741
донорных сайтов сплайсинга человека с U1 малой ядерной РНК (U1-мя РНК). Подтверждено,
что донорный сайт связывания обладает высокой энергией связывания с U1 мя РНК и уточнены
параметры этого взаимодействия. Сделаны оценки времен жизни комплексов, которые могут
быть полезными для выявления порядка сборки проводящего сплайсинг комплекса.
С помощью программы ARGO изучен район стартового кодона дрожжевых мРНК с
высокой и низкой эффективностью трансляции (с оценкой эффективности трансляции по
индексу адаптации кодонов – CAI). Для стартов трансляции мРНК этих двух групп мРНК
выявлены специфические наборы вырожденных олигонуклеотидных мотивов. Показано, что
содержание мотивов, характерных для низкоэкспрессирующихся мРНК, снижено у
высокоэкспрессирующихся мРНК. Это означает, что некоторые из выявленных в
низкоэкспрессирующихся мРНК мотивов являются трансляционными сайленсерами, так как их
присутствие несовместимо с эффективной инициацией трансляции. Построение
тринуклеотидных частотных матриц для района стартового кодона мРНК дрожжей показало,
что для высокоэкспрессирующихся мРНК характерна сниженная частота или полное
отсутствие тринуклеотида AUG в районе выше старта трансляции. Это согласуется с
известным экспериментальным фактом, что триплеты AUG в 5’-НТР выступают в качестве
неспецифических сайленсеров.
Для поиска в 5’-нетранслируемых районах (5’-НТР) мРНК сигналов, контролирующих
инициацию трансляции, разработана система mRNA-FAST (mRNA – Function, Activity,
57
Structure, (http://wwwmgs.bionet.nsc.ru/mgs/dbases/trsig/).В систему входят: (1) база данных
TRSIG экспериментально выявленных трансляционных сигналов высших растений с указанием
их активности, включая данные о 16 видах трансляционных сигналах и 74 экспериментах; (2)
программы для поиска гомологии с трансляционными сигналами (BLASTA), поиска
потенциальных сигналов (ARGO и Gibbs Sampler), расчета вторичной структуры мРНК
(GArna).
Рис. 2-4. База данных TRSIG. Интерфейс доступа через систему SRS.
Выявлено две группы 5'-НТР мРНК генов кукурузы, индуцируемых при гипоксии: с
высоким и низким потенциалом формирования вторичной структуры. Для 5'-НТР из первой
группы построена модель эволюционно-инвариантной вторичной структуры. Мы
предполагаем, что инициация трансляции таких мРНК регулируется кооперативными
взаимодействиями факторов, связывающихся с кэп-сайтом и сайтом инициации трансляции.
Для 38 одноклеточных организмов, включая бактерии и дрожжи, исследовано влияние
контекстной и структурной организации кодирующих частей мРНК на эффективность
трансляции (в рамках динамической модели, описывающей элонгацию трансляции мРНК с
учетом концентраций тРНК, кодонного состава мРНК и локальной вторичной структуры
кодирующих районов мРНК). По относительному вкладу кодонного состава и локальных
вторичных структур мРНК в эффективность трансляции исследованные организмы разделены
на 3 группы: для 12 организмов наибольший вклад в эффективность трансляции вносят частоты
использования кодонов; для 9 организмов наибольший вклад вносят шпилечные структуры,
затрудняющие движение рибосомы и для 17 организмов существенными являются как частоты
использования кодонов, так и локальные вторичные структуры. Это указывает на различные
стратегии эволюционной оптимизации нуклеотидного состава мРНК, направленной на
повышение эффективности функционирования аппарата трансляции.
С помощью ранее нами разработанного алгоритма (FITNESS) для анализа вторичной
структуры РНК и быстрых методов оценки потенциала ВС (E-score и Z-score) исследованы 5'нетранслируемые районы мРНК генов кукурузы, индуцируемых при гипоксии. Было получено,
что по потенциалу формирования вторичной структуры 5'-НТР хорошо разделяются на две
группы, с высоким и низким потенциалом.
Для группы с высоким потенциалом построена модель эволюционно-инвариантной
вторичной структуры. На основании построенной модели мы предполагаем, что регулирование
58
трансляции этой группы мРНК происходит посредством кооперативных взаимодействий
факторов, связывающихся с кэп-сайтом и сайтом инициации трансляции.
Систематическое исследование вторичной структуры 5'-НТП мРНК генов кукурузы,
экспрессия которых индуцируется гипоксией проведено нами впервые. Факт существования
двух типов 5'-НТП этих мРНК, сильно различных по организации вторичной структуры, ранее
не был известен.
Рис 2-5. Работа программы предсказания вторичной структуры РНК с помощью генетического
алгоритма.
Эти районы характеризуются значительной вариабельностью первичной и вторичной
структур, что затрудняло их анализ до последнего времени. Впервые нами была построена
эволюционно-инвариантная модель вторичной структуры 5'-НТП. Эта модель дает первые
свидетельства о существовании кооперативных взаимодействий между факторами,
связывающимися с сайтом инициации трансляции и кэп-сайтом.
Полученные результаты свидетельствуют также и о важной роли ВС 5'-НТП мРНК для
определения эффективности их трансляции. В мировой науке регуляция посредством
коопервативных взаимодействий была известна для факторов связывающимися с ДНК.
Полученные результаты позволяют предположить ее важность для инициации трансляции.
Для поиска гомологии между трансляционными сигналами и анализируемой
последовательностью используется программа BLASTA. Вклад вторичной структуры мРНК в
регуляцию инициации трансляции оценивается с помощью программы Garna, основанной на
генетическом алгоритме. Поиск контекстных сигналов в последовательностях РНК
осуществляется на основе 2-х подходов: (1) программы Gibbs sampler (выявление коротких
олигонуклеотидных фрагментов в 4-х буквенном коде); (2) разработанного нами пакета ARGO
(выявление
неслучайных
квазиинвариантных
вырожденных
непозиционированных
олигонуклеотидных мотивовов в 15-ти буквенном коде). Последовательности 5’-НТП мРНК
дрожжей, использовавшиеся в анализе (от –20 до +10 нуклеотидов вокруг AUG кодона),
выделены из БД TransTerm.
База данных TRSIG содержит информацию о (i) типе трансляционного сигнала, (ii) его
локализации, (iii) таксономической принадлежности, (iv) характеристиках мРНК (наличии
CAP-сайта на ее 5’-конце и поли(А)-хвоста на 3’конце; (v) особенностях эксперимента, в
которых исследовали трансляционный сигнал; (vi) количественной величине активности; (vii)
нуклеотидной последовательности сигнала и содержащей его мРНК. БД TRSIG реализована на
платформе SRS.
59
Лихошвай В.А., Матушкин Ю.Г. (ИЦиГ СО РАН)
Дифференциация одноклеточных организмов по критичным
для эффективности экспрессии генов стадиям элонгации
Эффективность экспрессии является одной из наиболее общих характеристик
биологической активности генов. В силу исключительной энергоемкости стадии трансляции
(может расходоваться до 50% всех ресурсов), ясно, что в процессе эволюции происходила
оптимизация нуклеотидного состава генов с учетом эффективности функционирования
аппарата трансляции.
Проведенный анализ позволил для каждого из 38 организмов выявить относительный
вклад, который вносят в процесс элонгации частоты использования кодонов и локальные
комплементарности мРНК. Показано, что все организмы можно условно разделить на пять
групп. В первую входят Bacillus halodurans C-125, Bacillus subtilis, Chlamydia muridarum,
Chlamydia pneumoniae, Chlamydia pneumoniae AR39, Chlamydia pneumoniae J138, Chlamydia
trachomatis, Escherichia coli K-12 MG1655, Haemophilus influenzae Rd, Pyrococcus abyssi,
Saccharomyces cerevisiae, Vibrio cholerae, у которых различия в эффективности элонгации
определяются стадией присоединения тРНК. Вторую группу составляют Borrelia burgdorferi,
Buchera sp. APS, Campilobacter jejuni, Helicobacter pylori 26695, Helicobacter pylori J99,
Mycoplasma genitalium G37, Thermoplasma acidophilum, Ureaplasma urealiticum. Третья группа
состоит из одного организма Pseudomonas aeruginosa PA01. У данных организмов различия в
эффективности элонгации определяются только стадией транслокации. Четвертую группу
составляют организмы Aquifex aeolicus, Archaeoglobus fulgidus, Aeropyrum pernix K1,
Deinococcus radiodurans R1, Halobacterium sp.NRC-1, Mycoplasma pneumoniae M129,
Methanococcus jannaschii, Methanobacterium thermoautotrophicum delta H, Mycobacterium
tuberculosis H367RV, Pyrococcus horikoshii OT3, Synechocystis PCC6803, Thermotoga maritima,
Treponema pallidum, Rickettsia prowazekii strain Madrid E. Пятая группа состоит из Neisseria
meningitidis strain MC58, Neisseria meningitidis serogroup A strain Z2491, Xylella fastidiosa. В
организмах четвертой и пятой групп обе стадии влияют на эффективность элонгации. Кроме
того, в организмах второй и четвертой групп (20 организмов) эффективность стадии
транслокации зависит только от наличия комплементарных участков, но не от энергии
формирования вторичных структур, связанных с ними. Однако в организмах третьей и пятой
групп (N.meningitidis MC58, N.meningitidis Z2491, P.aeruginosa PA01, X.fastidiosa) и, возможно,
в D.radiodurans, эффективность элонгации зависит от энергии вторичных стуктур. Этот факт
позволяет предположить существование различных механизмов преодоления рибосомой
возможных препятствий на стадии транслокации.
Новизна Анализ проводится на основе оригинального подхода, в основе которого
лежит представление, что усредненное время присоединения одной аминокислоты в процессе
трансляции конкретного гена, положительно связано с его эффективностью экспрессии.
Новизна подхода заключается в определении времени транслокации, которое поставлено в
зависимость от локальных вторичных структур перед рибосомой.
Применявшиеся методы Разработанный подход позволяет по нуклеотидному составу
гена автоматически вычислять усредненное время присоединения одной аминокислоты. В
методе подсчет времени, которое требуется для присоединения одной аминокислоты, основан
на анализе частот использования кодонов, время транслокации поставлено в зависимость от
локальных вторичных структур перед рибосомой. Предполагается, что стадией
транспептидации в рамках данного исследования можно пренебречь. Метод автоматически
итерационно упорядочивает последовательности генов исследуемого организма по среднему
времени элонгации.
Сравнение с зарубежным уровнем Разработана оригинальная мера оценки качества
нуклеотидного состава белок кодирующих частей генов (индекс эффективности элонгации),
учитывающая как особенности кодонного состава, так и особенности формирования локальных
вторичных структур на мРНК. За рубежом ограничиваются исследованием частотно кодонных
характеристик.
60
Скачать