ДНК-микрочипы и анализ данных по экспрессии генов

реклама
ДНК-микрочипы и
анализ данных по экспрессии генов
ДНК-микрочипы
• Способ измерения уровня
экспрессии РНК для каждого гена.
• Принцип действия: гибридизация
мРНК с зондом - комплиментарной
ДНК последовательностью
закрепленной на твердой
поверхности (чипе).
ДНК-микрочипы
ДНК-микрочипы
Ген 1
Ген 2
Ген 3
Ген 4
кДНК 6
Ген 5
Ген 6
РНК 6
ДНК 1
ДНК 2
кДНК4
Измерения
ДНК 3
ДНК 4
РНК 4
Гибридазация
ДНК 5
ДНК 6
Обратная
транскрипция
ДНК-микрочипы
• Двумерный массив ДНК-зондов для тысяч
нуклеотидных последовательностей.
• Каждая ячейка содержит несколько копий
определенной последовательности ДНК.
• Возможность оценки числа гибридизаций
для каждой ячейки.
• Один микрочип по сути позволяет
одновременное выполнение тысяч
экспериментов - по одному для каждого
гена.
• Измерение экспрессии генов при разных
условиях
Матрица данных по экспрессии
Условие 1
Условие 2
профиль экспрессии гена
Сравнение схожести условий
Сравнение схожести профилей экспрессии
M генов
N экспериментов (условий)
Применение методов кластеризации и классификации
для анализа данных по экспрессии генов
• Кластеризация
Утверждение: Группы генов выполняющие схожие функции имеют схожие профили
экспрессии.
Задача: Поиск функциональных групп генов.
Методы:
- Иерархическая кластеризация
- Метод k-средних
- др.
• Классификация
Утверждение: Клетка может находится в разных состояних (здоровая/раковая),
различающихся уровнями экспрессии генов.
Задача: Определения состояния клетки на основе данных о профилях экспрессии генов.
Методы:
- Наивный Байесовский классификатор
- Деревья решений
- Нейронные сети
- Метод опорных векторов
• Объекты характеризуются одним или
несколькими признаками
Признак 2
Кластеризация и классификация
• Классификация
- Для некоторых объектов известны их
метки.
- Задача найти правило, позволяющее
присвоить метки остальным объектам.
- Обучение с учителем (supervise learning).
Признак 2
• Кластеризация
- Метки объектов неизвестны.
- Задача объединить объекты в группы
(кластеры), на основании их схожести
(расстояния между объектами).
- Обучение без учителя (unsupervise
learning).
Признак 1
Признак 1
Алгоритмы кластеризации
• Разделяющие
Делят все объекты на непересекающиеся множества (кластеры),
при этом каждый объект принадлежит только одному кластеру.
• Объединяющие
Итеративно объединяют объекты в кластеры, и далее сами
кластеры между собой. Построенные вложенные множества
объектов образуют иерархию.
Иерархическая кластеризация
Инициализация:
- Каждый объект назначается отдельным
кластером.
Итерации:
- Найти два кластера с наименьшим
расстоянием между ними.
- Объединить два найденных кластера в
новый кластер.
C
B
A
H
E
D
F
G
A
B
D
E
F
C
G
H
Методы задания расстояния между кластерами
Метод ближайшего соседа (single-link):
H
D
F
G
H
Метод дальнего соседа (complete-link):
D
E
F
G
H
Метод невзвешенного попарного среднего (UPGMA):
D
Центроидный метод:
E
E
F
G
H
D
E
F
G
Методы задания расстояния между объектами
из D'haeseleer P. How does gene expression clustering work? Nat Biotechnol. 2005, 23(12):1499-501.
Визуализация результатов кластеризации
Метод кластеризации k-средних
Метод минимизирует суммарное квадратичное
отклонение объектов от центров кластеров:
μ2
B
A
C
μ1
где k - число кластеров, Xi - кластеры
состоящие из объектов xi, - центры масс
кластеров.
Алгоритм k-средних:
Инициализация:
Случайным образом выбрать k центров кластеров.
Итерации:
Отнести каждый объект к кластеру с ближайшим
центром.
Пересчитать положения центров кластеров.
D
H
E
F
μ3
G
Алгоритм k-средних
• Определить k
случайных центров
кластеров
Алгоритм k-средних
• Отнести объекты к
кластерам с
ближайшими центрами
Алгоритм k-средних
• Пересчитать
положения центров
кластеров
Алгоритм k-средних
• Повторить до
сходимости
Алгоритм k-средних
• Повторить до
сходимости
Классификация по Байесу
• Вероятностная трактовка задачи классификации.
• Построение вероятностных моделей
распределений признаков объектов
относящихся к различным классам.
• Использование теоремы Байеса для принятия
классификационного решения.
Классификация по Байесу
• Первоначально необходимо смоделировать условные плотности
вероятностей признаков для рассматриваемых классов.
P(X|Класс1)
P(X|Класс2)
X
Классификация по Байесу
• Имея модели условных плотностей распределений вероятностей
признаков для классов мы сможем определить вероятность
принадлежности рассматриваемого объекта к конкретному классу
используя формулу Байеса
условная вероятность
признака для данного класса
априорная вероятность
объекта данного класса
вероятность признака
Моделирование P(X|класс) на основе обучающей выборки
P(X|Класс1)
•
Вероятностная модель плотности
распределения может быть построена
путем разбиением области определения
на интервалы и подсчетом
соответсвующих частот.
X
7/15
3/15
2/15
2/15
1/15
X
Априорные вероятности
• Три подхода к определению априорных вероятностей.
1. Оценка априорных вероятностей путем
подсчета частот классов в обучающем
множестве.
P(Класс1) = 12/27
P(Класс2) = 15/27
X
2. Оценка априорных вероятностей на основе
экспертных знаний.
P(Класс1) = 15000/40000
P(Класс2) = 25000/40000
3. Равновероятное определение априорных
вероятностей.
P(Класс1) = P(Класс2)
Классификация по Байесу
• Имея вероятностные модели условных плотностей вероятностей для
классов и априорные оценки можно определить решающее правило:
Известно:
P(X|Класс1)
Решающее правило:
P(X|Класс2)
G(X) = log
P(Класс1)
P(Класс2)
P(X|Класс1) P(Класс1)
P(X|Класс2) P(Класс2)
G(X) > 0 → объект принадлежит к классу1
G(X) < 0 → объект принадлежит к классу2
Наивный Байесовский классификатор
• Основное предположение - независимость признаков.
Наивный Байесовский классификатор
• Решающее правило:
•
Обычно существует несколько способов
выбора прямой, разделяющей классы в
пространстве признаков.
Какую из прямых следует выбрать?
признак 2
Метод опорных векторов
(Support Vector Machines - SVM)
признак 1
•
В методе опорных векторов
разделительная прямая выбирается
максимизируя расстояния (зазоры - margins)
до ближайших объектов каждого класса
(опорных векторов - support vectors).
признак 2
Метод опорных векторов
разделительная прямая
опорные вектора
признак 1
Метод опорных векторов
Тогда, уравнение разделительной прямой
(в многомерном пространстве гиперплоскости):
w·x - b = 0
признак 2
Пусть w - вектор, перпендикулярный
разделительной прямой.
метки
Yi = 1
Yi = -1
разделительная прямая
Уравнение прямых, параллельных
разделительной прямой, проходящих
через опорные вектора (с точность до
нормализации w и b):
w
опорные вектора
w·x - b = 1
w·x - b = -1
Присвоим метки yi принадлежности
объектов к классам равными 1 (первый
класс) и -1 (второй класс).
признак 1
2/|w|
Метод опорных векторов
Условия отсутствия объектов класса между прямыми, проходящими через
опорные вектора:
w·x - b >= 1 , для yi = 1
w·x - b <= -1 , для yi = -1
или, объединяя:
yi (w·x - b) >= 1
Тогда, задача построения разделяющие гиперплоскости, максимизирующей
зазоры, сводится к следующей задаче:
|w|2 → min
yi (w·x - b) >= 1
- задача квадратичной оптимизации.
Метод опорных векторов
В случае, когда классы линейно неразделимы применяют переход из исходного
пространство в пространство большой размерности - где задача может оказаться
линейно-разделимой, используя функции ядер.
Примеры ядер:
линейное
полиномиальное
радиальная базисная функция
сигмоид
Posi%ve (Class I)
Nega%ve (Class II)
Predicted Posi%ve
True Posi.ve (TP)
False Posi.ve (FP)
Predicted Nega%ve
False Nega.ve (FN)
True Nega.ve (TN)
Признак 2
Оценка качества классификации
TP
TN
FN
TP+TN
Accuracy =
TP+TN+FN+FP
Sensitivity =
TP
TP+FN
Precision =
TP
TP+FP
F1-score =
Fβ-score =
FP
Specificity =
TN
FP+TN
Precision x Sensitivity
Precision + Sensitivity
(1+β2)
Precision x Sensitivity
(β2·Precision) + Sensitivity
Признак 1
Благодарности
•
При подготовке слайдов использовались материалы лекций:
• Михаила Гельфанда (ИППИ)
• Андрея Миронова (МГУ)
• Serafim Batzoglou (Stanford)
• Manolis Kellis (MIT)
• Pavel Pevzner (UCSD)
Скачать