ДНК-микрочипы и анализ данных по экспрессии генов ДНК-микрочипы • Способ измерения уровня экспрессии РНК для каждого гена. • Принцип действия: гибридизация мРНК с зондом - комплиментарной ДНК последовательностью закрепленной на твердой поверхности (чипе). ДНК-микрочипы ДНК-микрочипы Ген 1 Ген 2 Ген 3 Ген 4 кДНК 6 Ген 5 Ген 6 РНК 6 ДНК 1 ДНК 2 кДНК4 Измерения ДНК 3 ДНК 4 РНК 4 Гибридазация ДНК 5 ДНК 6 Обратная транскрипция ДНК-микрочипы • Двумерный массив ДНК-зондов для тысяч нуклеотидных последовательностей. • Каждая ячейка содержит несколько копий определенной последовательности ДНК. • Возможность оценки числа гибридизаций для каждой ячейки. • Один микрочип по сути позволяет одновременное выполнение тысяч экспериментов - по одному для каждого гена. • Измерение экспрессии генов при разных условиях Матрица данных по экспрессии Условие 1 Условие 2 профиль экспрессии гена Сравнение схожести условий Сравнение схожести профилей экспрессии M генов N экспериментов (условий) Применение методов кластеризации и классификации для анализа данных по экспрессии генов • Кластеризация Утверждение: Группы генов выполняющие схожие функции имеют схожие профили экспрессии. Задача: Поиск функциональных групп генов. Методы: - Иерархическая кластеризация - Метод k-средних - др. • Классификация Утверждение: Клетка может находится в разных состояних (здоровая/раковая), различающихся уровнями экспрессии генов. Задача: Определения состояния клетки на основе данных о профилях экспрессии генов. Методы: - Наивный Байесовский классификатор - Деревья решений - Нейронные сети - Метод опорных векторов • Объекты характеризуются одним или несколькими признаками Признак 2 Кластеризация и классификация • Классификация - Для некоторых объектов известны их метки. - Задача найти правило, позволяющее присвоить метки остальным объектам. - Обучение с учителем (supervise learning). Признак 2 • Кластеризация - Метки объектов неизвестны. - Задача объединить объекты в группы (кластеры), на основании их схожести (расстояния между объектами). - Обучение без учителя (unsupervise learning). Признак 1 Признак 1 Алгоритмы кластеризации • Разделяющие Делят все объекты на непересекающиеся множества (кластеры), при этом каждый объект принадлежит только одному кластеру. • Объединяющие Итеративно объединяют объекты в кластеры, и далее сами кластеры между собой. Построенные вложенные множества объектов образуют иерархию. Иерархическая кластеризация Инициализация: - Каждый объект назначается отдельным кластером. Итерации: - Найти два кластера с наименьшим расстоянием между ними. - Объединить два найденных кластера в новый кластер. C B A H E D F G A B D E F C G H Методы задания расстояния между кластерами Метод ближайшего соседа (single-link): H D F G H Метод дальнего соседа (complete-link): D E F G H Метод невзвешенного попарного среднего (UPGMA): D Центроидный метод: E E F G H D E F G Методы задания расстояния между объектами из D'haeseleer P. How does gene expression clustering work? Nat Biotechnol. 2005, 23(12):1499-501. Визуализация результатов кластеризации Метод кластеризации k-средних Метод минимизирует суммарное квадратичное отклонение объектов от центров кластеров: μ2 B A C μ1 где k - число кластеров, Xi - кластеры состоящие из объектов xi, - центры масс кластеров. Алгоритм k-средних: Инициализация: Случайным образом выбрать k центров кластеров. Итерации: Отнести каждый объект к кластеру с ближайшим центром. Пересчитать положения центров кластеров. D H E F μ3 G Алгоритм k-средних • Определить k случайных центров кластеров Алгоритм k-средних • Отнести объекты к кластерам с ближайшими центрами Алгоритм k-средних • Пересчитать положения центров кластеров Алгоритм k-средних • Повторить до сходимости Алгоритм k-средних • Повторить до сходимости Классификация по Байесу • Вероятностная трактовка задачи классификации. • Построение вероятностных моделей распределений признаков объектов относящихся к различным классам. • Использование теоремы Байеса для принятия классификационного решения. Классификация по Байесу • Первоначально необходимо смоделировать условные плотности вероятностей признаков для рассматриваемых классов. P(X|Класс1) P(X|Класс2) X Классификация по Байесу • Имея модели условных плотностей распределений вероятностей признаков для классов мы сможем определить вероятность принадлежности рассматриваемого объекта к конкретному классу используя формулу Байеса условная вероятность признака для данного класса априорная вероятность объекта данного класса вероятность признака Моделирование P(X|класс) на основе обучающей выборки P(X|Класс1) • Вероятностная модель плотности распределения может быть построена путем разбиением области определения на интервалы и подсчетом соответсвующих частот. X 7/15 3/15 2/15 2/15 1/15 X Априорные вероятности • Три подхода к определению априорных вероятностей. 1. Оценка априорных вероятностей путем подсчета частот классов в обучающем множестве. P(Класс1) = 12/27 P(Класс2) = 15/27 X 2. Оценка априорных вероятностей на основе экспертных знаний. P(Класс1) = 15000/40000 P(Класс2) = 25000/40000 3. Равновероятное определение априорных вероятностей. P(Класс1) = P(Класс2) Классификация по Байесу • Имея вероятностные модели условных плотностей вероятностей для классов и априорные оценки можно определить решающее правило: Известно: P(X|Класс1) Решающее правило: P(X|Класс2) G(X) = log P(Класс1) P(Класс2) P(X|Класс1) P(Класс1) P(X|Класс2) P(Класс2) G(X) > 0 → объект принадлежит к классу1 G(X) < 0 → объект принадлежит к классу2 Наивный Байесовский классификатор • Основное предположение - независимость признаков. Наивный Байесовский классификатор • Решающее правило: • Обычно существует несколько способов выбора прямой, разделяющей классы в пространстве признаков. Какую из прямых следует выбрать? признак 2 Метод опорных векторов (Support Vector Machines - SVM) признак 1 • В методе опорных векторов разделительная прямая выбирается максимизируя расстояния (зазоры - margins) до ближайших объектов каждого класса (опорных векторов - support vectors). признак 2 Метод опорных векторов разделительная прямая опорные вектора признак 1 Метод опорных векторов Тогда, уравнение разделительной прямой (в многомерном пространстве гиперплоскости): w·x - b = 0 признак 2 Пусть w - вектор, перпендикулярный разделительной прямой. метки Yi = 1 Yi = -1 разделительная прямая Уравнение прямых, параллельных разделительной прямой, проходящих через опорные вектора (с точность до нормализации w и b): w опорные вектора w·x - b = 1 w·x - b = -1 Присвоим метки yi принадлежности объектов к классам равными 1 (первый класс) и -1 (второй класс). признак 1 2/|w| Метод опорных векторов Условия отсутствия объектов класса между прямыми, проходящими через опорные вектора: w·x - b >= 1 , для yi = 1 w·x - b <= -1 , для yi = -1 или, объединяя: yi (w·x - b) >= 1 Тогда, задача построения разделяющие гиперплоскости, максимизирующей зазоры, сводится к следующей задаче: |w|2 → min yi (w·x - b) >= 1 - задача квадратичной оптимизации. Метод опорных векторов В случае, когда классы линейно неразделимы применяют переход из исходного пространство в пространство большой размерности - где задача может оказаться линейно-разделимой, используя функции ядер. Примеры ядер: линейное полиномиальное радиальная базисная функция сигмоид Posi%ve (Class I) Nega%ve (Class II) Predicted Posi%ve True Posi.ve (TP) False Posi.ve (FP) Predicted Nega%ve False Nega.ve (FN) True Nega.ve (TN) Признак 2 Оценка качества классификации TP TN FN TP+TN Accuracy = TP+TN+FN+FP Sensitivity = TP TP+FN Precision = TP TP+FP F1-score = Fβ-score = FP Specificity = TN FP+TN Precision x Sensitivity Precision + Sensitivity (1+β2) Precision x Sensitivity (β2·Precision) + Sensitivity Признак 1 Благодарности • При подготовке слайдов использовались материалы лекций: • Михаила Гельфанда (ИППИ) • Андрея Миронова (МГУ) • Serafim Batzoglou (Stanford) • Manolis Kellis (MIT) • Pavel Pevzner (UCSD)