Биостатистика 6. ROC-анализ Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН Бинарные и количественные маркеры (тесты) Бинарный тест: маркер «есть-нет» M M Количественный тест: маркер является количественным показателем приходим к таблице 2х2 0.25 D b d Контроль Больные 0.2 Частота D a c 0.15 0.1 0.05 0 0 После выбора порогового значения маркера 5 10 15 Признак - маркер 20 Количественный тест: выбор порога Частота 0.25 Контроль Больные 0.2 0.15 низкая 0.1 специфичность высокая чувствительность 0.05 Признак маркер 0 Низкий порог Количественный тест: выбор порога Порог Частота 0.25 Контроль Больные 0.2 высокая специфичность Специфичность 0.15 Чувствительность низкая чувствительность 0.1 0.05 Признак маркер 0 Низкий порог Высокий порог Как выбрать порог, чтобы соотношение чувствительность/специфичность было оптимальным? ROC – анализ Receiver Operator Characteristics Термин времен 2-ой мировой войны, который придумали операторы первых радарных установок Как отличить шум и помехи от вражеского самолета? Современные применения ROC-анализа: Медицинская диагностика, радиология и физиология Распознавание образов, машинное обучение Погода и любые прогнозы по приметам Борьба со спамом ROC – кривая: зависимость SE от (1-SP) при плавном изменении порога Частота SE 0.25 0.2 Контроль Больные 1 0.15 0.5 0.1 0.05 0 Пороговое значение Признак - маркер 0 0.5 1 1 - SP Оптимальный выбор порога: выбирается точка на ROC-кривой, которая ближе всех к левому верхнему углу (0,1), т.е. (1 SP) 2 (1 SE ) 2 min Форма ROC-кривых 1 Маркер не работает SE 0 1 - SP 1 0 1 1 - SP 1 0 1 - SP 1 1 Идеальный маркер 1-ый тест лучше, чем 2-ой SE SE AUC – интегральный показатель прогностической эффективности маркера 1 AUC - это площадь под ROC-кривой (Area Under Curve) SE AUC = Вероятность того, что значение признака-маркера у случайно выбранного больного больше, чем у случайно выбранного здорового AUC 0 1 - SP 1 AUC 0.5 Случайный классификатор 0.5-0.6 Плохой классификатор 0.6-0.7 Средний классификатор 0.7-0.8 Хороший классификатор >0.8 Отличный классификатор U=N1·N2·AUC - непараметрический критерий Манна-Уитни ROC-анализ используют для проверки эффективности внедрения маркеров Мы их не знаем, новых но они должны быть, судя по «близнецовой 5241 больных раком простаты: PSA +наследуемости» 35 подтвержденных SNP, в основном: 8q24: OR=1.40; p<10-4 19q13: OR=1.31; p<10-4 Гипотетическая модель, включающая 1.0 неизвестные генетические маркеры: AUC0.8 (дальше не улучшить) 0.8 Традиционные маркеры (PSA, семейная история): AUC=0.64 0.6 Традиционные + генетические маркеры: AUC=0.67 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0 Aly M, et al. Polygenic Risk Score Improves Prostate Cancer Risk Prediction: Results from the Stockholm-1 Cohort Study. Eur Urol (2011) «ROC-кривая» в случае одного бинарного теста Для единичного бинарного теста балансовая точность – это AUC SE SP BA AUC 2 1 SE 0 AUC 1 - SP 1 1 1 SE SP SE (1 SP) (1 SE ) SP 2 2 2 Вычисления при ROC-анализе Значения признака-маркера 3 2 1 0 Контроль Больные Вычисления при ROC-анализе Контроль 25 Больные Частота, % 20 15 10 5 0 0- 0.25- 0.5- 0.75- 1- 1.25- 1.5- 1.75- 2- 2.25- 2.5- 2.75- 30.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3 3.25 Значения признака (маркера) Все делается в Excel: Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1-1.25 1.25-1.5 1.5-1.75 1.75-2 2-2.25 2.25-2.5 2.5-2.75 2.75-3 3-3.25 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0 0 0 0 0 0 0 0 0 Больные # Доля 0 0 3 0.03 9 0.09 15 0.15 11 0.11 15 0.15 16 0.16 10 0.10 11 0.11 5 0.05 3 0.03 2 0.02 0 0 SE SP 0.88 0.58 Все делается в Excel: Чувствительность Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1.0 1-1.25 1.25-1.5 0.8 1.5-1.75 0.61.75-2 2-2.25 0.4 2.25-2.5 2.5-2.75 0.2 2.75-3 0.03-3.25 0.0 0.2 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0.6 1-Cпецифичность Больные # Доля 0 0 3 0.03 9 0.09 15 0.15 11 0.11 15 0.15 16 0.16 10 0.10 11 0.11 5 0.05 3 0.03 2 0.02 0 0 0.8 1.0 SE SP 1 0,97 0,88 0,73 0,62 0,47 0,31 0,21 0,1 0,05 0,02 0 0 0,22 0,44 0,58 0,77 0,88 0,95 1 1 1 1 1 1 1 Все делается в Excel: Чувствительность Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1.0 1-1.25 1.25-1.5 0.8 1.5-1.75 0.61.75-2 2-2.25 0.4 2.25-2.5 2.5-2.75 0.2 2.75-3 0.03-3.25 0.0 0.2 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0.6 1-Cпецифичность Больные SE SP # Доля 1 0,22 0 0 3 0.03 0,97 0,44 0.09 (91 SP ) 2 (10,88 SE ) 20,58 15 0.15 0,73 0,77 11 0.11 0,62 0,88 15 0.15 0,47 0,95 16 0.16 0,31 1 10 0.10 0,21 1 11 0.11 0,1 1 5 0.05 0,05 1 3 0.03 0,02 1 2 0.02 0 1 0 0 0 1 0.8 1.0 L(0,1) Все делается в Excel: Чувствительность Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1.0 1-1.25 1.25-1.5 0.8 1.5-1.75 0.61.75-2 2-2.25 0.4 2.25-2.5 2.5-2.75 0.2 2.75-3 0.03-3.25 0.0 0.2 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0 0 0 0 0 0 0 0 0 0.4 0.6 1-Cпецифичность Больные # Доля 0 0 3 0.03 9 0.09 15 0.15 11 0.11 15 0.15 16 0.16 10 0.10 11 0.11 5 0.05 3 0.03 2 0.02 0 0 0.8 1.0 SE SP L(0,1) 1 0,97 0,88 0,73 0,62 0,47 0,31 0,21 0,1 0,05 0,02 0 0 0,22 0,44 0,58 0,77 0,88 0,95 1 1 1 1 1 1 1 0,780 0,561 0,437 0,355 0,398 0,532 0,690 0,790 0,900 0,950 0,980 1,000 1,000 Наименьшее расстояние до точки (0,1) Все делается в Excel: Контроль Больные SE # Доля # Доля 1 0-0.25 22 0.22 0 0 Оптимальное 0.25-0.5 22пороговое 0.22 3 0.03 0,97 значение 0.5-0.75 14 0.14 9 0.09 0,88 0.75-1 19 0.19 15 0.15 0,73 1-1.25 11 0.11 11 0.11 0,62 1.25-1.5 7 0.07 15 0.15 0,47 При выборе этого мы 1.5-1.75 5 0.05 этого 16 порога, 0.16 0,31 правильно идентифицируем 73% 1.75-2 0 0 10 0.10 0,21 больных и 77% здоровых 2-2.25 0 0 11 0.11 0,1 2.25-2.5 0 0 5 0.05 0,05 2.5-2.75 0 0 3 0.03 0,02 2.75-3 0 0 2 0.02 0 3-3.25 0 0 0 0 0 Интервал SP L(0,1) 0,22 0,44 0,58 0,77 0,88 0,95 1 1 1 1 1 1 1 0,780 0,561 0,437 0,355 0,398 0,532 0,690 0,790 0,900 0,950 0,980 1,000 1,000 Наименьшее расстояние до точки (0,1) Все делается в Excel: Чувствительность Интервал 0-0.25 0.25-0.5 0.5-0.75 0.75-1 1.0 1-1.25 1.25-1.5 0.8 1.5-1.75 0.61.75-2 2-2.25 0.4 2.25-2.5 2.5-2.75 0.2 2.75-3 0.03-3.25 0.0 0.2 Контроль # Доля 22 0.22 22 0.22 14 0.14 19 0.19 11 0.11 7 0.07 5 0.05 0 0 0 0AUC 0 0 0 0 0 0 0 0 0.4 0.6 1-Cпецифичность Больные # Доля 0 0 3 0.03 9 0.09 15 0.15 11 0.11 15 0.15 16 0.16 10 0.10 11 0.11 5 0.05 3 0.03 2 0.02 0 0 0.8 1.0 SE SP L(0,1) AUC 1 0,97 0,88 0,73 0,62 0,47 0,31 0,21 0,1 0,05 0,02 0 0 0,22 0,44 0,58 0,77 0,88 0,95 1 1 1 1 1 1 1 0,780 0,561 0,437 0,355 0,398 0,532 0,690 0,790 0,900 0,950 0,980 1,000 1,000 0,220 0,217 0,130 0,153 0,072 0,038 0,020 0 0 0 0 0 0 0.85 AUC = Вычисления AUC в STATISTICA На сегодня это все