АДЕКВАТНОСТЬ СТАТИСТИЧЕСКОГО АНАЛИЗА ДЛЯ ПОЛУЧЕНИЯ НАУЧНО ОБОСНОВАННЫХ, ДОСТОВЕРНЫХ РЕЗУЛЬТАТОВ В ИССЛЕДОВАНИЯХ ПО КЛИНИЧЕСКОЙ МЕДИЦИНЕ Ю.Х. Мараховский. ВАК Беларуси, экспертный совет № 11 «Клиническая медицина» Введение Вначале следует напомнить о переменных. Переменные ­ это то, что мы измеряем. Переменные отличаются многими аспектами, и прежде всего шкалой измерения. В каждом измерении обязательно присутствует некоторая ошибка, определяющая границы "количества информации", которое можно получить в данном измерении. Одним из факторов, определяющим количество информации, содержащейся в переменной, является тип шкалы, в которой проведено измерение. Различают следующие типы шкал: номинальная, порядковая (ординальная), интервальная, относительная (шкала отношения). При этом имеем четыре типа шкал переменных: (1) номинальная, (2) порядковая (ординальная), (3) интервальная и (3) относительная. Номинальные переменные используются только для качественной классификации и оценки. Порядковые переменные позволяют провести ранжирование (упорядочить) объектов. Порядковые переменные иногда называют ординальными. Интервальные переменные позволяют не только упорядочивать объекты по измерениям, но и численно выразить и сравнить различия между ними. Относительные переменные похожи на интервальные переменные. Большинство данных, получаемых в биомедицинских исследованиях можно отнести к одному из названных типов переменных. Получаемые в исследовании переменные могут быть независимыми и зависимыми. Если читатель, читая эти строки введения, не четко представляет о чем идет речь, дальнейшее чтение, в такой ситуации, не целесообразно, читателю необходимо обратится к азбуке статистики. В качестве введения целесообразно привести цитату из публикации редактора Британского медицинского журнала в 1979г: «Одна из самых удручающих обязанностей редактора медицинского журнала – необходимость 1 отвергать исследования, основанные на хорошей идее, но безнадежно испорченные плохой методологией». Цель Определить основные недостатки методологии анализа данных в диссертационных исследованиях по разделу клиническая медицина и степень соответствия (адекватность) статистического анализа основной сути исследований. Материалы и методы Текущий контроль характера статистической обработки, при экспертизе диссертационных работ в экспертном совете, всего 100 работ, а так же анализ 40 случайно выбранных диссертационных исследований за 2008г. Оценка на основе стандартных международных требований к качеству научных исследований и статистического анализа биомедицинских исследований (54, 59, 62, 68, 77, 98, 102, 111, 116, 128,129, 130, 149) Резуль таты и их обсуждение Ошибки при формировании г рупп для проведения исследования Еще в 18 столетии(20) было четко отмечено, что при оценке смертности (в нашем случае любого другого показателя), после удаления камней из мочевого пузыря, хирургам необходимо учитывать возраст пациентов. Сегодня такой подход является научно обоснованным и используется ВОЗ в качестве стандартизованного показателя смертности. В научных исследованиях, если проводится сопоставление базовых истинных показателей (смертность, летальность, осложнения) или суррогатных (изменения в содержании биомаркеров), это положение позволяет получить данные с высоким уровнем доказательности и избежать ошибок при дальнейшем статистическом анализе(10, 16, 18, 19, 47, 48, 58, 70, 78) Пример 1: в группе, которую исследователь выбрал в качестве группы оценки, было 24 случая, из которых 4 в возрасте моложе 40 лет. В контрольной группе: 37 случаев, из которых 8 были в возрасте моложе 40 лет. Простой расчет описательной статистики показывает, что в контрольной группе доля лиц моложе 40 лет составила 21,6%, в группе исследования – 16,7%. Автор справедливо 2 указывает на отсутствие статистической разницы, однако не приводит значений доверительного интервала, который выглядит следующим образом: в контроле – 9,8­38,2%, в исследуемой группе – 4,7­37,4 при ДИ = 95%. Доверительный интервал указывает на существенный разброс минимума и максимума, который связан, прежде всего, с малым числом случаев, при этом значительное перекрытие максимального значения (37,4%) в исследуемой группе среднего значения(21,6%) в группе контроля, указывает на гетерогенность и неадекватность сравниваемых групп по возрасту. Гетерогенность сравниваемых групп вносит существенную ошибку в любую дальнейшую статистическую обработку данных (140). Пример 2: в группе, которую исследователь выбрал в качестве группы оценки было 24 случая, из которых 7 были женского пола. В контрольной группе: из 37 случаев ­ 4. Автор не отмечает наличия разницы, вообще не комментирует эту часть. Однако простой расчет описательной статистики показывает, что в контрольной группе доля женщин составила 10,8% (при ДИ=95% ­ 3 ­ 25%), в группе исследования – 29,2% (при ДИ 95% ­ 13 ­ 51%). Приведенные значения ДИ сразу указывают на достоверное отличие этих групп по полу. Пример 3: в группе, которую исследователь выбрал в качестве группы оценки, 31 случай, из которых 3 имели тяжелую степень патологии. В контрольной группе: из 41 случая ­ 2. Автор не отмечает наличия разницы. Расчет по описательной статистике показывает, что в контрольной группе доля тяжелой формы патологии составила 4,9% (при ДИ 95% ­ 0,6 ­ 17%), в группе исследования ­ 9,7% (при ДИ=95% ­ 2,0 ­ 26%). И хотя в данном случае достоверного отличия нет, но разность в доле тяжелой патологии между группами составляет 4,8%, что приведет к изменению ошибки минимум на 4,8%, при сопоставлении других полученных данных. Особое значение оценка сравниваемых групп, до проведения статистического анализа, приобретает при ретроспективном исследовании (около 15% от всех анализируемых нами). Сравнение данных в виде оценки воздействия и контроля, т.е. в ретроспективном исследовании, чаще всего, рутинное (некое существующее) воздействие. В этих случаях исследователь обязан провести подробное сопоставление сравниваемых групп, выяснить их степень гетерогенности (140,142), и в последующем использовать адекватные методы статистического анализа, с учетом выявленной гетерогенности групп. Важность такого научного подхода для уменьшения ошибок была представлена в одной из 3 публикацией (106) по оценке заместительной гормональной терапии у женщин. Была обнаружена существенная гетерогенность групп и неправомочность их сопоставления. Естественно, что представленные в этом исследовании выводы оказались ошибочными. О дизайне исследования Еще одно важное условие научного исследования ­ это рандомизация(100). Рандомизация позволяет исключить искусственное влияние самого исследователя или учреждения, в котором проводится исследование, на конечные результаты(107,108). Рандомизация имеет существенное значение при проведении исследований по сопоставлению методов лечения, препаратов, диагностических тестов (133). В рандомизированных контролированных исследованиях (РКИ) участники (субъекты исследования) только случайным образом распределяются на группы, поэтому в таких исследованиях всегда присутствует статистическая ошибка первого типа, такие исследования являются не смещенными. РКИ ­ «золотой стандарт» при проведении медицинских исследований, касающихся оценки вмешательств (воздействий на субъекта исследования). При неслучайном распределении субъектов исследования по группам, такие исследования обозначают как « другие контролированные исследования», но не используют термин «рандомизированные». В таких исследованиях всегда существует так называемая систематическая ошибка, или по терминам статистики, такое исследование является смещенным, т.е. со смещенной дисперсией, при этом это смещение отражает интересы самого исследователя в характере полученных результатов(43,80,124,151). Классическим примером неприемлемой для научного исследования рандомизации является использование для рандомизации последней цифры даты рождения, или по дате поступления пациента в клинику. При РКИ в работе должны быть указаны критерии включения и исключения. При этом в описательной части обычно указывается число пациентов, которые не вошли в рандомизацию, так как не удовлетворяли этим критериям. Анализ диссертационных исследований по указанным выше критериям оценки их как РКИ позволил выявить только 2,5% (ДИ=95% ­ 0.1­ 13,2%) таких исследований. Следует отметить ряд исследований, при которых высокая степень доказательности может быть получена с использованием РКИ: сопоставление 4 эффективности и безопасности лекарственных препаратов, сопоставление эффективности и безопасности хирургического лечения, насколько эффективнее использование какого либо продукта питания, обогащенного каким–то веществом, по сравнению с обычным продуктом питания, воздействует на какие­то показатели, связанные со здоровьем (18, 58,59,126). Однако РКИ имеет ограничения, и в научном поиске имеется целый ряд ситуаций, при которых РКИ либо не нужны, либо нецелесообразны, либо их проведение не обосновано. Итак, РКИ не нужны при открытии явно успешного вмешательства для состояний со смертельным исходом. Например, никому не придет в голову оценивать безопасность использования парашюта при прыжках с самолета ( сравнивать безопасность использования парашюта при прыжках с самолета с таковыми без парашюта). РКИ нецелесообразно при неприемлемости по этическим соображениям, когда невозможно обеспечить надлежащий уровень защиты прав пациента, при необходимости проведения исследования с участием большого числа субъектов для подтверждения выраженной (статистически значимой) разницы. РКИ необоснованно в следующих случаях: при изучении прогноза (значительно лучше продольное когортное исследование), при оценке только диагностического или скринингового теста (более адекватно поперечное исследование), при изучении качества медицинского воздействия без четких критериев его успешности (например, сравнение терапевтического и хирургического методов аборта, в таких случаях лучше проводить так называемые качественные исследования). Не использование рандомизации неравнозначно отказу от научного подхода. (17,126). Отметим, что в значительном числе в диссертационных исследованиях вообще не дается характеристика самого исследования или дается неправильная его характеристика, поэтому считаем необходимым напомнить основные характеристики научных исследований в медицине(90, 100). Первичные исследования экспериментальные, делят клинические на три испытания, вида (или экспертные. категории): Вторичные исследования: несистематические обзоры, систематические обзоры, мета­ аналитические, клинические рекомендации, анализ принятия решений, клинико­ экономический анализ. Кроме того, первичные исследования по своей внутренней характеристики могут быть: сравнительным параллельным, парным, слепым одиночным, двойным 5 слепым, перекрестным, плацебо контролируемым, факториальным, когортным, случай­контроль, поперечным, продольным, описание случая. По характеру получения данных – проспективным и ретроспективным. Сравнительное параллельное: субъекты исследования получают разные виды лечения в один и тот же промежуток времени, результаты анализируются путем сравнения групп. Парное сравнительное исследование: субъекты получают разные виды лечения, подбираются парами с одинаковыми характеристиками (возраст, пол и т.д), результаты анализируются по различиям внутри пар. Сравнительное моногрупповое – оценивается состояние пациента, до и после воздействия, результаты анализируются с учетом изменений у одного и того же пациента Слепое одиночное, основное условие пациент (субъект исследование) не знает, какое лечение он получает, при двойном слепом ­ ни исследователь, ни пациент, не знают, кто и какое лечение получал. Перекрестное – воздействие (например, лечение) одинаково в опытной и контрольной группах, в случайном порядке чередуются с промежутками без воздействия (лечения). Плацебо контролируемое – контрольная группа получает плацебо, которое невозможно отличить от исследуемого препарата. Факториальное – оценка влияние более чем одного фактора и их совокупности. Когортное – исследование в разных группах, отличающихся воздействием какого то фактора (агента) на протяжении достаточно длительного промежутка времени (обычно годы). Исследование случай­контроль: пациентов с определенным заболеванием или расстройством (это и есть случай) сравнивают с контрольными пациентами (с другим заболеванием), или представителями из общей популяции. Обычно используется для оценки этиологических факторов, но мало пригодно для оценки эффективности лечения. Основной недостаток – высокий уровень систематической ошибки, т.е. необоснованное включение в группу «случай». Поперечное исследование: данные собираются в определенный момент, хотя могут относиться к событиям в прошлом (например, интервью, анкетирование) 6 Исследование по описанию случая (или небольшой серии случаев): описание с целью демонстрации чего­то, например побочного действия или редкого заболевания. В иерархии степени доказательности исследования располагаются следующим образом (по убыванию): мета­аналитические исследования и систематические обзоры, рандомизированные контролированные исследования с полученными доверительными интервалами, не выходящими за рамки клинически значимого эффекта (РКИ с определенным результатом), РКИ с неопределенным результатом, т.е. с полученными доверительными интервалами, выходящими за рамки клинически значимого эффекта, когортные, исследования «случай­ контроль», поперечные исследования, исследования по описанию случая. (63, 68, 69, 130,131). Попутно отметим, что этическая часть научных медицинских исследований должна быть обязательно коротко отражена в диссертационной работе. Это касается, прежде всего, добровольного согласия субъекта исследования на дополнительные любые оценки забранного у него биологического материала, использования препарата, даже зарегистрированного, но применение которого планируется по новому назначении, характере хирургического воздействия и т.д. К характ ерист ике предмет а и объект а исследования В обычной практической ситуации научные открытия встречаются достаточно редко, поэтому большинство научных исследований строится на предположениях о вероятно правильном воздействии и/или направлении описания явления(126). К сожалению, в ряде диссертационных работ встречается терминология, указывающая на открытие, например, «выявить закономерности», при этом работа не содержит данных, доказывающих наличие закономерности, имеются данные лишь характеризующие потенциально возможную взаимосвязь. Имеется недостаточная четкость в понимании объекта и предмета исследования. Следует напомнить, что процессы объективной (истинной) действительности имеют внутреннюю сущность и явления, которые отражают разные стороны предметов научного исследования. Предмет выражается в сущности, т.е. главной характеристики самого предмета, его внутренней составляющей, его основы, его глубинных процессов. Явления есть внешние выражения сущности, внешняя форма, в которой предметы и процессы 7 проявляются. Сущность предмета скрыта, ее невозможно познать простым созерцанием, в отличие от явлений. Явления, как внешние формы проявлений предмета, почти всегда не позволяют точно оценить внутреннюю сущность предмета. Оценка явлений характеризуется разной степенью приближения к сущности предмета, иначе говоря, разной степенью достоверности по отношению к сущности предмета. Научное исследование и проводится для того, чтобы приблизить достоверную оценку сущности предмета по описанию и анализу внешних форм и явлений. Процесс познания ­ это постоянное описание и анализ внешних явлений, позволяющих с разной степенью приблизится к сущности предмета. Объектом научных исследований в медицине, в большинстве случаев, являются явления и процессы, лежащие в основе взаимоотношений, взаимодействий и/или свойств предмета (ов) исследования (например, органов пищеварения). Предметом исследования могут быть, например печень, или человек, или пациент, или группа, или популяция и т.д. Крат кая характ ерист ика област ей клинических исследований(16, 18, 22, 30). Лечение – проверка эффективности и безопасности лекарственных препаратов, хирургических вмешательств, альтернативных методов лечения и других вмешательств. Предпочтительный дизайн исследования – рандомизирванное контролируемое испытание. Диагностика – оценка параметров нового диагностического теста, прежде всего достоверности (насколько тесту можно доверять), надежности (можно ли получить такие же результата при повторном использовании теста) и отношения правдоподобия. Предпочтительный дизайн исследования – поперечное исследование, при котором проводят новый тест и тест сравнения, выбирая наиболее точный – «золотой стандарт». Скрининг(скрининговая диагностика) – оценка тестов, которые предполагается использовать на больших группах людей (или животных) для выявления расстройств на ранней (как правило, бессимптомной стадии). Предпочтительный дизайн исследования – поперечное исследование на репрезентативной выборке (104). Прогноз – разработка показателя, который позволяет определить вероятность того, что произойдет у пациента с ранней стадией заболевания в 8 последующем. Предпочтительный дизайн исследования – продольное когортное на протяжении длительного промежутка времени. Этиология – определение взаимосвязи между гипотетически неблагоприятным фактором и развитием заболевания. Предпочтительный дизайн исследования – когортное. Несколько замечаний по г ипот езе исследования Фактически гипотеза исследования позволяет оценить общее назначение самого исследования, т.е. получить ответ на вопрос, зачем было проведено исследование. Гипотеза должна быть обязательно представлена в любом исследовании, тем более диссертационном (126). При этом давно определено основное требование к формулированию гипотезы научного исследования, это гипотезо ­ дедуктивный подход, т.е. выдвижение опровержимой гипотезы с последующей ее проверкой. Такой подход в статистике носит название нулевой гипотезы, иначе говоря, допустим, что разницы нет, давайте опровергнем это утверждение (68, 70, 74, 86, 101, 116). В анализируемых нами диссертациях ни в одном случае не использовались указанные принципы формулировки гипотезы исследования. Гипотеза самого диссертационного исследования в целом отличается от статистической гипотезы, но должна отражать основную суть тех нескольких статистических гипотез, которые формулируются по ходу самого исследования при сопоставлении различных групп. Опровергая статистические гипотезы, мы получаем доказательства для оценки гипотезы самого научного исследования. Ошибки при оценке равнозначност и г руппы исследования и г руппы сравнения Такие ошибки носят название систематических (26, 73, 87, 88, 89, 91, 96). Систематическая ошибка – это любой фактор, который влияет на выводы и искажает сравнительную оценку(127, 139). Систематическая ошибка возникает при отборе в группы (selection bias), в результате возникают различия в группах. Такая ошибка относится к ошибке рандомизации. Систематическая ошибка может быть следствием различий в уходе за пациентами, при оценке лечения (performance bias), т.е. имеются различия в группах помимо оцениваемого вмешательства. Систематическая ошибка смещения (exclusion bias): различия в результате исключения субъекта в процессе исследования. Систематическая 9 ошибка исхода (конечного результата) (detection bias): систематические различия в оценке исходов в группах. Пример 4. Автор сравнивал пациентов из одной группы с бронхиальной астмой, получивших один вид лечения (группа 1), с группой пациентов с бронхиальной астмой, получивших другой вид лечения (группа 2). Автор установил, что лечение, применявшееся в 1­й группе, статистически значимо более эффективно, чем лечение во 2­й группе. При этом автор утверждал, что исследование рандомизированное. Пояснение о том, как осуществлялась рандомизация, отсутствовало. В процессе последующего общения с автором выяснилось, что принцип рандомизации был следующий: если пациенты находились в палатах от №1 до № 5, они включались в 1­ю группу, а если в палатах от №6 до № 10 – во 2­ю группу. На первый взгляд, действительно имеется случайное распределение больных в 1­ю или 2­ю группу. Увы, это типичный пример систематических ошибок, данное исследование в действительности не является рандмизированном. Автор допустил ошибку еще на этапе отбора в группы. Как и следовало ожидать, в палатах № 1­4 был один лечащий врач­ординатор, а в палатах № 5­10 – другой. Оба врача отличались по опыту, знаниям и квалификации. Разумеется, это сказывалось на результатах лечения и являлось систематической ошибкой. При распределении пациентов на 1­ю и 2­ю группы следовало использовать стандартные надежные методы рандомизации, например, метод случайных чисел (компьютерная программа для рандомизации) или запечатанных конвертов. Ошибки сопост авления г руппы Наиболее сложной задачей в клинических исследованиях является отбор контрольной группы. Особое значение это имеет при когортных исследованиях и исследованиях «случай­контроль». Для когортных исследований необходимо соблюсти однородность групп по многочисленным характеристикам: возраст, пол, социальный статус, сопутствующие заболевания, особенности питания. Однако, контроль, при когортных исследованиях, дополнительно уточняется для выравнивания исходных различий с использованием довольно сложных специальных методов статистического анализа (143). Использование таких подходов крайне важно в научных исследованиях по онкологическим заболеваниям при оценке воздействия факторов индукции или подавления опухолей (48, 105). При исследованиях «случай – контроль», особенно 10 ретроспективных, наиболее часто систематические ошибки возникают на этапе решения вопроса о включении пациента в группу «случай». Ошибки в оценке эффект ивност и лечения Пример 5. Автором оценивалась эффективность остановки кровотечения препаратом А Автор приводит следующие данные: в группе с препаратом. А вынужденное оперативное вмешательство потребовалось в 5 случаях из группы в 23 пациентов, в группе сравнения (без препарата А) в 5 случаях из 13 пациентов. Автор делает вывод о наличии у препарата А эффективности. Как правильно оценить эффективность лечения, и будет ли препарат эффективным при строгой оценке? Основная идея по проверке гипотезы заключается в проведении сравнения наблюдения с ожиданием (предположением). "Ожидаемый" означает нечто предполагаемое (вероятное), которое должно достоверно подтверждать наше утверждение, которое мы подвергаем тестированию. В случае лекарственного средства ­ его эффективность. Мы предполагаем, что лекарственное средство эффективно. Но насколько оно эффективно? Насколько оно эффективнее плацебо или известного ранее препарата? В любой тестируемой гипотезе имеется некоторое количество (биты) информации, которую мы не смогли определить точно на основании измерений. Говоря статистическим языком, именно эта часть информации влияет на разброс результатов и нужно оценить значение этого разброса, т.е. знать значение стандартной дисперсии (среднеквадратичное отклонение). Кроме того, существуют два варианта оценки самого исследования, посвященного лекарственному средству (102). Первый вариант: общая оценка достижения цели исследования. Оценка достижения цели исследования (Intention to treat analysis –ITT) осуществляется с включением в анализ всех пациентов, начавших лечение (включенных в протокол лечения), вне зависимости от того, закончил пациент все лечение или выбыл из исследования на каком­то этапе. При этом все выбывшие из исследования пациенты рассматриваются как случаи с неблагоприятным эффектом. Второй вариант: анализ по протоколу (per protocol analysis­ PPA) проводится с включением только пациентов, полностью закончивших протокол лечения. ITT 11 оценивает степень ответа на лечение у всех начавших прием препарата пациентов. РРА оценивает степень ответа на лечение при завершении протокола (курса) лечения (134). В указанном выше примере не определено, какой вариант анализ ITT или PPA, использовал автор, следовательно, невозможно и объективно оценить результаты. Чаще всего эффект препарата оценивается в долевых значениях или процентах. При этом оценка доли сопровождается превращением данной величины в особую характеристику. По положениям математической статистки эта величина требует очень осторожной оценки (1, 55, 126). Особенностью является малая ценность использования средних значений и ошибки средней величины. Более мощным и более достоверным является расчет доверительного интервала (35,36). Доверительный интервал (confidence interval) используется для оценки меры влияния лечения (препарата) и показывает диапазон, в пределах которого и будет находиться истинный результат лечения с заданной вероятностью (достоверностью). Вероятность обычно устанавливается в пределах +95%. Доверительные интервалы предпочтительны по сравнению с «p­значением» (64), поскольку они сразу показывают диапазон возможного влияния по величине данных самого доверительного интервала. Доверительные интервалы помогают быстрой интерпретации клинических данных, отражая верхние и нижние границы вероятного значения любого истинного результата. Однако, погрешность измерения должна быть оценена прежде, чем доверительные интервалы могут интерпретироваться. Даже очень большие выборки (более 100 вариант) и очень узкие доверительные интервалы могут вводить в заблуждение, если они исходят из результатов с ошибками. Кроме того, при проведении медицинских исследований следует помнить простое аксиоматическое правило статистики: приблизительно не менее одного случая из двадцати будет связано с некоторым дополнительным, неучтенным, случайным фактором. Эта закономерная случайная ошибка носит название ошибки первого порядка «type I error». Это – огорчающая исследователя, но неизбежная особенность статистического анализа (оценили ли результаты с использование доверительных интервалов или по критерию p). При этом исследователь никогда не может точно определить, который результат из любого набора данных является ошибочным (83). 12 Следует помнить и об ошибке второго порядка «type II error», которая состоит в том, что заключение о незначимом отличии в группах (исследуемый препарат и контроль), на основании отсутствия значимых отличий, особенно при малом числе вариант, может быть ложным.. Незначимое отличие по доверительным интервалам просто сообщает нам, что наблюдаемая разность в группах (по эффективности или безопасности) является недостоверной. Однако, незначимое отличие не означает отсутствие эффекта. Небольшие выборки будут часто демонстрировать отсутствие или незначительную разницу, это указывает на наличие ошибки в выборе адекватного числа данных (размер или мощность выборки – см ниже). Просто мы неспособны отклонить такую возможность. Отметим, что для учета ошибки второго порядка более точным является использование именно доверительного интервала, а не оценки по значению «р» (7, 55, 64). В указанном выше примере, как впрочем, и в большинстве диссертационных исследований(85% из 40) не указываются доверительные интервалы. Вернемся к примеру 5, и проведем расчет с доверительным интервалом при достоверности 95%. В группе сравнения, без препарата А, вынужденное оперативное вмешательство потребовалось в 5 случаях из группы в 13 пациентов, что составляет 38,5% с колебаниями +95% ­70,3 и – 95% ­ 9,9%. Обычно это обозначается следующим образом: средняя ­ 38,5% (ДИ (или CI)при 95%=70,3­ 9,9) В экспериментальной группе (с препаратом А) в 5 случаях из 23 пациентов, что составляет 17,9% с колебаниями +95% ­ 38,8, и ­95% ­ 4,4%, т.е. средняя ­ 17,9% (ДИ при 95% = 38,8­4,4) Перекрытие максимального значения опытной группе со средним значением группы сравнения указывает на отсутствие значимого эффекта у препарата. Автор же, как уже говорилось, делает вывод о наличии у препарата А эффективности. Проверим полученное отсутствие эффекта препарата А с помощью стандартного подхода на основе четырехпольной таблицы. 13 Таблица 1 Представление данных примера в виде четырехпольной таблицы Число Число пациентов с пациентов без в группе операций Группа с Общее число операции 5 18 23 5 8 13 препаратом А Группа без препарата Выделены так называемые четыре поля Таблица 2 Результаты статистического анализа данных таблицы 1 с использованием программ Statistica 5,0 2 x 2 Table (temperat.sta) Row Column 1 Column 2 Totals Frequencies, row 1 Percent of total 5 13,9% Frequencies, row 2 Percent of total 22,2% 5 13,9% Column totals Percent of total 8 36,1% 18 50,0% 10 27,8% 13 23 63,9% 26 72,2% 36 36 Chi­square (df=1) 1,16 p= ,2820 36 V­square (df=1) 1,13 p= ,2887 36 Yates corrected Chi­square 0,47 p= ,4911 36 Phi­square 0,03216 26 36 Fisher exact p, one­tailed 0,03216 p= ,2435 36 two­tailed 0,03216 p= ,4402 36 McNemar Chi­square (A/D) 6,26 p= ,0123 36 Chi­square (B/C) 0,31 p= ,5791 36 Как следует из представленной таблицы достоверность по точному показателю Fisher exact p, tow­tailed составила величину 0,4402 для группы с препаратом, т.е. действие препарата не эффективно 14 Даже если результат (влияние) оценен как вероятно реальный и достаточно большой, чтобы быть клинически важным, остается неуточненным один существенный вопрос: насколько справедливы полученные результаты применительно к другим группам пациентов? Ни доверительные интервалы, ни оценка по значению p, не могут дать ответа на этот существенный практический вопрос (61). Ответить на поставленный вопрос позволяют другие методические статистические приемы, являющиеся частью доказательной медицины, которые представлены ниже. Риск (вероят ност ь возникновения) Relative Risk (RR) относительный риск ­ вероятность успеха оцениваемого воздействия по специфическим выбранным показателям в сравнении с вероятностью успеха плацебо или контрольного (сравниваемого) препарата. Заметим, что англоязычный термин «риск» в данном контексте скорее дополнительно разъясняет вероятность и относится как к положительным показателям (эффективность), так и к отрицательным (безопасность). Relative Risk Reduction (RRR) Уменьшение относительного риска ­ уменьшение неблагоприятного действия препарата, выраженное в отношении к неблагоприятному действию плацебо. Рассчитывается по простой формуле ­ [(EER­CER)/CER], где – EER (experimental event rate) экспериментальная (тестируемая) величина воздействия и CER – контрольная (в контроле, в группе плацебо) величина воздействия (CER ­ control event rate) Absolute Risk Reduction (ARR) Absolute Risk Increase (ARI). Уменьшение(ARR) или увеличение(ARI) абсолютного риска ­ оценка актуальной арифметической разницы (пропорции или доли) между тестируемым препаратом и сравниваемым (плацебо, контроль) т.е. EER­CER Number Need to Treat (NNT= 1/ARR) Number Need to Harm (NNH=1/ARI) Число пациентов (больных) необходимое для лечения (ЧБЛ или ЧПЛ) ­ величина обратная ARR. NNT ­ число пациентов, которым необходимо провести специфическое воздействие (лечение и т.д.) для получения полного конечного результата у одного пациента. NNH­ число пациентов, которым проводится специфическое воздействие (лечение и т.д.), c неблагоприятным эффектом у одного из них. Характеристика риска и пользы может быть рассчитана по соотношению NNH/NNT. Достоинства 15 числового показателя NNT: прост в интерпретации, напрямую связан с результатами, более показателен по сравнению с долей, прост в расчетах, показателен для обоснования и диалога с организаторами здравоохранения (закупка), позволяет объективно оценить риск и пользу по соотношению NNH/NNT ( 125). Для более подробного знакомства с использованием NNT отсылаем к нашей недавней публикации (3). Ошибки в оценке диаг ност ических мет одов Пример 6. Автор сопоставил диагностику рака шейки матки и обнаружил, что при использовании цитологического метода было выявлено 30 случаев из 43, при кольпоскопии 38 из 43. Автор указывает, что чувствительность кольпоскопии выше цитологического метода. Проведем дополнительный анализ полученных автором данных. Прежде всего, можно провести простой расчет по четырехпольной таблице, как и для эффективности лечения Таблица 3 Статистический анализ данных примера 6 2 x 2 Table Row Column 1 Column 2 Totals Frequencies, row 1 Percent of total 30 34,9% Frequencies, row 2 Percent of total Chi­square (df=1) 15,1% 38 44,2% Column totals Percent of total 13 50,0% 5 5,8% 68 79,1% 43 43 50,0% 18 20,9% 86 86 4,5 p= ,0340 86 V­square (df=1) 4,44 p= ,0350 86 Yates corrected Chi­square 3,44 p= ,0635 86 Phi­square 0,0523 18 86 16 Fisher exact p, one­tailed 0,0523 p= ,0308 86 two­tailed 0,0523 p= ,0616 86 McNemar Chi­square (A/D) 16,46 p= ,0000 86 Chi­square (B/C) 11,29 p= ,0008 86 Обратим внимание на наиболее мощный по достоверности показатель Fisher exact p, tow­tailed, этот показатель составляет р=0,0616 и 0,0523, т.е. различия в частоте выявления патологии не значимы. Что же такое чувствительность метода? Действительное наличие патологии ДА имеется Нет патологии Совпадение теста Ложно Диагностический + тест положительный и патологии Положительное положительны е предикторное Значения теста значение Диагностический ­ Ложно тест отрицательны е Совпадение отрицательный значения теста теста и патологии Чувствительность Рис 1 Схема, демонстрирующая суть чувствительности метода Краткая характеристика основных показателей диагностических тестов представлен в таблице 4. 17 Таблица 4 Краткая характеристика основных показателей диагностических тестов Насколько хорош т ест для Чувст вит ельност ь вы явления пат олог ии при положит ельном значении Насколько хорош т ест для Специфичност ь исклю чения пат олог ии при от рицат ельном значении Прог ност ическая ценност ь положит ельная Прог ност ическая ценност ь от рицат ельная Индекс т очност и Какова вероят ност ь у конкрет ног о пациент а наличия пат олог ии при положит ельном результ ат е Какова вероят ност ь от сут ст вия пат олог ии при от рицат ельном т ест е Какая част ь всех т ест ов дала правильны е результ ат ы Насколько более вероят но, чт о От ношение правдоподобия т ест будет положит ельны й у подобия положит ельное человека с пат олог ией по сравнению со здоровы ми Интерпретация теста для конкретного случая основана на оценке правдоподобия с учетом претестовой вероятности наличия патологии и постестовой вероятности (5, 11, 123). Отношение правдоподобия при положительном тесте поводится по простой формуле: чувствительность/1­специфичность. Вернемся к примеру 6. Отношение правдоподобия для цитологического метода составила 2,3 , для кольпоскопии – 8,0 Интерпретация отношения правдоподобия (LR): • LR=1 указывает на отсутствие диагностического значения • LR+ >10 указывает на высокую диагностическую ценность положительных значений 18 • LR­ <0.1 указывает на высокую диагностическую ценность отрицательных значений теста Однако следует учитывать, с какой вероятностью необходимо обеспечить диагностику. Расчет отношения правдоподобия показывает низкое качество цитологии и лишь удовлетворительное кольпоскопии для диагностики рака шейки матки (105). Приводим номограмму (рис 2) для оценки диагностических тестов (52, 128). Номограмма Сакетта LR+ = 10 Претестовая LR вероятность Правдопод. Посттестовая вероятность Рис 2. Номограмма оценки диагностических тестов, предложенная Fagan TJ, в модификации Sackett DL с соавторами. Приведем пример, описанный в литературе для пояснения оценки диагностических тестов (65). Известно, что средняя вероятность железодефицитной анемии (ЖДА) составляет 5% или в терминах диагностических исследований эта претестовая (априорная) вероятность ЖДА составляет 0,05. Нужно оценить диагностическое исследование для выявления ЖДА на основе определения ферритина в крови. Предположим, что отношение правдоподобия для уровня ферритина между 18 и 45 пг/л равно 3,0. Тогда вероятность выявления анемии будет 0,05 х 3,0 = 0,15 (или 15%). Этот показатель называют посттестовой (апостериорной) вероятностью. 19 Номограмма Сакетта LR+ = 10 Б А Претестовая LR вероятность Правдопод. Посттестовая вероятность Рис 3. Номограмма оценки диагностических тестов, предложенная Fagan TJ, в модификации Sackett DL с соавторами, с примером оценки диагностического теста. На номограмме (рис 3) показаны две линии, исходящие из претестовой вероятности 10% (например, частота выявлении гастродуоденальных язв в популяции). Линия А указывает на отсутствие диагностического значения теста для выявления патологии с такой претестовой вероятностью. Линия Б указывает на положительные характеристики теста. При этом следует обратить внимание, что эта линия проходит через отношение правдоподобия более 10. Избыт очное использование коэффициент а корреляции В большинстве исследований, особенно по хирургическим специальностям, чрезмерно оценивается значимость коэффициента корреляции в качестве основы для принятия решения о наличии взаимосвязи признаков, без дополнительной проверки такой взаимосвязи и оценки степени разброса сравниваемых показателей. Частота использования коэффициента корреляции в диссертациях составляет ­100%, при этом корреляция на уровнях r=0,23 и r=0,25 явилась основой для выводов (15% работ, при ДИ95% = 5,7­29,8%). Следует напомнить, что основываясь на коэффициентах корреляции, мы не можем ст рог о доказать причинной зависимости между переменными, однако 20 можем определить ложные корреляции, т.е. корреляции, которые обусловлены влияниями "других", остающихся вне вашего поля зрения факторов (100, 116, 128, 151). Очевидно, что выбросы (выскакивающие варианты) могут не только искусственно увеличить значение коэффициента корреляции, но также реально уменьшить существующую корреляцию. Обычно считается, что выбросы представляют собой случайную ошибку, которую следует контролировать. К сожалению, не существует общепринятого метода автоматического удаления выбросов. Понятно, что чем больше число анализов вы проведете с совокупностью собранных данных, тем большее число значимых (на выбранном уровне) результатов будет обнаружено чисто случайно. Например, если мы вычисляем корреляции между 10 переменными (имеем 45 различных коэффициентов корреляции), то можно ожидать, что примерно два коэффициента корреляции (один на каждые 20) чисто случайно окажутся значимыми на уровне p менее 0.05. Поэтому всякая хорошая мера взаимосвязи должна принимать во внимание полную изменчивость индивидуальных значений в выборке и оценивать зависимость по тому, насколько эта изменчивость объясняется изучаемой зависимостью (116). Если, например, обнаруживается корреляция коэффициента интеллекта с полом, то можно получить положительный коэффициент корреляции, означающий, что женщины интеллектуальнее, чем мужчины. Однако, если переменные, относящиеся к номинальной шкале, не являются дихотомическими, вычисление коэффициентов ранговой корреляции не имеет смысла. Если четко следовать положениям статистики, разделяющих ее на описательную и аналитическую, то именно аналитическая статистика представляет методы, с помощью которых можно объективно выяснить является ли взаимосвязь (корреляция) выборок случайной или нет, например: таблицы сопряженности, восстановления регрессий, факторный анализ, кластерный анализ, дисперсионный анализ, ковариационный анализ (116). . Нет очное понимание сут и ст ат ист ическог о анализа В научных клинических исследованиях статистический анализ имеет прямое отношение к переменным величинам. Переменные ­ это то, что можно 21 измерять, контролировать или что можно изменять в исследованиях. Переменные отличаются, прежде всего, шкалой измерения. Часто встречаются переменные в клинических исследованиях представлены в таблице 1. Таблица5 Наиболее часто встречающиеся переменные в диссертационных клинических исследованиях Переменные Их наиболее вероятное кодирование Пол 1 = мужской 2 = женский Семейное положение 1 = холост/не замужем 2 = женат/замужем 3 = вдовец/вдова 4 = разведен (а) Курение 1 = некурящий 2 = изредка курящий 3 = интенсивно курящий 4 = очень интенсивно курящий Коэффициент качества жизни Возраст, лет Температура тела поC 0 Напомним о сути представленных в таблице переменных. Перед проведением статистического анализа необходимо ответить на ряд вопросов. Каков характер заданных условий и, прежде всего: К какой статистической шкале относится данная переменная? Если речь идёт о переменных с интервальной шкалой, то подчиняются ли они закону нормального распределения? Являются ли сравниваемые выборки зависимыми или независимыми? 22 Напомним. Различают следующие типы шкал: номинальная, порядковая (ординальная), интервальная, относительная (шкала отношения). Соответственно, имеем четыре типа переменных: номинальные, порядковые (ординальные), интервальные и относительные. Подчеркнем следующее. Номинальные переменные используются только для качественной классификации. При этом невозможно определить количество или упорядочить классы таких переменных. Например, вы сможете сказать, что 2 пациента различимы по переменной А (например, индивидуумы принадлежат к разному полу). Пол, национальность, цвет, город ­ это номинальные или категорийные переменные. Возможности статистической обработки номинальных переменных очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной пол или семейное положение, совершенно бессмысленен. Переменные, относящиеся к номинальной шкале, обычно используются для внутренней группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. Порядковые переменные (их так же называю ординарными) позволяют ранжировать варианты (объекты), при этом качество выраженной данной переменной позволяет оценить варианту по степени этого качества. Однако порядковые переменные не позволяют провести оценку самой степени выраженности, иначе ответить на вопрос "на сколько больше" или "на сколько меньше". Типичный пример порядковой переменной в указанной выше таблице ­ курение. Курение сортировано в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий — больше, чем умеренный курильщик и т.д. При этом эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Статистический анализ таких переменных ограничен: частотный анализ, медианы. В некоторых случаях возможно вычисление среднего значения таких переменных, которое проводится в особых случаях, при четко заданной размерности этих переменных. Корреляция между такими переменными осуществляется ранговым методом. Обычным является использование для таких переменных непараметрических тестов, формулы которых оперируют рангами. Интервальные переменные позволяют упорядочивать объекты измерения, и численно выразить и сравнить различия между ними. Примером является температура, измеренная в градусах Цельсия, такое измерение образует 23 интервальную шкалу. Такая шкала позволяет оценить температуру в 40 градусов как более высокую, чем температура 30 градусов. Более того, можно утверждать, что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов. Рассмотрим теперь некий коэффициент качества жизни (99). Не только его абсолютные значения отображают порядковое отношение между респондентами, но и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Иванова коэффициент равен 50, у Петрова — 100 и у Сидорова — 150, можно сказать, что Петров в сравнении с Ивановым имеет более высокое качество жизни, настолько же насколько Сидоров в сравнении с Петровым (а именно — на 50 единиц). Однако, основываясь только на том, что значение этого коэффициента у Иванова в два раза меньше, чем у Петрова, нельзя сделать вывод, что Сидоров имеет качество жизни вдвое выше, чем Иванов. Такие переменные, у которых разность (интервал) между двумя значениями имеет эмпирическую значимость, относятся к интервальной шкале. Эти переменные можно анализировать любыми статистическим приемами без ограничений: среднее значение является полноценным и обычным статистическим показателем для характеристики таких переменных. Относительные переменные похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их особой чертой является наличие определенной, так называемой, точки абсолютного нуля, для этих переменных являются обоснованными утверждение типа: Х в два раза больше, чем У. Переменные со шкалой отношений. Примером переменной, относящейся к такой шкале, является возраст: если Иванову 30 лет, а Петрову 60, можно сказать, что Иванов вдвое младше Петрова. К переменным со шкалой отношений относятся все интервальные переменные, которые имеют нулевую точку. Поэтому переменные, относящиеся к интервальной шкале, как правило, имеют и шкалу отношений. При использовании статистических программ для обработки данных, относящихся к интервальным, или переменным со шкалой отношений, их различия несущественны. После оценки характера переменных непременным условием является оценка нормальности распределения. 24 "Приведенные описания экспериментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, что большинство применений критерия Стьюдента, ... строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений соответствующих случайных величин. " (4). Эта цитата как нельзя лучше демонстрирует значение оценки самого распределения переменных. Чем может помочь ст ат ист ика, чт обы научное исследование было успешным на эт апе ег о планирования? Следует сказать, что существуют специальные методы статистики для планирования исследований. Один из таких методов – расчет должной мощности выборки (35, 102, 106, 116). Напомним основные характеристики статистического анализа Необходимо ценить гипотезу исследования. При этом могут быть две гипотезы: гипотеза с предположением для ее принятия (НО) и гипотеза с предположением для ее отклонения (Н1). Выше были упомянуты неизбежные две ошибки при любой выборке: ошибка первого типа Type I Error – α и ошибка второго типа Type II Error – β, их соотношение для оценки гипотезы представлено в таблице 6. Таблица 6 Соотношение ошибок первого и второго типа для оценки гипотезы исследования Действительная ситуация по справедливости гипотез HO H0 H1 Объективное Type II Error принятие Принятие решения H1 Type I Error Объективное отклонение Обычным в статистических публикациях и книгах является обсуждение ошибки первого типа, которая должна быть менее 0,05 (это заложено в показатель р). Однако, ошибка второго типа может быть любой, для ее оценки 25 лучшим является как можно меньшая величина этой ошибки. Потому, что мощность выборки зависит, прежде всего, от этого типа ошибки и эквивалентна значению 1­ β. Таким образом, мощность можно выразить количественно, прежде всего, само значение мощности в биомедицинских исследованиях должно быть не менее 0,8 или 80% для получения высокой степени уверенности в принятии или отклонении гипотезы. В отдельных исследованиям мощность может быть на уровне 60%, но не менее. Мощность это степень статистической вероятности отклонения нулевой гипотезы в тесте, когда она (гипотеза) действительно несправедлива (ложная). Мощность критерия определяется заданной нулевой зависимостью по альтернативной гипотезе в сравнении с тестируемой (проверяемой). Так как чаще всего в клинических исследованиях используются долевые значения, или пропорции, разберем такой вариант для определение мощности и последующего расчета необходимой численности выборки. Мощность можно оценить на основе chi­квадратных тестов для обнаружения различий данных величина между двумя независимыми пропорциями, учитывая уровень различий и размер (численность) выборки. Для точных оценок (Fisher and mid­P) вычисляются ожидаемая мощность (называемая также общая, средняя или безусловная мощность) (100, 116), которая является особенно подходящей, когда исследование разрабатывается и планируется. Вычисление мощности точных тестов медленный процесс, особенно если необходимы образцы выборки большого размера. Образцы выборок условно определяются как A и B, и должна быть известна необходимая для расчета пропорция – известное значение или принятая исследователем пропорция в образце B. Необходимо определить и величину различия, которая наиболее вероятна, т.е. ожидаемая величина в образце выборки А. При указанных условиях можно определить необходимую численность опытной группы (А) требуемой для достоверного отклонения или принятия статистической гипотезы, с учетом выбранной статистической мощности. Отметим еще раз, что мощность ­ это степень статистической вероятности отклонения нулевой гипотезы в тесте, когда она (гипотеза) действительно несправедлива (ложная). Мощность теста имеет прямое влияние на расчет объема выборки. 26 Поясним сказанное на примере. Расчет мощности выборки при заданных долевых значениях эффективности в группе с препаратом А (группа А) и в группе сравнения (группа В – плацебо или препарат сравнения). Удается выяснить, по опубликованным клиническим испытаниям препарата сравнения (группа В), что уровень ремиссии или очевидное улучшение, в соответствии с аналогичными данному исследованию суррогатными критериями, также базирующимися на клинических и биохимических симптомах, варьировали от 60 до 90%. Таки образом, расчетная средняя величина эффективности в группе с препаратом сравнения составляет 75%, при этом имеющиеся опубликованные данные свидетельствуют о минимальном отклике на аналог (препарат сравнения) на уровне 35­40% (нижняя граница эффективности аналога). Установив средние значения эффективности препарата сравнения ­ 75% и нижнюю границу эффективности 40%, с учетом теоретически возможной верхней граници 95%, можно четко задать условия для группы В (препарат сравнения): среднее значение эффективности 70%, доверительный интервал колебаний в 25%. Таким образом, если препарат А (мы хотим оценить именно этот препарат) аналогичен по эффективности препарату сравнения, то могут иметь место те же колебания эффективности, но не ниже 40% (нижняя граница эффективности), мы можем определить соотношение средней эффективности в 0,75 и нижний предел эквивалентности ­ 0,4. Далее проведем расчет с использованием программ (Statistica, SPSS или любой другой, имеющий соответствующий модуль), мы использовали программу WINPEPI, при введении заданных условий в модуль программы ­ Power of test for comparison of proportion, получили следующие результаты, которые представлены в таблице 8. 27 Таблица 7 Результаты расчета мощности исследования Таким образом, для расчета численности выборки в данном исследовании можно установить следующие условия: Ошибка a I типа (неверное заключение об эквивалентности) фиксируется на уровне 2,5%, а b II типа (необнаружение фактической эквивалентности) на уровне 20%. При этом расчет объема выборки основывается на следующих предположениях: пропорциональность (уровень отклика) две независимые группы разного объема численности односторонний тест эквивалентности нижний предел эффективности: более 40% ожидаемая разница,: 25,0% (предполагаемая эквивалентность) ошибка I типа: a = 2.5% ошибка II типа: b = 20% (мощность 80%). Вводим эти данные в программу WINPEPI, в модуль программы ­ Sample size, S2 – Proportion equivalency, получаем следующие результаты: 28 СOMPARE2 Version 1.66 ======================================== ­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­ Sample sizes required for testing a difference ­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­ DATA: Tests for equivalence of proportions Significance level = 2.5% (1­tailed) Power = 80% Ratio A:B = 0.5 Negligible difference defined as 0.25 Proportion in B = 0.75 Proportion in A = 0.7 RESULTS: REQUIRED SAMPLE Study hypothesis: B is not materially higher: 153 (102 in sample A and 51 in sample B). Study hypothesis: A is not materially higher: 86 (57 in sample A and 29 in sample B). При проверки гипотезы в виде оценки эквивалентности группы В по отношению к группе А, необходимая численность выборки должна составлять 153, в А­102, в В­51 случай. Но нам необходимо оценить эквивалентность группа А, по отношению к группе В (препарат сравнения), для этого необходимо иметь численность выборки в 86 случаев: 57 в группе А и 29 в группе В. Маг ия чисел в биомедицинских исследованиях. Представим себе беседу научного руководителя и аспиранта. Аспирант предлагает: «Давайте будем использовать прибор (аппарат, тест и т.д.), который мы недавно получили, и будем что­нибудь измерять, измерять, измерять, пока не получим много данных, затем их обработаем статистически». Научный руководитель спрашивает: «Что собственно мы должны получить?». «Это неважно, важно, что будет много чисел и их можно обработать статистически», ­ ответил аспирант. Описанная сценка демонстрирует ограничения количественных исследований(35,148). Статистически можно обработать любые данные, но в чем 29 собственно смысл такого подхода. Статистическая обработка необходима для получения достоверного результата, т.е. результата приближающего наше решение к действительной ситуации с высокой степенью вероятности. Мы должны помнить, что отвечаем на простой вопрос: что такое X (классификация количества). При этом не следует забывать, что для интерпретации результатов в количественных исследованиях используется индуктивный метод мышления. Сильной стороной количественных исследования является их надежность, основанная на повторяемости, т.е. измерения, проведенные в разное время, должны давать одинаковые результаты. Проведение просто измерений не является самоцелью научного исследования, тем более, диссертационного. Основной предпосылкой для количественных исследований являются качественные исследования. Качественные исследования оправданы при изучении предмета, для которого крайне сложно сформулировать нужную гипотезу до получения результатов, где различия плохо понимаются и выявляются. По мнению большинства западных специалистов, биомедицинские исследования, посвященные проблемам организации здравоохранения, качества медицинской помощи, социологии, являются классическим примером качественных исследований (36,38). Качественные исследования направлены в большей степени на оценку структуры, постановка эксперимента предполагает предварительный обзор проблемы, отвечают на вопрос как много Х (только устанавливают количество), основой для заключения является дедукция, анализ участников осуществляется на основе описательной статистики. При этом, в качественных исследованиях используются документы, описывающие события и/или систематическое наблюдение за поведением и общением в естественных условиях, и/или наблюдения с участием исследователя, и/или детальное интервью, и/или групповой опрос с использованием взаимодействий в группе (фокус группа). Дается следующее определение понятия «качественное исследование». Исследование методом сбора данных в небольшой группе участников, которые взаимодействует при обсуждении поставленным исследователем тем, проблем или вопросов (PabMed, MESH). Примеры для обсуждения: почему люди не могут отказаться от курения, почему врачи беспокоятся при наличии у пациента температуры. Качественное исследование – одна из важных методологий для понимания пользы здоровья и отношения пациентов и для того, чтобы формулировать лучше 30 (более точно) гипотезу, которая может быть проверена в будущем при использовании количественных методов исследования(56). В публикации 2004г предлагается ряд вопросов для оценки качественности самого качественного исследования (40), считаем целесообразным привести эти вопросы: Вопросы в исследовании сформулированы ясно и точно? Вопросы в исследовании подходят для качественного запроса? В исследовании четко описано? ­ осуществление выборки ­ сбор данных ­ анализ Является ли соответствующим вопросу исследования? ­ осуществление выборки ­ сбор данных ­ анализ Требования исследования имеют достаточное доказательство? Являются ли данные, интерпретация, и заключения четкими и ясными? Вносит ли исследование полезный вклад в рассмотрение проблемы (вопроса, темы)? Однако, как и в приведенной публикации, так и серии других по данному вопросу, подчеркивается, что оценка всех аспектов качества качественного исследования остается трудной задачей. В заключении приведу классический пример, заимствованный из известной монографии (2): «Для иллюстрации разделения количественных и качественных исследований доктор Сесил Хельман (Cecil Helman), автор ведущего руководства по антропологическим аспектам здоровья и болезни, рассказала мне такую историю. Маленький ребенок прибегает из сада и взволнованно говорит: «Мама, с деревьев падают листья». «Расскажи мне подробнее» ­ говорит мать. «Хорошо. В течение первого часа упало 5 листьев, в течение второго ­10 листьев...». Такой ребенок станет исследователем, использующим количественный метод. Другой ребенок, когда его спросят подробности, может ответить: «Листья большие и плоские; в основном они желтые и красные; с одних деревьев они падают, с других — нет. Мама, а почему они не падали в прошлом месяце?». Этот ребенок станет исследователем, которому ближе качественный подход». 31 Вы воды . 1. Предметом данного исследования явились диссертационные работы по разделу клиническая медицина 2. Для оценки качества исследований проведен анализ 40 работ, выбранных случайным образом, по сопоставлению использованных в работах методов статистического анализа с имеющимися международными рекомендациями по использованию этих методов 3. Обнаружено значительное число ошибок в использовании статистического анализа и несоответствие использованных приемов анализа и рекомендованных 4. Для повышения качества диссертационных исследований необходимо проводить отдельную дополнительную экспертизу адекватности и правильности использованного статистического анализа. Благодарность. Автор статьи выражает благодарность профессору С.И. Пиманову, доцентам Ю.В Горгун, А.С. Портянко за ценные советы и предварительное обсуждение данной статьи. Сотрудникам отдела медицинских наук ВАК Беларуси за техническую помощь. Приложение. Демонстрация наиболее важных приемов аналитической статистики для клинических исследований для самостоятельного обучения 32 Использованная лит ерат ура 1. Гланц C. «Медико­биологическая статистика». Пер. с англ., «Практика», Москва. 1999, 2. Гринхальк Т. Основы доказательной медицины: Пер с анг.­ М.: ГЭОТАР­ МЕД, 2004, стр 92 3. Мараховский К.Ю, Мараховский Ю.Х. От доказательной медицины к доказательной клинической практике: принципы оценки эффективности и безопасности медикаментозного лечения. Рецепт 2007. №2 с11­14 4. Орлов А.И.. Эконометрика. Издательство ЭКЗАМЕН, Москва, 2004. ­ 576 с. 5. Arroll B, Schechter MT, Sheps SB. The assessment of diagnostic tests: a comparison of medical literature in 1982 and 1985. J Gen Intern Med. 1988. 3:443­447. ( 6. Auperin A, Pignon JP, Poynard T. Review article: critical review of meta­analyses of randomized clinical trials in hepatogastroenterology. Alimentary Pharmacol Ther. 1997. 11:215­225. 7. Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ 1995; 311­485 8. Barnes DE, Bero LA. Why review articles on the health effects of passive smoking reach different conclusions. JAMA. 1998. 279:1566­1570. 9. Beck CT. Use of meta­analysis as a teaching strategy in nursing research courses. J Nurs Educ. 1997. 36:87­90. 10. Bartlett JG, Breiman RF, Mandell LA, File TMJ. Community­acquired pneumonia in adults: guidelines for management. The Infectious Diseases Society of America. Clin Infect Dis. 1998. 26:811­838. 11. Begg CB. Biases in the assessment of diagnostic tests. Stat Med. 1987. 6:411­ 423. 12. Bruns DE. Reporting Diagnostic Accuracy. Clinical Chemistry. 1997. 43:­. (11 13. Berlin JA. Does blinding of readers affect the results of meta­analyses? University of Pennsylvania Meta­analysis Blinding Study Group. Lancet. 1997. 350:185­186 14. Berlin JA, Rennie D. Measuring the quality of trials: the quality of quality scales. JAMA. 1999. 282:1083­1085. 15. Barratt A, Irwig L, Glasziou P, et al. Users' guides to the medical literature: XVII. How to use guidelines and recommendations about screening. Evidence­Based Medicine Working Group. JAMA. 1999. 281:2029­2034. 33 16. Briss PA, Zaza S, Pappaioanou M, et al. Developing an evidence­based Guide to Community Preventive Services ­­ methods. The Task Force on Community Preventive Services. Am J Prev Med. 2000. 18:35­43. 17. Britton A., McKee M., Black N. Et all. Choosing between randomized and non – randomized study: a systematic review. Health Technol. Asses. ­1998­Vol.2­ p.1­ 24 18. Clarke M., Oxman AD. Cochrane Reviewer's Handbook 4.0 The Cochrane Collaboration; 1999. 19. Chestnut RM, Carney N, Maynard H, Patterson P, Mann NC, Helfand M. Rehabilitation for Traumatic Brain Injury. Evidence Report/Technology Assessment No. 2. Rockville, Md.: Agency for Health Care Policy and Research. AHCPR Publication No. 99­E006;. 1999 20. Cheselden W (1740). The anatomy of the human body. 5th edition. London: William Bowyer 21. Cho MK, Bero LA. The quality of drug studies published in symposium proceedings. Ann Intern Med. 1996. 124:485­489. 22. Concato J, Shah N, Horwitz RI. Randomized, controlled trials, observational studies, and the hierarchy of research designs. N Engl J Med. 2000. 342:1887­ 1892. 23. Cook DJ, Sackett DL, Spitzer WO. Methodologic guidelines for systematic reviews of randomized control trials in health care from the Potsdam Consultation on Meta­Analysis. J Clin Epidemiol. 1995. 48:167­171. 24. Colditz GA, Miller JN, Mosteller F. How study design affects outcomes in comparisons of therapy. I: Medical. Stat Med. 1989. 8:441­454. 25. Chalmers TC, Smith H Jr, Blackburn B, et al. A method for assessing the quality of a randomized control trial. Control Clin Trials. 1981. 2:31­49. 26. Chalmers TC, Celano P, Sacks HS, Smith HJ. Bias in treatment assignment in controlled clinical trials. N Engl J Med. 1983. 309:1358­1361. 27. Canadian Task Force on the Periodic Health Examination. The periodic health examination. Can Med Assoc J. 1979. 121:1193­1254. 28. Corrao G, Bagnardi V, Zambon A, Arico S. Exploring the dose­response relationship between alcohol consumption and the risk of several alcohol­related conditions: a meta­analysis. Addiction. 1999. 94:1551­1573. 29. Carruthers SG, Larochelle P, Haynes RB, Petrasovits A, Schiffrin EL. Report of the Canadian Hypertension Society Consensus Conference: 1. Introduction. Can 34 Med Assoc J. 1993. 149:289­293. 30. Cook DJ, Mulrow CD, Haynes RB. Systematic reviews: synthesis of best evidence for clinical decisions. Ann Intern Med. 1997. 126:376­380. 31. Clark HD, Wells GA, Huet C, et al. Assessing the quality of randomized trials: reliability of the Jadad scale. Control Clin Trials. 1999. 20:448­452. 32. Chalmers TC, Matta RJ, Smith H Jr, Kunzler AM. Evidence favoring the use of anticoagulants in the hospital phase of acute myocardial infarction. N Engl J Med. 1977. 297:1091­1096. 33. Cho MK, Bero LA. Instruments for assessing the quality of drug studies published in the medical literature. JAMA. 1994. 272:101­104. 34. Dans AL, Dans LF, Guyatt GH, Richard S. Users' guides to the medical literature: XIV. How to decide on the applicability of clinical trial results to your patient. JAMA. 1998. 279:545­549. 35. Dawson B., Trapp R.G. “Basic and Clinical Biostatistics”, Third Edition, Lange Medical Books/McGraw­Hill, Medical Publishing Division, 2001 36. Denzin, N. K., & Lincoln, Y. S. (2000). Handbook of qualitative research ( 2nd ed.). Thousand Oaks, CA: Sage Publications. 37. Detsky AS, Naylor CD, O'Rourke K, McGeer AJ, L'Abbe KA. Incorporating variations in the quality of individual randomized trials into meta­analysis. J Clin Epidemiol. 1992. 45:255­265. 38. DeWalt, K. M. & DeWalt, B. R. (2002). Participant observation. Walnut Creek, CA: AltaMira Press Holliday, A. R. (2007). Doing and Writing Qualitative Research, 2nd Edition. London: Sage Publications 39. Dickersin K, Scherer R, Lefebvre C. Identifying relevant studies for systematic reviews. BMJ. 1994. 309:1286­1291. 40. Dixon­Woods M, R L Shaw, S Agarwal, J A Smith The problem of appraising qualitative research Qual Saf Health Care 2004;13:223–225 41. Djulbegovic B, Hadley T. Evaluating the quality of clinical guidelines. Linking decisions to medical evidence. Oncology. 1998 Nov. 12:310­314. 42. Djulbegovic B, Lacevic M, Cantor A, et al. The uncertainty principle and industry­ sponsored research. Lancet. 2000. 356:635­638. 43. Downs SH, Black N. The feasibility of creating a checklist for the assessment of the methodological quality both of randomised and non­randomised studies of health care interventions. J Epidemiol Community Health. 1998. 52:377­384. 44. Dong BJ, Hauck WW, Gambertoglio JG, et al. Bioequivalence of generic and 35 brand­name levothyroxine products in the treatment of hypothyroidism. JAMA. 1997. 277:1205­1213. 45. de Vet HCW, de Bie RA, van der Heijden GJMG, Verhagen AP, Sijpkes P, Kipschild PG. Systematic reviews on the basis of methodological criteria. Physiotherapy. June 1997. 83:284­289. (6): 46. DerSimonian R, Charette LJ, McPeek B, Mosteller F. Reporting on methods in clinical trials. N Engl J Med. 1982. 306:1332­1337. 47. Evans M, Pollock AV. A score system for evaluating random control clinical trials of prophylaxis of abdominal surgical wound infection. Br J Surg. 1985. 72:256­ 260. 48. Evans WK, Newman T, Graham I, et al. Lung cancer practice guidelines: lessons learned and issues addressed by the Ontario Lung Cancer Disease Site Group. J Clin Oncol. 1997. 15:3049­3059. (PubMed) 49. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR. Publication bias in clinical research. Lancet. 1991. 337:867­872. 50. Emerson JD, Burdick E, Hoaglin DC, Mosteller F, Chalmers TC. An empirical study of the possible relation of treatment differences to quality scores in controlled randomized clinical trials. Controlled Clinical Trials. 1990. 11:339­352. 51. Edwards AG, Russell IT, Stott NC. Signal versus noise in the evidence base for medicine: an alternative to hierarchies of evidence? Fam Pract. 1998. 15:319­ 322. 52. Fagan TJ. Nomogram for Bayes' theorem. N Engl J Med 1975;293:257. 53. Fahey T, Hyde C, Milne R, Thorogood M. The type and quality of randomized controlled trials (RCTs) published in UK public health journals. J Public Health Med. 1995. 17:469­474. 54. Field MJ, Lohr KN, eds. Guidelines for Clinical Practice: From Development to Use. Institute of Medicine. Washington, D.C.: National Academy Press; 1992; 55. Gardner MJ, Altman DG. Confidence intervals rather than p values: estimation rather than hypothesis testing. BMJ 1986; 292: 746­750 56. George M., TG. Freedman, AL. Norfleet, HI. Feldman, and AJ. Apter. Qualitative research­enhanced understanding of patients' beliefs: results of focus groups with low­income, urban, African American adults with asthma J Allergy Clin Immunol 2003. 111: 5 967­73). 57. Goodman SN, Berlin J, Fletcher SW, Fletcher RH. Manuscript quality before and after peer review and editing at Annals of Internal Medicine. Ann Intern Med. 36 1994. 121:11­21. 58. Gray JAM. Evidence­Based Healthcare. London: Churchill Livingstone;1997. 59. Guide to Clinical Preventive Services, 2nd Ed. Alexandria, Va.: International Medical Publishing, Inc.; 1996. 60. Guyatt GH, Sackett DL, Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. B. What were the results and will they help me in caring for my patients? Evidence­Based Medicine Working Group. JAMA. 1994. 271:59­63. 61. Guyatt GH, Sackett DL, Cook DJ. Users' guides to the medical literature. II. How to use an article about therapy or prevention. A. Are the results of the study valid? Evidence­Based Medicine Working Group. JAMA. 1993. 270:2598­2601. 62. Greer N, Mosser G, Logan G, Halaas GW. A practical approach to evidence grading. Joint Commission J Qual Improv. 2000. 26:700­712. 63. Guyatt G.H., Sacket D.L., Sinclair J.C., et all. Users guides to the medical literature XI. A method for grading halth care rcommendtions JAMA 1993 v270 p1800 64. Gardner MJ, Altman DG. Confidence intervals rather than p values: estimation rather than hypothesis testing. BMJ 1986; 292: 746­750 65. Guyatt G.H., Patterson C., Ali M. Et all. Diagnosis of iron deficiency anemia in the eldery. Am J Med. 1990, v88,p205­209). 66. Goudas L, Carr DB, Bloch R, et al. Management of Cancer Pain. Evidence Report/Technology Assessment. No. 35 (Contract 290­97­0019 to the New England Medical Center). Rockville, Md.: Agency for Health Care Policy and Research. AHCPR Publication No. 99­E004;. 2000. 67. Greer N, Mosser G, Logan G, Halaas GW. A practical approach to evidence grading. Joint Commission J Qual Improv. 2000. 26:700­712 68. Guyatt GH, Haynes RB, Jaeschke RZ, et al. Users' Guides to the Medical Literature: XXV. Evidence­based medicine: principles for applying the Users' Guides to patient care. Evidence­ Based Medicine Working Group. JAMA. 2000. 284:1290­1296. 69. Guyatt GH, Sackett DL, Sinclair JC, Hayward R, Cook DJ, Cook RJ. Users' guides to the medical literature. IX. A method for grading health care recommendations. Evidence­Based Medicine Working Group. JAMA. 1995. 274:1800­1804. 70. Granados A, Jonsson E, Banta HD, et al. EUR­ASSESS Project Subgroup Report 37 on Dissemination and Impact. Int J Technol Assess Health Care. 1997. 13:220­ 286. 71. Garbutt JC, West SL, Carey TS, Lohr KN, Crews FT. Pharmacological treatment of alcohol dependence: a review of the evidence. JAMA. 1999. 281:1318­1325. 72. Gross PA, Barrett TL, Dellinger EP, et al. Purpose of quality standards for infectious diseases. Infectious Diseases Society of America. Clin Infect Dis. 1994. 18 73. Greenland S. Invited commentary: a critical look at some popular meta­analytic methods. Am J Epidemiol. 1994. 140:290­296. 74. Gyorkos TW, Tannenbaum TN, Abrahamowicz M, et al. An approach to the development of practice guidelines for community health interventions. Can J Public Health. Revue Canadienne De Sante Publique. 1994. 85:S8­13. Suppl 1 75. Harbour R, Miller J. A new system [Scottish Intercollegiate Guidelines Network (SIGN)] for grading recommendations in evidence based guidelines. BMJ. 2001. 323:334­336. 76. Heidenreich PA, McDonald KM, Hastie T, et al. An Evaluation of Beta­Blockers, Calcium Antagonists, Nitrates, and Alternative Therapies for Stable Angina. Rockville, MD: Agency for Healthcare Research and Quality. AHRQ Publication No. 00­E003;. 1999. 77. How to Use the Evidence: Assessment and Application of Scientific Evidence. Canberra, Australia: NHMRC;. 2000. 78. Harris RP, Helfand M, Woolf SH, et al. Current methods of the U.S. Preventive Services Task Force: A review of the process. Am J Prev Med. 2001. 20:21­35. 79. How to read clinical journals: IV. To determine etiology or causation. Can Med Assoc J. 1981. 124:985­990. 80. Hemminki E. Quality of reports of clinical trials submitted by the drug industry to the Finnish and Swedish control authorities. Eur J Clin Pharmacol. 1981. 19:157­ 165. 81. Hoffman RM, Kent DL, Deyo RA. Diagnostic accuracy and clinical utility of thermography for lumbar radiculopathy. A meta­analysis. Spine. 1991. 16:623­ 628 82. Hoogendoorn WE, van Poppel MN, Bongers PM, Koes BW, Bouter LM. Physical load during work and leisure time as risk factors for back pain. Scand J Work, Environ Health. 1999. 25:387­403. 83. Huw T O Davies What are confidence intervals? TRI1151200 V.3, n.1 р 1­8, Date 38 of preparation: February 2001 www.evidence­based­medicine.co.uk 84. Imperiale TF, McCullough AJ. Do corticosteroids reduce mortality from alcoholic hepatitis? A meta­analysis of the randomized trials. Ann Intern Med. 1990. 113:299­307. 85. Irwig L, Tosteson AN, Gatsonis C, et al. Guidelines for meta­analyses evaluating diagnostic tests. Ann Intern Med. 1994 Apr 15. 120:667­676 86. Jaeschke R, Guyatt G, Sackett DL. Users' guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid? Evidence­Based Medicine Working Group. JAMA. 1994. 271:389­391. 87. Jeng GT, Scott JR, Burmeister LF. A comparison of meta­analytic results using literature vs individual patient data. Paternal cell immunization for recurrent miscarriage. JAMA. 1995. 274:830­836. 88. Jadad AR, Moore RA, Carroll D, et al. Assessing the quality of reports of randomized clinical trials: is blinding necessary? Control Clin Trials. 1996. 17:1­ 12. 89. Juni P, Witschi A, Bloch R, Egger M. The hazards of scoring the quality of clinical trials for meta­analysis. JAMA. 1999. 282:1054­1060. 90. Khan KS, Ter Riet G, Glanville J, Sowden AJ, Kleijnen J. Undertaking Systematic Reviews of Research on Effectiveness. CRD's Guidance for Carrying Out or Commissioning Reviews: York, England: University of York, NHS Centre for Reviews and Dissemination;. 2000. 91. Khan KS, Daya S, Collins JA, Walter SD. Empirical evidence of bias in infertility research: overestimation of treatment effect in crossover trials using pregnancy as the outcome measure. Fertil Steril. 1996. 65:939­945. 92. Khan KS, Daya S, Jadad A. The importance of quality of primary studies in producing unbiased systematic reviews. Arch Intern Med. 1996. 156:661­666. 93. Kunz R, Oxman AD. The unpredictability paradox: review of empirical comparisons of randomised and non­randomised clinical trials. BMJ. 1998. 317:1185­1190. 94. Laupacis A, Wells G, Richardson WS, Tugwell P. Users' guides to the medical literature. V. How to use an article about prognosis. Evidence­Based Medicine Working Group. JAMA. 1994. 272:234­237. 95. Lau J, Ioannidis J, Balk E, et al. Evaluating Technologies for Identifying Acute Cardiac Ischemia in Emergency Departments: Evidence Report/Technology Assessment: No. 26. Rockville, Md.: Agency for Healthcare Research and 39 Quality. AHRQ Publication No. 01­E006 (Contract 290­97­0019 to the New England Medical Center);. 2000. 96. Liberati A, Himel HN, Chalmers TC. A quality assessment of randomized control trials of primary treatment of breast cancer. J Clin Oncol. 1986. 4:942­951. 97. Lohr KN, Carey TS. Assessing 'best evidence': issues in grading the quality of studies for systematic reviews. Joint Commission J Qual Improvement. 1999. 25:470­479 98. Lohr KN. Grading Articles and Evidence: Issues and Options. Final Guidance Paper. Final report submitted to the Agency for Health Care Policy and Research for Contract No. 290­97­0011, Task 2. Research Triangle Park, N.C.: Research Triangle Institute; 1998 99. Lohr KN, Aaronson NK, Burnam MA, Patrick DL, Perrin EB, Roberts JS. Evaluating quality­of­life and health status instruments: development of scientific review criteria. Clin Ther. 1996. 18:979­991. 100. Last JM. A Dictionary of Epidemiology. New York: Oxford University Press; 1995. 101. Levine M, Walter S, Lee H, Haines T, Holbrook A, Moyer V. Users' guides to the medical literature. IV. How to use an article about harm. Evidence­Based Medicine Working Group. JAMA. 1994. 271:1615­1619. 102. Lachin JM. Statistical considerations in the intent­to­treat principle. Control Clin Trials. 2000. 21:167­189. 103. Lijmer JG, Mol BW, Heisterkamp S, et al. Empirical evidence of design­related bias in studies of diagnostic tests. JAMA. 1999. 282:1061­1066. 104. Mant D. Testing a test: three critical steps. Critical Reading for Primary Care. Eds R. Jones, A.­ Kinmonth L.. Oxford: Oxford University Press. 1995. p. 183­190 105. McCrory DC, Matchar DB, Bastian L, et al. Evaluation of Cervical Cytology. Rockville, Md.: Agency for Health Care Policy and Research. AHCPR Publication No.99­E010;. 1999. 106. McPherson K (2004). Where are we now with hormone replacement therapy? BMJ 328:357­358 107. Moher D, Jadad A, Tugwell P. Assessing the quality of randomized controlled trials. Int J Technol Assess Health Care. 1996. 12:195­208. 108. Moher D, Jadad AR, Nichol G, Penman M, Tugwell P, Walsh S. Assessing the quality of randomized controlled trials: an annotated bibliography of scales and checklists. Control Clin Trials. 1995. 16:62­73. 109. Moher D, Fortin P, Jadad AR, et al. Completeness of reporting of trials published 40 in languages other than English: implications for conduct and reporting of systematic reviews. Lancet. 1996. 347:363­366. 110. Moher D, Pham, Klassen TP, et al. What contributions do languages other than English make on the results of meta­analyses? J Clin Epidemiol. 2000. 53:964­ 972. 111. Moher D, Schulz KF, Altman DG, for the CONSORT Group. The CONSORT statement: revised recommendations for improving the quality of reports of parallel­group randomised trials. Lancet. 2001. 357:1191­1194. (9263) 112. Moher D, Cook DJ, Eastwood S, Olkin I, Rennie D, Stroup DF. Improving the quality of reports of meta­analyses of randomised controlled trials: the QUOROM statement. Quality of Reporting of Meta­analyses. Lancet. 1999. 354:1896­1900. 113. Moher D, Pham B, Jones A, et al. Does quality of reports of randomised trials affect estimates of intervention efficacy reported in meta­analyses? Lancet. 1998. 352:609­613. 114. National Health and Medical Research Council (NHMRC). How to Review the Evidence: Systematic Identification and Review of the Scientific Literature. Canberra, Australia : NHMRC;. 2000. 115. New Zealand Guidelines Group. Tools for Guideline Development & Evaluation. Accessed July 10, 2000. Web Page. Available at: http://www.nzgg.org.nz/. 116. Olkin I. Statistical and theoretical considerations in meta­analysis. J Clin Epidemiol. 1995. 48:133­147. 117. Ogilvie RI, Burgess ED, Cusson JR, Feldman RD, Leiter LA, Myers MG. Report of the Canadian Hypertension Society Consensus Conference: 3. Pharmacologic treatment of essential hypertension. Can Med Assoc J. 1993. 149:575­584. 118. Oxman AD, Guyatt GH. Validation of an index of the quality of review articles. J Clin Epidemiol. 1991. 44:1271­1278. 119. Oxman AD, Guyatt GH, Singer J, et al. Agreement among reviewers of review articles. J Clin Epidemiol. 1991. 44:91­98. 120. Oxman AD, Cook DJ, Guyatt GH. Users' guides to the medical literature. VI. How to use an overview. Evidence­Based Medicine Working Group. JAMA. 1994. 272:1367­1371. 121. Poynard T, Naveau S, Chaput JC. Methodological quality of randomized clinical trials in treatment of portal hypertension. In Methodology and Reviews of Clinical Trials in Portal Hypertension. Excerpta Medica; 1987. 306­311 122. Pogue J, Yusuf S. Overcoming the limitations of current meta­analysis of 41 randomised controlled trials. Lancet. 1998. 351:47­52. (PubMed) 123. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research. Getting better but still not good. JAMA. 1995. 274:645­651. 124. Reisch JS, Tyson JE, Mize SG. Aid to the evaluation of therapeutic studies. Pediatrics. 1989. 84:815­827. 125. Rajkumar SV, Sampothkumar P, Gustafson AB. Number needed to treat is a simple measure of treatment efficacy for clinicians. JGIM 1996; 11: 357­358 126. Rosner B. “Fundamentals of Biostatistics”, Fifth Edition; Harvard University; Duxbury, Thomson Learning, 2000Rose 127. G., Barker D.J.P. Epidemiology for the Uninitiated. 3­rd ed London. BMJ Publication. 1994) 128. Sackett D.L.,Haynes R.B., Guyatt G.H., Tugwell P. Clinical Epidemiology­a Basic Science of Clinical Medicine. London, Little Brown. 1999, p51­68 129. Sacks HS, Reitman D, Pagano D, Kupelnick B. Meta­analysis: an update. Mt Sinai J Med. 1996. 63:216­224. 130. Sackett DL, Straus SE, Richardson WS, et al. Evidence­Based Medicine: How to Practice and Teach EBM. London: Churchill Livingstone;. 2000. ( 131. Sacks HS, Berrier J, Reitman D, Anocaon­Berk VA, Chalmers TC. Meta­analyses of randomized controlled trials. N Engl J Med. 1987. 316:450­455. 132. Shekelle PG, Woolf SH, Eccles M, Grimshaw J. Clinical guidelines: developing guidelines. BMJ. 1999. 318:593­596. 133. Sheps SB, Schechter MT. The assessment of diagnostic tests. A survey of current medical research. JAMA. 1984. 252:2418­2422. 134. Schoenfeld P. Evidence based medicine in practice: applying intention­totreat and per­orotocol analysis. Am J Gastro 2005; 100:3­4 135. Stroup DF, Berlin JA, Morton SC, et al. Meta­analysis of observational studies in epidemiology: a proposal for reporting. Meta­analysis Of Observational Studies in Epidemiology (MOOSE) group. JAMA. 2000. 283:2008­2012. 136. Sutton AJ, Abrams KR, Jones DR, Sheldon TA, Song F. Systematic reviews of trials and other studies. Health Technol Assess. 1998. 2:1­276. 137. Schulz KF, Chalmers I, Grimes DA, Altman DG. Assessing the quality of randomization from reports of controlled trials published in obstetrics and gynecology journals. JAMA. 1994. 272:125­128. 138. Sindhu F, Carpenter L, Seers K. Development of a tool to rate the quality assessment of randomized controlled trials using a Delphi technique. J Adv Nurs. 42 1997. 25:1262­1268. 139. Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of bias. Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA. 1995. 273:408­412. 140. Thompson SG. Why sources of heterogeneity in meta­analysis should be investigated. BMJ. 1994. 309:1351­1355. 141. Tritchler D. Modelling study quality in meta­analysis. Stat Med. 1999. 18:2135­ 2145. 142. The Standards of Reporting Trials Group. A proposal for structured reporting of randomized controlled trials. JAMA. 1994. 272:1926­1931. 143. The Asilomar Working Group on Recommendations for Reporting of Clinical Trials in the Biomedical Literature. Checklist of information for inclusion in reports of clinical trials. Ann Intern Med. 1996. 124:741­743. 144. Turlik MA, Kushner D. Levels of evidence of articles in podiatric medical journals. J Am Podiatr Med Assoc. 2000. 90:300­302. 145. Verhagen AP, de Vet HC, de Bie RA, et al. The Delphi list: a criteria list for quality assessment of randomized clinical trials for conducting systematic reviews developed by Delphi consensus. J Clin Epidemiol. 1998. 51:1235­1241. 146. Vickrey BG, Shekelle P, Morton S, Clark K, Pathak M, Kamberg C. Prevention and Management of Urinary Tract Infections in Paralyzed Persons. Evidence Report/Technology Assessment No. 6. Rockville, Md.: Agency for Health Care Policy and Research. AHCPR Publication No. 99­E008;. 1999. 147. Vickers A, Goyal N, Harland R, Rees R. Do certain countries produce only positive results? A systematic review of controlled trials. Control Clin Trials. 1998. 19:159­166. 148. Victor N. "The challenge of meta­analysis":discussion. Indications and contra­ indications for meta­analysis. J Clin Epidemiol. 1995. 48:5­8. 149. Working group on methods for prognosis and decision making. Memorandum for the Evaluation of Diagnostic Measures. Journal of Clinical Chemistry and Clinical Biochemistry. 1990. 28:873­879; 150. West SL, Garbutt JC, Carey TS, et al. Pharmacotherapy for Alcohol Dependence. Evidence Report/Technology Assessment No. 5; Rockville, Md.: Agency for Health Care Policy and Research. AHCPR Publication No. 99­E004;. 1999. 151. Zaza S, Wright­De Aguero LK, Briss PA, et al. Data collection instrument and procedure for systematic reviews in the Guide to Community Preventive Services. 43 Task Force on Community Preventive Services. Am J Prev Med. 2000. 18:44­74. 44 Приложение к стать е Ю.Х. Мараховский АДЕКВАТНОСТЬ СТАТИСТИЧЕСКОГО АНАЛИЗА ДЛЯ ПОЛУЧЕНИЯ НАУЧНО ОБОСНОВАННЫХ, ДОСТОВЕРНЫХ РЕЗУЛЬТАТОВ В ИССЛЕДОВАНИЯХ ПО КЛИНИЧЕСКОЙ МЕДИЦИНЕ Цель приложение: Демонстрация наиболее важных приемов аналитической статистики для клинических исследований для самостоятельного обучения Оценка ассоциат ивной взаимосвязи или показат ель RR (relative risk) Пример для когортного исследования. Воздействие Группа с Группа без заболеванием заболевания Да имеется a b a + b Нет, без c d c + d воздействия a a + b RR = c c + d Значение RR, оценивается следующим образом: если RR =1,0, то фактор экспозиции не оказывает никакого воздействия, при RR менее 1,0 фактор оказывает благоприятное воздействия, при RR больше 1,0 – неблагоприятное. Оценка частоты встречаемости (заболеваемости) по долевым значениям. Нулевая гипотеза имеет вид H0 : RR=1, т.е. нет никакого основания утверждать об изменении в частоте встречаемости, связанной с каким­то фактором. Пример В когортном исследовании установлено следующее. 45 При наблюдении в течение года инфаркт миокарда (ИМ) при повышенном артериальном давлении, развился у 180 из 10 000 субъектов наблюдения, при нормальном артериальном давлении у 30 из 10 000. Артериальное Группа с ИМ Группа без ИМ Да повышено A (180) B (9820) a + b (10 000) Нет, не повышено C (30) D (9970) c + d (10 000) давление Вывод: нулевая гипотеза не справедлива. Наличие артериальной гипертензии увеличивает риск развития инфаркта миокарда в 6 раз, при наблюдении в течение 1 года. Теперь необходимо рассчитать доверительный интервал этого показателя. Расчет осуществляется по формуле (Bristol DR (1989) Sample sizes for constructing confidence intervals and testing hypotheses. Statistics in Medicine 6:803­811.): Обратим внимание на то, что согласно формуле, расчет доверительного интервала даст значения максимума и минимума ассиметричные, по отношению к среднему значению (Simon R (1986) Confidence intervals for reporting results of clinical trials. Annals of Internal Medicine 105: 429­435. Greenland S (1994) Corrections. Statistics in Medicine 13: 99. Greenland S (1999) Re: “Confidence limits made easy: interval estimation using a substitution method”. American Journal of Epidemiology 149: 884). Такая формула предполагает отсутствие нормальности распределения, что и имеет место в большинстве случаев. При нормальном распределении доверительный интервал симметричен. 46 Получили следующие значения доверительного интервала: среднее­ 6,0, максимальное значение – 8,83, минимальное ­4,08. Распечатка расчета данного примера по программе WINPEPI представлена ниже В представленной распечатке имеется значение Odds ratio, которое фактически равно RR. Чт о т акое Odds ratio? Odds = The probability of an event occurring divided by the probability of the event not occurring, или правдоподобность наступления события деленная на правдоподобность не наступления этого события. Например, если вероятность развития заболевания у конкретного индивидуума составляет 0,010, то правдоподобность наступления такого события (развитие заболевания) составляет 0,010 / 0,990 = 0,0101. Таким образом, это оценка шанса наступления события, но не оценка действительной достоверности наступления этого события. (Jewell NP (1984) Small­sample bias of point estimators of the odds ratio from matched sets. Biometrics 40: 421­435). 47 В клинических и эпидемиологических исследованиях Odds ratio (OR) – это сопоставление двух Odds. OR для расчета правдоподобности развития заболевания (состояния): Odds развитие заболевания В, при экспозиции (действии) фактора А, делится на Odds развитие заболевания В, при отсутствии экспозиции фактора А. OR для расчета правдоподобности воздействия экспозиционного фактора: Odds экспозиции фактора А в группе с заболеванием Б, делится на Odds экспозиции фактора А в группе без заболевания Б. Формула расчета Odds для развития заболевания имеет следующий вид (Fleiss JL (1981) Statistical methods for rates and proportions. New York: John Wiley & Sons. Fleiss JL (1986) The design and analysis of clinical experiments. New York: John Wiley & Sons). Можно эту формулу представить в ином виде: заболеваемость(число новых случаев на 100) / 1 – заболеваемость. Оценка правдоподобия воздействия фактора А на развитее патологии В имеет следующий вид: или заболеваемость(число новых случаев на 100) при действии фактора А / 1 – заболеваемость при отсутствии фактора А. Оценка правдоподобия при отсутствии действия фактора А: Формула расчета Odds ratio (OR) будет 48 Используем универсальное правило четырехпольных таблиц для расчета Odds ratio (OR) Действие фактора Группа с Группа без А заболеванием заболевания А а (180) b (9820) a + b (10 000) с (30) d (9970) c + d (10 000) a+c b+d a+b+c+d Всего Odds при действии фактора Odds без действия фактора Правдоподобность (OR) воздействия фактора А на развитее заболевания В OR будет увеличивать величину относительного риска ­ RR, но для редких болезней (редких событий) разность между ними будет минимальной. 49 Примеры. Редкие события Действие фактора Группа с Группа без А заболеванием заболевания А а (10) b (1 000) a + b (1 010) с (5) d (1 000) c + d (1 005) a+c b+d a+b+c+d Всего События, не относящиеся к редким. Действие фактора Группа с Группа без А заболеванием заболевания А а (650) b (1 920) a + b (2 570) с (170) d (2 240) c + d (2 410) a+c b+d a+b+c+d Всего 50 Комментарий к интерпретации. Значение «Р» измеряет статистическую достоверность разности между группами. Эта величина показывает нам насколько наблюдаемая нами разница позволяет. опровергнуть нулевую гипотезу (каков шанс опровержения или принятия гипотезы). Эта величина ничего не говорит о силе взаимосвязи. Значения Odds ratio (OR) и RR (relative risk) позволяют оценить степень (силу взаимосвязи), при этом более правдоподобно, по сравнению с коэффициентом корреляции. Пример исследования случай ­ конт роль. Взаимосвязи между орофарингеальным раком и регулярным использованием полоскания рта (Wynder et al,1983) Наличие Группа с Группа без Частота (%) заболевания В регулярным полоскания встречаемости рта регулярного (орофарингеальный (ежедневно, рак) после еды) полоскания полосканием рта рта Да, имеется а (259) b (312) a + b 45,4 (571) (Fisher's 95% C.I. = 41,2 to 49,5) Нет с (205) d (363) c + d 36,1 (568) (Fisher's 95% C.I. =32,1 to 40,2) Всего a+c (464) b+d (675) a+b+c+d (1139 51 В соответствии с данными этого исследования случай ­ контроль, регулярное полоскание полости рта увеличивает риск развития орофарингеального рака с правдоподобностью 1,47 (ДИ95% = 1,15­1,88), при chi­ квадрате – 10,13 и р=0,001 Атрибутная (существенная, специфическая) доля или процент среди экспозиции [Attributable Fraction or Percent Among Exposed (AFe) in Szklo (%ARexp)] (Kuritz SJ, Landis JR (1987) Attributable risk ratio estimation from matched­pairs case­ control data. American Journal of Epidemiology 125: 324­328.) Разделив числитель и знаменатель на величину Получим Величина «%ARexp» носит название «clinical attributable risk» или клинический атрибутивный (существенный) риск. В одном из исследований по оценке распространенности рака легкого было показано следующее: 52 Рак легких имел распространенность 6,2 на 100 000, в год. При этом, у женщин, находящихся замужем за курильщиками – 6,7027 на 10 5 , у женщин, мужья которых не курили – 5,5856 на 10 5 Рассчитаем 6,7027 / 5,5856 = 1,2 Таким образом, в группе женщин частота экспозиции, соответствует частоте встречаемости мужей курильщиков, и составляет ­ 16,7%. Еще один пример, контроль качества статистики в публикациях. Левченко Н.А., Рычагов Г.П. Медицинский журнал 3, 2008, стр 55 Заживление Основная группа Контрольная группа Полное 17 58,6 20 39,2* На 50% 9 31 13 25,5* Менее 50% 3 10,4 15 29,4* Нет 0 3 5,9 Всего 29 51 100 пролежней 100 *­ достоверно при р менее 0,05 Вывод авторов: ГБО оказывает существенное влияние на заживление Однако! 58,6% при доверительном интервале 95% C.I. (Fisher's) = 38,9 – 76,5 39,2% при доверительном интервале 95% C.I. (Fisher's) = 25,8 – 53,9 При проверке достоверности отличий обнаружено One­tailed: P = 0.075 or 0.972 Two­tailed: P = 0.108 Double one­tailed: P = 0.150 53 Вывод авторов сомнителен, необходима проверка по четырехпольной таблице. 2 x 2 Table (rep_orn.sta) Row Column Column 1 Frequencies, row 1 Percent of total 17 21,2% Frequencies, row 2 Percent of total 12 15,0% 20 25,0% Column totals Percent of total Totals 2 31 37 Chi­square (df=1) V­square (df=1) 36,2% 38,7% 46,2% 29 51 63,7% 43 80 53,7% 80 2,8 p= ,0943 80 2,77 p= ,0963 80 2,07 p= ,1498 80 Yates corrected Chi­ square Phi­square 0,035 43 80 tailed 0,035 p= ,0749 80 two­tailed 0,035 p= ,1081 80 1,53 p= ,2159 80 Fisher exact p, one­ Chi­square (B/C) 2 x 2 Table (rep_orn.sta) Row Frequencies, row 1 Percent of total Frequencies, row 2 Percent of total Column totals Column Column 1 2 9 Totals 20 11,250% 25,0% 13 36,25% 38 16,250% 47,5% 51 63,75% 58 80 27,500% 72,500% 80 Chi­square (df=1) 0,29 p= ,5934 80 V­square (df=1) 0,28 p= ,5957 80 Percent of total 22 29 54 Yates corrected Chi­ square Phi­square 0,07 p= ,7845 0,00356 80 58 80 tailed 0,00356 p= ,3886 80 two­tailed 0,00356 p= ,6115 80 1,09 p= ,2963 80 Fisher exact p, one­ Chi­square (B/C) Вывод авторов «ГБО оказывает существенное влияние на заживление» не верен, достоверных отличий нет. 55 Вариант ност ь причинной взаимосвязи экспозиции и сост ояния. 1. Экспозиция фактора (воздействия) А необходима и достаточная для состояния (заболевания) В А достаточна для В, и В достаточно для А Укус инфицированного животного и бешенство 2. Экспозиция фактора (воздействия) А необходима, но не достаточна для развития состояния (заболевания) В Развитие заболевания В предполагает наличие фактора А, но наличие фактора А не обязательно предполагает развитие состояния В Например, инфицирование вирусом гепатита и клиническая картина самого гепатита 3. Экспозиция фактора А достаточна для развития состояния В, но не является необходимой для получения результата в виде состояния В A достаточна для В, но В не достаточно для А Например: дефицит альфа­1­ антитрипсина и эмфизема легких 4. Экспозиция фактора (воздействия) А никогда не является необходимой или достаточной для состояния В. Имеется ряд других факторов, которые в совокупности и представляют либо необходимость, либо достаточность для состояния В. Например: развитие рака специфической локализации и употребление вещества 56