УДК 519.22 МОДЕЛИРОВАНИЕ И АНАЛИЗ ВРЕМЕН ЖИЗНИ БОЛЬНЫХ ЛЕПТОСПИРОЗОМ Городин В.Н. (к.м.н., главный врач ГУЗ «Специализированная клиническая инфекционная больница» департамента здравоохранения Краснодарского края, Халафян А.А. (к.т.н., докторант кафедры прикладной математики Кубанского государственного университета) Впервые методом Анализ выживаемости проведен анализ времен жизни больных лептоспирозом, выявлены статистические закономерности течения заболевания, обоснованны периоды времени наиболее опасные для жизни. Метод Анализ выживаемости первоначально были развит в медицинских, биологических исследованиях и страховании, но затем стал широко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах – анализ надежности и времен отказов [1]. Очевидно, наиболее важной и объективной характеристикой метода лечения или лекарственного препарата является средняя продолжительность жизни пациентов с момента начала лечения или средняя продолжительность ремиссии заболевания. Для описания средних времен жизни или ремиссии можно было бы использовать стандартные параметрические и непараметрические методы. Однако в анализируемых данных есть существенная особенность – могут найтись пациенты, которые в течение всего периода наблюдения выжили или заболевание все еще находится в стадии ремиссии. Так же может образоваться группа больных, контакт с которыми был потерян до завершения эксперимента (например, их перевели в другие клиники). При использовании стандартных методов оценки среднего эту группу пациентов пришлось бы исключить, тем самым, потеряв с трудом собранную, важную информацию. К тому же, большинство этих пациентов являются "выжившими" (выздоровевшими) в течение того времени, которое их наблюдали, и свидетельствуют в пользу нового метода лечения (лекарственного препарата). Информация, когда нет данных о наступлении интересующего нас события, называется неполной (censored). Примеры неполной информации: "пациент A был жив, по крайней мере, 4 месяца до того, как был переведен в другую клинику и контакт с ним был потерян" [2]; или, "пациент A жив до настоящего времени». Если есть данные о наступлении интересующего нас события, то информация называется полной (complete). 1 Например, "пациент A прожил 5 лет после проведенного лечения"; или, "пациент A вновь заболел через 3 месяца после лечения». Наблюдения, которые содержат неполную информацию, называются цензурированными наблюдениями. Цензурированные наблюдения типичны, когда наблюдаемая величина представляет время до наступления некоторого критического события, а продолжительность наблюдения ограничена по времени. Использование цензурированных наблюдений составляет специфику рассматриваемого метода – Анализа выживаемости. В данном методе исследуются вероятностные характеристики интервалов времени между последовательным возникновением критических событий. Такого рода исследования еще называю Анализ длительностей до момента прекращения (duration или time until failure), которые можно определить как интервалы времени между началом наблюдения за объектом и моментом прекращения (failure), при котором объект перестает отвечать заданным для наблюдения свойствам. Цель исследований – определение условных вероятностей, связанных с длительностями до момента прекращения. Построение таблиц времен жизни, подгонка распределения выживаемости, оценка функции выживаемости с помощью процедуры Каплана-Мейера являются описательными методами исследования цензурированных данных. Некоторые из перечисленных методов позволяют сравнивать выживаемость в двух и более группах. Анализ выживаемости содержит регрессионные модели для оценивания зависимостей между непрерывными переменными со значениями функции выживаемости. Лептоспироз (болезнь Вейля, болезнь Васильева-Вейля, водная лихорадка, луговая лихорадка, нанукаями и др.) – острая инфекционная болезнь, относящаяся к природноочаговым не трансмиссивным зоонозам, вызываемая лептоспирами. Лептоспироз, согласно принятой Всемирной Организацией Здравоохранения в 1985 году программе борьбы с зоонозами, относится к наиболее значимым болезням. Эта инфекция как эпидемиологически, так и эпизоотологически контролируется еще не полностью и приносит значительный экономический и социальный ущерб во многих странах мира. Актуальность этой инфекции в последние годы возросла. Заболевание характеризуется лихорадкой, симптомами общей интоксикации, поражением почек, печени, нервной системы. При тяжелых случаях наблюдается желтуха, снижение свертываемости крови и повышенная кровоточивость, острая почечная недостаточность и менингит [3]. Полиморфизм клинической симптоматики, поражение жизненно важных органов являются причиной высокого процента летальности [4]. 2 Проанализируем выживаемость 348 больных лептоспирозом, находившихся на лечении в клинической инфекционной больнице г. Краснодара [4] за период 1975-1996 гг. Фрагмент файла данных приведении на рис.1. 1 2 Пол Возр 1 2 3 4 5 6 7 8 9 10 11 12 м м м м м м м ж м м м м 33 26 36 40 30 42 17 46 54 45 39 43 3 Проф слу жащие рабочие неработающие рабочие рабочие рабочие рабочие колх озники колх озники рабочие инвалиды неработающие 4 Место жит-ва город село город село город город село село село село город город 5 Дата забол 05/30/1995 05/30/1995 05/31/1995 06/25/1995 07/03/1995 06/23/1995 07/06/1995 07/09/1995 07/17/1995 07/26/1995 08/07/1995 рис.1 08/12/1995 6 7 Форма Дата (ж/б) выбития б ж б ж ж б ж ж ж б ж ж 07/01/1995 07/14/1995 07/05/1995 08/02/1995 08/19/1995 07/29/1995 07/30/1995 08/22/1995 09/01/1995 08/19/1995 08/15/1995 08/22/1995 8 9 10 11 Кол-во Цензу р. Рыбалка Ку пание дней 32 45 35 38 47 36 24 44 46 24 8 10 цензу цензу цензу цензу цензу цензу цензу цензу цензу цензу цензу цензу р. нет р. нет р. нет р. да р. да р. нет р. нет р. нет р. да р. нет р. нет р. нет да да да да нет нет да нет да нет нет нет В таблице приведены пол больного, возраст, профессия, место жительства, дата заболевания, дата выбытия из больницы (для выздоровевших – дата выписки или перевода в другую больницу, для умерших – дата смерти), количество дней, проведенных в больнице, индикатор цензурирования, который принимает значения «цензур.» для выживших и значение «полное» для умерших, эпидемиологические факторы заболевания (рыбалка, контакт с грызунами, алиментарный фактор – вода и пища, купание в закрытых водоемах, прочее), наличие сопутствующих заболеваний и т.д. Наиболее естественным способом описания функции выживания в выборке является построение Таблиц времен жизни. Техника Таблиц времен жизни – один из старейших методов анализа данных о выживаемости. Такую таблицу можно рассматривать как "расширенную" таблицу частот. Область возможных времен наступления критических событий (смертей, отказов и др.) разбивается на некоторое число интервалов. Для каждого интервала вычисляется число и доля объектов, которые в начале рассматриваемого интервала были "живы", число и доля объектов, которые "умерли" в данном интервале, а также число и доля объектов, которые были изъяты или цензурированы в каждом интервале. В отличии от таблицы частот, в таблице времен жизни учтены как полные, так и неполные наблюдения. Наибольшая длительность пребывания больных в стационаре равна 60 дней. Поэтому за длину времени жизни (Т) взята величина 60. Для запуска процедуры анализа времен жизни необходимо выбрать число интервалов, или длину интервала на которые программа разобьет величину Т. Модуль Анализ времен жизни может осуществить 3 подгонку теоретического распределения к данным при помощи следующих моделей – Экспоненциальная, Линейный риск, Гомперца, Вейбулла. Процедура подгонки теоретического распределения к данным невозможна при наличии интервалов, не содержащих ни смертей, ни изъятых наблюдений (выписавшихся или переведенных больных). Если такие интервалы есть, то в модуле предусмотрена возможность скорректировать интервалы, не содержащие летальных исходов. Другой способ – уменьшить число интервалов таким образом, чтобы за счет увеличения длин интервалов не было интервалов, не содержащих смертей (отказов) или изъятых наблюдений. Если таблица времен жизни используется только в описательных целях и не предполагается подгонка распределения, то корректировку интервалов делать не нужно. Поэтому выбрано число интервалов, равное 5, так как длина интервала будет равна целому числу (60/4 = 15) и это максимальное значение, при котором, нет интервалов, не содержащих смертей, к тому же при большем числе интервалов не удалось подобрать подходящее теоретическое распределение. На рис.2,3 представлена таблица (начало и продолжение) времен жизни. В дополнение к стандартным описательным статистикам эта электронная таблица содержит оценки кумулятивной функции выживаемости, плотности распределения и медианы условного распределения продолжительности жизни в каждом интервале. Вычисляются также стандартные ошибки этих оценок. Рис.2 Рис.3 В столбцах таблицы приведены: – начало интервала; – средняя точка интервала; 4 – длина интервала; – число в начале, это число больных, которые были «живы» в начале рассматриваемо- го временного интервала; – число изъятых, это число больных, которые были выписаны в этот период времени; – число изучаемых, это число объектов, которые были "живы" в начале рассматриваемого временного интервала, минус половина числа изъятых или цензурированных объектов; – число умерших, это число объектов, «умерших» на данном временном интервале. В файле исходных данных этим объектам в столбце Цензур. соответствует текстовое значение полное; – доля умерших, это отношение числа умерших в соответствующем интервале, к числу больных, изучаемых на этом интервале; – доля выживших, эта доля равна единице минуc доля умерших; – кумулятивная доля выживших. Это накопленная доля выживших, к началу соответствую- щего временного интервала. Поскольку вероятности выживания считаются независимыми на разных интервалах, эта доля равна произведению долей выживших объектов по всем предыдущим интервалам. Полученная доля как функция от времени называется также выживаемостью или функцией выживания (точнее, это оценка функции выживания). Функция выживания является оценкой вероятности того, что объект «переживет» данный интервал; – плотность вероятностей. Это оценка вероятности смерти в соответствующем ин- тервале, определяемая таким образом: fi = (Pi-Pi+1) /hi, где fi – оценка плотности вероятности смерти в i-м интервале, Pi, Pi+1 – кумулятивные доли выживших объектов (функция выживания) соответственно к началу i-го и i+1-го интервалов, hi ширина i-ого интервала, Pi-Pi+1 – доля умерших; – функция мгновенного риска. Функция мгновенного риска определяется как оценка вероятности того, что объект, выживший к началу соответствующего интервала, умрет в течение этого интервала. Оценка функции интенсивности вычисляется как число смертей, приходящихся на единицу времени соответствующего интервала, деленное на среднее число объектов, доживших до момента времени, находящегося в середине интервала. Заметим, что именно функция риска используется для прогностических целей [10]; – стандартная ошибка кумулятивной доли выживших; 5 – стандартная ошибка плотности вероятностей; – стандартная ошибка функции интенсивности; – медиана ожидаемого времени жизни. Это точка на временной оси, в которой кумулятивная функция выживания равна 0,5. Другие процентили (например, 25- и 75процентиль или квартили) кумулятивной функции выживания вычисляются по такому же принципу. Отметим, что 50-процентиль (медиана) кумулятивной функции выживания обычно не совпадает с точкой выживания 50% выборочных наблюдений. Совпадение происходит только тогда, когда за прошедшее к этому моменту время не было цензурированных наблюдений; – стандартная ошибка медианы ожидаемого времени жизни. Исследователя интересует функция выживания и функция риска. Однако, реально программа вычисляет лишь оценки этих функций. Естественно, доверять надо тем оценкам, у которых малы стандартные ошибки. Например, не следует доверять тем оценкам, погрешность которых имеет тот же порядок, что и сама оценка. Желательно, чтобы оценка, по крайней мере, в 2 раза превосходила стандартную ошибку; Из таблицы следует, что в начале 1-го интервала число больных равно 348, число умерших в этот период времени равно 102, число выписанных – 30, поэтому к началу 2-го интервала, число больных составило 216 человек. Максимальное число умерших равно 102 и, так как наибольшая доля умерших, равная 0,306 (102/303) соответствует 1-му периоду времени, то наиболее интенсивно больные умирают в первые 15 дней! С увеличением номера интервала, доля умерших уменьшается и в интервале 3 принимает минимальное значение равное 0,011, затем в интервале времени 4 доля умерших резко возрастает (приблизительно в 5 раз) и принимает значение 0,0526. С точностью до наоборот ведет себя доля выживших. Изменению доли умерших (выживших) соответствует величина риска. Так, наибольший риск умереть соответствует интервалу 1 (0,024), наименьший – интервалу 3 (0,0007). В процессе анализа исследовали возможность подгонки теоретического распределения к данным при помощи моделей: Экспоненциальная, Линейный риск, Гомпертца, Вейбулла. По таблицам Оценки параметров (рис.4) установили, что наиболее адекватной моделью является распределение Гомпертца. Модуль Анализ выживаемости подгоняет теоретическое распределение с помощью обычного метода наименьших квадратов – Вес1 и двух методов взвешенных квадратов – Вес2 и Вес3. По величине уровня значимости критерия р оценивают адекватность модели. Если критерий значим (р < 0,05), то считается, что подогнанное распределение значимо расходится с наблюдаемыми данными. Поэтому отвергается это семейство распределений и предполагается, что оно не 6 согласуется с данными. Оценки параметров; Модель: Гомпертца (Анализ выживаемости 1) Замечание: Веса: 1=1., 2=1./V,3=N(I)*H(I) Оценив. Лямбда Дисперс. Стд.Ош. Гамма Дисперс. ЛогХи-квадр сс p Метод Лямбда Лямбда Гамма правдоп. Вес 1 -3,73995 0,141372 0,375994 -0,053655 0,000450 -289,860 18,59907 2 0,000092 Вес 2 -3,20742 0,024941 0,157929 -0,070565 0,000154 -282,521 3,92249 2 0,140700 Вес 3 -3,07433 0,054008 0,232396 -0,087338 0,000398 -281,645 2,16944 2 0,338009 Рис.4 Из таблицы видно, что адекватными являются модели Гомпертца, соответствующие методам Вес2 (р = 0,1407) и Вес3 (р = 0,3380), причем наилучшей моделью является модель Вес3. В модуле Анализ времен жизни для анализа выживаемости используются оценки функции выживаемости, риска, плотности вероятностей. На рис.5-7 приведены таблицы результатов с соответствующими оценками этих функций методами Вес1, Вес2, Вес3. Эмпирические значения этих функций приведены в общей таблице результатов на рис.2-3. Это соответственно столбцы Кум. доля выживших, Риск, Плотн.вероятн. На рисунках 8-9 изображены гистограммы эмпирических значений функции выживаемости (кумулятивная доля выживших) и плотности вероятности и соответствующие им кривые теоретических (оценочных) функций Гомпетрца. Оценки функции выживаемости; Замечание: Веса: 1=1., 2=1./V,3=N(I)*H(I) Интервал Вес 1 Вес 2 Интервал начало Инт. №1 0,00000 1,000000 1,000000 Инт. №2 15,00000 0,782890 0,687683 Инт. №3 30,00000 0,701726 0,603899 Инт. №4 45,00000 0,668209 0,577280 Инт. №5 60,00000 0,653744 0,568320 Вес 3 Оценки плотности вероятности; Замечание: Веса: 1=1., 2=1./V,3=N(I)*H Интервал Вес 1 Вес 2 Вес 3 Интервал начало Инт. №1 0,00000 0,015885 0,023834 0,024008 Инт. №2 15,00000 0,005208 0,005241 0,004109 Инт. №3 30,00000 0,002165 0,001684 0,001050 Инт. №4 45,00000 0,000937 0,000569 0,000279 Рис.6 7 1,000000 0,679477 0,612202 0,595221 0,590721 Рис.5 Оценки функции риска; Модель Замечание:Веса: 1=1.,2=1./V,3=N(I)*H(I) Интервал Вес 1 Вес 2 Вес 3 Интервал начало Инт. №1 0,00000 0,015885 0,023834 0,024008 Инт. №2 15,00000 0,007103 0,008270 0,006477 Инт. №3 30,00000 0,003176 0,002870 0,001748 Инт. №4 45,00000 0,001420 0,000996 0,000472 Рис.7 Из рис.8 и таблицы на рис.3 следует, что наибольшее уменьшение доли выживших достигается к 15 дню болезни и составляет около 30%, далее к началу остальных периодов времени продолжается тенденция уменьшения, хотя и замедляется ее темп. К 30 и 45 дням болезни доли выживших больных примерно одинаковы. Из графика видно, что наилучшая аппроксимация эмпирической функции выживания кривой Гомпертца достигается методом Вес3. М Кумулятивн ая доля выживших З 1 , 1 1 , 0 0 , 9 0 , 8 0 , 7 0 , 6 0 , 5 0 , 4 0 , 3 0 , 2 0 , 1 0 , 0 0 , 0 Н а м 0 0 1 К О ц е н к и ф у н к ц и и в ы ж М о д е л ь : Г о м п е р т ц а ч а н и е : В е с а : 1 = 1 . , 2 = е 5 , 0 0 3 И 0 , 0 н 0 4 т е р 5 , 0 в а 0 6 л 0 , 0 0 7 5 и 1 , 0 в а . / V , 3 0 9 0 е м = , 0 о N 0 с т и ( I ) * H Н В В В а б е с е с е с ( I ) л ю 1 2 3 д . ы Рис.8 Из рис.9 и таблицы на рис.3 (столбец Плотн.вероятн.) следует, что вероятность смерти максимальна в первый период времени. Далее, происходит ее резкое уменьшение. Тенденция уменьшения вероятности сохраняется и в 3-м периоде времени, но в 4-м периоде времени вероятность вновь возрастает. Другими словам, вероятность смерти больного наибольшая в первые 15 дней болезни и составляет ≈30,6% (0,020420 × 15 × 100%). Затем она резко уменьшается в течении следующих 30 дней болезни и в период с 30 по 45 день болезни составляет ≈ 0,688% (0,000459 × 15 × 100%). Далее вновь возрастает в период с 45 по 60 день болезни и составляет уже ≈ 3,21% (0,00214 × 15 × 100%). Из графика видно, что наилучшая аппроксимация эмпирической плотности вероятности кривой Гомпертца достигается методом Вес3. 8 М Н К О ц е н к и М З а м п л о т н о с т и о д е л ь : е ч а н и е : В Г о м е с а : в е р о я т н о с т и п е р т ц а 1 = 1 ., 2 = 1 . / V ,3 = N ( I) * H ( I ) 0 , 0 3 0 Плотн ость вер. 0 , 0 2 5 0 , 0 2 0 0 , 0 1 5 0 , 0 1 0 0 , 0 0 5 0 , 0 0 0 0 , 0 0 0 1 5 , 0 0 3 0 , 0 0 И 4 5 , 0 0 6 0 , 0 0 н т е р в 7 5 , 0 0 Н В В В 9 0 , 0 0 а е е е б л ю с 1 с 2 с 3 д . а л ы Рис.9 Из рис.10 и таблицы на рис.3 (столбец Риск) следует, что вероятность больного, выжившего к началу соответствующего периода времени, умереть в течение этого периода времени резко уменьшается с 1-го периода по 3-й и вновь возрастает в 4-й период времени. Из графика также видно, что наилучшая аппроксимация эмпирической плотности вероятности кривой Гомпертца достигается методом Вес3, причем модель адекватна для периодов времени 1-3, и не адекватна для периода времени 4. М Ф_ри ска З 0 , 0 3 0 0 , 0 2 5 0 , 0 2 0 0 , 0 1 5 0 , 0 1 0 0 , 0 0 5 0 , 0 0 0 0 а , 0 м 0 Н К О ц е н к и р и с к а М о д е л ь : Г о м п е р т ц а е ч а н и е : В е с а : 1 = 1 . , 2 = 01 5 , 0 03 И 0 , 0 н 04 т е 5 р , 0 в а 06 л 0 , 0 07 5 1 , 0 . / V 09 0 , 3 , 0 = 0 N Н В В В ( I ) * H а б е с е с е с ( I ) л ю 1 2 3 д . ы Рис.10 Выявленная динамика вероятности летальных исходов объясняется спецификой течения лептоспироза. С клинической точки зрения первые 2 недели болезни сопровождаются выраженным синдромом интоксикации и развитием таких серьезных осложнений как инфекционно-токсический шок, респираторный дисстрес-синдром (РДСВ), ДВС-синдром, острая почечно-печеночная недостаточность и др. Нередко в этот период болезни отмечается их сочетание с формированием полиорганной недостаточности, которая и является основной причиной летальных исходов. С начала 3-й недели болезни у большинства больных отмечается регресс клинической и лабораторной 9 симптоматики и болезнь переходит в следующую фазу – ранней реконвалесценции. Летальные исходы в более поздних сроках (3-6-я недели болезни) обусловлены бактериальной суперинфекцией на фоне имеющегося вторичного иммунодефицита. Метод Таблиц времен жизни один из самых старых и наиболее используемых способов оценки функции выживания (а также функции риска и плотности вероятности функции). Однако, точные оценки методом таблиц будут зависеть от выбора числа и ширины интервалов времени выживания. Метод Множительных оценок Каплана-Мейера производит оценку функции выживаемости для полных и цензурированных данных, используя непосредственно время выживания, без обработки (группировки данных). Предположим, что задан файл, в котором записаны в хронологическом порядке отдельные наблюдения. Создадим новый файл данных, упорядочив наблюдения по количеству проведенных дней под наблюдением. Для полных данных – это число дней до отказа (смерти), для цензурированных – это число дней, проведенных под наблюдением. Каплан и Мейер предложили следующую оценку функции выживаемости: S(t) = Пjt= 1 [(n-j)/(n-j+1)] δj В этом выражении, S(t) - оценка функции выживаемости, n - общее число наблюдений и П означает произведение (геометрическую сумму) по всем наблюдениям, завершившимся к моменту t; δj равно 1, если j-ое наблюдение полное, и равно 0, если это наблюдение потеряно – цензурированное. Данная оценка функции выживаемости, называется еще множительной оценкой. Заметим, что j – это не номер наблюдения в исходном файле данных, а это номер наблюдения в новом файле, где произведено упорядочивание по количеству проведенных под наблюдением дней. Преимущество метода Каплана-Мейера (по сравнению с методом Таблиц времен жизни) состоит в том, что оценки не зависят от разбиения времени наблюдения на интервалы, т.е. от группировки. Метод Множительных оценок Каплана-Мейера и метод Таблиц времен жизни приводят, по существу, к одинаковым результатам, если временные интервалы содержат, минимум, по одному наблюдению. В таблице на рис.11 приведены оценки функции выживаемости по методу Каплана-Мейера. В столбце с номерами наблюдений полные наблюдения (умершие больные) помечены знаком «+». В столбце Время указано количество дней, которое прошло от начала заболевания до смерти для умерших больных (полных наблюдений), и количество дней, которое прошло от начала заболевания до выписки или перевода в другую больницу для выживших больных (цензурированных наблюдений). 10 Анализ множ.оценок К-М) Замечание: цензур отмеч + Номер Время Кумулят. Станд. набл. Выжив-ть Ошибка 337 1,00000 0,997127 0,002869 85+ 1,00000 305 5,00000 0,994245 0,004058 318 5,00000 0,991363 0,004965 299 5,00000 0,988481 0,005726 298 5,00000 0,985599 0,006394 67+ 5,00000 339 6,00000 0,982709 0,006998 241 6,00000 0,979818 0,007551 325 6,00000 0,976928 0,008063 290 6,00000 0,974038 0,008541 296 6,00000 0,971147 0,008992 240 6,00000 0,968257 0,009418 284 6,00000 0,965367 0,009823 320 6,00000 0,962476 0,010210 326 6,00000 0,959586 0,010581 347 6,00000 0,956696 0,010937 336 6,00000 0,953805 0,011279 Рис. 11 70+ 6,00000 Больные упорядочены по количеству дней. Прокрутив таблицу, можно увидеть, что количество дней прошедшее с начала заболевания до наступления события изменяется от 0 до 60 дней. Меньше всего эта величина у больных с порядковыми номерами 337 и 85. Больной под номером 337 умер в 1-й день, а больной под номером 85 был переведен в другую больницу. Больше всего дней был болен пациент с номером 188, через 60 дней после заболевания он покинул больницу. Если в столбце Кумулят. выживаемость отсутствует значение, значит, больной выбыл из больницы (цензурированное наблюдение), если есть значение, значит, больной умер, прожив количество дней, указанное в столбце Время. Так, пациенты под номерами 85 и 67 являются цензурированными наблюдениями. Первый умерший больной под номером 337, прожил после заболевания 1 день, второй – под номером 67, прожил 5 дней с момента заболевания. Значение в столбце Кумулят. выживаемость означает вероятность того, что произвольный больной проживет больше дней, чем указано в соответствующей строке столбца Время. Эта вероятность просчитана по формуле Каплана-Мейера. Например, для 1-го больного (номер 337) – S(1) = (348-1) / (348-1+1) = 0,997127; для 3-го больного (номер 305) – S(3) = (348 - 1) / (348 – 1 + 1) ((348 - 2) / (348 – 2 + 1))0 (348 - 3) / (348 – 3 + 1) = 0,994245 Стандартные ошибки оценок функции выживаемости малы, что свидетельствует о достоверности оценок. 11 На рис.12 представлено графическое изображение оцененной функции выживаемости. Ф Куму лятивн ая доля выживших З 1 , 2 1 , 1 1 , 0 0 , 9 0 , 8 0 , 7 0 , 6 0 , 5 0 1 0 2 у н а к ц в е 0 и р 3 В я ш В .Ц ы е ж и в а е м н з у р и р . о 4 0 0 м я ж и 0 р е 5 з с т и 6 0 7 0 н и Рис.12 Из графика, изображенного на рис.12 видно, что значение функции выживаемости резко падает в течение первых 20 дней с начала заболевания. Начиная с 20 дня, функция убывает менее резко. Поэтому, можем сделать вывод, что первые 20 дней после начала заболевания являются наиболее критическими (опасными для жизни). Для удобства интерпретации результатов полные наблюдения (умершие больные) помечены точками, неполные (выжившие больные) – крестиками. Из графика следует, что вероятность прожить более 10 дней для больного равна ≈ 0,8, а вероятность прожить более 20 дней уже меньше и равна ≈ 0,625, эта же вероятность сохраняется и для 30, 40 дней. Из графика и таблицы также видно, что после 20-го дня на 22-й, 40-й и 48-й день умерло 3-е больных . В таблице на рис.13 указаны процентили, которые также отражают природу распределения. Из таблицы следует, что 25% (нижняя квартиль) всех пациентов умирают в течение первых 11 дней после заболевания. Процентили 25' процентиль (нижн.квартиль) 50' процентиль (медиана) 75' процентиль (верх. квартиль) Процен. Функ Выж Времена Жизни 11,00000 Рис.13 При анализе времен жизни определенный интерес представляет сравнение выживаемости в нескольких группах наблюдений. Для этой цели в модуле Анализ выживаемости предусмотрены две процедуры: Сравнение двух выборок – для сравнения выживаемости в двух группах и Сравнение нескольких выборок – для сравнения выживаемости более чем в двух группах. Проверим различие в выживаемости больных в 12 группах, состоящих из мужчин и женщин. На рис. 14 представлен фрагмент таблицы результатов со значениями обобщенного Геханом критерия Вилкоксона. К у м у л З 1 я т и а в в е н а я д о рЦ ш е . н з л у р я и в ы р ж и в ш и х . , 0 Кумулятивная доля выживших Критерий Гехана-Вилкоксона (Анализ выживаемости 1) 0 , 9 WW = -1161, Сум = 9133E3 Дис = 5881E2 Времена Стат. крит. = -1,51329 p = ,13021 0 , 8 Жизни Группа R1 R2 1,0000 м 1,0000 348,0000 0 , 7 1,0000+ м 2,0000 1,0000 5,0000 м 2,0000 343,0000 0 , 6 5,0000 м 2,0000 343,0000 5,0000 м 2,0000 343,0000 5,0000 м 2,0000 343,0000 0 , 5 0 1 0 2 0 5,0000+ м 6,0000 1,0000 6,0000 м 6,0000 331,0000 6,0000 м Рис.146,0000 331,0000 3 0 В 4 р е 0 м 5 0 6 0 7 0 м ж я Рис.15 Кроме статистики критерия Гехана-Вилкоксона, таблица содержит также список всех упорядоченных по возрастанию времен жизни наблюдений (столбец 1); группу, к которой принадлежит наблюдение; число полных наблюдений плюс 1, меньших, чем данное (столбец R1); для полных наблюдений – число наблюдений, больших, чем данное (столбец R2). Для цензурированных наблюдений в столбце 2 стоят единицы. Отметим, что цензурированные наблюдения помечены знаком плюс (+). Сравнение выживаемости в группах проводили при уровне значимости критерия р = 0,05. Если р < 0,05, то верна гипотеза о различии выживаемости в группах, если р > 0,05, то верна альтернативная гипотеза – нет существенной разницы в выживаемости больных в группах. Из графика следует, что уровень выживаемости женщин выше, чем у мужчин (при уровне значимости критерия Гехана-Вилкоксона р = 0,15), что можно объяснить следующими факторами: первое – мужчины болеют значительно чаще женщин, второе – женщины менее привержены вредным привычкам и следовательно реже отмечается их алкоголизация и наличие значимой сопутствующей патологи. Проверим различие в выживаемости больных в группах, состоящих из больных желтушной и безжелтушной форм (рис.16,17). 13 ( К а п л К у м у л З 1 я а т и в н а я д в е Цр ше н. з у р 3 0 4 0 5 о л и я р в ы ж и в ш . , 0 Кумулятивная доля выживших , 9 Критерий Гехана-Вилкоксона (Анализ0 выживаемости 1) W W = 2196,0 Су м = 9133E3 Дис = 7432E2 Времена Стат. крит. = 2,546704 p = ,01087 0 , 8 Жизни Гру ппа R1 R2 1,0000 ж 1,0000 348,0000 0 , 7 1,0000+ ж 2,0000 1,0000 5,0000 ж 2,0000 343,0000 5,0000 б 2,0000 343,0000 0 , 6 5,0000 ж 2,0000 343,0000 5,0000 б 2,0000 343,0000 5,0000+ ж 6,0000 1,0000 0 , 5 0 1 0 2 0 6,0000 ж 6,0000 331,0000 6,0000 ж 6,0000 331,0000 6,0000 ж 6,0000 Рис.16331,0000 6,0000 ж 6,0000 331,0000 В р е м 0 6 0 7 0 б ж я Рис.17 Из графика следует, что уровень выживаемости больных безжелтушной формы значительно выше, чем у больных желтушной формы, по критерию Гехана-Вилкоксона это различие статистически значимо (при уровне значимости р = 0,05). Выявленное различие в выживаемости больных безжелтушной и желтушной формами заболевания с клинической точки зрения вполне объяснимо – печень является важным органом естественной детоксикации и при желтушной форме нарушение ее многочисленных функций (детоксицирующей, белковообразующей, метаболической и др.) сопровождается развитием недостаточности и большей тяжестью клинического течения. При анализе времен жизни особую актуальность приобретает выяснение того, являются ли некоторые непрерывные переменные связанными с наблюдаемыми временами жизни. При наличии такой зависимости необходимо подобрать подходящую математическую модель и оценить значения параметров модели. Такую модель проблематично строить при помощи классической множественной регрессии по двум причинам. Во-первых, времена жизни обычно не являются нормально распределенными, а это является серьезным нарушением предположений для оценивания множественной регрессии по методу наименьших квадратов. Времена жизни обычно имеют экспоненциальное распределение или распределение Вейбулла. Во-вторых, имеется проблема с цензурированными, т.е. незавершенными наблюдениями. В исходном файле 3 непрерывные переменные: Возраст больного, Количество койкодней, проведенных в больнице и Длительность заболевания. Проверим, в какой степени зависима функция выживаемости от Возраста. Воспользуемся Регрессионной моделью интенсивности Кокса. На рис.18 представлена итоговая таблица оценок параметров и стандартные ошибки оценок параметров. В первом столбце (Бета) приведены оценки 14 и х ( К параметров. Во втором столбце (Станд.Ошибка) – стандартные ошибки, в третьем столбце – значения t-критерия, которые равны отношению соответствующих элементов первого и второго столбцов. В пятом и шестом столбцах приведены значения статистики Вальда и уровень значимости (p). Обычно статистически значимым (при p < 0,05) считаются такие оценки параметра, которые, по крайней мере, в два раза превышают стандартную ошибку этого параметра. Следовательно, из данных таблицы делаем вывод, что значение χ 2 статистически значимо для переменной возраст (р = 0,056) при уровне значимости 0,1. Коэффициент Бета при переменной возраст (0,013210) мал. Это означает, что функция выживаемости «умеренно» зависит от возраста. Данная зависимость выражается в уменьшении выживаемости с увеличением возраста больного, что вполне объяснимо тем, что с возрастом больше имеется сопутствующей патологии, ниже адаптационные возможности организма. Зависимая перем.: Времена жизни в днях (Анализ выживаемости 1) Цензурир. пер.: Цензур. Хи2 = 3,62856 сс = 1 p = ,05680 Бета Станд. t-знач. Экспон. Вальда p N=348 Ошибка Бета Статист. Возр 0,013210 0,006916 1,910232 1,013298 3,648985 0,056112 Рис. 18 К полученным значениям оценок параметров можно построить графики выживаемости как функции независимых переменных. На рис.19 представлен график выживаемости при средних значениях переменной возраст (42,3 года). Ф у н к ц и я в ы ж и в а е м о Н е з а в и с и м ы х с т и д л я с р ед н их з н а ч ен и й п е р е м е н н ы х Кумулятивная доля выживших 1 , 0 0 , 9 0 , 8 0 , 7 0 , 6 0 , 5 0 1 0 2 0 3 0 В р е м я 4 0 5 0 6 0 7 0 ж и з н и Рис.19 Из графика следует, что вероятность больного возраста 42,3 года прожить более 20 дней, равна ≈ 0,625, прожить более 60 дней, равна ≈ 0,58. 15 В программе предусмотрена возможность построения графика функции выживаемости, когда значения переменной задаются пользователем. Проверим, как влияет возраст пациента на функцию выживаемости. Увеличим возраст до 60 лет. Из графика выживаемости, изображенного на рис.22 следует, что существенно уменьшились значения функции выживаемости и вероятность 60 летнего пациента прожить после операции более 20 дней, равна ≈ 0,56, а прожить более 60 дней, равна ≈ 0,52. Таки образом мы получили дополнительное подтверждение зависимости выживаемости от возраста пациента. Ф З н а у н к ц и я ч е н и я в ы ж и в а е м н е з а в и с и м ы о с т и х п е р е м е н н ы х 1 ,0 Кумулятивная доля выживших 0 ,9 0 ,8 0 ,7 0 ,6 0 ,5 0 ,4 0 1 0 2 0 3 0 В р е м 4 0 я 5 0 6 0 7 0 ж и з н и Рис.22 Таким образом, методом Анализ выживаемости установлены следующие закономерности течения инфекционного процесса при лептоспирозе: – наибольший риск летального исхода имеется у больных в первые 15 дней – наименьший – в период времени от 30 до 45 дня. Вероятность летального исхода больного в первые 15 дней составляет ≈31%, затем она резко уменьшается в течении следующих 30 дней болезни и в период с 30 по 45 день болезни составляет ≈0,68%. Далее вновь возрастает в период с 45 по 60 день болезни и составляет уже ≈3,21%; – 25% всех пациентов умирают в течение первых 11 дней от начала заболевания; – к 15 дню заболевания достигается наибольшее уменьшение доли выживших, которое составляет ≈ 30%. – наблюдается статистически значимое различие между выживаемостью у мужчин и женщин, у больных безжелтушной и желтушной формами течения болезни. – выявлена умеренная зависимость между выживаемостью больного и его возрастом. ЛИТЕРАТУРА 16 1. StatSoft.Inc.(2001). Электронный учебник по статистике. М. StatSoft.WEB: http://www. StatSoft.ru/home/textbook/default.htm. 2. Боровиков В.П. STATISTICA. Искусство анализа данных на компьютере. Для профессионалов. СПб.: Питер, 2001. 3. http://www.doktor.ru/infect/sta/lepto.htm 4. Городин В.Н., Лебедев В.В. Синдром интоксикации при иктерогеморрагическом лептоспирозе // Вестник интенсивной терапии. - 2000. - № 5-6. - С. 180-183. 5. Лебедев В.В., Городин В.Н. Совершенствование лечения больных лептоспирозом в городской клинической инфекционной больнице Краснодара // Инфекционные болезни и антимикробные средства.: Мат-лы III науч.-практ.конф.- Москва, 2005. - С.20-21. Известия высших учебных заведений. Северокавказский регион. Естественные науки. 2008. № 2. 17