êéëëàâëäÄü îÖÑÖêÄñàü åàçàëíÖêëíÇé éÅêÄáéÇÄçàü à çÄìäà îÉÅéì Çèé íûåÖçëäàâ ÉéëìÑÄêëíÇÖççõâ ìçàÇÖêëàíÖí àçëíàíìí ÅàéãéÉàà ë. ç. ÉÄòÖÇ, î. ï. ÅÖíãüÖÇÄ, å. û. ãìèàçéë åÄíÖåÄíàóÖëäàÖ åÖíéÑõ Ç ÅàéãéÉàà: ÄçÄãàá ÅàéãéÉàóÖëäàï ÑÄççõï Ç ëàëíÖåÖ STATISTICA ì˜Â·ÌÓ ÔÓÒÓ·Ë ÑÓÔÛ˘ÂÌÓ ì˜Â·ÌÓ-ÏÂÚӉ˘ÂÒÍËÏ Ó·˙‰ËÌÂÌËÂÏ ÔÓ Í·ÒÒ˘ÂÒÍÓÏÛ ÛÌË‚ÂðÒËÚÂÚÒÍÓÏÛ Ó·ð‡ÁÓ‚‡Ì˲ ‚ ͇˜ÂÒڂ ۘ·ÌÓ„Ó ÔÓÒÓ·Ëfl ‰Îfl ÒÚÛ‰ÂÌÚÓ‚ ‚˚Ò¯Ëı ۘ·Ì˚ı Á‡‚‰ÂÌËÈ, Ó·Û˜‡˛˘ËıÒfl ÔÓ Ì‡Ôð‡‚ÎÂÌ˲ 020200 (020400) «ÅËÓÎÓ„Ëfl» Ë ÒÔˆˇθÌÓÒÚË 020501 «ÅËÓËÌÊÂÌÂðËfl Ë ·ËÓËÌÙÓðχÚË͇» í˛ÏÂ̸ àÁ‰‡ÚÂθÒÚ‚Ó í˛ÏÂÌÒÍÓ„Ó „ÓÒÛ‰‡ðÒÚ‚ÂÌÌÓ„Ó ÛÌË‚ÂðÒËÚÂÚ‡ 2014 УДК 57.087.1:004.9(075.8) ББК Е0с51я73 Г248 С. Н. Гашев, Ф. Х. Бетляева, М. Ю. Лупинос. МАТЕМАТИЧЕСКИЕ МЕТОДЫ В БИОЛОГИИ: АНАЛИЗ БИОЛОГИЧЕСКИХ ДАННЫХ В СИСТЕМЕ STATISTICA: учебное пособие. Тюмень: Издательство Тюменского государственного университета, 2014. 208 с. Изложены методы анализа биологических данных на основе программы STATISTICA. Рассмотрены основные статистические понятия, одномерные и многомерные статистические методы, углубленные методы анализа, временные ряды и прогнозирование. Наглядные примеры, доступная форма изложения позволяют приобрести навыки самостоятельной постановки задач для контекстно-значимого массива данных, отбора метода анализа и интерпретации полученных результатов. Предназначено для студентов направлений 020200 (020400) «Биология» и специальности 020501 «Биоинженерия и биоинформатика», аспирантов, научных работников, специалистов, занимающихся статистической обработкой данных и использующих современные компьютерные технологии. Работа выполнена в рамках базовой части государственного задания Министерства образования и науки РФ № 01201460003 (№ 2-14 ТюмГУ). Рецензенты: Г. П. Селюкова, кандидат биологических наук, зав. кафедрой экономико-математических методов и вычислительной техники Государственного аграрного университета Северного Зауралья А. В. Белкин, кандидат биологических наук, доцент кафедры анатомии и физиологии человека и животных Института биологии Тюменского государственного университета ISBN 978-5-400-01048-4 © ФГБОУ ВПО Тюменский государственный университет, 2014 © С. Н. Гашев, Ф. Х. Бетляева, М. Ю. Лупинос, 2014 —2— ОГЛАВЛЕНИЕ ВВЕДЕНИЕ........................................................................................................5 1. ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ.................8 1.1. Точечные оценки параметров............................................................12 1.2. Робастная оценка в программе STATISTICA ..................................18 1.3. Интервальные оценки параметров ....................................................23 Задания для самостоятельной работы......................................................30 Контрольные вопросы...............................................................................31 2. ПАРАМЕТРИЧЕСКИЕ И НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СРАВНЕНИЯ .............................................................................32 2.1. Проверка нормальности эмпирического распределения ................32 2.2. Параметрические критерии сравнения средних ..............................45 2.3. Непараметрические критерии сравнения средних...........................58 2.3.1. Сравнение независимых выборок.............................................59 2.3.2. Сравнение зависимых групп .....................................................64 2.3.3. Сравнение номинальных (категориальных) переменных ......66 Задания для самостоятельной работы......................................................68 Контрольные вопросы...............................................................................69 3. ДИСПЕРСИОННЫЙ АНАЛИЗ ФАКТОРНЫХ ЭФФЕКТОВ ................70 3.1. Параметрические методы оценки факторных эффектов.................70 3.2. Непараметрические методы оценки факторных эффектов.............87 Задания для самостоятельной работы......................................................93 Контрольные вопросы...............................................................................94 4. МЕТОДЫ АНАЛИЗА ВЫЖИВАЕМОСТИ .............................................95 4.1. Описательные методы исследования цензурированных данных (таблицы времен жизни и распределения) ..............................................96 4.2. Метод множительных оценок Каплана–Мейера............................102 4.3. Сравнение выживаемости в группах...............................................104 Задания для самостоятельной работы....................................................111 Контрольные вопросы.............................................................................111 —3— 5. МЕТОДЫ ОЦЕНКИ СВЯЗИ МЕЖДУ ПРИЗНАКАМИ .......................112 5.1. Параметрические показатели связи ................................................112 5.2. Факторный анализ ............................................................................117 5.3. Регрессионный анализ......................................................................125 5.4. Непараметрические показатели связи ............................................131 5.5. Оценка связи между номинальными величинами .........................136 Задания для самостоятельной работы....................................................146 Контрольные вопросы.............................................................................147 6. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ И ПРОГНОЗИРОВАНИЕ................148 6.1. Модель авторегрессии и проинтегрированного скользящего среднего..............................................................................149 6.2. Сезонная декомпозиция ...................................................................164 Задания для самостоятельной работы....................................................168 Контрольные вопросы.............................................................................169 7. МЕТОДЫ КЛАССИФИКАЦИОННОГО АНАЛИЗА ............................170 7.1. Кластерный анализ ...........................................................................170 7.2. Дискриминантный анализ................................................................177 Задания для самостоятельной работы....................................................186 Контрольные вопросы.............................................................................189 ЗАКЛЮЧЕНИЕ .............................................................................................190 ПЕРЕЧЕНЬ МАТЕМАТИКО-СТАТИСТИЧЕСКИХ ТАБЛИЦ................191 СЛОВАРЬ ТЕРМИНОВ................................................................................194 СПИСОК ЛИТЕРАТУРЫ.............................................................................200 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ.....................................................................201 —4— ВВЕДЕНИЕ В современном информационно-организованном мире биологу, так же как и специалистам других направлений, невозможно обойтись без всестороннего анализа данных. Эта работа обеспечивается знанием статистических закономерностей и методов анализа. Использование компьютерных программ анализа данных повышает эффективность этой работы. Исходные данные для статистического анализа в биологии получают в результате проведения лабораторных и полевых исследований, в ходе которых регистрируются значения одной или нескольких переменных (признаков). В статистическом анализе различают следующие типы шкал измерения переменных: номинальные (каждое значение определяет одну категорию, отличие категорий не может быть оценено количественно); порядковые (шкалы ранжирования значений переменных); интервальные (шкалы упорядочивания наблюдений и оценки расстояния между ними); относительные (шкалы, имеющие определенную точку абсолютного нуля). Между свойствами интервальных и относительных шкал в статистическом анализе частот не делают различия. Соответственно шкалам выделяют типы переменных: номинальные, порядковые, интервальные, относительные [2], [11], [21]. К номинальным и ранговым (порядковым) переменным применимы лишь некоторые разделы математической статистики, например категориальный анализ, методы сравнения частот. Если номинальные значения предварительно заменены на числа, обозначающие коды, номинальные и порядковые переменные могут быть обработаны как количественные переменные. Значения количественных переменных являются числовыми. На обработку количественных переменных ориентировано большинство методов компьютерной программы STATISTICA [6], [16], [18], [20]. Реализованные в STATISTICA (advanced) методы анализа разделены на группы: основные статистики/таблицы, множественная регрессия, дисперсионный анализ, непараметрические данные, настройка распределения, дополнительные линейные/нелинейные мо—5— дели, многомерные исследовательские методы, анализ мощности, информационная проходка, статистика данных блока, STATISTICA Visual Basic, подсчет вероятности [3], [5], [21]. В первом разделе пособия рассмотрены современные подходы для проведения описания статистических совокупностей. Большинство методов основной статистики относятся к методам параметрической статистики, основывающимся на предположении, что распределение выборок соответствует нормальному типу. Перед применением параметрических критериев проводится проверка выборочных распределений на нормальность на основе совокупности критериев. Применение параметрических и непараметрических методов изложено во втором разделе. Непараметрические методы — методы вычисления основных статистических показателей, характеризующих малые выборки, распределение которых не соответствует нормальному типу. Базируются эти методы, как правило, только на предположениях о независимости наблюдений, случайном характере исходных данных, о непрерывности генеральной совокупности, из которой они извлечены. В параметрических ситуациях (когда выполняются условия применения параметрических методов) непараметрические процедуры обычно обладают меньшей точностью по выявлению различий, чем их параметрические аналоги, но они более объективны в ситуациях, когда параметрические процедуры неприменимы: для номинальных или ранговых переменных, для выборок с произвольным распределением или малочисленных выборок. В третьем разделе рассмотрено применение параметрических и непараметрических методов оценки разности при одновременном сравнении нескольких групп, изложена методика сравнения групп с повторными измерениями признака. В четвертом разделе описана техника работы с цензурированными данными, приведены методы анализа цензурированных данных на основе построения таблиц времен жизни и распределений, множительных оценок Каплана-Мейера, сравнения выживаемости в группах и их соответствие теоретическим функциям времен жизни. —6— В пятом разделе рассмотрены применение параметрических и непараметрических показателей связи, техника проведения факторного и регрессионного анализа; изложены возможности факторного анализа для определения структуры взаимосвязи между признаками регрессионного анализа для проведения прогноза изменения переменных величин. В шестом разделе на основе биологических данных описаны методы анализа структуры временных рядов, проведение прогноза изменения временных рядов. В седьмом разделе приведены методы классификационного анализа: кластеризация — разделение биологических объектов на однородные группы или кластеры; дифференциация биологических объектов к определенным группам в зависимости от значений признаков — дискриминантный анализ. Кроме того, пособие включает перечень математико-статистических таблиц с объяснением области их применения, словарь терминов, список литературы, предметный указатель. Учебное пособие посвящено описанию новой версии пакета STATISTICA 10. При рассмотрении примеров в основном использованы экспериментальные данные специалистов кафедры зоологии и эволюционной экологии и кафедры генетики, а также файлы данных из встроенной в программу STATISTICA библиотеки Examples. Написано по материалам лекционных и лабораторных занятий, проводимых в Институте биологии Тюменского государственного университета по дисциплине «Математические методы в биологии» для направлений 020400.62, 020400.68 «Биология» и специальности 020501 «Биоинженерия и биоинформатика». Данное пособие адресовано студентам, аспирантам, преподавателям, научным работникам, изучающим проблемы биологии и экологии; будет полезно всем, занимающимся обработкой результатов лабораторных и полевых исследований и использующих современные компьютерные технологии. Авторы благодарят за экспертизу рукописи Учебно-методический совет по биологии Министерства образования и науки РФ, а также рецензентов за замечания, улучшившие содержание учебного пособия. —7— 1. ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ При проведении биологических исследований могут быть изучены все объекты массива или только их часть. В первом случае исследования называют полными, или сплошными, во втором случае — частичными, или выборочными. В математической статистике весь массив объектов одной категории называют генеральной совокупностью. Изучение генеральной совокупности проводят редко. В большинстве случаев изучается часть генеральной совокупности, называемая выборочной совокупностью, или выборкой. Выборка должна соответствовать следующим условиям: сформирована по принципу случайного отбора (рандоминизированно); доступна для изучения, объем выборки может быть любым, он определяется задачами исследования; характеризовать всю генеральную совокупность; группы, выделенные не для характеристики всей генеральной совокупности (например, на выставку), не могут быть использованы в качестве выборки. Важнейшим требованием к выборке является ее репрезентативность, то есть правильная представимость в ней пропорций генеральной совокупности [1], [9], [12], [14], [19]. Числовые показатели, характеризующие генеральную совокупность, называют генеральными параметрами, а числовые показатели, характеризующие выборку, называют выборочными характеристиками, или статистиками. Выборочные характеристики являются приближенными оценками генеральных параметров. Это случайные величины, варьирующие вокруг своих параметров. Оценки генеральных параметров по выборочным характеристикам могут быть точечными и интервальными. Точечные оценки генеральных параметров — это числа, вычисляемые по случайной выборке. —8— Интервальные оценки генеральных параметров — значения, в пределах которых с заданной доверительной вероятностью находится генеральный параметр. Точечные и интервальные оценки генеральных параметров в программе STATISTICA проводятся на основе методов описательные статистики (Descriptive statistics). В программе STATISTICA эти методы реализованы в разделе Основные статистики/Таблицы (Basic Statistics/Tables), меню Statistics. Значения переменных для анализа в электронную таблицу STATISTICA загружают из приложения или вводят с клавиатуры. Для ввода данных в электронную таблицу STATISTICA, подготовленных в каком-либо другом приложении, можно воспользоваться одним из способов: буфером обмена, технологией динамического обмена данными, средствами импорта файлов. Буфер обмена — самый быстрый и простой путь ввода данных из прикладных программ Windows. Для реализации этого способа необходимо: в исходном материале выделить данные, которые необходимо скопировать; в меню Правка (Edit) выбрать команду Копировать, данные будут скопированы в буфер обмена; перейти в электронную таблицу STATISTICA и установить указатель там, где следует скопировать данные, затем нажать кнопку мыши; в меню Правка (Edit) выбрать команду Вставка (Paste), данные будут скопированы в направлении вправо и вниз от места, обозначенного курсором. Иногда необходимо установить связь между данными из какого-либо приложения (источника или сервера), например Excel, и таблицей STATISTICA (клиентский файл) таким образом, чтобы при изменении данных в сервере соответствующие изменения произошли в таблице STATISTICA — клиенте. Связи такого типа в STATISTICA устанавливаются при помощи процедуры динамического обмена данными (DDE) из меню Правка (Edit). Для создания связи нужно активизировать кнопку Новая связь, откроется окно. В поле DDE связь пишется инструкция связи (обслуживание, разделы, элементы), которая связывает ячейки электронной таблицы источника с ячейками в электронной таблице STATISTICA. После напи—9— сания инструкции связи и нажатия ОК в таблице STATISTICA (клиенте) появятся элементы из соответствующего источника (сервера). Импорт файлов реализован при помощи команды Получение внешних данных в меню Данные (Data). Эта команда формирует запросы из других баз данных. Программа STATISTICA позволяет обращаться к наиболее распространенным базам данных (БД): Oracle, MS SQL Server, Sybase, MS Access, Fox Pro и др. Для доступа к данным используется драйвер ODBC (Open Data Base Connectivity — совместимость открытых баз данных), который позволяет приложению обращаться к БД на языке SQL. Запросы дают возможность выбрать из таблиц БД необходимые для статистического анализа данные и сохранить их в программе STATISTICA. Параметры подключения проходят тестирование. Если параметры подключения указаны верно, нажатием кнопки ОК производится подключение к базе данных и импорт данных в программу STATISTICA. После импорта данным запроса присваивается имя (чтобы сохранить для дальнейшего использования, запросы сохраняются в файлах с расширением *sqy), и данные запроса передаются в таблицу STATISTICA [6], [21]. Исходные данные для статистического анализа в программе STATISTICA организованы в виде таблицы (рис. 1). Электронная таблица состоит из строк и столбцов. В отличие от обычных электронных таблиц, в которых строки и столбцы равноправны, в STATISTICA они имеют разные смысловые значения. Столбцы таблицы называются переменными (Variables), представляют собой наблюдаемые величины. В электронной таблице пользователь может задать спецификации переменных: формат отображения (например, число десятичных знаков), коды пропущенных значений (при хранении данных STATISTICA приписывает пропущенным наблюдениям по умолчанию код — 9999, пользователь может установить значение этого кода для каждой конкретной переменной; способ обработки пропущенных данных определяется после выбора метода статистического анализа), длинные имена переменных, комментарии для отдельных значений, формулы, которые можно использовать для преобразования каждой переменной. — 10 — Окно спецификаций переменной вызывается двойным щелчком на имени переменной в таблице исходных данных. Рис. 1. Электронная таблица программы STATISTICA и методы раздела Основные статистики/Таблицы (Basic Statistics/Tables) Результаты наблюдений записываются в строках таблицы (Cases). Нулевой столбец, в котором по умолчанию указаны номера наблюдений, при необходимости может быть изменен на имена случаев либо даты наблюдений. Для удобной работы с переменными, принимающими текстовые значения, реализован так называемый механизм двойной записи, согласно которому каждому текстовому значению переменной в спецификации ставится в соответствие некоторое число. Это соответствие может быть установлено автоматически (самой системой при вводе данных) или определено пользователем. При работе с данными всегда можно переключиться с текстовой на числовую форму записи исходных данных. — 11 — 1.1. ТОЧЕЧНЫЕ ОЦЕНКИ ПАРАМЕТРОВ Рассмотрим применение методов описательной статистики (Descriptive statistics) для характеристики статистических совокупностей. Пример 1. Приведены показатели плотности птиц (особей/км2) в лесопарке «Затюменский» (рекреационная нагрузка 21 чел./ч). 72,5 59,3 44,0 75,0 57,6 42,3 77,5 55,9 39,6 80,0 101,0 102,7 70,0 54,2 52,5 50,8 49,1 37,1 34,6 32,1 29,6 67,5 2,0 27,1 65,0 1,9 24,6 62,5 47,4 22,1 61,0 45,7 Для выбора из электронной таблицы переменной плотность птиц (особей/км2) в лесопарке «Затюменский» надо нажать кнопку Variables и в открывшемся диалоговом окне активизировать исследуемую переменную (рис. 2). Рис. 2. Выбор переменной (переменных) для анализа На вкладке Quick (или Summary/Descriptive statistics) программа отражает результаты определения основных статистических показателей: — 12 — Среднее арифметическое (Mean, Х ) Х = 51,38 особей/км². Показатель средней плотности птиц в лесопарке «Затюменский» составляет 51,38 особей/ км2. Минимум и максимум (Minimum & Maximum): min = 1,9; max = 102,7. Среднее квадратическое отклонение (Standard Deviations, Sx) Sx = ±23,73 особей/км2. Среднее квадратическое отклонение — величина, показывающая среднее отклонение вариант от среднего значения. Варианта — числовое значение отдельного объекта. Количество (Valid, N) N = 32. Статистические показатели для полного анализа выборочной совокупности выбираются на вкладке Advanced установлением флажков напротив соответствующих статистик. При помощи кнопки Select all stats можно выбрать все статистики. Они разделены на три группы (рис. 3). Рис. 3. Статистики для характеристики совокупностей — 13 — 1. Показатели положения (location) (рис. 4). Количество (Valid) N = 32; % обработанных значений (% valid obvn.). Рис. 4. Показатели положения Среднее арифметическое (Mean) Х = 51,38 особей/км². Медиана (Median) Me = 51,65 особей/км². Медиана — это значение, которое делит выборку на две равные части. Мода (Мode) — значение, наиболее часто встречающейся варианты в данной совокупности. Среди показателей плотности птиц лесопарка «Затюменский» нет повторяющихся значений. Среднее геометрическое (Geom. mean, Х g ) определяется при оценке средних темпов изменения величины переменной за определенные промежутки времени. Среднее гармоническое (Harm. mean, Х h ) определяется при работе с переменными величинами, изменяющимися во времени. 2. Показатели изменчивости (variation), моментные характеристики (moments) (рис. 5). Рис. 5. Показатели изменчивости, моментные характеристики Дисперсия (Variance) S x2 = 562,63 особей/км². Среднее квадратическое отклонение (Standard Deviations) Sx = ±23,72 особей/км². Коэффициент вариации Сv = 46,1%. — 14 — Ошибка репрезентативности для среднего арифметического (стандартная ошибка) S X = ±4,19 особей/км². Коэффициент асимметрии (Skewness, Аs) — показатель, характеризующий симметричность распределения. При нормальном распределении коэффициент асимметрии равен нулю. Если коэффициент асимметрии существенно отличается от нуля, то распределение несимметрично. Определяется коэффициент асимметрии по формуле: Аs = ( x )3 . n S x 3 Стандартная ошибка асимметрии (Standard errow of Skewn., S As ): 6 . n 3 Коэффициент эксцесса (Kurtosis, Ех) характеризует особенность распределения вариант выборки около своего центра. Определяется коэффициент эксцесса по формуле: S As ( x )4 3 . n S x4 Стандартная ошибка эксцесса (Standard errow of Kurtosis, S Ex ): Ex = 6 . n 5 Для нормального распределения коэффициент эксцесса, так же как и коэффициент асимметрии, равен нулю. Если коэффициенты асимметрии и эксцесса превосходят критические (стандартные) значения, приведенные в табл. 1, 2, гипотеза о нормальности распределения не принимается, формулируется вывод о наличии у распределения значимой асимметрии или эксцесса. В выборке (пример 1) значимая асимметрия и эксцесс не наблюдаются. Коэффициент асимметрии (Аs = 0,023) и коэффициент эксцесса (Ex = 0,26) меньше стандартных значений, приведенных в табл. 1, 2. SEx 2 — 15 — Таблица 1 Критические значения коэффициента асимметрии, As Уровни значимости 0,05 0,01 Объем выборки 25 30 35 40 45 50 60 70 80 90 100 125 150 175 200 0,711 0,611 0,621 0,587 0,558 0,533 0,492 0,459 0,432 0,409 0,389 0,350 0,321 0,298 0,280 Объем выборки 1,061 0,982 0,921 0,869 0,825 0,787 0,723 0,673 0,631 0,596 0,567 0,508 0,464 0,430 0,403 250 300 350 400 450 500 550 600 650 700 750 800 850 900 950 Уровни значимости 0,05 0,01 0,251 0,230 0,213 0,200 0,188 0,179 0,171 0,163 0,157 0,151 0,146 0,142 0,138 0,134 0,130 0,360 0,329 0,305 0,285 0,269 0,255 0,243 0,233 0,224 0,215 0,208 0,202 0,196 0,190 0,185 Таблица 2 Критические значения коэффициента эксцесса, Ех Объем выборки Уровни значимости 1 0,05 2 0,01 3 11 16 21 26 31 36 41 0,907 0,888 0,877 0,869 0,863 0,858 0,854 0,936 0,914 0,900 0,890 0,883 0,877 0,872 — 16 — Окончание табл. 2 1 2 3 46 51 61 71 81 91 101 201 0,851 0,848 0,843 0,840 0,840 0,835 0,834 0,823 0,868 0,865 0,859 0,855 0,855 0,848 0,846 0,832 3. Процентили, размахи (percentiles, ranges) (рис. 6). Рис. 6. Процентили и размахи Минимум и максимум (Minimum & Maximum): min = 1,9; max = 102,7. Минимальная и максимальная квартили (Lower & upper quartiles, Р25 ; Р75 ). Р25 = 35,85; Р75 = 66,25. Квартиль — значение переменной, ниже которого находится часть (25% и 75%) выборки. Размах (Range) — разность между максимальным и минимальным значениями выборки. Квартильный размах (Quartiles range) — разность значений верхней и нижней квартилей. Программа STATISTICA позволяет задать определение значения процентилей. В практике обычно используют процентили: Р3, Р97; Р10, Р90. Для анализа изменчивости переменных предусмотрено построение графиков на вкладке Box & Whisker. Выбор показателей для построения графиков проводится на вкладке Options. — 17 — Показатели для оценки изменчивости на графике: медиана / квартиль / размах; среднее арифметическое / стандартная ошибка / среднее квадратическое отклонение; среднее арифметическое / среднее квадратическое отклонение / 1,96 среднее квадратическое отклонение; среднее арифметическое / стандартная ошибка / 1,96 стандартная ошибка. 1.2. РОБАСТНАЯ ОЦЕНКА В ПРОГРАММЕ STATISTICA Статистический метод, способный действовать в условиях выбросов (анг. outlier), называют робастным. Выбросами в статистике считают значения, выделяющиеся из общей выборки. Причины выбросов бывают разные (ошибки измерения; необычная природа входных данных; выбросы могут быть частью распределения, при нормальном распределении (это распределение будет рассмотрено в разделе 2) каждое 22-е измерение выходит из интервала ± две сигмы, каждое 370-е измерение — из интервала ± три сигмы). Определяются выбросы на основе различных методов. Простейший метод основан на межквартильном расстоянии. Все значения, которые не попадают в диапазон [(х25 – 1,5 (х75 – х25))], [(х75 + 1,5 (х75 – х25))], считаются выбросами. Минимальное значение плотности птиц 1,9 особей/км2 (пример 1) и максимальное значение плотности попадают в диапазон [(х25 – 1,5 (х75 – х25))], [(х75 + 1,5 (х75 – х25))]. Для проведения устойчивой оценки программа STATISTICA определяет: усеченное среднее (trimmed mean) — среднее значение после удаления выбросов; винсоризованное среднее (winsorized mean) — среднее значение после замены выбросов процентилью, по которой сделано усечение; критерий Граббса для выбросов (Grubbs test for outliers) (рис. 7). — 18 — Рис. 7. Робастная оценка в системе STATISTICA Критерий Граббса (Т) определяется по формуле: Т хi – X : S x , где хi — текущее значение выборки; X — среднее арифметическое; Sx — среднее квадратическое отклонение. Среднее арифметическое, усеченное среднее, винсоризованное среднее имеют примерно одинаковые значения. Критерий Граббса для выделяющегося значения (102,7) из выборки имеет уровень значимости 0,8123 (0,8123 больше 0,05). Критерий Граббса не превышает критическое значение 2,938 (табл. 3). Выделяющееся значение (102,7) не является выбросом. Таблица 3 Критические значения для критерия Граббса № 1 3 4 5 6 7 8 9 10 11 Одно наибольшее или одно наименьшее значение при уровне значимости 0,01 0,05 2 1,155 1,496 1,764 1,973 2,131 2,274 2,387 2,482 2,564 3 1,155 1,481 1,715 1,887 2,020 2,126 2,215 2,290 2,355 — 19 — Окончание табл. 3 1 2 3 12 2,636 2,412 13 2,699 2,462 14 2,755 2,507 16 2,852 2,585 18 2,932 2,651 20 3,001 2,709 22 3,060 2,758 24 3,112 2,802 26 3,157 2,841 28 3,199 2,876 30 3,236 2,908 32 3,270 2,938 34 3,301 2,965 36 3,330 2,991 38 3,356 3,014 40 3,381 3,036 При оценке выбросов наряду с критерием Граббса принято определять критерий Шовене, критерий Пирса, Q-тест Диксона. Статистические характеристики, полученные на материале выборок, являются случайными величинами, варьирующими вокруг своих генеральных параметров. Такие выборочные характеристики рассматриваются как приближенные значения или точечные оценки соответствующих генеральных параметров. Выборочное среднее ( Х ) является оценкой генерального среднего ( ), выборочная дисперсия является ( S x2 ) — оценкой генеральной дисперсии ( 2х ), среднее квадратическое отклонение (Sx) — оценкой стандартного отклонения ( х ), характеризующего генеральную совокупность. — 20 — Имея множество выборок из одной генеральной совокупности, можно получить достаточно точную величину генерального параметра. Для того чтобы по одной выборке оценить генеральные параметры, требуется определить: 1) ошибку репрезентативности (статистическую ошибку) — величину отклонения выборочного показателя от его генерального параметра; 2) показатель точности (Сs); 3) доверительный интервал — область, в которой с определенной вероятностью находится величина генерального параметра. Оценка статистических ошибок (ошибок репрезентативности) Оценка ошибок репрезентативности проводится по формулам: S Ошибка среднего арифметического: S X x . n S Ошибка среднего квадратического отклонения: S S x x . 2n Ошибка дисперсии: S S 2 S х2 . 2n Ошибки репрезентативности уменьшаются при увеличении объема выборки, то есть при n → , S X → 0. Это свойство статиX стических ошибок обусловлено действием закона больших чисел, по которому наиболее вероятный результат получается при наибольшем числе испытаний. Ошибки репрезентативности зависят от изменчивости. Чем сильнее варьирует признак, тем больше ошибка выборочных показателей. Чем меньше ошибка, тем ближе выборочная характеристика к величине генерального параметра, и наоборот: чем больше ошибка, тем менее точно выборочная характеристика репрезентирует генеральный параметр. Судить о том, как та или иная выборочная величина характеризует соответствующий параметр генеральной совокупности, позволяет критерий достоверности выборочного показателя. Он обозна— 21 — чается буквой t с подстрочным знаком того показателя, для котороX го он вычисляется: t X — критерий достоверности среднего SX арифметического, tS x Sx — критерий достоверности среднего S sx квадратического отклонения, tS 2 x Sx2 — критерий достоверноSS 2 x сти дисперсии. Если критерий достоверности t > 3, то есть выборочный показатель превышает в три раза свою ошибку X 3 S X , S x 3 S S x , S x 2 3 S S22 , такая выборка достоверно характеризует генеральную х совокупность. Выборочные показатели достоверно характеризуют генеральные параметры. Если критерии достоверности выборочных показателей меньше трех (t < 3), то выборочные показатели меньше трех своих ошибок X 3 S X , S x 3 S S x , S x 2 3S s 2 , такая х выборка не может быть использована для характеристики генеральной совокупности. Показатели точности оценок Судить о точности, с какой определена та или иная выборочная характеристика, позволяет отношение ошибки репрезентативности к своей средней. Этот показатель, обозначаемый символом Сs (обычно выражен в процентах), определяют по одной из формул: Сs = SX X Cs = 100 ; Cv n — 22 — , где Cv — коэффициент вариации. Рассчитывается коэффициент Sx 100 . X Точность среднего показателя, которым оцениваются результаты наблюдений, считается вполне удовлетворительной, если величина точности (Сs) не превышает 3-5%. вариации по формуле: Cv 1.3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ Выборочные характеристики используются при определении доверительных интервалов, в которых с той или иной вероятностью находятся генеральные параметры. Статистическая программа STATISTICA рассчитывает доверительные интервалы среднего арифметического ( ) и стандартного отклонения ( х ). Оценка доверительного интервала среднего арифметического — Значения, в пределах которых с определенной доверительной вероятностью находится генеральное среднее, определяют по математическому выражению: X t S X X t S X , где X — выборочное среднее арифметическое; t — нормированное отклонение доверительного уровня вероятности. В биологии используют доверительные уровни вероятности Р ≥ 0,95, Р ≥ 0,99, Р ≥ 0,999 (см. табл. 4): 0,95 — интеграл нормированного отклонения t = 1,96; 0,99 — интеграл нормированного отклонения t = 2,58; 0,999 — интеграл нормированного отклонения t = 3,29; S X — ошибка репрезентативности среднего арифметического. — 23 — Таблица 4 Значения интеграла вероятностей для разных значений t (значения вероятности даны числами после запятой) t 1 0 2 1 3 2 4 3 5 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 0000 0797 1585 2358 3108 3829 4515 5161 5763 6319 6827 7287 7699 8064 8385 8664 8904 9108 9281 9425 9545 9643 9722 9786 9836 0080 0876 1663 2434 3182 3899 4581 5223 5821 6372 6875 7330 7737 8098 8415 8690 8926 9127 9297 9439 9556 9652 9729 9791 9840 0160 0995 1741 2510 3255 3969 4647 5285 5878 6424 6923 7373 7775 8182 8444 8715 8948 9146 9312 9451 9566 9660 9736 9797 9845 0239 1034 1819 2586 3328 4039 4713 5346 5935 6476 6970 7415 7813 8165 8473 8740 8969 9164 9327 9464 9576 9668 9748 9802 9849 Сотые доли t 4 5 6 7 0319 1114 1897 2661 3401 4108 4778 5407 5991 6528 7017 7457 7850 8198 8501 8764 8990 9182 342 9476 9586 9676 9749 9807 9853 — 24 — 0399 1192 1974 2737 3473 4177 4843 5467 6047 6579 7063 7499 7887 8230 8529 8788 9011 9199 9357 9488 9596 9684 9755 9812 9857 6 8 7 9 8 10 9 11 0478 1271 2051 2812 3545 4245 4907 5527 6102 6629 7109 7540 7923 8262 8557 8812 9031 9216 9371 9500 9608 9692 9762 9817 9861 0558 1350 2128 2886 3616 4313 4971 5587 6157 6679 7154 7580 7959 8293 8584 8836 9051 9233 9385 9512 9615 9700 9768 9822 9866 0638 1428 2205 2961 3688 4381 5035 5646 6211 6729 7199 7620 7995 8324 8611 8859 9070 9249 9399 9523 9625 9707 9774 9827 9869 0717 1507 2282 3034 3759 4448 5098 5705 6265 6778 7243 7660 8030 8355 8638 8882 9089 9265 9412 9534 9634 9715 9780 9832 9872 Окончание табл. 4 1 2 3 4 5 6 7 8 9 10 11 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 9876 9907 9931 9949 9963 9973 9981 9986 9990 9993 9995 9879 9909 9933 9950 9964 9974 9981 9987 9991 9993 9995 9883 9912 9935 9952 9965 9975 9982 9987 9991 9994 9996 9886 9915 9937 9953 9966 9976 9983 9988 9991 9994 9996 0989 9917 9939 9955 9967 9976 9983 9988 9992 9994 9996 9892 9920 9940 9956 9968 9977 9984 9988 9992 9994 9996 9895 9922 9942 9956 9969 9978 9984 9989 9992 9995 9996 9898 9924 9944 9959 9970 9979 9985 9989 9992 9995 9996 9901 9926 9946 9960 9971 9979 9985 9990 9993 9995 9997 9904 9929 9947 9961 9972 9980 9986 9990 9993 9995 9997 В приведенном примере 1 лесопарк «Затюменский» характеризуется следующими статистическими показателями: X = 51,38 особей/км², S X = ±4,19 особей/км², Sx = ±23,72 особей/км², S S = ±2,96 особей/км², n = 32. С вероятностью Р = 0,95 можно утx верждать, что генеральное среднее данного распределения находится между 42,82 особей/км² и 59,93 особей/км². Это довольно узкий интервал. Можно утверждать, что выборочное среднее X = 51,38 особей/км² является точной оценкой генерального параметра: X t S X X t S X ; 51,38 – 1,96 4,19 51,38 + 1,96 4,19; 42,82 53,93. Оценка доверительного интервала стандартного отклонения — х Значения, в пределах которых с определенной доверительной вероятностью находится генеральное стандартное отклонение, определяют по математическому выражению: — 25 — S x t SSx х S x + t SS , x где S x — выборочное стандартное отклонение; t — нормированное отклонение доверительного уровня вероятности. В биологии используют доверительные уровни вероятности Р ≥ 0,95, Р ≥ 0,99, Р ≥ 0,999 (см. табл. 4): 0,95 — интеграл нормированного отклонения t = 1,96; 0,99 — интеграл нормированного отклонения t = 2,58; 0,999 — интеграл нормированного отклонения t = 3,29; S S — ошибка репрезентативности стандартного отклонения. x В приведенном примере 1 (лесопарк «Затюменский») стандартное отклонение Sx = ±23,72 особей/км², статистическая ошибка стандартного отклонения S S = ±2,39 особей/км², n = 32. С вероятx ностью Р = 0,95 можно утверждать, что генеральное стандартное отклонение данного распределения находится между 19,02 особей/км² и 31,54 особей/км (рис. 8). S x t SS х S x + t S S ; х x 23,72 – 1,962,39 ≤ х ≤ 23,72 + 1,962,39; 19,02 ≤ х ≤ 28,40. Рис. 8. Результаты интервальной оценки Оценка доверительного интервала дисперсии — 2 Значения, в пределах которых с определенной доверительной вероятностью находится генеральная дисперсия, определяют по математическому выражению: S x 2 t S S 2 x 2 S x2 + t S S 2 , x x — 26 — где S x2 — выборочная дисперсия; t — нормированное отклонение доверительного уровня вероятности. В биологии используют доверительные уровни вероятности Р ≥ 0,95, Р ≥ 0,99, Р ≥ 0,999 (см. табл. 4): 0,95 — интеграл нормированного отклонения t = 1,96; 0,99 — интеграл нормированного отклонения t = 2,58; 0,999 — интеграл нормированного отклонения t = 3,29; S S 2 x — ошибка репрезентативности дисперсии. Пример 2. Характеристики лесопарка им. Ю. А. Гагарина по плотности птиц: X = 73,06; S x = ±4,1; S x2 = 787,36; S S 2 = ±98,42; x n = 32. Определите 95% доверительный интервал для генеральной дисперсии. Первый способ определения доверительного интервала генеральной дисперсии: S x 2 t S S 2 x 2 S x2 + tS S 2 ; x 787,36 – 1,96 98,42 ≤ x 2x ≤ 787,36 + 1,96 98,42; 2x ≤ 980,26. 594,46 ≤ Второй способ определения доверительного интервала генеральной дисперсии, используемый статистическими программами, основан на критических значениях хи-квадрат ( 2 ). Нижняя граница генеральной дисперсии: (n – 1) S x2 : С1 = (32-1) 787,36 : 48,23 = 506,07. Верхняя граница генеральной дисперсии: (n – 1) S x2 : С2 = (32-1) 787,36 : 17,54 = 1391,57. С1 — статистика 2 для уровня значимости Р < (см. табл. 5, = 31, С1 = 48,23). — 27 — 0,05 , Р < 0,025 2 С2 — статистика 2 для уровня значимости Р > 1 – 0,05 , 2 Р > 0,975 (см. табл. 5, = 31, С2 = 17,54). Выборочная дисперсия S x2 = 787,36. Генеральная дисперсия находится в интервале 506,07 < 2x < 1391,57. При характеристике генеральных параметров используют доверительные вероятности. Вероятности, признанные достаточными для суждения о генеральных параметрах на основании известных выборочных показателей, называют доверительными. Понятие о доверительных вероятностях связано с принципом, который положен в основу применения теории вероятностей к решению практических задач. Согласно этому принципу, маловероятные события считают невозможными, а события, вероятность которых близка к единице, принимают за почти достоверные. В качестве доверительных обычно используют вероятности Р1 = 0,95; Р2 = 0,99; Р3 = 0,999. Они означают, что при оценке генеральных параметров по известным выборочным параметрам подтверждение будет наблюдаться в 95 случаях на 100 испытаний, 99 случаях — на 100 испытаний, в 999 случаях — на 1000 испытаний. Доверительным вероятностям соответствуют определенные значения нормированных отклонений. Доверительные вероятности являются значениями интегралов нормированных отклонений (см. табл. 4). Вероятности Р1 = 0,95 соответствует t1 = 1,96; вероятности Р2 = 0,99 — t2 = 2,58; вероятности Р3 = 0,999 — t3 = 3,29. Выбор того или иного уровня доверительной вероятности исследователь осуществляет исходя из той ответственности, с какой делаются выводы о генеральных параметрах. С доверительной вероятностью тесно связан уровень значимости, показывающий уровень риска: при Р ≥ 0,95 уровень значимости Р ≤ 0,05; при Р ≥ 0,99 — Р ≤ 0,01; при Р ≥ 0,999 — Р ≤ 0,001. — 28 — Таблица 5 2 -распределение. Критические (процентные) точки для разных значений вероятностей и чисел степеней свободы 1 5 2 2,5 3 а, % 1 4 0,5 5 0,1 6 99,9 7 99,5 8 Р, % 99,0 9 97,5 10 95,0 11 16 17 18 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 26,30 27,59 28,87 31,41 32,67 33,92 35,17 36,42 37,65 38,88 40,11 41,34 42,56 43,77 44,93 46,19 47,40 48,60 49,80 51,00 52,19 53,38 54,57 55,76 56,94 28,84 30,19 31,53 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 48,23 49,48 50,72 51,97 53,00 54,44 55,67 56,90 58,12 59,34 60,56 32,00 33,41 34,80 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 52,19 53,49 57,78 56,06 57,34 58,62 59,89 61,18 62,43 63,69 64,95 34,27 35,72 37,16 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,64 50,99 52,34 53,67 55,00 56,33 57,65 58,96 60,28 61,58 62,88 64,18 65,48 66,77 68,05 39,25 40,79 42,31 45,32 46,80 48,27 49,73 51,18 52,62 54,05 55,48 56,89 58,30 59,70 61,10 62,49 63,87 62,25 66,62 67,98 69,35 70,70 72,05 73,40 74,74 3,94 4,42 4,91 5,92 6,45 6,98 7,53 8,09 8,65 9,22 9,80 10,39 10,99 11,59 12,20 12,81 13,43 14,06 14,59 15,32 15,94 16,61 17,26 17,92 18,58 5,24 5,80 6,56 7,43 8,43 8,35 9,06 9,69 10,02 11,06 11,81 12,46 13,12 13,79 14,46 15,13 15,82 16,50 17,19 17,89 18,59 19,29 20,00 20,71 21,42 5,81 6,41 7,02 8,27 8,90 9,54 10,20 10,86 11,52 12,20 12,88 13,56 14,25 14,95 15,66 16,36 17,07 17,79 18,51 19,23 19,96 20,69 21,43 22,16 22,91 6,91 7,56 8,23 9,59 10,28 10,98 11,69 12,40 13,12 13,84 14,57 15,31 16,05 16,79 17,54 18,29 19,05 19,81 20,57 21,34 22,11 22,88 23,65 24,43 25,22 7,96 8,57 9,39 10,85 11,59 12,34 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 19,28 20,07 20,88 21,66 22,46 23,27 24,08 24,88 25,70 26,51 27,33 — 29 — Окончание табл. 5 1 2 3 4 5 6 7 8 9 10 11 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 58,12 59,30 60,48 61,66 62,83 64,00 65,17 66,34 67,51 68,67 69,83 70,99 72,15 73,13 74,47 75,62 76,78 61,78 62,99 64,20 65,41 66,62 37,82 69,02 70,22 71,42 72,62 73,81 75,00 76,19 77,38 78,57 79,75 80,94 66,21 67,46 68,71 69,96 71,20 72,44 73,68 74,92 76,15 77,39 78,62 79,84 81,07 82,29 83,51 84,73 85,95 69,34 70,62 71,89 73,17 74,44 75,70 76,97 78,23 79,49 80,75 82,00 83,25 84,50 85,75 86,99 88,24 89,48 76,08 77,42 78,75 80,08 81,40 82,72 84,04 85,35 86,66 87,97 89,27 90,57 91,87 93,17 94,46 95,75 97,04 19,24 19,91 20,58 21,25 21,93 22,61 23,30 23,98 24,67 25,37 26,06 26,76 27,47 28,17 28,88 29,59 30,30 22,14 22,86 23,58 24,31 25,04 25,78 26,51 27,25 27,99 28,74 29,48 30,23 30,98 31,74 32,49 33,25 34,01 23,65 24,40 25,15 25,90 26,66 27,42 28,18 28,94 29,71 30,48 31,25 32,02 32,79 33,57 34,35 35,13 35,61 26,00 26,78 27,58 28,37 29,16 29,96 30,76 31,56 32,36 53,06 33,97 34,78 35,59 36,40 37,21 38,03 38,84 28,14 28,97 29,79 30,61 31,44 32,27 33,10 33,93 34,76 35,60 36,44 37,28 38,12 38,96 39,80 40,65 41,49 ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ Задание 1. Охарактеризуйте выборку (масса тела краба Pachygrapsus crassipes, г) на основе показателей описательной статистики: количество животных, n; минимальное значение, min; максимальное значение, max; среднее арифметическое, Х ; ошибка среднего арифметического, S X ; дисперсия, S x2 ; среднее квадратическое отклонение, Sx; медиана, Ме; мода Мо; верхняя квартиль, Р75 ; нижняя квартиль, Р25 ; доверительный интервал среднего арифметического, ≤ ≤; коэффициент асимметрии, Аs; ошибка коэффициента асимметрии; коэффициент эксцесса, Ех; ошибка коэффициента эксцесса. — 30 — 6,1 10,7 9,7 12,7 9,6 12,6 11,3 17,8 11,5 7,0 12,5 13,8 10,5 15,6 7,1 11,8 9,1 8,6 12,4 10,6 11,6 8,3 13,6 13,3 11,6 14,7 6,6 11,3 9,5 8,8 14,5 10,5 Задание 2. Охарактеризуйте выборку (масса жабр краба Pachygrapsus crassipes, мг) на основе показателей описательной статистики: количество животных, n; минимальное значение, min; максимальное значение, max; среднее арифметическое, Х ; ошибка среднего арифметического, S X ; дисперсия, S x2 ; среднее квадратическое отклонение, Sx; медиана, Ме; мода Мо; верхняя квартиль, Р75 ; нижняя квартиль, Р25 ; доверительный интервал среднего арифметического, ≤ ≤; коэффициент асимметрии, Аs; ошибка коэффициента асимметрии; коэффициент эксцесса, Ех; ошибка коэффициента эксцесса. 198 145 125 91 167 133 108 81 176 138 106 165 127 116 144 136 115 146 125 111 153 126 117 158 133 105 147 136 90 156 135 86 КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Что характеризуют среднее арифметическое, среднее квадратическое отклонение, дисперсия, квартили, медиана? 2. Каковы значения показателей асимметрии и эксцесса при нормальном распределении? 3. Что принято называть доверительным интервалом, ошибками репрезентативности? 4. Выявите различия между генеральными параметрами и выборочными характеристиками. 5. Объясните доверительные вероятности Р = 0,95, Р = 0,99, Р = 0,999, уровни значимости Р = 0,05, Р = 0,01, Р = 0,001. — 31 — 2. ПАРАМЕТРИЧЕСКИЕ И НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СРАВНЕНИЯ 2.1. ПРОВЕРКА НОРМАЛЬНОСТИ ЭМПИРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ В многочисленной группе особей, отобранной для изучения определенного признака, отдельные значения данного признака встречаются неодинаковое число раз. Совокупность всех возможных значений признака (хi) и соответствующих им значений частоты (рi ) составляет распределение признака. К числу наиболее распространенных типов распределения относится нормальное распределение, которое отражает характер варьирования количественных (непрерывно меняющихся) признаков. Нормальное распределение является частным случаем биномиального распределения, в котором p = q (р — вероятность наступления события А; q — вероятность наступления противоположного события А ) и n→∞. Графически нормальное распределение изображается в виде симметричной кривой, имеющей форму колокола. Кривую нормального распределения характеризуют следующие закономерности: основное варьирование признака ограничивается лимитом, составляющим ±3 Sx от среднего значения признака ( Х ). В эти границы входит 99,7% всех особей совокупности. За пределами ±3 Sx встречается только 0,3% особей с величиной признака выше +3 Sx или меньше –3 Sх; варьирование величины признака в границах ±3 Sx имеет особенность, которая заключается в том, что для каждой величины хi можно установить теоретическую частоту (уi) встречаемости особей с таким же значением. Для этих целей используют уравнение нормальной кривой: — 32 — 2 (х X ) n k уi = , e i 2 S x 2 Sx 2 где уi — теоретическое число наблюдений для данной величины хi; Sx — среднее квадратическое отклонение; — постоянное число, равное 3,1416; е — основание натуральных логарифмов, равное 2,71828; (хi – X ) — отклонение величины хi от среднего арифметического X ; (хi – X ) : Sx = t — нормированное отклонение; (хi – X )2 : 2 S x2 = t2 : 2. Зная n и Sx совокупности, выражая отклонение хi от X в нормированном отклонении t = (хi – X ) : Sx, можно определить величины теоретических частот и построить вариационный ряд. Теоретическая частота для любого значения х может быть определена по таблице значений ординат нормальной кривой (табл. 6). Таблица 6 Значения функции f (t ) 1 2 t 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 0 1 2 3 3989 3970 3910 3814 3683 3521 3332 3123 2897 2661 2420 2179 3989 3965 3902 3802 3668 3503 3312 3101 2874 2637 2396 2155 3989 3961 3894 3790 3653 3485 3292 3079 2850 2613 2371 2131 3988 3956 3885 3778 3637 3467 3271 3056 2827 2589 2347 2107 t2 e 2 (координаты нормальной кривой) Сотые доли t 4 5 3986 3951 3876 3765 3621 3448 3251 3034 2803 2565 2323 2083 — 33 — 3984 3945 3867 3752 3605 3429 3230 3011 2780 2541 2299 2059 6 7 8 9 3982 3939 3857 3739 3589 3410 3209 2989 2756 2516 2275 2036 3980 3932 3847 3726 3572 3391 3187 2966 2732 2492 2251 2012 3977 3925 3836 3712 3555 3372 3166 2943 2709 2468 2227 1989 3973 3918 3825 3697 3538 3352 3144 2920 2685 2444 2203 1965 Окончание табл. 6 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 0 1 2 3 4 5 6 7 8 9 1942 1714 1497 1295 1109 0940 0790 0656 0540 0440 0356 0283 0224 0175 0136 0104 0079 0060 0044 0033 0024 0017 0012 0009 0006 0004 0003 0002 0001 1919 1691 1476 1276 1092 0925 0775 0644 0529 0431 0347 0277 0219 0171 0132 0101 0077 0058 0043 0032 0023 0017 0012 0008 0006 0004 0003 0002 0001 1895 1669 1456 1257 1074 0909 0761 0632 0519 0422 0339 0270 0213 0167 0129 0099 0075 0056 0042 0031 0022 0016 0012 0008 0006 0004 0003 0002 0001 1872 1647 1435 1238 1057 0893 0748 0620 0508 0413 0332 0264 0208 0163 0126 0096 0073 0055 0041 0030 0022 0016 0011 0008 0005 0004 0003 0002 0001 1849 1626 1415 1219 1040 0878 0734 0608 0498 0404 0325 0258 0203 0158 0122 0093 0071 0053 0039 0029 0021 0015 0011 0008 0005 0004 0003 0002 0001 1826 1604 1394 1200 1023 0863 0721 0596 0488 0396 0317 0252 0198 0154 0119 0091 0069 0051 0038 0028 0020 0015 0010 0007 0005 0004 0002 0002 0001 1804 1582 1374 1182 1006 0848 0707 0584 0478 0387 0310 0246 0194 0151 0116 0088 0067 0050 0037 0027 0020 0014 0010 0007 0005 0004 0002 0002 0001 1781 1561 1354 1163 0989 0833 0694 0573 0468 0379 0303 0241 0189 0147 0113 0086 0065 0048 0036 0026 0019 0014 0010 0007 0005 0003 0002 0002 0001 1758 1539 1334 1145 0973 0818 0681 0562 0459 0371 0297 0235 0184 0143 0110 0084 0063 0047 0035 0025 0018 0013 0009 0007 0005 0003 0002 0001 0001 1736 1518 1315 1127 0957 0804 0669 0551 0449 0363 0290 0229 0180 0139 0107 0081 0061 0046 0034 0025 0018 0013 0009 0006 0004 0003 0002 0001 0001 — 34 — Проводят проверку нормальности эмпирического распределения на основе нескольких методов: 1) на основе показателей метода Описательные статистики/Descriptive statistics: коэффициент асимметрии: Аs коэффициент эксцесса: Ex ( x Χ )3 n S x3 ; ( x Χ )4 3 . n Sч 4 При нормальном распределении As = 0, Ex = 0. В действительности такое равенство почти не наблюдается. Значения коэффициента асимметрии и эксцесса сравнивают с критическими (стандартными) значениями коэффициента асимметрии и эксцесса, приведенными в табл. 1, 2. Если коэффициенты превосходят значения, приведенные в таблицах, гипотеза о нормальности распределения (нулевая гипотеза) не принимается. Формулируется вывод о наличии у распределения значимой асимметрии и эксцесса; 2) на основе сравнения гистограммы выборочного распределения с кривой нормального распределения; интервалы (число классов) для построения гистограммы определяют по формуле: int 1,5 3,3log10 ( n) . Интервалы (число классов) можно определить по табл. 7. Таблица 7 Объем выборки и число классов Объем выборки, n Число классов, k Объем выборки, n Число классов, k 12 – 22 23 – 46 47 – 93 5 6 7 94 – 187 188 – 377 > = 388 8 9 10 – 12 Подчитываются фактические частоты f (число значений в каждом интервале); по 1-й функции нормального распределения определяются теоретические частоты f (t ); — 35 — 3) по критериям нормальности: k критерий Колмогорова–Смирнова d max f (t ) осноn ван на максимуме разности между кумулятивным распределением выборки и теоретическим кумулятивным распределением; при определении значения вероятности на основе средней арифметической и стандартного отклонения, известных априори, используются значения вероятности, табулированные Massey; если средняя арифметическая и стандартное отклонение предполагаемого распределения не известны (они оцениваются из выборки данных), значения вероятности, табулированные Massey, не верны, в этом случае для определения значимости критерия Колмогорова–Смирнова используются так называемые вероятности Liliefors (Лилиефорса); критерий Шапиро–Уилка основан на отношении линейной несмещенной оценки дисперсии к дисперсии, определенной методом максимального правдоподобия. Критерий Шапиро–Уилка — один из наиболее эффективных критериев проверки нормальности распределения случайных величин; определяется по формуле: 2 1 W 2 ani1 xni1 xi , S 2 1 где S 2 хi X ; X xi . n Коэффициенты а n i 1 приведены в табл. 8. Критические значения статистики W(α) приведены в табл. 9. Если W < W(α) , то нулевая гипотеза нормальности распределения отклоняется на уровне значимости α. Рассмотрим оценку нормальности распределения на примере показателей плотности птиц лесопарка «Затюменский». Пример 1. Приведены показатели плотности птиц (особей/км2) в лесопарке «Затюменский» (рекреационная нагрузка 21 чел./ч). 72,5 59,3 44,0 75,0 57,6 42,3 77,5 55,9 39,6 80,0 101,0 102,7 70,0 54,2 52,5 50,8 49,1 37,1 34,6 32,1 29,6 — 36 — 67,5 2,0 27,1 65,0 1,9 24,6 62,5 47,4 22,1 61,0 45,7 Необходимо провести оценку соответствия эмпирических частот теоретическим на основе коэффициента асимметрии (Аs), коэффициента эксцесса (Ех), сравнения гистограммы выборочного распределения с кривой нормального распределения, по критериям: Колмогорова–Смирнова (d), Шапиро–Уилка, вероятности Лилиефорса. Для оценки соответствия эмпирического распределения нормальному типу предназначена вкладка Normality (рис. 9). При работе с непрерывными случайными величинами нужно установить флажок на Number intervals и указать число классов для построения гистограммы или таблицы частот (Frequency tables). При выборе опции ожидаемые частоты (Normal expected frequencies) на гистограмму накладывается кривая нормального распределения. Тип распределения оценивается на основе расчета критериев Колмогорова–Смирнова, Шапиро–Уилка и оценки их значимости. При работе с дискретными переменными выбирается опция Integer intervals. Число интервалов определяется числом различных значений переменной. Рис. 9. Выбор критериев для оценки соответствия эмпирического распределения нормальному типу. Descriptive statistics/Normality — 37 — Таблица 8 4 Коэффициенты аni1 (х 10 ) критерия Шапиро–Уилка n 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 I 1 7071 6872 6646 6431 6233 6052 5888 5739 5601 5475 5359 5251 5150 5056 4968 4886 4808 4734 4634 4590 4542 4493 4450 4407 4366 4328 4291 4254 4220 4188 4156 4127 4096 4068 4040 4015 3989 3964 3940 3917 3894 3872 3850 3830 3808 3789 3770 3751 2 3 4 5 6 7 8 9 10 11 12 1677 2413 2806 3031 3164 3244 3291 3315 3325 3325 3318 3306 3290 3273 3253 3232 3211 3185 3156 3126 3098 3069 3043 3018 2992 2968 2944 2921 2898 2876 2854 2834 2813 2794 2774 2755 2737 2719 2701 2684 2667 2651 2635 2620 2604 2589 2574 0875 1401 1743 1976 2141 2260 2347 2412 2460 2495 2521 2540 2553 2561 2565 2578 2571 2563 2554 2543 2533 2522 2510 4299 2487 2475 2463 2451 2439 2427 2415 2403 2391 2380 2368 2357 2345 2334 2323 2313 2302 2291 2281 2271 2260 0561 0947 1224 1429 1586 1707 1802 1878 1939 1988 2027 2059 2085 2119 2131 2139 2124 2148 2151 2152 2151 2150 2148 2145 2141 2137 2132 2127 2121 2116 2110 2104 2098 2091 2085 2078 2072 2065 2958 2052 2045 2038 2032 0399 0695 0922 1099 1240 1353 1447 1524 1587 1641 1686 1736 1764 1787 1807 1822 1836 1848 1857 1864 1870 1874 1878 1880 1882 1883 1883 1883 1881 1880 1878 1876 1874 1871 1868 1865 1862 1859 1855 1851 1847 0303 0539 0727 0880 1005 1109 1197 1271 1334 1399 1430 1480 1512 1539 1563 1584 1601 1616 1630 1641 1651 1660 1667 1673 1678 1683 1686 1689 1691 1693 1694 1695 1695 1695 1695 1695 1693 1692 1691 0240 0433 9593 0725 0837 0932 1013 1092 1150 1201 1245 1283 1316 1346 1372 1395 1415 1433 1449 1463 1475 1487 1496 1505 1513 1520 1526 1531 1535 1539 1542 1545 1548 1550 1551 1553 1554 0196 0359 0496 0612 0711 0804 0878 0941 0997 1046 1089 1128 1162 1192 1219 1243 1265 1284 1301 1317 1331 1344 1356 1366 1376 1384 1392 1398 1405 1410 1415 1420 1423 1427 1430 0173 0303 0422 0530 0618 0696 0764 0823 0876 0923 0965 1002 1036 1066 1093 1118 1140 1160 1179 1196 1211 1225 1237 1249 1259 1269 1278 1286 1293 1300 1306 1312 1317 0140 0263 0368 0459 0539 0610 0672 0728 0778 0822 0862 0899 0931 0961 0988 1013 1036 1056 1075 1092 1108 1123 1136 1149 1160 1170 1180 1189 1197 1295 1212 0122 0228 0321 0403 0476 0540 0598 0690 0697 0739 0777 0812 0844 0873 0900 0924 0947 0967 0986 1004 1020 1035 1049 1062 1073 1085 1095 1105 1113 0107 0200 0284 0358 0424 0483 0537 0585 0629 0669 0706 0739 0770 0798 0824 0848 0870 0891 0909 0927 0943 0959 0972 0986 0998 1010 1020 — 38 — Окончание табл. 8 n 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 13 14 15 16 17 18 I 19 20 21 22 23 24 25 0094 0178 0253 0320 0381 0435 0485 0530 0572 0610 0645 0677 0706 0733 0759 0782 0804 0824 0842 0860 0876 0892 0906 0919 0932 0084 0159 0227 0289 0344 0395 0441 0484 0523 0559 0592 0622 0651 0677 0701 0724 0745 0765 0783 0801 0817 0832 0846 0076 0144 0206 0262 0314 0361 0404 0444 0481 0515 0546 0575 0602 0628 0651 0673 0694 0713 0731 0748 0764 0068 0131 0187 0239 0287 0331 0372 0409 0444 0476 0506 0534 0560 0584 0607 0628 0648 0667 0685 0062 0119 0172 0220 0264 0305 0343 0379 0411 0442 0471 0497 0522 0546 0568 0588 0608 0057 0110 0158 0203 0244 0283 0318 0352 0383 0412 0439 0465 0489 0511 0532 0053 0101 0146 0188 0227 0263 0296 0328 0357 0385 0411 0436 0459 0049 0094 0136 0175 0211 0245 0277 0307 0335 0361 0386 0045 0087 0126 0163 0197 0229 0259 0288 0314 0042 0081 0118 0153 0185 0215 0244 0039 0076 0111 0143 0174 0037 0071 0104 0035 — 39 — Результаты обработки. Средний показатель плотности птиц X S X = 51,3±4,19; среднее квадратическое отклонение Sx = ±23,7 особей/км2; коэффициент асимметрии Аs± S As = 0,023±0,41; коэффициент эксцесса Ex± = 0,04±0,81; дисперсия S2 = ( хi X )2 = = 17440,45 особей/км2. 2 1 ani1 xni1 xi 0, 4188 (102,7-1,9)+ 2 S + 0,2898(101,0 – 2,0) + 0,2463 (80,0 – 22,1) + 0,2141 (77,5 – 24,6) + + 0,1878 (75,0 27,1) + 0,1651 (72,5 – 29,6) + 0,1449 (70,0 – 32,1) + + 0,1265 (67,5 – 34,6) + 0,1093 (65,0 – 37,1) + 0,0931 (62,5 – 39,6) + + 0,0777 (61,0 – 42,3) + 0,0629 (59,3 – 44,0) + 0,0485 (57,6 – 45,7) + + 0,0344 (55,9 – 47,4) + 0,0206 (54,2 – 49,1) + W 2 : 17440,45 = 0,983. + 0,0068 52,5 50,8 Коэффициенты: 0,4188; 0,2898; 0,2463; 0,2141; 0,1878; 0,1651; 0,1449; 0,1265; 0,1093; 0,0931; 0,0777; 0,0629; 0,0485; 0,0344; 0,0206; 0,0068 взяты из табл. 8. Коэффициенты а n i 1 (х 104 ) критерия Шапиро–Уилка (n = 32). Значения xn i 1 xi найдены путем вычитания из наибольшего значения наименьшего (для этого значения должны быть расположены в порядке возрастания). 102,7 101,0 80,0 59,3 57,6 55,9 39,6 37,1 34,6 77,5 54,2 32,1 75,0 52,5 29,6 72,5 50,8 27,1 70,0 49,1 24,6 67,5 47,4 22,1 65,0 45,7 2,0 62,5 44,0 1,9 61,0 42,3 Критерий Колмогорова–Смирнова d = 0,05138, Р > 0,20; вероятность Лилиефорса Р > 0,20 (см. рис. 10). Критерий Шапиро–Уилка W = 0,983, Р = 0,88591. Принимается нулевая гипотеза. Распределение не отличается от нормального. — 40 — Критерий Шапиро–Уилка: W= 1 1 2 = ani1 ( xni1 xi ) 130,82 = 0,983. 2 17440, 4 S Критические значения Шапиро–Уилка для Р = 0,05 и n = 32 равно 0,93 (критические значения критерия Шапиро–Уилка приведены в табл. 9). Так как W = 0,983 > W32 (0,05) = 0,93, гипотеза нормальности распределения не отклоняется. Таблица 9 Критические значения критерия Шапиро–Уилка W(α) (α-уровень значимости) n 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Α n 0,05 0,01 0.767 0.748 0.762 0.788 0.803 0.818 0.829 0.842 0.850 0.859 0.866 0.974 0.881 0.887 0.892 0.897 0.901 0.905 0.737 0.687 0.686 0.713 0.730 0.749 0.764 0.781 0.792 0.805 0.814 0.825 0.835 0.844 0.851 0.858 0.863 0.868 — 41 — 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 Α 0,05 0,01 0.923 0.924 0.926 0.927 0.929 0.930 0.931 0.933 0.934 0.935 0.936 0.938 0.939 0.940 0.941 0.942 0.943 0.944 0.894 0.896 0.898 0.900 0.902 0.904 0.906 0.908 0.910 0.912 0.914 0.916 0.917 0.919 0.920 0.922 0.923 0.924 Окончание табл. 9 n 21 22 23 24 25 26 Α n 0,05 0,01 0.908 0.911 0.914 0.916 0.918 0.920 0.873 0.878 0.881 0.884 0.888 0.891 45 46 47 48 49 50 Α 0,05 0,01 0.945 0.945 0.946 0.947 0.947 0.947 0.926 0.927 0.928 0.929 0.929 0.930 Рис. 10. Распределение показателей (n = 32) плотности птиц лесопарка «Затюменский» — 42 — Заключение. Выборочное среднее арифметическое X S X = = 51,38±4,19; выборочное среднее квадратическое отклонение S x = ±23,7; As = 0,023±0,41 коэффициент асимметрии ( Акритичесое = 0,621, n = 35); коэффициент эксцесса Е х = 0,26±0,81 ( Е критическое = 0,85, n = 36). Коэффициенты асимметрии и эксцесса меньше критических значений (см. табл. 1, 2). Критерий Колмогорова–Смирнова d = 0,05138, Р > 0,2 (значимость больше 0,05); вероятность Лилиефорса Р > 0,2 (значимость больше 0,5). Критерий Шапиро–Уилка W = 0,983 > 0,93; Р = 0,88591 (значимость больше 0,05). Принимается нулевая гипотеза. Распределение не отличается от нормального. Вывод. Коэффициент асимметрии и эксцесса больше критических значений. Уровень значимости критерия Колмогорова– Смирнова (d), Шапиро–Уилка больше 0,05. Распределение отвечает нормальному типу. Пример 2. Приведены показатели плотности птиц (особей/км²) в лесопарке № 2. 172,5 175,0 177,5 180,0 101,0 102,7 70,0 59,3 57,6 55,9 54,2 52,5 50,8 49,1 44,0 42,3 39,6 37,1 34,6 32,1 29,6 67,5 2,0 27,1 65,0 1,9 24,6 62,5 47,4 22,1 61,0 45,7 Проведите оценку соответствия эмпирических частот теоретическим на основе коэффициента асимметрии (Аs), коэффициента эксцесса (Ех), сравнения гистограммы выборочного распределения с кривой нормального распределения, по критериям: Колмогорова– Смирнова (d), Шапиро–Уилка, вероятности Лилиефорса. Результаты обработки. Средний показатель плотности птиц X S X = 63,8±8,53; среднее квадратическое отклонение Sx = ±48,3 особей/км2; коэффициент асимметрии Аs S As = 1,51±0,44; коэффициент эксцесса Ex± = 1,61±0,81; дисперсия S2 = = 2333,7 особей/км2. — 43 — ( хi X )2 = Критерий Колмогорова–Смирнова d = 0,28211, Р < 0,05 (значимость меньше 0,05); вероятность Лилиефорса Р < 0,01 (значимость меньше 0,05). Критерий Шапиро–Уилка W = 0,79206, Р = 0,00003 (значимость меньше 0,05). Гипотеза 1: распределение отличается от нормального. Заключение. Выборочное среднее арифметическое X S X = 63,8±8,31; выборочное среднее квадратическое отклонение S x = ±48,3; коэффициент асимметрии As = 1,51±0,44 ( Акритичесое = 0,621, n = 35); коэффициент эксцесса Е х = 1,61±0,81 ( Е критическо е = 0,85, n = 36). Коэффициент асимметрии больше критического значения (см. табл. 1). Коэффициент эксцесса больше критического значения (см. табл. 2). Критерий Колмогорова– Смирнова d = 0,26211, Р < 0,05 (значимость меньше 0,05); вероятность Лилиефорса Р < 0,01 (значимость меньше 0,05) (рис. 11). Критерий Шапиро–Уилка W = 0,79206, Р = 0,00003 (значимость меньше 0,05). Нулевая гипотеза не принимается. Распределение отличается от нормального. Рис. 11. Распределение показателей (n = 32) плотности птиц лесопарка № 2 — 44 — Вывод. Коэффициенты асимметрии и эксцесса больше критических значений. Уровень значимости Шапиро–Уилка и вероятность Лилиефорса меньше 0,05. Распределение не отвечает нормальному типу. При проверке нормальности распределения статистические программы определяют: ( f f / )2 , критерий хи-квадрат: 2 f/ где f — фактические частоты; f / — теоретические частоты. Вычисленное значение хи-квадрат (критерий соответствия) сравнивается со стандартным с учетом числа степеней свободы. Символ 2 не является квадратом какого-либо числа, выражает лишь исходную величину отклонения фактического распределения от теоретического; 2 1 2k 1 критерий омега-квадрат: 2 n f (t ) , 12 2n оценивает различия между распределениями на всем интервале выборочных значений. Критерий омега-квадрат ( 2 ) менее исследован, нет таблиц критических значений. Оценивается уровень 1 значимости Р = 2,383 e3118W, где W = n 2 1 . 2n Рассчитанный уровень значимости сравнивается с первым уровнем значимости Р = 0,05. Если рассчитанный уровень Р больше 0,05, распределение соответствует нормальному типу. 2.2. ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СРАВНЕНИЯ СРЕДНИХ В биологических исследованиях постоянно приходится сравнивать выборочные совокупности (данные контроля и опыта, сходные признаки у разных групп растений и животных) [7], [8], [17]. О различии сравниваемых групп судят по разности значений их выборочных показателей, но так как выборочные показатели — — 45 — величины случайные, варьирующие вокруг своих генеральных параметров, то разность между ними может возникнуть не вследствие систематически действующих на признак в одной группе и не действующих в другой группе причин, а чисто случайно. Поэтому возникает необходимость установления истинной значимости различий. С этой целью требуется проанализировать нулевую гипотезу (Но), согласно которой первоначально предполагается, что между изучаемыми показателями достоверного различия нет, а выявленные различия являются случайными. То есть, принять Но — значит согласиться с тем, что выборочные совокупности взяты из одной генеральной совокупности. Отклонить нулевую гипотезу (принять альтернативную гипотезу На), то есть признать, что различие между показателями достоверно с определенной вероятностью (95%, 99%, 99,9%). При сравнении совокупностей, имеющих нормальный тип распределения, для проверки истинности нулевой гипотезы используют параметрические критерии оценок: критерий Фишера (F), критерий Стьюдента (Т), для которых функции распределения известны [10], [12]. Для каждого критерия имеется таблица (см. табл. 9, 10), в которой обозначены критические точки, отвечающие определенным числам степеней свободы и принятым уровням значимости. Критерий Фишера используют для оценки равенства генеральных дисперсий 12 22 . На основе критерия Фишера проверяется нулевая гипотеза об отсутствии разницы между дисперсиями. Если разницы между дисперсиями нет, то разница между средними арифметическими не обусловлена влиянием случайных причин. Определяют критерий Фишера (F) нахождением отношения выборочных дисперсий: F = S12 . S22 Фактическое значение F сравнивается со стандартными значениями, приведенными в табл. 10. Значения критерия Фишера при уровнях значимости Р ≤ 0,05, Р ≤ 0,01 и Р ≤ 0,001. Стандартное значение F зависит от степеней свободы 1 = n1 – 1 и 2 = n2 – 1. Нулевая гипотеза о равенстве дисперсий двух выборок принимается, — 46 — если Fфакт. ≤ Fst.. Дисперсия характеризует внутригрупповую изменчивость. Если дисперсии равны, наблюдаемая разница между выборочными средними обусловлена влиянием изучаемого фактора. Разница между средними арифметическими не обусловлена влиянием случайных причин. Критерий Фишера повышает точность оценки разности между генеральными параметрами, особенно при использовании малочисленных выборок. Таблица 10 Стандартные значения критерия Фишера (дисперсионное отношение Фишера) 2 y1 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 10 11 167,5 34,1 10,1 74,1 21,2 7,7 47,0 16,3 6,6 148,5 30,8 9,6 61,2 18,8 6,9 36,6 13,3 5,8 141,1 29,5 9,3 56,1 16,7 6,6 33,2 12,1 5,4 137,1 28,7 9,1 53,4 16,0 6,4 31,1 11,4 5,2 134,6 28,2 9,0 51,7 15,5 6,3 29,8 11,0 5,1 132,9 27,9 8,9 50,5 15,2 6,2 28,8 10,7 5,0 131,8 27,7 8,9 49,8 15,0 6,1 28,2 10,5 4,9 130,6 27,5 8,8 49,0 14,8 6,0 27,6 10,3 4,8 130,0 27,5 8,8 48,6 14,7 6,0 27,3 10,2 4,8 129,5 27,2 8,8 48,2 14,7 6,0 27,0 10,1 4,7 128,9 27,1 8,8 47,8 14,5 5,9 26,7 10,0 4,7 35,5 27,0 23,7 21,9 20,8 20,0 19,5 19,0 18,8 18,5 18,3 13,4 10,9 9,8 9,2 8,8 8,5 8,3 8,1 8,0 7,9 7,8 6,0 5,1 4,8 4,5 4,3 4,3 4,2 4,1 4,1 4,1 4,0 29,2 21,7 18,8 17,2 16,2 15,5 15,1 14,6 14,4 14, 13,1 8,5 7,9 7,5 7,2 7,0 6,8 6,7 6,6 6,5 12,3 9,6 4,4 4,1 4,0 3,9 3,8 3,7 3,7 3,6 3,6 4,7 5,6 25,4 18,5 15,8 14,4 13,5 12,9 12,5 12,0 11,8 11,6 11,4 11,3 8,7 7,6 7,0 6,6 6,4 6,2 6,0 5,9 5,8 5,7 5,3 4,6 4,1 3,8 3,7 3,6 3,5 3,4 3,4 3,3 3,3 22,9 16,4 13,9 12,6 11,7 11,1 10,8 10,4 10,2 10,0 9,8 10,6 8,0 7,0 6,4 6,1 5,8 5,6 5,5 5,4 5,3 5,2 5,1 4,8 3,6 3,6 3,5 3,4 3,3 3,2 3,2 3,1 3,1 — 47 — Окончание табл. 10 2 y1 1 21,0 10 10,0 5,0 19,7 11 9,7 4,8 18,6 12 9,3 4,8 17,8 13 9,1 4,7 17,1 14 8,9 4,6 16,6 15 8,7 4,5 2 14,9 7,9 4,1 13,8 7,2 4,0 12,3 6,9 3,9 12,3 6,7 3,8 11,8 6,5 3,7 11,3 6,4 3,7 3 4 5 12,3 11,3 10,5 6,6 6,0 5,6 3,7 3,5 3,3 11,6 10,4 9,6 6,2 5,7 5,3 3,6 3,4 3,2 10,8 9,6 8,9 6,0 5,4 5,1 3,5 3,3 3,1 10,2 9,1 8,4 5,7 5,2 4,9 3,4 3,2 3,0 9,7 8,6 7,9 5,6 5,0 4,7 3,3 3,1 3,0 9,3 8,3 7,6 5,4 4,9 4,6 3,3 3,1 2,9 6 7 8 9 10 11 9,9 5,4 3,2 9,1 5,1 3,1 8,4 4,8 3,0 7,9 4,6 2,9 7,4 4,5 2,9 7,1 4,3 2,8 9,6 5,2 3,1 8,8 4,9 3,0 8,1 4,7 2,9 7,6 4,4 2,8 7,1 4,3 2,8 6,8 4,1 2,7 9,2 5,1 3,1 8,4 4,7 3,0 7,7 4,5 2,9 7,2 4,3 2,8 6,8 4,1 2,7 6,5 4,0 2,6 9,0 5,0 3,0 8,2 4,6 2,9 7,5 4,4 2,8 7,0 4,2 2,7 6,6 4,0 2,7 6,3 3,9 2,6 8,9 4,9 2,9 8,0 4,5 2,9 7,4 4,3 2,8 6,9 4,1 2,7 6,5 3,9 2,6 6,2 3,8 2,6 8,7 4,8 2,9 7,8 4,5 2,9 7,2 4,2 2,7 6,7 4,0 2,6 6,3 3,9 2,6 6,0 3,7 2,5 При равенстве дисперсий объектов в выборках проверка гипотезы о равенстве выборочных средних производится: 1) на основе статистики Стьюдента: Т факт. Χ1 Χ 2 S12 S22 , если Т факт. Т st . ( Т st . из табл. 10. Стандартные значения критерия Стьюдента для принятого уровня значимости и числа степеней свободы n1 n 2 2 ; n1 — число объектов в первой выборке, n2 — число объектов во второй выборке), то разница достоверна; — 48 — 2) на основе сравнения критерия Стьюдента для парных переменных: Т факт. d n n:S2 , S 2 определяется по выборке составленной из разности парных элементов двух сравниваемых выборок. Если Т факт. Т st . ( Т st . из табл. 11. Стандартные значения критерия Стьюдента для принятого уровня значимости и числа степеней свободы n1 1 , n — число пар), то разница достоверна. Таблица 11 Стандартные значения критерия Стьюдента (критерия достоверности разности) Число степеней свободы, 1 2 3 4 5 7 8 9 10 11 12 13 14 15 Вероятность, Р 0,95 12,7 4,30 3,18 2,78 2,57 2,37 2,31 2,26 2,23 2,20 2,18 2,16 2,15 2,13 0,99 0,999 Число степеней свободы, 63,66 637,0 9,93 31,60 5,84 12,94 4,60 8,61 4,03 6,86 3,50 5,41 3,36 5,04 3,25 4,78 3,17 4,49 3,11 4,44 3,06 4,32 3,01 4,22 2,98 4,14 2,95 4,07 — 49 — 16 17 18 19 20 22 23 24 25 26 27 28 29 30 Вероятность, Р 0,95 0,99 0,999 2,12 2,11 2,10 2,09 2,09 2,07 2,07 2,06 2,06 2,06 2,05 2,05 2,05 2,04 1,96 2,92 2,90 2,88 2,86 2,85 2082 2081 2,80 2,79 2,78 2,77 2,76 2,76 2,75 2,58 4,02 3,97 3,92 3,88 3,85 3,79 3,77 3,75 3,73 3,71 3,69 3,67 3,66 3,65 3,29 Если выборки не парные: при равенстве дисперсий критерий определяется по формуле: Т d n m(n m 2) : (( m 1)S х2 (n 1) S у2 (n m) ; при неравенстве дисперсий: Т Х 1 Х 2 n m . m S x2 n S y2 Для каждого критерия программа STATISTICA определяет уровень значимости и сравнивает с уровнем значимости Р ≤ 0,05. Если показатель значимости оцениваемого критерия больше 0,05, разница между генеральными средними не достоверна. Если показатель значимости оцениваемого критерия меньше 0,05 разница между генеральными параметрами достоверна. Результат, полученный при сравнении выборок, будет наблюдаться при сравнении генеральных совокупностей у 95 особей из каждых 100 сравниваемых. После проверки критерия Фишера рассчитывают критерий Стьюдента — Т-статистика для оценки разности между выборочными средними. Критерий Стьюдента проверяет нулевую гипотезу о равенстве выборочных средних. В зависимости от результатов сравнения дисперсий применяют различные формулы вычислений Т-статистики: для непарных выборок при равенстве дисперсий; для непарных выборок при неравенстве дисперсий (используется критерий Уэлча); для парных выборок. При Тфакт. ≥ Тst. (см. табл. 11) разница между выборочными средними установлена. Для каждой статистики вычисляется уровень значимости Р соответствующей нулевой гипотезы отсутствия различий. Если Р ≥ 0,05 нулевая гипотеза может быть принята. В случае нескольких выбранных переменных вычисления производятся для всех пар переменных. Если условия применения параметрических критериев сравнения средних не выполнимы, то необходимо использовать непараметрические критерии сравнения средних. — 50 — Пример 1. Оценены показатели плотности птиц в двух лесопарках им. Ю. А. Гагарина и «Затюменский». Показатели плотности птиц (особей/км²) в лесопарке им. Ю. А. Гагарина (рекреационная нагрузка 16 чел./ч). 1,3 45,2 82,7 112,0 136,0 34,0 112,1 96,3 50,3 91,5 56,6 64,3 80,5 665 78,3 35,0 101,5 35,5 106,9 40,1 101,7 86,6 60,5 86,7 55,4 84,1 62,7 68,7 76,1 70,1 86,4 72,3 Показатели плотности птиц (особей/км²) в лесопарке «Затюменский» (рекреационная нагрузка 21 чел./ч). 72,5 59,3 44,0 75,0 57,6 42,3 77,5 55,9 39,6 80,0 101,0 102,7 70,0 54,2 52,5 50,8 49,1 37,1 34,6 32,1 29,6 67,5 2,0 27,1 65,0 1,9 24,6 62,5 47,4 22,1 61,0 45,7 Определите для этих лесопарков показатели средней плотности птиц, дисперсии, ошибок средних арифметических. Проведите сравнение этих выборок на основе критерия Фишера и Стьюдента. Результаты обработки. Оценка параметров на основе описательной статистики: X 1 S X1 73,06±4,96, S 12 787,75. X 2 S X 2 = 51,38±4,19, S 22 562,92. Оценка нормальности 1-й выборки. Критерий Колмогорова– Смирнова d = 0,06349, значимость = >0,2; значимость Лилиефорса >0,2; критерий Шапиро–Уилка W = 0,98943, значимость 0,98473 > 0,05. Распределение не отличается от нормального. Оценка нормальности 2-й выборки. Критерий Колмогорова– Смирнова d = 0,05138, значимость = >0,2; значимость Лилиефорса >0,2; критерий Шапиро–Уилка W = 0,98332, значимость 0,88591 > 0,05. Распределение соответствует нормальному типу. Оценку достоверности разности между средними арифметическими следует провести на основе параметрических критериев достоверности оценок. — 51 — Для запуска программы в верхнем меню Statistics надо выбрать команду Basic Statistic/Tables (Основные статистики/Таблицы). Откроется меню команды, в котором Т-критерий представлен четырьмя процедурами: Т-test, independent, by variables (Т-критерий для независимых выборок) применяется, если надо сравнить средние двух независимых выборок; Т-test, independent, by groups (Т-критерий для независимых выборок с группирующей переменной) используется, если надо сравнить средние двух независимых групп, полученных из одной выборки при помощи группирующей переменной; Т-test, dependent samples (Т-критерий для зависимых выборок) применяется, если надо сравнить средние двух зависимых групп; t-test, single samples (простые выборки) используется для оценки достоверности выборочных средних. Для оценки достоверности разности между средними арифметическими независимых выборок (пример 1) необходимо определить: t-test, single samples (простые выборки) используется для оценки достоверности выборочных средних; Т-test, independent, by variables (Т-критерий для независимых выборок). Рис. 12. Определение t-test, single samples (простые выборки) Судить о том, как та или иная выборочная величина характеризует соответствующий параметр генеральной совокупности позволяет критерий достоверности выборочного показателя. Он обозначается буквой t с подстрочным знаком того показателя, для — 52 — которого он вычисляется: t X X SX — критерий достоверности средней арифметической. Если критерий достоверности t > 3, то есть выборочный показатель превышает в три раза свою ошибку Χ 3 S Χ , такая выборка достоверно характеризует генеральную совокупность. По 1-й выборке t = 12,25 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее. По 2-й выборке t = 14,72 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее (рис. 12). Если критерии достоверности выборочных показателей меньше трех (t < 3), то выборочные показатели меньше трех своих ошибок ( X 3 S X , S x 3 S S x , S x 2 3 S s 2 ), такая выборка не может быть исx пользована для характеристики генеральной совокупности. Рис. 13. Определение Т-test, independent, by variables (Т-критерий для независимых выборок) Критерий Фишера = 1,39; Р = 0,35 > 0,05 (стандартное значение Фишера = 1,84 при числах степеней свободы 31 и 31). Принимается нулевая гипотеза. Нет различий между выборочными дисперсиями. Разница между средними арифметическими не обусловлена влиянием случайных причин. Статистика Стьюдента = 3,33; Р = 0,001 < 0,05 (стандартное значение статистики Стьюдента = 2,0 при числе степеней свободы = 62). Разница между средними арифметическими достоверна (рис. 13). — 53 — Пример 2. Охарактеризуйте зависимые выборки (результаты двух оценок показателей плотности птиц в лесопарке «Затюменский») по следующему плану: описательная статистика; гистограмма и тест нормальности; критерии достоверности оценок (критерий Фишера, критерий Стьюдента). Выборка 1 65,3 36,5 71,6 1,1 52,7 97,0 63,2 39,7 73,7 2,1 49,4 938 61,1 43,0 75,8 26,9 59,0 30,1 56,9 33,3 54,8 46,2 106,2 67,4 104,2 69,5 100,1 90,6 78,5 88,1 81,7 84,5 Выборка 2 72,5 59,3 44,0 75,0 57,6 42,3 77,5 55,9 39,6 80,0 101,0 102,7 70,0 54,2 52,5 50,8 49,1 37,1 34,6 32,1 29,6 67,5 2,0 27,1 65,0 1,9 24,6 62,5 47,4 22,1 61,0 45,7 Заключение. Оценка параметров выборок: X 1 S X 62,62 4,82 , S12 743,65. 1 X 2 S X 51,38 4,19, S 22 562,63. 2 Оценка нормальности 1-й выборки. Критерий Колмогорова– Смирнова d = 0,055, значимость = >0,2; значимость Лилиефорса >0,2; критерий Шапиро–Уилка W = 0,97120, значимость 0,53914 > 0,05. Распределение не отличается от нормального. Оценка нормальности 2-й выборки. Критерий Колмогорова– Смирнова d = 0,05138, значимость = >0,2; значимость Лилиефорса >0,2; критерий Шапиро–Уилка W = 0,98322, значимость 0,88591 > 0,05. Распределение соответствует нормальному типу. Для оценки достоверности разности между средними арифметическими зависимых выборок (пример 2) необходимо определить: t-test, single samples (простые выборки) используется для оценки достоверности выборочных средних; — 54 — Т-test, dependent samples (Т-критерий для зависимых выборок) применяется, если надо сравнить средние двух зависимых групп. Рис. 14. Определение T-test, single samples (Т-критерий для простых выборок) По 1-й выборке t = 12,99 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее. По 2-й выборке t = 12,25 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее (рис. 14). Рис. 15. Определение T-test, dependent samples (Т-критерий для зависимых выборок) Критерий Фишера = 1,14 (стандартное значение статистики Фишера = 1,84 при числе степеней свободы 31,31). Нет различий между выборочными дисперсиями. Разница между средними арифметическими не обусловлена влиянием случайных причин. Критерий Стьюдента для парных значений 1,39 (стандартное значение = 2,04 при числе степеней свободы = 31), значимость = = 0,17 больше 0,05. Разница между средними арифметическими не достоверна (рис. 15). — 55 — Для оценки достоверности разности между средними арифметическими независимых выборок (пример 3) необходимо определить: T-test, independent, by groups (Т-критерий для независимых выборок с группирующей переменной). Метод используется при сравнении групп, полученных из одной выборки при помощи группирующей переменной (рис. 16). Рис. 16. Сравнение групп, сформированных с помощью группирующей переменной Пример 3. Оценены показатели плотности птиц в двух лесопарках г. Тюмени парке им. Ю. А. Гагарина и «Затюменский». Показатели плотности птиц (особей/км²) в лесопарке им. Ю. А. Гагарина (рекреационная нагрузка 16 чел./ч). 1,3 45,2 82,7 112,0 136,0 34,0 112,1 96,3 50,3 91,5 56,6 64,3 80,5 665 78,3 35,0 101,5 35,5 106,9 40,1 101,7 86,6 60,5 86,7 55,4 84,1 62,7 68,7 76,1 70,1 86,4 72,3 — 56 — Показатели плотности птиц (особей/км²) в лесопарке «Затюменский» (рекреационная нагрузка 21 чел./ч). 72,5 59,3 44,0 75,0 57,6 42,3 77,5 55,9 39,6 80,0 101,0 102,7 70,0 54,2 52,5 50,8 49,1 37,1 34,6 32,1 29,6 67,5 2,0 27,1 65,0 1,9 24,6 62,5 47,4 22,1 61,0 45,7 Оценка параметров выборок: X 1 S X1 73,05 4,96, S12 787,75. X 2 S X 2 51,38 4,19, S 22 562,97. По 1-й выборке t = 14,72 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее. По 2-й выборке t = 12,25 > 3; Р = 0,0 < 0,05. Выборочное среднее арифметическое достоверно характеризует генеральное среднее. Рис. 17. Определение Т-критерия для независимых выборок с группирующей переменной (T-test, independent, by groups) Для оценки достоверности разности между средними арифметическими выборок (пример 3) необходимо оценить T-test, independent, by groups (Т-критерий для независимых выборок с группирующей переменной) (рис. 17). Критерий Фишера = 1,39; Р = 0,35 > 0,05 (стандартное значение Фишера = 1,84 при числах степеней свободы 31 и 31). Принимается нулевая гипотеза. Нет различий между выборочными дисперсиями. Разница между средними арифметическими не обусловлена влиянием случайных причин. — 57 — Статистика Стьюдента = 3,33; Р = 0,001 < 0,05 (стандартное значение статистики Стьюдента = 2,0 при числе степеней свободы = 62). Разница между средними арифметическими достоверна. 2.3. НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ СРАВНЕНИЯ СРЕДНИХ Непараметрические методы не базируются на каком-либо предположении о законе распределения данных; используют, как правило, только предположения о случайном характере исходных данных и непрерывности генеральной совокупности, из которой они извлечены; не используют оценку параметров (среднего арифметического и стандартного отклонения), описывающих распределение переменной. Эти методы иногда называют свободно распределенными методами или методами, свободными от параметров (не основывающимися на оценке параметров: среднего арифметического или стандартного отклонения). Критерии непараметрических методов разделяются на следующие группы: критерии различия между группами (независимые выборки): критерий Вальда–Вольфовица, критерий Манна–Уитни, двухвыборочный критерий Колмогорова–Смирнова; при сравнении нескольких групп: критерий Краскела–Уоллиса и медианный тест; критерии различия между переменными (зависимые выборки): критерий знаков, критерий Вилкоксона; хи-квадрат Макнемара (для категориальных переменных); при сравнении нескольких групп: критерий Фридмана, критерий Кохрена; критерии зависимости между переменными: статистика Спирмена, Кендалла тау, коэффициент гамма; хи-квадрат, коэффициент фи; при оценке зависимости между несколькими переменными коэффициент конкордации Кендалла; критерии зависимости между переменными будут приведены в разделе 5 «Методы оценки связи между признаками». Непараметрические критерии определяются при работе: с совокупностями, распределение которых не соответствует нормальному типу; — 58 — с признаками, выражающимися не числами, а условными знаками (рангами); с выборками малого объема. Для запуска непараметрических методов в меню Статистика нужно выбрать Непараметрические данные (Nonparametrics). Непараметрические критерии объединены в группы (рис. 18): 2 х 2 tables; 2 observed versus exrected; correlations (Spearman, Kendall tau, gamma); comparing two independent samples (groups); comparing multiple independent samples (groups); comparing two dependent samples (variables); comparing multiple dependent samples (variables); Cohran test. Рис. 18. Непараметрические методы сравнения групп в системе STATISTICA 2.3.1. Сравнение независимых выборок При сравнении двух независимых выборок (comparing two independent samples, groups) определяются: критерий Вальда–Вольфовица, критерий Манна–Уитни, двухвыборочный критерий Колмогорова–Смирнова. — 59 — Критерий Вальда–Вольфовица представляет собой непараметрическую альтернативу Т-критерия для независимых выборок. Данные должны содержать группирующую переменную, имеющую по крайней мере два различных кода. После выбора функции сравнения двух независимых групп в диалоговом окне нужно выбрать группирующую (кодовую) переменную и список анализируемых переменных. Критерий Вальда–Вольфовица проверяет гипотезу о том, что две независимые выборки извлечены из двух совокупностей, которые различаются не только средними, но также формой распределения (нулевая гипотеза состоит в том, что обе выборки извлечены из одной и той же генеральной совокупности). Наблюдения 1-й выборки (m) и наблюдения 2-й выборки (n) упорядочивают по возрастанию, исследуют распределение серий (серией называют цепочку значений, соответствующих одной группе и примыкающих к другой в вариационном ряду) признака, относящихся к одной и той же группе. Пример 1. Оценена плотность птиц в двух лесопарках «Затюменский» (З) и им. Ю. А. Гагарина (Г). Плотность 1,1 2,1 26,9 30,1 59,0 61,1 63,2 65,3 70 72,5 75 77,5 80 101 102 птиц Лесопарки Г Г Г Г Г Г Г Г З З З З З З З Ранг 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Число серий (цепочка значений, соответствующих одной группе и примыкающих в вариационном ряду к другой группе) равно двум, N = 2 (одна серия элементов З и одна серия элементов Г). В табл. 12 критические значения сериального критерия Вальда– Волфовица минимальное число серий N1 = 3; максимальное число серий N2 = 14 (при m = 7, m — число показателей плотности птиц лесопарка «Затюменский» — З; и n = 8, n — число показателей плотности птиц лесопарка им. Ю. А. Гагарина — Г). Число серий (N = 2) меньше минимального числа серий N1 = 3. Программа STATISTICA при сравнении распределений выборок рассчитывает Z-статистику по формуле: — 60 — 2 m n 2 m n(2 m n m n) . Z = N – 1 nm ( m n) 2 (m n 1) 278 278(278 7 8) Z 2 1 3, 48. 7 8 (7 8) 2 (7 8 1) Для значения Z = –3,48 уровень значимости Р = 0,000498 < 0,05 (рис. 19). Альтернативная гипотеза о неравенстве средних ( X 1 71,4 и X 2 102,5 ) сравниваемых групп подтверждается. Рис. 19. Сравнение групп на основе критерия Вальда–Волфовица (Wald–Wolfwitz runs test) Гипотезу о принадлежности сравниваемых независимых выборок к одной и той же генеральной совокупности можно проверить с помощью рангового критерия Манна–Уитни (Mann Whitney U Test). Для этого после ранжирования отдельно для каждой выборки находится сумма рангов (пример 1): по показателям плотности птиц лесопарка «Затюменский» сумма рангов R1 = 84; по показателям плотности птиц лесопарка им. Гагарина сумма рангов R2 = 36. Таблица 12 Критические значения N1 и N2 сериального критерия Вальда–Вольфовица M N 1 2 2 2 2 3 P > 0,95 N2 N1 3 4 1 5 1 6 M N 5 3 3 6 17 18 — 61 — Р > 0,95 N2 N1 7 8 2 8 2 8 Окончание табл. 12 1 2 3 4 5 6 7 8 2 4 1 6 3 19 2 8 2 5 1 6 3 20 2 8 2 6 1 6 4 4 1 9 2 7 1 6 4 5 1 9 2 8 1 6 4 6 2 10 2 9 1 6 4 7 2 10 2 10 1 6 4 8 2 10 2 11 1 6 4 9 2 10 2 12 1 6 4 10 2 10 2 13 1 6 4 11 2 10 2 14 1 6 4 12 3 10 2 15 1 6 4 13 3 10 2 17 1 6 4 14 3 10 2 18 1 6 4 15 3 10 2 19 2 6 4 16 3 10 3 3 1 7 4 17 3 10 3 6 1 8 4 20 3 10 3 7 1 8 5 5 2 10 3 8 1 8 5 6 2 11 3 9 2 8 5 7 2 11 3 10 2 8 5 8 3 12 3 11 2 8 5 9 3 12 3 12 2 8 5 10 3 12 3 13 2 8 5 11 3 12 3 14 2 8 5 12 3 12 3 15 2 8 5 13 3 12 3 16 2 8 7 8 3 14 — 62 — На основе рангов определяется U-критерий по формулам: U1 = R1 – (n1(n1 + 1)) : 2 = 84 – 7(7 + 1) : 2 = 56. U2 = R2 – (n2(n2 + 1)) : 2 = 36 – 8(8 + 1) : 2 = 0. Для меньшей величины U-критерий программа STATISTICA рассчитывает Z-статистику и устанавливает уровень значимости. U-критерий = 0; Z-статистика = –3,18; Р = 0,0014 меньше 0,05 (рис. 20). Альтернативная гипотеза о неравенстве средних ( X 1 82,6 и X 2 38,6 ) сравниваемых групп подтверждается. Рис. 20. Сравнение групп на основе критерия Манна–Уитни (Mann Whitney U Test) Двухвыборочный критерий Колмогорова–Смирнова проверяет гипотезу о том, что исследуемые выборки извлечены из одной и той же генеральной совокупности. Он основан на максимуме абсолютного значения разности (положительной и отрицательной) эмпирических функций первой и второй выборки и определении значимости Р. При Р больше 0,05 нулевая гипотеза (отсутствие различий между выборками) может быть принята. При Р меньше 0,05 нулевая гипотеза (отсутствие различий между выборками) не может быть принята, следовательно, между выборками разница достоверна. Значимость двухвыборочного критерия Колмогорова–Смирнова меньше 0,05 (см. рис. 21). Альтернативная гипотеза о неравенстве средних ( X 1 82,6 и X 2 38,6 ) сравниваемых групп подтверждается. — 63 — Рис. 21. Сравнение групп на основе критерия Колмогорова–Смирнова Сравнение нескольких независимых групп проводится на основе критерия Краскела–Уоллиса и медианного теста. Методика определения критерия Краскела–Уоллиса и медианного теста приведена в разделе 3 «Дисперсионный анализ факторных эффектов». 2.3.2. Сравнение зависимых групп При сравнении двух зависимых групп (comparing two dependent samples, variables) определяют: критерий знаков (Sign test), критерий Вилкоксона (Wilcoxon test), которые являются непараметрической альтернативой T-критерия сравнения средних в двух зависимых выборках. Критерий знаков основан на подсчете количества положительных разностей между значениями переменных до и после повторных измерений; определяет количество положительных разностей. Критерий Вилкоксона находит отдельно суммы положительных и отрицательных разностей. Меньшую из сумм разностей без учета знака программа использует в качестве критерия. Пример 1. Необходимо оценить по показателю плотности птиц две зависимые выборки. Выборка 1 72,5 75,0 77,5 80,0 101,0 102,7 70,0 67,5 65,0 62,5 61,0 59,3 57,6 55,9 54,2 Выборка 2 65,3 1,1 63,2 2,1 61,1 26,9 59,0 30,1 56,9 333 54,8 36,5 52,7 39,7 49,4 Рис. 22. Сравнение зависимых групп на основе критерия знаков (Sign test) — 64 — Количество отрицательных разностей равно 15 (или 100%). Z-статистика = 3,61; Р = 0,000301 < 0,05 (рис. 22). Величину Z для критерия знаков находят по формуле: Zs S n 2. n 4 При n < 36 используется поправка на непрерывность k = 0,5. На основании Z устанавливается значимость. Если полученный уровень значимости меньше 0,05, гипотеза о различии между выборками принимается. Сумма положительных разностей равна 0. Сумма отрицательных разностей равна 120. Критерий Вилкоксона Т(W) = 0. Z-статистика = 3,407; Р = 0,00065 < 0,05 (рис. 23). Рис. 23. Сравнение зависимых групп на основе критерия Викоксона (Wilcoxon test) Величину Z для критерия Вилкоксона находят по формуле: n(n 1) 15(15 1) 0 4 4 Zw 3, 4 . 15(15 1)(215 1) n(n 1)(2n 1) 24 24 W При сравнении нескольких зависимых групп используется критерий Фридмана (comparing multiple dependent variables). Методика определения критерия Фридмана приведена в разделе 3 «Дисперсионный анализ факторных эффектов». — 65 — 2.3.3. Сравнение номинальных (категориальных) переменных При сравнении номинальных переменных двух выборок используются критерии группы 2 х 2 (Chi-square, V-square, Phi-square, Fisher exact, Mcnemar — хи-квадрат Макнемара; Chi-square A\D, Chi-square B\C). Пример 1. В опытах по радиоактивному мутагенезу дрозофилы получены следующие данные: в контрольной группе число хромосом без мутации 32140, хромосом с летальной мутацией 63; в опытной группе соответственно 15281 и 649 (рис. 24). Результаты сравнения. Критерии группы 2 х 2: Chi-square = = 1100,07, Р = 0,00; V-square = 1100,04, Р = 0; Vates corrected Chisquare = 1097,4, Р = 0,0; Phi-square = 0,02285; Mcnemar Chi-square (A\D = 15091,1, Р = 0,0; Chi-square B\C). Заключение. Все критерия сравнения долей имеют значение Р < 0,05. Облучение вызывает достоверную долю летальных мутаций у дрозофилы. Рис. 24. Выбор показателей при сравнении частот двух выборок При сравнении частот (или долей) нескольких зависимых выборок используют критерий Кохрена (Соchran). Для критерия Кохрена исходные данные должны быть в номинальной шкале либо искусственно закодированы как единицы и нули. Выбранные переменные имеют значения 0 или 1; при использовании других кодов, они должны быть заданы в поле ввода программы. — 66 — Пример 2. Группа домашних животных (n = 18) получала лекарственное средство в составе корма утром, в обед, вечером. Определить, влияет ли время суток на потребление корма животными. Номинальные значения для сравнения зависимых групп приведены в табл. 13. Таблица 13 Номинальные значения для сравнения зависимых групп № п/п 1 2 3 4 5 6 7 8 9 Потребление корма Утро Обед Вечер нет да нет нет да да да нет да нет да да нет нет да да да нет нет нет нет нет нет нет нет нет нет № п/п 10 11 12 13 14 15 16 17 18 Потребление корма Утро Обед Вечер нет да да да да да да да да нет да да да да да да да да нет да да нет нет нет да нет нет Число объектов в зависимых группах = 18; критерий Кохрена Q = 16,66; Р = 0,00240 < 0,05 (рис. 25). При включении лекарственного средства в корм утром и в обед процент животных, получивших лекарство, составил 72,2. При вечерней даче лекарственного средства достоверно увеличилось число животных, не съевших корм (Р < 0,05). Рис. 25. Сравнение номинальных значений на основе критерия Кохрена — 67 — В разделе Другие критерии значимости (Меню Основные статистики/Таблицы) программа проводит сравнение: 2-х коэффициентов корреляции; 2-х средних арифметических (при нормальности распределения); 2-х пропорций. Пример 3. Проведите сравнение двух коэффициентов корреляций: r1 = 0,98 (n1 = 10) и r2 = 0,15 (n2 = 10). Результаты. Уровень значимости разницы между коэффициентами корреляции Р = 0,001 < 0,05. Разница между коэффициентами корреляции достоверна. Пример 4. Проведите сравнение двух средних арифметических (нормальное распределение): X 1 4427, S x1 497; X 2 4433, S x2 499 ; n1 = 30, n2 = 30. Результаты. Уровень значимости разницы между средними арифметическими Р = 0,96 > 0,05. Разница между средними арифметическими не достоверна. Пример 5. Проведите сравнение двух пропорций (долей): р1 = 0,214 (21,4%) и р2 = 0,639 (63,9%), n1 = 30, n2 = 30. Результаты. Уровень значимости разницы между долями Р = 0,0015 < 0,05. Разница между долями достоверна. ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ Задание 1. Приведены показатели плотности птиц (особей/км²) в лесопарках г. Тюмени, с разной плотностью рекреационной нагрузки: а) лесопарк «Затюменский» (рекреационная нагрузка 21 чел./ч): 102,7 3,7 22,2 57,4 7,4 9,3 5,6 1,9 16,7 3,7 1,9 1,9 4,3 1,9 22,2 24,1 14,8 1,9 7,4 1,9 16,7 1,9 13 1,9 б) лесопарк «Гилевская роща» (рекреационная нагрузка 16 чел./ч): 78,2 67,3 1,8 39,3 30,9 130,2 10,9 7,3 7,3 1,8 1,1 7,3 9,1 7,3 1,8 3,6 3,6 1,8 — 68 — 7,3 1,8 18,2 1,1 1,8 3,6 10,9 1,8 27,3 1,1 Проведите сравнение независимых выборок по следующему плану: описательная статистика; гистограмма и тесты нормальности; критерий достоверности выборочных средних арифметических; критерии достоверности оценок (критерий Фишера, статистика Стьюдента). Задание 2. Для контроля развития проведены взвешивания группы кроликов (кг). Сравните зависимые выборки по следующему плану: описательная статистика; гистограмма и тесты нормальности; критерии достоверности выборочных средних арифметических; критерии достоверности оценок (критерий Фишера, критерий Стьюдента). Выборка 1 1,9 2,3 1,8 2,4 1,5 3,2 3,0 1,3 2,1 2,7 2,2 2,9 2,1 2,5 3,0 1,6 2,3 1,3 1,2 2,1 2,0 1,6 1,0 2,6 2,2 1,8 2,5 2,1 1,9 1,9 3,7 2,0 2,8 3,4 2,9 3,6 2,8 3,2 3,7 2,3 3,0 2,0 1,9 2,8 2,7 2,3 1,7 3,3 2,9 2,5 3,2 2,8 2,6 2,6 Выборка 2 2,6 3,0 2,5 3,1 2,2 3,9 КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Объясните применение параметрических критериев достоверности оценок. 2. Каковы особенности нормального распределения? 3. При решении каких вопросов используют функции нормального распределения? 4. Объясните применение критериев Фишера и Стьюдента, статистики Стьюдента. 5. Объясните применение критерия Манна–Уитни, двухвыборочного критерия Колмогорова–Смирнова, критерия Вальда–Вольфовица. — 69 — 3. ДИСПЕРСИОННЫЙ АНАЛИЗ ФАКТОРНЫХ ЭФФЕКТОВ Дисперсионный анализ (Analysis of variance) — метод оценки влияния одного или нескольких качественных переменных (факторов) на зависимую количественную переменную. При использовании дисперсионного анализа исследуемая совокупность данных разделяется на группы, отличающиеся по уровню факторов. Достоверность отличий средних арифметических нескольких групп метод дисперсионного анализа оценивает одновременно [12], [13], [15]. 3.1. ПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ ФАКТОРНЫХ ЭФФЕКТОВ В основе метода дисперсионного анализа (Analysis of variance) лежит сравнение средних арифметических путем анализа (разложения на компоненты) общей дисперсии. 1. В случае однофакторного дисперсионного анализа общая дисперсия представляет сумму двух слагаемых: S y2 общая = S x2 факт. + S z2 случ., где S x2 факт. — дисперсия, определяемая влиянием изучаемого фактора; S z2 случ. — дисперсия, определяемая вариацией случайных факторов. 2. В случае двухфакторного дисперсионного анализа общая дисперсия представляет сумму четырех слагаемых: S y2 общая = S x2 А + S x2 В + S x2 АВ + S z2 случ., где S x2 А и S x2 В — дисперсии, обусловленные вариацией факторов А и В; S x2 АВ — дисперсия, определяемая совместным действием факторов А и В. — 70 — При проведении дисперсионного анализа формируется дисперсионный комплекс — система выборочных совокупностей, объединенных для совместного изучения. Дисперсионные комплексы могут быть сформированы как при планировании исследований, так и на основе эмпирических данных. При формировании дисперсионных комплексов должны быть соблюдены следующие условия: 1) выборки, включаемые в дисперсионный комплекс должны составляться по принципу рандомизации, то есть способом случайного отбора; число выборок соответствует числу факторов или числу градаций факторов; 2) действующие на признак регулируемые факторы должны быть независимыми друг от друга. Если оценивают действие на признак одного регулируемого фактора, дисперсионный комплекс называют однофакторным. Если одновременно оценивают действие на признак двух, трех и большего числа регулируемых факторов, комплекс называют многофакторным. Выборки, включаемые в дисперсионный комплекс, могут быть одинаковые по объему или равномерные; неодинаковые по объему или неравномерные. При отсутствии достоверной разницы между дисперсиями выборок, зависимости между средними арифметическими и стандартными отклонениями выборок, при соответствии распределения в выборках нормальному типу дисперсионный анализ проводят на основе параметрических методов. Проверка однородности дисперсий проводится на основе статистических критериев Левена, Кохрена, Хартли, Бартлетта, М-критерия Бокса. Если уровень значимости критериев больше 0,05, принимается нулевая гипотеза об отсутствии разницы между дисперсиями групп, измеренных при различных значениях факторов. Соответствие распределения зависимой переменной нормальному типу оценивается на основе коэффициента асимметрии — As (при нормальном распределении As = 0), коэффициента эксцесса — Ex (при нормальном распределении Ex = 0) и критериев нормаль— 71 — ности (критерий Колмогорова–Смирнова — d, критерий Шапиро– Уилка — W). Нулевая гипотеза (распределение соответствует нормальному типу) принимается при превышении уровня значимости критериев значения 0,05. Оценка достоверности разницы между средними арифметическими определяется на основе F-критерия (критерий Фишера F Sx 2 Sz 2 ). Нулевая гипотеза (средние арифметические, или по крайней мере одно из нескольких средних арифметических, отличаются от остальных) отвергается, если уровень значимости F-критерия меньше 0,05. Для проведения дисперсионного анализа в верхнем меню STATISTICA нужно выбрать команду Analysis of variance (Анализ варианс), появится стартовое окно ANOVA/MANOVA. В левой части стартового окна приведены виды анализа (Type of analysis), в правой части — задание метода (Specification method). Виды анализа представлены различными моделями дисперсионного анализа: однофакторный дисперсионный анализ (one-way ANOVA) — используют для оценки влияния одного фактора на одну или более зависимых переменных; дисперсионный анализ главных эффектов (main effects ANOVA) — используют для оценки большого числа факторов на зависимые переменные, при этом программа проводит оценку главных эффектов; многофакторный дисперсионный анализ (factorial ANOVA) — в отличие от метода main effects ANOVA учитывает взаимодействие факторов, при этом программа проводит оценку эффекта одного фактора в зависимости от уровня других факторов; дисперсионный анализ повторных измерений (repeat measuries ANOVA) — используют при наличии повторных измерений зависимых переменных (рис. 26). — 72 — Рис. 26. Виды дисперсионного анализа в системе STATISTICA Список Specification method позволяет задать три типа интерфейса дисперсионного анализа: диалог быстрых спецификаций (quick specs dialog) — позволяет задать зависимые и факториальные переменные; мастер анализа (analysis wizard) — предназначен для задания анализа в рамках выбранной модели; редактор анализа (analysis syntax editor) позволяет полностью настроить параметры плана и вычислительных процедур. Рассмотрим статистический однофакторный комплекс (система разнородных групп, объединенных для совместного изучения). Пример 1. Приведены показатели плотности птиц (особей/км²) в лесопарках г. Тюмени с разной степенью рекреационной нагрузки: а) лесопарк «Затюменский» (рекреационная нагрузка 21 чел./ч): 72,5 59,3 44,0 75,0 57,6 42,3 77,5 55,9 39,6 80,0 101,0 102,7 70,0 54,2 52,5 50,8 49,1 37,1 34,6 32,1 29,6 — 73 — 67,5 65,0 2,0 1,9 27,1 24,6 62,5 61,0 47,4 45,7 22,1 б) парк им. Ю. А. Гагарина (рекреационная нагрузка 16 чел./ч): 1,3 45,2 82,7 112,0 136,0 34,0 112,1 96,3 50,3 91,5 56,6 64,3 80,5 66,5 78,3 35,0 101,5 35,5 106,9 40,1 101,7 86,6 60,5 86,7 55,4 84,1 62,7 68,7 76,1 70,1 86,4 72,3 в) лесопарк «Гилевская роща» (рекреационная нагрузка 9 чел./ч): 65,3 36,5 71,6 1,1 52,7 97,0 63,2 39,7 73,7 2,1 49,4 93,8 61,1 43,0 75,8 26,9 59,0 30,1 56,9 33,3 54,8 46,2 106,2 67,4 104,2 69,5 100,1 90,6 78,5 88,1 81,7 84,5 Необходимо провести сравнение плотности птиц (особей/км²) в лесопарках с разной рекреационной нагрузкой на основе дисперсионного анализа. Для задания плана в диалоговом окне дисперсионного анализа в качестве вида анализа нужно выбрать однофакторный дисперсионный анализ (one-way ANOVA) и диалог быстрых спецификаций (quick specs dialog) в списке Specification method. На вкладке Quick нужно выбрать переменные (Variables). В появившемся окне нужно определить независимую (лесопарки) и зависимую (плотность птиц (особей/км²) в лесопарках) переменные (рис. 27). Рис. 27. Выбор переменных для однофакторного дисперсионного анализа — 74 — После этого программа отображает результаты анализа. В таблице всех эффектов (table of all effects) программа выводит значения: суммы квадратов отклонений выборочных средних от общего для всех выборок среднего (SS — summ of squares); суммы квадратов отклонений объектов в выборках от их средних (SE — summ of error); дисперсии, вызванной учтенным фактором (или средний квадрат эффекта S x2 MS SS , где k — число градаций изуk 1 чаемого фактора); дисперсии, вызванной случайными факторами SE , где N — число N k 2 Sx изученных объектов); F-критерий (критерий Фишера F 2 ); Sz (или средний квадрат ошибки S z2 ME уровень значимости критерия Фишера (значимые эффекты Р < 0,05 в таблице (table of all effects) помечаются знаком *). Как видно из табл. 14, нулевая гипотеза о равенстве средней плотности птиц (особей/км²) в лесопарках «Затюменский», им. Ю. А. Гагарина, «Гилевская роща» не принимается. Таблица 14 Стандартная таблица однофакторного дисперсионного анализа Изменчивость Факториальная, х (межгрупповая средняя) Остаточная, z (варианты внутри группы) Число Варианса Степень Уровень Сумма степеней или средний влияния значимоквадратов свободы квадрат факторов сти (SS, SE) (MS, ME) (F) (P) (1, 2) 7522,6 2 3761,3 64927,6 93 698,1 — 75 — 5,38 0,0061* Уровень значимости Р = 0,0061 (критерия Фишера) меньше 0,05. Значение F = 5,38 критерия больше Fα = 3,11 (1 = 2, 2 = 93). Для проверки предположений, лежащих в основе метода дисперсионного анализа, проведена оценка однородности дисперсий сравниваемых групп на основе критерия Левена (рис. 28). Для этого использована вкладка Предположения (Assumptions) в окне ANOVA Results1. Уровень значимости критерия Левена составляет 0,59 (больше 0,05). Принята нулевая гипотеза об отсутствии разницы между дисперсиями плотности птиц (особей/км2) разных лесопарков. Рис. 28. Оценка однородности дисперсий сравниваемых групп Значительная корреляция между средними арифметическими плотности птиц (особей/км2) в лесопарках г. Тюмени с разной плотностью рекреационной нагрузки и стандартными отклонениями не установлена. Для оценки корреляции между средними арифметическими плотности птиц и стандартными отклонениями использована вкладка Plot means vs. Std. devations в окне ANOVA Results1. На основе коэффициента асимметрии — As (0,02; –0,44; –0,21), коэффициента эксцесса — Ex (Ex = 0,26; –0,15; 0,38) и критериев нормальности (критерий Колмогорова–Смирнова — d (0,05; 0,05; 0,06), критерий Шапиро–Уилка — W (0,98; 0,97; 0,98)) установлено соответствие распределения плотности птиц (особей/км2) в лесопарках нормальному типу. Таким образом, на основе разложения общей дисперсии на составляющие компоненты и их сравнения установлена достоверная разница при одновременном сравнении выборочных средних арифметических ( X 1 51,3; X 2 73,0; X 3 62,6 ) (рис. 29). — 76 — Рис. 29. Средние арифметические сравниваемых групп и дисперсионного комплекса Многофакторный дисперсионный анализ (main ANOVA) проведен по оценке на показатели плотности птиц (особей/км²) разной степени рекреационной нагрузки: 21 чел./ч — лесопарк «Затюменский», 16 чел./ч — парк им. Ю. А. Гагарина, 9 чел./ч — лесопарк «Гилевская роща» и разных методов оценки (1 — стандартный, 2 — интегрированный) (табл. 15). Пример 2. Показатели плотности птиц (особей/км2) в лесопарках г. Тюмени с разной степенью рекреационной нагрузки и разных методах оценки. Таблица 15 Показатели плотности птиц в лесопарках при оценке разными методами Метод оценки Затюменский Лесопарки им. Ю. А. Гагарина 72,5;77,5;101; 70;65;61;57,6; Стандарт54,2; 50; 8;2; ный 47,4;44; 39,6;34, 6;29,6;24,6 1,3;34;112,1;35,5; 86,4;106,9;45,2; 96,3;50,3;56,6; 86,6;60,5;55,4; 84,1;62,7;78,3;68,7 112;136;35; 75;80;102,7;67,5; 101,5;40,1;101,7; Интегри- 62,5;59,3;55,9;52,5; 91,5;86,7;82,7; рованный 49,1;1,9;45,7;42,3; 64,3;80,5;66,5; 37,1;32,1;27,1; 22,1 76,1;70,1;72,3 — 77 — Гилевская роща 2,1;106,2;100,1;93,8; 88,1;81,7;75,8;71,6; 67,4;63,2;56,9;54,8; 49,4;43;36,5;30,1 1,1;104,2;97;90,6; 84,5;78,5;73,5; 69,5;5,3;59;54,8; 56,9;52,7;46,2;39,7; 33,3;26,9 Многофакторный дисперсионный анализ (main effects ANOVA) проводит оценку эффекта каждого фактора, а также учитывает влияние неконтролируемых факторов, то есть вариаций значений внутри отдельного уровня фактора. Для задания плана в диалоговом окне дисперсионного анализа в качестве вида анализа нужно выбрать многофакторный дисперсионный анализ (main effects ANOVA) и диалог быстрых спецификаций (quick specs dialog) в списке Specification method. На вкладке Quick нужно выбрать переменные (Variables). В появившемся окне нужно определить независимые переменные (степень рекреационной нагрузки и метод оценки) и зависимую переменную (плотность птиц, особей/км²). После этого программа отображает результаты анализа. В таблице всех эффектов (table of all effects) программа выводит значения суммы квадратов отклонений выборочных средних от общего для всех выборок среднего: SS х A — сумма квадратов отклонений, вызванных первым фактором (А), SS х B — сумма квадратов отклонений, вызванных вторым фактором (В); суммы квадратов отклонений объектов в выборках от их средних (SE — summ of error); дисперсии, вызванные учтенными факторами (или 2 средний квадрат эффекта А: S х A MS х A 2 S х B MS х B SS х A , эффекта В: m 1 SS х B , где m — число градаций фактора A, n — n 1 число градаций фактора В); дисперсии, вызванной случайными факторами (или средний квадрат ошибки S z2 ME SE , где N k N — число изученных объектов); F-критерий (критерий Фишера FA Sх A Sz 2 2 , FB Sх B Sz 2 2 ); уровень значимости критерия Фишера (значимые эффекты Р < 0,05 в таблице (table of all effects) помечаются знаком *). — 78 — Как видно из табл. 16 нулевая гипотеза о равенстве плотности птиц (особей/км²) при разной степени рекреационной нагрузки не принимается. Уровень значимости Р = 0,0059 (критерия Фишера FA = 5,41) меньше 0,05. Значение критерия FA = 5,41 больше Fα = 3,11(1 = 2, 2 = 92). Нулевая гипотеза о равенстве плотности птиц (особей/км²) при использовании разных способов оценки принимается. Уровень значимости Р = 0,4846 (критерия Фишера FВ = 0,4923) больше 0,05. Таблица 16 Стандартная таблица многофакторного дисперсионного анализа (main effects ANOVA) Изменчивость Факториальная, лесопарки, А (межгрупповая средняя) Число Варианса, Степень Сумма квадстепеней или средний влияния ратов свободы квадрат факторов (SS, SE) (MS, ME) (F) (1, 2) 7599,3 Факториальная, методы, В (меж345,6 групповая средняя) Остаточная, z (варианты внутри 64582,1 группы) Уровень значимости (P) 2 3799,6 5,41 0,0059* 1 345,6 0,4923 0,4846 92 702,0 Проверка предположений (однородность дисперсий сравниваемых групп, корреляции между средними арифметическими и стандартными отклонениями, соответствие распределений нормальному типу), лежащих в основе метода дисперсионного анализа, проводится так же, как при однофакторном дисперсионном анализе. — 79 — На основе разложения общей дисперсии на составляющие компоненты и их сравнения установлена достоверная разница при одновременном сравнении средних показателей плотности птиц в лесопарках с разной рекреационной нагрузкой ( X 1 51,3; X 2 73,0 X 3 62,6 ) (рис. 30). Рис. 30. Средние арифметические сравниваемых групп и дисперсионного комплекса Многофакторный дисперсионный анализ (factorial ANOVA) проведен по оценке разной степени рекреационной нагрузки: 21 чел./ч — лесопарк «Затюменский», 16 чел./ч — парк им. Ю. А. Гагарина, 9 чел./ч — лесопарк «Гилевская роща» и разных методов оценки (1 — стандартный, 2 — интегрированный) на показатели плотности птиц (особей/км²). Многофакторный дисперсионный анализ (factorial ANOVA) проводит оценку эффекта каждого фактора, а также учитывает взаимодействие факторов, при этом программа проводит оценку эффекта одного фактора в зависимости от уровня других факторов. Для задания плана в диалоговом окне дисперсионного анализа в качестве вида анализа нужно выбрать многофакторный дисперсионный анализ (factorial ANOVA) и диалог быстрых спецификаций (quick specs dialog) в списке Specification method. На вкладке Quick нужно выбрать переменные (Variables). В появившемся окне нужно определить независимые переменные (степень рекреационной на— 80 — грузки и метод оценки) и зависимую переменную (плотность птиц, особей/км²). После этого программа отображает результаты анализа. В таблице всех эффектов (table of all effects) программа выводит значения суммы квадратов отклонений выборочных средних от общего для всех выборок среднего: SS х A — сумма квадратов отклонений, вызванных первым фактором (А), SS х B — сумма квадратов отклонений, вызванных вторым фактором (В), SS х AB — сумма квадратов отклонений, вызванных взаимодействием факторов А и В; суммы квадратов отклонений объектов в выборках от их средних (SE — summ of error); дисперсии, вызванные учтенными 2 факторами (или средний квадрат эффекта А: S х A MS х A 2 эффекта В: S х B MS х B SS х A , m 1 SS х B , средний квадрат эффекта АВ: n 1 SS х AB , где m — число градаций фактора A, (m 1)(n 1) n — число градаций фактора В); дисперсии, вызванной случайныS х 2AB MS х AB ми факторами (или средний квадрат ошибки S z2 ME SE , N k где N — число изученных объектов); F-критерий (критерий Фишера FA Sх A Sz 2 2 , критерий Фишера FB Sх B Sz 2 2 ); уровень значимо- сти критерия Фишера (значимые эффекты Р < 0,05 в таблице (table of all effects) помечаются знаком *). Как видно из табл. 17 нулевая гипотеза о равенстве плотности птиц (особей/км²) при разной степени рекреационной нагрузки не принимается. Уровень значимости Р = 0,0051 (критерия Фишера FA = 5,59) меньше 0,05. Значение критерия FA = 5,59 больше Fα = 3,1 (1 = 2, 2 = 90). Нулевая гипотеза о равенстве плотности птиц (особей/км²) при использовании разных способов оценки — 81 — принимается. Уровень значимости Р = 0,4824 (критерия Фишера FВ = 0,49) больше 0,05. Нулевая гипотеза о равенстве плотности птиц (особей/км²) при разной степени рекреационной нагрузки и способах оценки принимается. Уровень значимости Р = 0,3227 (критерия Фишера FAB = 1,11) больше 0,05. Значение критерия Фишера FAB = 1,11 меньше Fα = 3,1 (1 = 2, 2 = 90). Таблица 17 Стандартная таблица многофакторного дисперсионного анализа (factorial ANOVA) Изменчивость Факториальная (реакреация, А) (межгрупповая средняя) Факториальная (метод, В) (межгрупповая средняя) Межфакторное взаимодействие (АВ) Остаточная, z (варианты внутри группы) Число Варианса, Степень Сумма степеней или средний влияния квадратов свободы квадрат факторов (SS, SE) (MS, ME) (F) (1, 2) Уровень значимости (P) 7837,5 2 3918,8 5,59 0,0051* 348,3 1 348,3 0,49 0,4824 1560,0 2 780,0 1,11 0,3227 63022,1 90 700,2 Проверка предположений (однородность дисперсий сравниваемых групп, корреляции между средними арифметическими и стандартными отклонениями, соответствие распределений нормальному типу), лежащих в основе метода дисперсионного анализа, проводится так же, как при однофакторном дисперсионном анализе. — 82 — На основе разложения общей дисперсии на составляющие компоненты и их сравнения установлена достоверная разница при одновременном сравнении средней плотности птиц при разных методах оценки ( X1 51,3; X 2 73,0; X 3 62,6) (рис. 31). Рис. 31. Средние арифметические сравниваемых групп и дисперсионного комплекса Рассмотрим дисперсионный анализ с повторными измерениями. В диалоговом окне дисперсионного анализа в качестве вида анализа нужно выбрать дисперсионный анализ с повторными измерениями (repeat measures ANOVA) и диалог быстрых спецификаций (quick specs dialog) в списке Specification method. На вкладке Quick нужно выбрать переменные (Variables). В появившемся окне нужно определить независимые (степень рекреационной нагрузки и метод оценки) и зависимые переменные начальная оценка плотности птиц (особей/км²) и повторная оценка плотности птиц (особей/км²) (см. рис. 32). — 83 — Рис. 32. Выбор переменных для дисперсионного анализа с повторными измерениями признака Чтобы зависимые переменные были рассмотрены как двухуровневый фактор повторных измерений, в программу нажатием кнопки внутригрупповые эффекты (within effects) нужно задать имя фактору (плотность — R1) и количество измерений (2) (рис. 33). Рис. 33. Выбор фактора и количества измерений — 84 — После этого программа отображает результаты анализа. В таблице всех эффектов (table of all effects) программа выводит значения (с учетом повторного измерения) суммы квадратов отклонений выборочных средних от общего для всех выборок среднего: SS х A — сумма квадратов отклонений, вызванных первым фактором (А), SS х B — сумма квадратов отклонений, вызванных вторым фактором (В), SS х AB — сумма квадратов отклонений, вызванных взаимодействием факторов А и В; суммы квадратов отклонений объектов в выборках от их средних (SE — summ of error); дисперсии, вызванные учтенными факторами (или средний квадрат эффекта 2 А: S х A MS х A SS х A SS х B 2 , эффекта В: S х B MS х B , средний m 1 n 1 SS х AB , где m — чис(m 1)(n 1) ло градаций фактора A, n — число градаций фактора В); дисперсии, вызванной случайными факторами (или средний квадрат квадрат эффекта АВ: S х 2AB MS х AB SE , где N — число изученных объектов); N k 2 2 Sх A Sх B F-критерий (критерий Фишера FA , FB ); уровень 2 2 Sz Sz ошибки S z2 ME значимости критерия Фишера (значимые эффекты Р < 0,05 в таблице (table of all effects) помечаются знаком *). Как видно из табл. 18, гипотеза о неравенстве плотности птиц (особей/км²) верна для эффектов: степень рекреационной нагрузки (лесопарки), при сравнении начальной и повторной оценки плотности птиц (R1), степень рекреационной нагрузки при сравнении начального и повторного измерений (R1*Лесопарки). Уровень значимости (Р = 0,003) критерия Фишера F = 5,99 для эффекта степень рекреационной нагрузки меньше 0,05. Уровень значимости (Р = 0,000) критерия Фишера F = 118,4 при сравнении начальной и повторной оценки плотности птиц (R1) меньше 0,05. — 85 — Таблица 18 Стандартная таблица многофакторного дисперсионного анализа с повторными измерениями признаков (repeat measures ANOVA) Изменчивость Лесопарки Число Варианса, Степень Уровень Сумма степеней или средний влияния значимоквадратов свободы квадрат факторов сти (SS, SE) ( 1 , 2 ) (MS, ME) (F) (Р) 16674,0 2 8337,0 5,99 0,003* Методы оценки 726,5 1 726,5 0,52 0,471 Лесопарки*Мет. оц. 3105,0 2 1552,5 1,11 0,331 125142,0 90 1390,5 R1 21,1 1 21,1 118,41 0,000* R1* Лесопарки 49,0 2 24,5 137,73 0,000* R1* Методы оц. 0,3 1 0,3 1,77 0,186 R1*Лесоп.*Мет. оц. 0,1 2 0,1 0,40 0,669 Error 160 90 0,2 Error Уровень значимости (Р = 0,000) критерия Фишера F = 137,7 для эффекта степень рекреационной нагрузки при сравнении начального и повторного измерений (R1*Лесопарки) меньше 0,05. Проверка предположений (однородность дисперсий сравниваемых групп, корреляции между средними арифметическими и стандартными отклонениями, соответствие распределений нормальному типу), лежащих в основе метода дисперсионного анализа, проводится так же, как при однофакторном дисперсионном анализе. На основе разложения общей дисперсии на составляющие компоненты и их сравнения установлена достоверная разница при одновременном сравнении средних измерений плотности птиц в лесопарках с разной рекреационной нагрузкой. — 86 — Параметрический F-критерий (критерий Фишера F Sx 2 Sz 2 ), проверяющий нулевую гипотезу об отсутствии различий между средними значениями групп, измеренных при различных значениях фактора, достаточно устойчив к неоднородности дисперсий, к отклонениям от нормального распределения. Умеренное отклонение от нормального распределения и небольшое различие дисперсий существенно не отражаются на результатах анализа. Асимметрия распределения также незначительно влияет на величину F-критерия. Значительно влияет на F-критерий эксцесс. Если эксцесс больше нуля, то значение F-критерия может стать очень маленьким. При этом принимается нулевая гипотеза, хотя она может быть и неверна. Ситуация меняется на противоположную сторону, когда эксцесс меньше нуля. Значительно влияют на F-критерий корреляции между средними арифметическими и стандартными отклонениями групп. При наличии корреляции между средними арифметическими и стандартными отклонениями групп F-критерий может обнаруживать статистически значимый эффект. В таких случаях для сравнения средних арифметических используются непараметрические критерии факторных эффектов (критерий Краскела–Уоллиса, медианный тест, критерий Фридмана). Непараметрические критерии факторных эффектов применяются при неизвестных априорных распределениях. 3.2. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ ФАКТОРНЫХ ЭФФЕКТОВ Непараметрические (ранговые) методы однофакторного анализа для нескольких выборок, полученных при различных уровнях исследуемого фактора, оценивают факторный эффект с помощью двух критериев: Краскела–Уоллиса (Kruskal–Wallis) и медианный тест (Median Test). Для оценки факторных эффектов на основе непараметрических методов в верхнем меню STATISTICA нужно выбрать команду — 87 — Непараметрические критерии (Nonparametrics). Для оценки факторных эффектов применяют: comparing two independent samples (groups), comparing multiple dependent samples (variables) (рис. 34). Рис. 34. Выбор метода для сравнения нескольких независимых групп Пример 1. В течение пяти дней в лесопарках с разной рекреационной нагрузкой проведена оценка плотности птиц (особей/км²). Плотность птиц (особей/км²) в лесопарках: «Затюменский» — 1,1; 2,1; 26,9; 61,1; 101,0; им. Ю. А. Гагарина — 30,1; 59,0; 63,2; 77,5; 102,7; «Гилевская роща» — (особей/км²): 65,3; 70,0; 72,5; 75,0; 80. Определить достоверность разницы плотности орнитофауны в лесопарках за учетный период времени. Для сравнения нескольких групп (multiple independent samples (groups) определяются: критерий Краскела–Уоллиса (Kruskal– Wallis) и медианный тест (Median Test). Для вычисления критерия Краскела–Уоллиса (Н) определяется: для каждой варианты ранг (Ri); по каждой выборке: сумма рангов, средний ранг ( Ri ) (рис. 35). — 88 — Рис. 35. Результаты сравнения групп на основе критерия Краскела–Уоллиса Средний ранг по лесопаркам: R1 5,2; R2 8,6; R3 10, 2. Определение критерия Краскела–Уоллиса проводится по формуле: 12 N 1 2 ni ( Ri ) N ( N 1) 2 12 (39, 2 1,8 24, 2) 3, 26. 1516 H Уровень значимости (Р = 0,1959) критерия Краскела–Уоллиса Н = 3,26 больше 0,05. Достоверные различия между средними показателями плотности птиц в изученных лесопарках не установлены. Нулевая гипотеза об отсутствии факторного эффекта принимается. Использование медианного теста основано на сравнении эмпирических и теоретических частот значений, превышающих и не превышающих медиану. На основе сравнения эмпирических (observed frequency) и теоретических (exрected frequency) частот рассчитывается хи-квадрат ( 2 ). Рассчитанное значение 2 = 3,75 меньше стандартного значения станд.2 = 5,99; = 2 (см. табл. 19). Уровень значимости Р = 0,1534 (критерия соответствия 2 = 3,75) больше 0,05 (см. рис. 36). — 89 — Рис. 36. Результаты сравнения групп на основе медианного теста Верна гипотеза о равенстве показателей средней плотности птиц сравниваемых лесопарков г. Тюмени. Таблица 19 Стандартные значения критерия соответствия Число степеней свободы, () Значимость, Р 0,05 0,01 Число степеней свободы, () 2 Значимость, Р 0,05 0,01 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10 11 12 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 6,63 9,21 11,34 13,28 12,83 16,81 18,48 20,09 21,67 23,21 24,72 26,22 20 21 22 23 24 25 23 24 25 26 27 28 31,41 32,67 33,92 35,17 36,42 37,65 35,17 36,42 37,65 38,89 40,11 41,34 37,57 38,93 40,29 41,64 42,98 44,31 41,64 42,98 44,31 45,64 46,96 48,28 — 90 — Окончание табл. 19 1 2 3 4 5 6 13 14 15 16 17 18 19 22,36 23,68 25,00 26,30 27,59 28,87 30,14 27,69 29,14 30,58 32,00 33,41 34,81 36,19 29 30 32 50 64 80 100 42,56 43,77 46,194 67,50 83,675 101,88 124,34 49,49 50,89 53,486 76,15 93,217 112,33 135,81 Непараметрические (ранговые) методы двухфакторного анализа оценивают эффект влияния основного фактора (обработки) на фоне другого второстепенного фактора (блоки). Предположим, что необходимо проверить эффекты m различных способов получения показателя. Для этого измеряются значения случайных величин в n блоках, причем каждому способу соответствует одно измерение в каждом блоке. Сравнение проводится на основе непараметрического критерия Фридмана (comparing multiple dependent variables) (рис. 37). Рис. 37. Выбор метода для сравнения нескольких зависимых групп — 91 — Пример 2. Необходимо оценить достоверность разности между разными способами определения хлорофилла в листьях растений десяти видов. Способ 1: Способ 2: Способ 3: 2,1 1,8 1,7 1,8 1,9 2,4 1,7 1,6 1,5 1,7 3,2 4,1 2,3 2,4 2,5 1,2 1,9 2,3 2,4 2,9 4,3 2,3 3,4 3,5 3,6 3,7 3,2 2,8 2,9 3,7 Сумма рангов при применении: способа 1 R1 = 11; способа 2 R2 = 20; способа 3 R3 = 29. Рассчитанное значение критерий Фридмана S = 16,2. Уровень значимости Р = 0,0003 (критерия Фридмана S = 16,2) меньше 0,05. При сравнении способов определения хлорофилла принимается гипотеза о неравенстве средних. Оценка критерия Фридмана проводится по формуле: 12 Ri2 3 n(k 1) k (k 1) n 12 (112 202 292 ) 310 4 16, 2, 3 410 S где k — число выборок; n — объем выборки; Ri — сумма рангов в выборке. При сравнении нескольких групп метод comparing multiple dependent variables определяет также коэффициент конкордации Кендалла (R = 0,81), коэффициент корреляции средних рангов (r = 0,78) (рис. 38). Рис. 38. Результаты сравнения нескольких зависимых групп — 92 — Критерии метода comparing multiple dependent variables используются не только в двухфакторном анализе, но и в однофакторном, в котором вторая переменная представляет повторные измерения, связанные с одним и тем же объектом. При применении метода comparing multiple dependent variables столбцы данных соответствуют различным уровням обработки, а строки — группам однородных объектов или повторным наблюдениям для одного и того же объекта. ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ Задание 1. У трех видов цитрусовых деревьев было определено отношение листовой поверхности к сухой массе листьев. Значимы ли различия по изучаемому признаку между видами цитрусовых? 1-й вид цитрусовых (А): 111 103 107 87 102 108 112 102 103 102 102 103 97 102 97 98 102 97 92 108 98 103 108 93 108 107 98 103 107 95 97 107 95 84 95 99 79 84 85 89 95 85 89 84 85 89 80 90 89 117 109 110 116 109 116 116 102 117 117 102 123 109 95 122 110 96 2-й вид цитрусовых (Г): 74 90 89 98 89 95 90 84 94 90 82 94 90 94 94 3-й вид цитрусовых (М): 87 102 103 103 103 110 102 116 103 110 109 110 109 109 117 Задание 2. У трех видов цитрусовых деревьев было определено при трех условиях затенения отношение листовой поверхности к сухой массе листьев. — 93 — Степень затенения Вид 1(А) Вид 2 (Г) Вид 3 (М) На солнце 112 90 123 Частичное затенение 86 73 89 В тени 80 62 81 Значимы ли различия по изучаемому признаку: 1) между видами цитрусовых; 2) при разной степени затенения? КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Какие условия должны соблюдаться при формировании дисперсионных комплексов? 2. В чем разница между параметрическими и непараметрическими критериями оценки факторных эффектов? 3. Объясните применение в биологии дисперсионного анализа. 4. Объясните применение критерия Фишера в дисперсионном анализе. 5. Составьте план проведения дисперсионного анализа ваших экспериментальных данных. 6. Докажите целесообразность проведения дисперсионного анализа при обработке ваших экспериментальных данных. — 94 — 4. МЕТОДЫ АНАЛИЗА ВЫЖИВАЕМОСТИ Особенностью методов анализа выживаемости (Survival Analysis) является возможность использования так называемых цензурированных (неполных) данных, когда у анализируемых объектов нет полной информации (нет данных о наступлении интересующего исследователя события, например нет данных о ремиссии заболевания в связи с потерей контакта с больным или его переходом в другую клинику). Вместо удаления таких объектов из анализа методы анализа выживаемости могут обрабатывать такие цензурированные наблюдения. Если у анализируемых объектов имеются данные о наступлении интересующего исследователя события, данные считаются полными. Методы анализа выживаемости (длительностей до момента прекращения) первоначально были развиты в медицинских, биологических, социологических исследованиях. Эти методы в настоящее время широко используются в экономике (контроль качества, оценка надежности и т. д.). Они исследуют интервалы времени (вероятностные характеристики) между последовательным возникновением критических событий. Такого рода исследования называются анализом длительностей до момента прекращения, которые можно определить как интервалы времени между началом наблюдения за объектом и моментом прекращения (failure), при котором объект перестает отвечать заданным для наблюдения свойствам [20], [21]. Для запуска Методы анализа выживаемости (Survival Analysis) в меню STATISTICA в разделе Углубленные методы анализа (Advanced Linear\Nonlinear Models) нужно выбрать Анализ выживаемости (Survival Analysis). В стартовом окне представлены основные процедуры модуля: таблицы времен жизни и распределения (Life tables & Distributions); метод множительных оценок Каплана–Мейера (Kaplan & Meier product-limit method); сравнение двух выборок (Comparing two samples); сравнение нескольких выборок (Comparing multiple samples); регрессионные модели (Regression models); зависящие от времени ковариаты (Time-dependent covariates). — 95 — 4.1. ОПИСАТЕЛЬНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ ЦЕНЗУРИРОВАННЫХ ДАННЫХ (ТАБЛИЦЫ ВРЕМЕН ЖИЗНИ И РАСПРЕДЕЛЕНИЯ) Наиболее естественный способ описания функции выживания в выборке — построение таблиц времен жизни. Техника таблиц времен жизни — один из старейших методов анализа данных о выживаемости (времен отказов). Такую таблицу можно рассматривать как «расширенную» таблицу частот. Область возможных времен наступления критических событий (смертей, отказов и др.) разбивается на некоторое число интервалов. Для каждого интервала вычисляется число и доля объектов, которые в начале рассматриваемого интервала были «живы», число и доля объектов, которые «умерли» в данном интервале. После выбора таблицы времен жизни и распределения (Life tables & Distributions) открывается диалоговое окно таблицы и распределение времен жизни (Life tables & Distribution of Survival Times). Диалог имеет две вкладки: исходные данные (Raw data) и таблицы времен жизни (Table of survival times). Первая вкладка соответствует случаю, когда в качестве исходных данных используются необработанные данные — обычная таблица программы STATISTICA (строки — наблюдения, столбцы — переменные), вторая вкладка — случаю, когда в качестве входных данных анализа выбрана ранее вычисленная таблица времен жизни (рис. 39). Рассмотрим применение методов Анализа выживаемости на примере данных о выживаемости пациентов после проведения трансплантации сердца [21]. Первые шесть переменных представляют собой даты: дата трансплантации (месяц, день, год). Дата, когда соответствующий пациент умер или был исключен из наблюдения (не было возможности связаться с ним для получения информации о здоровье) (рис. 40). В столбце CENSORED приведена информация о наблюдении за пациентом: либо конкретное наблюдение (COMPLETE), либо цензурированное наблюдение (CENSORED). — 96 — Рис. 39. Выбор типа данных для анализа таблицы времен жизни и распределения Рис. 40. Выбор переменных для анализа таблицы времен жизни и распределения — 97 — При использовании необработанных данных модуль Survival Analysis вычисляет число дней между датами (поступления и завершения). После выбора числа интервалов и длины интервала, кода полных наблюдений и кода цензурированных наблюдений программа составляет развернутую таблицу результатов (табл. 20), которая включает: начало интервала (interval start); средняя точка интервала (mid point); длина интервала (interval width); число в начале (number entering); число изучаемых объектов (number exposed); число отказов на этом интервале (number dying); процент отказов (proportion dead); доля, выживших (proportion surviving); кумулятивная доля выживших (cumulative proportion surviving) — оценка функции выживания, определяется умножением долей выживших объектов по всем предыдущим интервалам; плотность вероятности (probability density) — оценка отказа (смерти) в соответствующем интервале определяется по формуле fi ( Pi Pi1 ) / hi , где fi — оценка вероятности отказа (смерти) в i -м интервале, Pi и Pi 1 — доля умерших соответственно к началу i -го и ( i 1 )-го интервалов, hi — ширина i -го интервала; функция интенсивности отказов или функция мгновенного риска (hazard rate) — оценка вероятности того, что объект, выживший к началу соответствующего интервала, умрет (откажет) в течение этого интервала (определяется делением числа смертей на единицу времени соответствующего интервала на среднее число объектов доживших до середины интервала); функция мгновенного риска используется для прогностических целей; стандартная ошибка кумулятивной доли выживших (std. err. cumulative proportion surviving); стандартная ошибка плотности вероятности (std. err. probability density); стандартная ошибка функции интенсивности (std. err. hazard rate); медиана ожидаемого времени жизни (median life expected); стандартная ошибка медианы ожидаемого времени жизни (std. err. Life expected). Для получения надежных оценок трех основных функций (функции выживания, плотности вероятности и функции интенсивности) и их стандартных ошибок на каждом временном интервале рекомендуется использовать не менее 30 наблюдений. — 98 — — 99 — Из табл. 20 видно, что через 161 день после операции кумулятивная доля выживших составила 67,2%, а через 322 дня — 58,3%, далее уменьшение доли выживших продолжается, но замедляется темп. Резкий спад доли выживших наблюдается через 1129 дней и составляет 34,96%. К концу рассматриваемого периода (через 1775 дней) доля выживших составляет 9,3%. Наибольшая вероятность смерти больных в первые 161 день после операции, затем эта вероятность уменьшается до 322 дня, незначительно возрастает до 806 дня и резко возрастает до 968 дня. Затем наблюдается спад вероятности смерти до 1129 дня, после вероятность смерти вновь резко возрастает. В модуле реализованы также методы сравнения исходных данных с различными типами теоретических функций времен жизни: экспоненциальное (Exponential), линейная интенсивность (Linear Hazard), Гомпертца (Gompertz), Вейбулла (Weibull). Соответствие эмпирического распределения теоретической функции оценивается с помощью обычного метода наименьших квадратов (вес 1) и двух методов взвешенных квадратов (вес 2, вес 3), оценки критериев соответствия и уровня значимости. Из табл. 21 видно, лучшее соответствие распределению Вейбулла наблюдается при использовании методов взвешенных квадратов. Уровень значимости Р (0,558814) значительно больше 0,05. При соответствии эмпирического распределения теоретической функции времен жизни возможно проведение прогноза функций риска, выживаемости и плотности вероятности (рис. 41, 42). Таблица 21 Оценка соответствия распределению Вейбулла Метод Лямбда Стд. ошибка лямбда Гамма Стд. ошибка гамма Хи-квадрат Степень Уровень свозначибоды мости Вес 1 0,000311 0,000574 1,142 0,269413 31,32401 9 0,000262 Вес 2 0,016002 0,017952 0,644 0,165137 13,50757 9 0,141007 Вес 3 0,051100 0,072230 0,427 0,192170 7,75703 9 0,558814 — 100 — МНК Оценки риска Модель: Вейбулла Замечание: Веса: 1=1., 2=1./V,3=N(I)*H(I) 0,005 Ф_риска 0,004 0,003 0,002 0,001 0,000 0,0000 322,73 645,45 968,18 1290,9 1613,6 1936,4 161,36 484,09 806,82 1129,5 1452,3 1775,0 2097,7 Интервалы Наблюд. Вес 1 Вес 2 Вес 3 Рис. 41. Оценка функции риска МНК Оценки плотности вероятности Модель: Вейбулла Замечание: Веса: 1=1., 2=1./V,3=N(I)*H(I) 0,0025 Плотность вер. 0,0020 0,0015 0,0010 0,0005 0,0000 0,0000 322,73 645,45 968,18 1290,9 1613,6 1936,4 161,36 484,09 806,82 1129,5 1452,3 1775,0 2097,7 Интервалы Рис. 42. Оценка плотности вероятности — 101 — Наблюд. Вес 1 Вес 2 Вес 3 4.2. МЕТОД МНОЖИТЕЛЬНЫХ ОЦЕНОК КАПЛАНА–МЕЙЕРА Оценку функции выживаемости метод множительных оценок проводит без разделения на интервалы, непосредственно используя время выживания для цензурированных данных — это число дней до потери контакта с объектом, для полных данных — это число дней до отказа (смерти). Каплан и Мейер предложили следующую оценку функции выживаемости: S (t ) П tj1 (n j ) / (n j 1) j . В этом выражении S(t) — оценка функции выживаемости, n — общее число объектов, П — произведение (геометрическая сумма) по всем наблюдениям, завершившимся к моменту t; j равно единице, если j — наблюдение нецензурированное (полное), равно 0, если это наблюдение потеряно (цензурированное). Данная оценка функции выживаемости называется еще множительной оценкой. Следует отметить, что j — это не номер наблюдения в исходном файле данных, а номер наблюдения в новом файле, где проведено упорядочивание по количеству проведенных под наблюдением дней. Новый файл создается программой после применения процедуры Kaplan & Meier product-limit method. Для запуска метода множительных оценок Каплана–Мейера в стартовом окне Анализ выживаемости (Survival Analysis) нужно выбрать метод множительных оценок Каплана–Мейера (Kaplan & Meier product-limit method). Рассмотрим применение методов Анализа выживаемости на примере данных о выживаемости пациентов после проведения трансплантации сердца. В диалоговом окне нужно указать имена и коды переменных, как это было сделано в диалоге Таблицы и распределение времен жизни (Life tables & Distribution of Survival Times). Результаты оценки на основе метода Каплана–Мейера даны в табл. 22. Данные в таблице упорядочены по количеству дней, прожитых в больнице. — 102 — В первом столбце указаны номера больных в исходном файле (цензурированные данные помечены знаком «+»), во втором — время, проведенное пациентами в больнице. Из табл. 22 видно, что меньше всего провел в больнице больной с порядковым номером 23 (в первый же день после операции, он покинул больницу). Больше всего дней провел в больнице пациент с номером 15. Через 1775 дней после операции он также покинул больницу. Если в столбце Cumulative Survival отсутствует значение, значит больной выбыл из больницы (цензурированное наблюдение), если есть значение — значит больной умер, прожив количество дней, указанное в столбце Time. Таблица 22 Оценка выживаемости на основе метода Каплана–Мейера № пациента Время 23+ 16+ 65+ 2+ 10 46+ 64+ 1+ 9+ 42 58+ 49 59+ 0,000 1,000 1,000 3,000 10,000 12,000 13,000 15,000 23,000 25,000 26,000 29,000 30,000 Кумулята выживаемости Стандартная ошибка 0,983607 0,016259 0,966042 0,023622 0,948153 0,029183 Значение в столбце кумулята выживаемости (Cumulative Survival) показывает вероятность того, что произвольный больной проживет больше дней, чем указано в соответствующем столбце «Время». Эта вероятность рассчитывается по формуле Каплана– Мейера. — 103 — Преимущество метода множительных оценок Каплана–Мейера по сравнению с методом таблиц жизни состоит в том, что оценки не зависят от разделения времени наблюдения на интервалы. 4.3. СРАВНЕНИЕ ВЫЖИВАЕМОСТИ В ГРУППАХ Для сравнения выживаемости в группах в модуле Анализ выживаемости (Survival Analysis) предусмотрены две процедуры: Comparing two samples — для сравнения выживаемости в двух группах и Comparing multiple samples — для сравнения выживаемости более чем в двух группах (рис. 43). Для сравнения выживаемости имеется пять различных (в основном непараметрических) критериев: обобщенный Геханом критерий Вилкоксона, F-критерий Кокса, критерий Кокса–Ментеля, логарифмический ранговый критерий, критерий Вилкоксона–Пето (рис. 44). Эти критерии дают надежные результаты при достаточно больших объемах выборок. При малых объемах выборок числовые критерии сравнения следует сопровождать визуализацией функций времени жизни. Не существует твердо установленных рекомендаций по применению определенных критериев. Однако известно, что F-критерий Кокса обычно более мощный, чем критерий Вилкоксона–Гехана, если объемы выборок малы (то есть объем группы n меньше 50), выборки извлекаются из экспоненциального распределения или распределения Вейбулла, нет цензурированных наблюдений. Критерий Кокса–Ментеля и логарифмический ранговый критерий более точно проводят сравнение. Если выборки извлечены из экспоненциального распределения или распределения Вейбулла; при этих условиях между этими критериями почти нет различия. При сравнении групп важно проведение проверки доли цензурированных наблюдений. Различие в степени цензурирования может приводить к смещению в статистических оценках [20], [21]. Большинство из критериев вычисляют соответствующие z-значения стандартного нормального распределения. Эти z-значения могут быть использованы для статистической проверки различий между группами. — 104 — Для запуска метода сравнения выживаемости в двух группах Comparing two samples в стартовом окне Анализ выживаемости (Survival Analysis) нужно выбрать метод Comparing two samples, который будет рассмотрен по данным двух больниц Hillview и St_Andreas s [21] (см. рис. 45). Рис. 43. Выбор исходных данных для сравнения выживаемости в группах Рис. 44. Диалоговое окно сравнения выживаемости в двух группах — 105 — Рис. 45. Исходные данные для сравнения Рис. 46. Сравнение на основе критерия Кокса — 106 — Рис. 47. Сравнение на основе критерия Гехана–Вилкоксона Результаты оценки непараметрических критериев: Критерий Гехана–Вилкоксона WW = –2,0, test statistic = –0,26573, Р = 0,9788 (рис. 46). F-критерий Кокса F(20,20) = 1,005, Р = 0,49 (рис. 47). Критерий Кокса–Ментеля U = 0,137, Т = –0,061, Р = 0,95. Критерий Вилкоксона–Пето WW = 0,028, Т = 0,017, Р = 0,98. Логранговый критерий WW = 0,137, Т = 0,062, Р = 0,95 (см. рис. 48). Из величин уровня значимости (Р) всех пяти критериев следует, что верна гипотеза о равенстве средних продолжительности жизни больных в обеих клиниках (так как все величины значимости больше 0,05). То есть по всем критериям следует, что нет существенной разницы между выживаемостью больных в клиниках Hillview и St_Andreas s. Результаты сравнения числа цензурированных, числа умерших, процент выживших, кумулятивный процент выживших в начале каждого интервала приведены в табл. 23, рис. 49. — 107 — — 108 — Рис. 48. Результаты сравнения на основе критерия Кокса–Ментеля, критерия Вилкоксона–Пето, логрангового критерия Рис. 49. Кумулятивная доля выживших по группам — 109 — Для сравнения выживаемости в более чем двух группах в стартовом окне Анализ выживаемости (Survival Analysis) нужно выбрать метод Comparing Survival in Multiple Groups, который будет рассмотрен по данным больниц Hillview, St_Andreas s., Biner [21]. Программа оценивает для каждой больницы число умерших, процент выживших, кумулятивный процент выживших в начале каждого интервала (рис. 50). Кумулятивная функция выживания в больнице Biner не резко убывает в первое время по сравнению с двумя другими больницами, и на протяжении длительного периода значения функции превосходят значения функции, соответствующие клиникам Hillview, St_Andreas s. Рис. 50. Кумулятивная доля выживших в группах — 110 — Пациенты клиники Biner имеют большие шансы выжить не только в первые критические дни после трансплантации сердца, но и в последующие дни ( 2 = 5,73, Р = 0,056). ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ Задание 1. На основе данных городских больниц (г. Тюмень) проведите оценку эффективности применяемых методов профилактики и лечения болезней путем использования методов модуля Анализ выживаемости (Survival Analysis). Задание 2. Проведите анализ ваших экспериментальных данных на основе использования методов модуля Анализ выживаемости (Survival Analysis). КОНТРОЛЬНЫЕ ВОПРОСЫ 1. В чем состоит разница между цензурированными и полными данными? 2. Объясните использование метода наименьших и взвешенных квадратов при оценке соответствия эмпирического распределения теоретическим функциям времен жизни. 3. Объясните применение функции выживания, плотности вероятности, функции интенсивности при анализе длительностей. 4. Объясните применение критериев: обобщенный Геханом критерий Вилкоксона, F-критерий Кокса, критерий Кокса–Ментеля, логарифмический ранговый критерий, критерий Вилкоксона– Пето при сравнении выживаемости в различных группах. 5. Докажите целесообразность использования метода множительных оценок при обработке ваших экспериментальных данных. — 111 — 5. МЕТОДЫ ОЦЕНКИ СВЯЗИ МЕЖДУ ПРИЗНАКАМИ Наличие связи между варьирующими признаками обнаруживается на всех уровнях организации живого. Выбор метода для оценки величины связи проводят с учетом типа связи (линейная и нелинейная), типа данных (количественные, номинальные, ранговые). Тип связи устанавливают на основе функционального графика. При линейной корреляции парные значения, представленные как х и у координаты, группируются около некоторой прямой. Величина связи оценивается на основе параметрических показателей. При нелинейной корреляции оценка зависимости производится на основе непараметрических показателей. 5.1. ПАРАМЕТРИЧЕСКИЕ ПОКАЗАТЕЛИ СВЯЗИ Для оценки линейной связи между признаками, в совокупностях, имеющих нормальное распределение, определяют коэффициент корреляции (r) Пирсона или параметрическую корреляцию по формуле: r= nx y xy 2 2 (nx (x) )(ny (y ) 2 . Достоверность выборочной корреляции Пирсона оценивается на основе: сравнения с критическим значением корреляции (rst.), критические значения коэффициента корреляции приведены в табл. 24; расчета статистики Стьюдента (Тфакт.) по формуле: n2 . 1 r 2 Рассчитанный показатель сравнивается со стандартным показателем для уровня Р < 0,05, с учетом числа степеней свободы Т=r — 112 — = n – 2; если Тфакт. больше Тst., коэффициент корреляции достоверен (зависимость наблюдается и в генеральной совокупности); если Тфакт. меньше Тst., коэффициент корреляции недостоверен (зависимость не наблюдается в генеральной совокупности); сравнения уровня значимости статистики Стьюдента с уровнем 0,05; если значение уровня значимости статистики Стьюдента больше 0,05, коэффициент корреляции признается незначимым, принимается нулевая гипотеза (коэффициент корреляции не отличен от нуля); если уровень значимости статистики Стьюдента меньше 0,05, принимается гипотеза об отличии коэффициента корреляции от нуля. Таблица 24 Критические значения коэффициента корреляции Степени свободы =n–2 Уровни значимости 0,05 0,01 Степени свободы =n–2 Уровни значимости 0,05 0,01 1 2 3 4 5 6 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0,75 0,71 0,67 0,63 0,60 0,58 0,55 0,53 0,51 0,50 0,48 0,47 0,46 0,44 0,43 0,87 0,83 0,80 0,77 0,74 0,71 0,68 0,66 0,64 0,62 0,61 0,59 0,58 0,56 0,55 27 28 29 30 35 40 45 50 60 70 80 90 100 125 150 0,37 0,36 0,36 0,35 0,33 0,30 0,29 0,27 0,25 0,23 0,22 0,21 0,20 0,17 0,16 0,47 0,46 0,46 0,45 0,42 0,39 0,37 0,35 0,33 0,30 0,28 0,27 0,25 0,23 0,21 — 113 — Окончание табл. 24 1 2 3 4 5 6 20 21 22 23 24 25 26 0,42 0,41 0,40 0,40 0,39 0,38 0,37 0,54 0,53 0,52 0,51 0,50 0,49 0,48 200 300 400 500 700 900 1000 0,14 0,11 0,10 0,09 0,07 0,06 0,06 0,18 0,15 0,13 0,12 0,10 0,09 0,09 В случае нескольких выбранных переменных выдается диагональная матрица коэффициентов корреляции с указанием критического значения rst. и числа значимых коэффициентов корреляции (r > rst.). Эта матрица по подтверждению может быть сохранена в электронной таблице для последующего использования (например, в многомерной статистике). Если значение коэффициента корреляции близкое к +1 или к –1, это говорит о сильной положительной или сильной отрицательной связи. Если значение коэффициента корреляции близкое к 0, это указывает на отсутствие линейной связи, но не исключает возможность нелинейной связи между признаками. Поэтому коэффициент корреляции оценивают совместно с функциональным графиком. Пример 1. Переменные LC1, LC2 содержат данные о количестве аистов и потомков. LC1: 8 10 6 15 19 13 12 13 8 5 9 5 9 9 8 LC2: 6 7 5 13 17 15 13 11 7 3 7 4 6 8 6 Определите степень и достоверность корреляции оцениваемых признаков. Порядок выполнения. После выбора значений Таблицы данных на основе графика рассеяния определяют тип связи (рис. 51). — 114 — Рис. 51. Зависимость между числом аистов и числом их потомков Между численностью аистов и их потомков установлена линейная связь. Величина связи определяется на основе параметрической корреляции (корреляции Пирсона). Метод определения параметрической корреляции Correlation Matrices реализован в разделе Основные статистики/Таблицы (Basic Statistics/Tables). Между численностью аистов и потомков установлена тесная зависимость r = 0,94 > rst. (rst. = 0,51, = 15 – 2 = 13); Р = 0,000 < 0,05. Зависимость между признаками достоверна (см. рис. 52). — 115 — Рис. 52. Показатели связи между численностью аистов и потомков Квадрат коэффициента корреляции, показывающий, какая доля варьирования одного признака зависит от варьирования другого признака, называется коэффициентом детерминации (r²). Коэффициент детерминации между численностью взрослых форм и численностью потомков составляет 0,89 (r² = 0,89). Вариация численности потомков зависит от варьирования численности взрослых форм на 89%. Зависимость между численностью аистов и их потомков оценивается уравнением: У = 2,53 + 0,86 Х. Наряду с применением двумерных совокупностей в биологии широкое применение находит статистический анализ многомерных корреляционных связей. Простейшим случаем множественной корреляции является связь между тремя признаками: х, у и z. Тесноту связи одного из них (х) с двумя другими признаками (у и z) оценивают на основе коэффициента множественной корреляции по формуле: rx ( yz ) rxy2 rxz2 2 rxy2 rxz2 ryz2 1 ryz2 , где rxy , rxz , ryz — коэффициенты линейной корреляции между парами признаков х и у, х и z, у и z. Коэффициент множественной корреляции принимает значения от нуля до единицы (0≤ r ≤1). Значимость этого совокупного показателя корреляции оценивают по величине статистики Стьюдента с числом степеней свободы k = n – 3 и принятым уровнем значимо— 116 — сти. На определении коэффициентов множественной корреляции базируется регрессионный анализ (см. раздел 5.3). Если известна связь между признаками х, у и z, можно определить частные или парциальные коэффициенты корреляции, показывающие корреляционную зависимость между двумя варьирующими признаками при постоянной величине третьего признака (то есть при исключении влияния третьего признака). Для определения частного коэффициента корреляции между признаками х и у при постоянной величине признака z применяют формулу: rxy ( z ) rxy rxz ryz (1 rxz2 )(1 ry2z ) . Заключение знака z в скобки обозначает, что влияние признака z на корреляцию между признаками х и у исключено. Соответственно меняются в формуле значения корреляций при определении частных коэффициентов корреляции: между признаками х и z при исключении влияния на эту связь признака у; между признаками у и z при исключении влияния на эту связь признака х. 5.2. ФАКТОРНЫЙ АНАЛИЗ При проведении исследований число оцениваемых признаков может быть большим, взаимосвязи между ними могут быть чрезвычайно сложными. Нахождение сокращенной системы или сравнительно небольшого количества значимых факторов в пространстве исследуемых признаков — основная задача факторного анализа. На начальном этапе факторного анализа оценивается расположение объектов в многомерном пространстве. В соответствии со своими координатами объекты в многомерном пространстве группируются в виде эллипсоида рассеяния. Если провести новые оси координат соответственно осям такого эллипса рассеяния, то можно говорить о выделении так называемых факторов. Число главных факторов (компонент), обусловливающих большую часть диспер— 117 — сии (рассеяния) данных, бывает гораздо меньше, чем исходных признаков. Поэтому факторный анализ рассматривают как метод сокращения числа анализируемых признаков путем объединения в один фактор коррелированных признаков [11], [21]. В программе STATISTICA реализованы различные методы выделения факторов: главных компонент (Principal components), общности (Communalities = multipleR**2), итеративных общностей (Iterated Communalities), максимального правдоподобия (Maximum likelihood factors), центроидный метод (Centroid method), метод главных осей (Principal axis method). Метод главных компонент (Principal components) имеет преимущества по сравнению с другими методами: отсутствие предположений о характере распределения исходных данных (при работе с числовыми значениями), возможность анализа ранговых и номинальных значений, сравнительная понятность механизма выделения главных факторов (компонент). С целью получения более интерпретируемой системы факторов (или простой системы), при которой каждая переменная имеет большие нагрузки на малое число факторов и малые нагрузки на остальные факторы, в программе STATISTICA реализовано несколько способов вращения избранных факторных векторов в определенном этими факторами подпространстве: варимакс исходных, варимакс нормализованных, биквартимакс исходных, биквартимакс нормализованных, квартимакс исходных, квартимакс нормализованных, эквимакс исходных, эквимакс нормализованных. Метод варимакс улучшает разделение факторов за счет уменьшения числа переменных, связанных с каждым фактором. Метод квартимакс выделяет генеральный фактор, что упрощает интерпретацию за счет уменьшения числа факторов, связанных с каждой переменной. Методы эквимакс и биквартимакс дают промежуточный эффект. Операция вращения факторов является достаточно полезной только в случае исходных данных опросного типа (преимущественно номинальные и ранговые данные), которые субъективны, вариативны, неточны. В результате вращения иссле- — 118 — дователь мало теряет в обоснованности выводов, но может получить более простую интерпретацию факторов. Применение методов вращения при работе с биологическими данными может привести к получению несопоставимых результатов, принципиально исказить характеристики и свойства изучаемых явлений. Метод факторного анализа (Factor Analysis) для оценки величины взаимосвязи переменной (признака) с фактором определяет показатель факторной нагрузки (lij). Математически факторная нагрузка равна векторному коэффициенту аij перехода от переменной к фактору, умноженному на корень квадратный из собственного значения фактора: lij = аij ij , где i — номер фактора; j — номер переменной (признака); lij — собственное значение — дисперсия исходных данных по данному фактору (объясненная им часть общей дисперсии). Сумма (по всем строкам j) квадратов нагрузок для конкретного m фактора i равна собственному значению фактора: ij lij2 . j1 Тем самым факторная нагрузка показывает, насколько геометрически близка переменная к фактору и насколько велика с учетом этой близости выражаемая ею часть общей дисперсии объектов. Сумма произведений нагрузок двух переменных (строки i, j по всем столбцам k) равна коэффициенту корреляции между ними: m rij lki lkj . При суммировании по строкам квадратов нагрузок одk1 ной переменной получается 1, что соответствует коэффициенту корреляции переменной между собой. Полученные показатели (собственные значения, векторные коэффициенты, факторные нагрузки) используются для интерпретации новых факторов в предметных терминах, что является творче- — 119 — ской задачей исследователя, выходящей за рамки метода факторного анализа (использование переменных, наиболее чувствительных к факторам, как индикаторов состояния системы; определение нормы отношений и прогноз допустимых, равновесных соотношений состояния всех переменных). Для проведения факторного анализа (Factor Analysis) в меню STATISTICA нужно выбрать многомерные исследовательские методы (Multivariate Exploratory Techniques). После выбора команды факторный анализ (Factor Analysis) открывается стартовое окно факторного анализа (рис. 53), в котором необходимо указать тип исходных данных: значения m переменных для n объектов (Raw Data); корреляционная матрица между m переменными (Correlation Matrix). Рис. 53. Выбор исходных данных для факторного анализа При использовании исходных переменных типа значения m переменных для n объектов (Raw Data) рекомендуется, чтобы число объектов (измерений) было не меньше числа переменных (предпочтительнее, чтобы число объектов было в 2-3 раза больше числа — 120 — переменных). Невыполнение этого условия может привести к неадекватному завышению числа главных факторов, к искажениям факторных нагрузок исходных переменных и распределения объектов в факторном подпространстве. В исследованиях опросного характера число объектов должно быть более 200. При малом числе объектов факторный анализ проводится повторно с удалением из анализа тех исходных переменных, которые близки по векторам факторных нагрузок, оставляя по одной переменной из каждой такой группы. Перед выделением главных факторов: желательно удаление из данных выбросов (более трех стандартных сигм), поскольку они могут существенно повлиять на перераспределение дисперсии между переменными; выявление пар переменных, связанных между собой функциональными зависимостями (корреляция более 0,9-0,95) и выбор для дальнейшего анализа одной переменой из каждой такой пары. В противном случае такие зависимые переменные будут существенно смещать дисперсию объектов и вектор фактора. После оценки исходных данных проводят выделение главных факторов на основе метода главных компонент. Рассмотрим факторный анализ на примере 1 — результаты оценки 18 проб из разных водоемов по 10 критериям: число видов планктона (Var1), общая биомасса планктона (Var2), общая численность планктона (Var3), число видов бентоса (Var4), общая биомасса бентоса (Var5), общая численность бентоса (Var6), содержание Mg (Var7), содержание Са (Var8), активная кислотность (Var9), соленость воды (Var10). Каждый критерий оценен по 10-балльной шкале. Пример 1. Водоем Var1 1 10 2 10 3 5 4 10 5 4 6 10 Var2 Var3 Var4 Var5 Var6 Var7 Var8 10 9 10 10 10 9 10 10 4 10 5 5 4 5 4 10 5 10 4 10 5 10 9 10 10 10 9 10 3 5 4 3 10 4 10 10 4 10 5 — 121 — 4 3 4 Var9 Var10 10 9 4 3 3 10 10 9 10 5 5 5 Окончание табл. Водоем Var1 Var2 Var3 Var4 Var5 Var6 Var7 Var8 Var9 Var10 7 4 4 5 5 4 10 5 10 10 6 8 4 5 3 4 5 10 4 10 10 4 9 4 5 10 4 10 5 10 4 3 10 10 10 10 4 10 5 4 4 5 4 4 11 4 5 10 5 10 4 10 4 5 10 12 10 10 9 10 10 9 9 10 10 10 13 6 5 4 3 5 10 5 10 10 5 14 4 5 10 4 10 5 10 3 4 10 15 10 10 9 10 10 9 10 9 10 10 16 6 5 3 4 4 10 4 10 10 5 17 10 10 5 10 4 5 4 3 4 5 18 4 5 10 4 10 4 10 4 4 10 По каждому фактору (максимально возможное число факторов равно числу переменных) из общей дисперсии экспериментальных данных устанавливается дисперсия (табл. 25). Дисперсии, соответствующие факторам, называются собственными значениями (или объясненной дисперсией). В методе главных компонент по умолчанию предполагается, что дисперсия каждой переменной равна 1, а общая дисперсия равна общему числу переменных. Среди исследованных критериев водоемов выделены три главные компоненты (их собственные значения значительно превышают единицу). Четвертый и последующие компоненты имеют собственные значения существенно меньше единицы. В табл. 25 также приведены для каждого фактора: процент от общей дисперсии, процент кумулятивной дисперсии. Главные компоненты определяют 97,7% изменчивости критериев исследованных водоемов. В диалоговом окне результаты факторного анализа (Factor Analysis Results) на вкладке факторные нагрузки (Factor Loading) выводится таблица с факторными нагрузками (факторная нагрузка — 122 — равна векторному коэффициенту аij перехода от переменной к фактору, умноженному на корень квадратный из собственного значения фактора: lij аij ij ). Таблица 25 Результаты выделения главных компонент Компо- Собственные ненты значения 1 4,246680 % общей дисперсии 42,46680 Кумулятивн. Кумулятивн. собст. значения % 4,24668 42,4668 2 2,958922 29,58922 7,20560 72,0560 3 2,570252 25,70252 9,77585 97,7585 4 0,079122 0,79122 9,85498 98,5498 5 0,049864 0,49864 9,90484 99,0484 6 0,038465 0,38465 9,94331 99,4331 7 0,034276 0,34276 9,97758 99,7758 8 0,010649 0,10649 9,98823 99,8823 9 0,007594 0,07594 9,99582 99,9582 10 0,004175 0,04175 10,00000 100,0000 В табл. 26 для каждого фактора приведена нагрузка каждой исходной переменной, показывающая относительную величину проекции переменной на факторную координатную ось. Чем больше нагрузка, тем больше близость фактора к исходной переменной. На вкладке Scores выводятся векторные коэффициенты (аij), используемые при проведении расчета факторных нагрузок (lij). На основе векторных коэффициентов производится переход от системы исходных координат к координатной системе факторов (коэффициенты поворота главных компонентов). На фактор 1 имеют максимальные нагрузки общая численность планктона, общая биомасса бентоса, содержание Mg и соленость воды, на фактор 2 — общая биомасса планктона, общее число видов бентоса и активная кислотность, на фактор 3 — общая численность бентоса, содержание Са, активная кислотность. — 123 — — 124 — Фактор 1 не связан с общей численностью вида и биомассой планктона, с общим числом видов бентоса. Фактор 2 не связан с общим числом планктона, общей биомассой бентоса, соленостью воды, содержанием магния. Активная кислотность, содержание кальция и общая численность бентоса имеют одинаковые нагрузки на фактор 1 и фактор 2. При повторных исследованиях они могут быть исключены из рассмотрения. 5.3. РЕГРЕССИОННЫЙ АНАЛИЗ Во многих практических задачах, исследующих зависимость между переменными величинами, необходимо прогнозировать значения одной переменной при заданных значениях или заданных изменениях других переменных. Эти задачи решаются на основе регрессионного анализа. Регрессия — изменение зависимой переменной (у) в зависимости от изменения одной (х) или нескольких независимых переменных (хn). Независимые переменные называются факторами или предикторами, а зависимые переменные — результативными признаками или откликами. Если число предикторов равно 1, регрессию называют простой, если число предикторов больше 1 — множественной. Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно влияющих на зависимую переменную, и определении формы уравнения регрессии. Зависимость между переменными может быть описана: линейным уравнением, уравнением параболы, гиперболы, степенного типа, логистической кривой. Для подбора вида зависимости между изучаемыми переменными оценивают график. Иногда примерный вид зависимости между переменными бывает известен из предыдущих исследований аналогичных данных. Самая простая форма уравнения регрессии — линейная. Линейная регрессия с несколькими предикторами называется линейной множественной регрессионной моделью. Для линейной модели предполагается, что — 125 — наблюдаемые величины связаны между собой зависимостью вида: yi = b1 x1i + b2 x2i + …+ bp x1p + b0 + ci , где b1, b2, bp, b0 — коэффициенты уравнения, вычисляемые при помощи систем нормальных уравнений; ci — независимая случайная величина с нулевым математическим ожиданием (иногда ci называют ошибками наблюдения). По наблюдениям x1i, x2i, x1p и yi оцениваются параметры модели b1, b2, bp, b0; строятся доверительные интервалы для b1, b2, bp, b0; проверяется гипотеза о значимости уравнения и коэффициентов регрессии; оценивается степень адекватности полученной зависимости. Вторая задача регрессионного анализа состоит в оценке изменения зависимой переменной на основании известных изменений независимых переменных (прогноз значения независимой переменной при заданных значениях или заданных изменениях независимых переменных). Регрессионный анализ тесно связан с другими статистическими методами — методами корреляционного и дисперсионного анализа. В отличие от корреляционного анализа, который изучает направление и силу связи между признаками, регрессионный анализ изучает вид зависимости признаков, то есть параметры функции зависимости одного признака от одного или нескольких других признаков. В отличие от дисперсионного анализа, с помощью которого исследуется зависимость количественного признака от одного или нескольких качественных признаков, в регрессионном анализе исследуется зависимость (количественного или качественного признака) от одного или нескольких количественных признаков. Возможности модуля Regression Analysis рассмотрим на примере 1. Пример 1. Переменные LC1, LC2, LC3 содержат данные о количестве аистов и их потомков и количестве семей. LC1: 8 10 6 15 19 13 12 13 8 5 9 5 9 9 8 LC2: 6 7 5 13 17 15 13 11 7 3 7 4 6 8 6 LC3: 4 6 3 7 8 7 6 6 4 2 3 2 4 5 4 Для запуска метода Регрессионный анализ надо выбрать переменные для анализа с помощью кнопки Variables. В диалоговом — 126 — окне производится выбор зависимой и независимых переменных. Для задания дополнительных установок во вкладке Advanced производится выбор вида анализа (рис. 54). Рис. 54. Выбор переменных для регрессионного анализа После выбора ступенчатой регрессии появляется диалоговое окно Model definition (построение модели). На вкладке Advanced этого окна нужно указать метод: стандартный, пошаговый с включением, пошаговый с выключением; проведение оценки свободного члена регрессии (Intercept) и сделать другие установки. После проведения выбора откроется окно результатов регрессионного анализа. Верхняя часть окна результатов — информационная (см. рис. 55). В первой части содержится основная информация о результатах оценивания, во второй — значимые стандартизированные регрессионные коэффициенты. — 127 — Рис. 55. Информационное окно регрессионного анализа Внизу окна находятся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа. В информационной части содержатся краткие сведения о результатах анализа, а именно: имя зависимой переменной (Dependent); число наблюдений, по которым построена регрессионная модель (No. of cases = 15); коэффициент множественной корреляции R = 0,96; коэффициент детерминации R² = 0,92; скорректированный коэффициент детерминации R² = 0,91; стандартная ошибка оценки = 1,14 (эта статистика — мера рассеяния наблюдаемых значений относительно регрессионной прямой); Intercept = 1,46 (оценка свободного члена b0 регрессии), если выбрана регрессия, включающая свободный член; стандартная ошибка оценки свободного члена b0 = 0,87; значение t-критерия = 1,67 и уровень значимости Р = 0,17 для проверки гипотезы о равенстве нулю свободного члена b0; значение F-критерия = 73,04, число степеней свободы = 2,12 и уровень значимости Р = 0,000 используются в качестве критериев для проверки гипотезы о зависимости предикторов и отклика. — 128 — Из приведенных результатов анализа следует, что зависимость между откликом и предикторами достоверная (R² = 0,92); построенная линейная регрессия адекватно оценивает взаимосвязь между откликом и предикторами, свободный член статистически не значим. Если нажать на кнопку Summary regression results, появится таблица результатов с подробными статистиками (табл. 27). Таблица 27 Результаты регрессионного анализа Признак Beta Стд. ошибка Beta Свободный член B Стд. ошибка B t(17) Уровень значимости 1,4621 0,8710 1,67 0,119052 Число семей 0,4173 0,2078 0,8623 0,4295 2,00 0,067726 Число детей 0,5623 0,2078 0,5143 0,1901 2,70 0,019113 Таблица 27 содержит стандартизированные (Beta) и нестандартизированные (В) регрессионные коэффициенты (веса), их стандартные ошибки и уровни значимости. Коэффициенты Beta оцениваются по стандартным данным, имеющим выборочную среднюю, равную нулю и стандартное отклонение, равное 1. Поэтому величина Beta позволяет сравнить вклады каждого предиктора в предсказание отклика. Так, переменные Х1 и Х2 вносят больший вклад в значение зависимой переменной. Коэффиент уравнения регрессии b2 статистически значим при уровне значимости Р = 0,019. В табл. 28 приведены результаты оценки частных корреляций. Частные коэффициенты корреляции (Partial Cor) показывают степень влияния независимого признака на зависимую переменную в предположении, что остальные зависимые переменные закреплены на постоянном уровне. — 129 — Таблица 28 Показатели оценки коэффициентов регрессии Признак Число семей Число потомков Beta ПолуЧастная частная корр. корр. Толерантность R-квадрат t(17) Уровни значимости 0,417 0,501 0,159 0,146 0,853 2,00 0,067 0,562 0,615 0,215 0,146 0,853 2,70 0,019 Частные коэффициенты корреляции, так же как и стандартизированные коэффициенты Beta, позволяют провести ранжирование независимых признаков по степени их влияния на зависимую переменную. Кроме того, частные коэффициенты корреляции используются при решении проблемы отбора независимых признаков — целесообразность включения той или иной независимой переменной определяется величиной частного коэффициента корреляции. Из таблицы видно, что независимые признаки ранжируются в следующем порядке: число детей, число семей. Получастные коэффициенты корреляции (Semipart Cor) — корреляции независимого признака и зависимой переменной в предположении, что контролируется влияние независимых признаков на зависимую переменную. Если получастная корреляция мала, в то время как частная корреляция относительно велика, то соответствующий независимый признак может иметь самостоятельную «часть» в объяснении изменчивости зависимой переменной, то есть «часть», которая не объясняется другими независимыми признаками. Из таблицы видно, что число детей и число семей имеют самостоятельную часть в объяснении изменчивости массы детеныша. R-square (коэффициент детерминации) — квадрат коэффициента множественной корреляции между данной переменой и всеми остальными переменными, входящими в уравнение регрессии. Из таблицы следует, что все коэффициенты детерминации высокие. Толерантность (toleranse) — Т = 1 – R-square; оценивает степень некоррелированности независимых переменных и связана обрат— 130 — ной связью с ошибкой регрессионного коэффициента В. Малое значение толерантности означает высокую степень коррелированности между независимыми переменными и большую стандартную ошибку в оцениваемом регрессионном коэффициенте. t (12 = 15 – 3) — значение критерия Стьдента для проверки гипотезы о значимости частного коэффициента с указанным (в скобках) числом степеней свободы. Р (Р-уровень) — вероятность отклонения гипотезы о значимости частных коэффициентов корреляции. Важной характеристикой регрессионного анализа являются остатки (Residuals). Распределение остатков для адекватного регрессионного уравнения должно соответствовать нормальному типу. Оценка устойчивости значений коэффициентов регрессии проводится на основе статистики Дарбина–Уотсона. Эта статистика характеризует наличие или отсутствие сериальной корреляции между остатками соседних наблюдений. Существование сериальной корреляции может служить доказательством зависимости наблюдений в файле данных, в то время как критерии значимости в множественной регрессии предполагают, что данные являются случайной выборкой из независимых наблюдений. В противном случае оценки коэффициентов уравнения регрессии могут быть неустойчивыми. Статистика Дарбина–Уотсона = 2,33, сериальная корреляция между остатками соседних наблюдений = 0,16. Это свидетельствует о некоторой зависимости наблюдений, следовательно, можно говорить о недостаточной адекватности некоторых значений коэффициентов регрессии, а значит о невысокой адекватности модели (yi = 0,86x1i + 0,51х2i + 1,46) изучаемому процессу. 5.4. НЕПАРАМЕТРИЧЕСКИЕ ПОКАЗАТЕЛИ СВЯЗИ При изучении нелинейной связи между величинами в совокупностях, распределение которых не соответствует нормальному типу, более эффективны непараметрические показатели связи. Они основаны на замене наблюдаемых величин рангами. Программа STATISTICA оценивает непараметрические критерии зависимости между переменными: статистика Спирмена (коэффициент ранговой — 131 — корреляции Спирмена ( rs )); коэффициент конкордации Кенделла (t); коэффициент гамма (γ). Методика расчета коэффициента ранговой корреляции Спирмена ( rs ) Пример 1. Переменная NCOR1 содержит значения усвояемости (оцененных по методу Л. Хантера) 9 различных видов кормов, а переменная NCOR2 — их оценки по 6-балльной шкале. Предполагается, что метод Хантера положительно связан с балльной оценкой. NCOR1: 44,4 45,9 41,9 53,3 44,7 44,1 50,7 45,2 60,1 NCOR2: 2,6 3,1 2,5 5 3 6 5,2 2,8 3,8 Необходимо подтвердить или опровергнуть это предположение. Порядок выполнения. После выбора значений из таблицы данных на основе графика рассеяния определяют тип связи. Между значениями установлена нелинейная связь (рис. 56). Рис. 56. Зависимость между усвояемостью и балльной оценкой — 132 — Величина связи определяется на основе непараметрического критерия зависимости между переменными коэффициента ранговой корреляции Спирмена ( rs ) (табл. 29). Таблица 29 Расчет коэффициента корреляции Спирмена ( rs ) Х У Rх Rу Rx – Ry (Rx – Ry)² 44,4 2,6 7 8 -1 1 45,9 3,1 4 5 -1 1 41,9 2,5 9 9 0 0 53,3 5 2 3 -1 1 44,7 3 6 6 0 0 44,1 6 8 1 7 49 50,7 5,2 3 2 1 1 45,2 2,8 5 7 -2 4 60,1 3,8 1 4 -3 9 rs 1 6( Rxi Ryi ) 2 2 n(n 1) zr r n 1 1 666 0,45. 9(811) z 0,19 2 ( z 3) 1,33. n 1 Результаты. Спирмeн = 0,45, Z = 1,33, значимость = 0,22 > 0,05, число степеней свободы = 9. Принимается нулевая гипотеза, нет корреляции между выборками (см. рис. 57). — 133 — Рис. 57. Результаты оценки коэффициента корреляции Спирмена Заключение. Статистическая программа оценивает нелинейную связь на основе коэффициента корреляции Спирмена. Проверка производится на основе сравнения фактического значения коэффициента корреляции Спирмена = 0,45 с критическим значением rкрит. = 0,6 (табл. 30). Эмпирическое значение меньше критического. Принимается нулевая гипотеза. В генеральной совокупности связь между оцениваемыми величинами отсутствует. Проверку нулевой гипотезы статистическая программа производит и на основе Z-статистики, установления ее уровня значимости. Z-статистика составляет 1,33; ее уровень значимости равен 0,224, больше 0,05. Нулевая гипотеза принимается; нет связи между оцениваемыми величинами в генеральной совокупности. При наличии среди оцениваемых переменных порядковых переменных (или качественных признаков) определяется коэффициент тау Кендалла (t). Если переменные содержат много повторяющихся значений оценка зависимости производится на основе коэффициента гамма (γ). Результаты оценки показывают зависимость между усвояемостью кормов и их балльной оценкой: коэффициент тау Кендалла t = 0,38; коэффициент гамма γ = 0,38. Коэффициент тау Кендалла (t) определяется при наличии среди оцениваемых переменных порядковых переменных (или качественных признаков). При наличии среди переменных повторяющихся значений оценку зависимости целесообразно проводить на основе коэффициента гамма (γ). — 134 — Таблица 30 Критические значения коэффициента ранговой корреляции Спирмена N Уровни значимости Р ≤ 0,10 Р ≤ 0,05 Р ≤ 0,01 1 2 3 4 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 1,000 0,800 0,657 0,571 0,524 0,483 0,455 0,427 0,406 0,385 0,367 0,354 0,341 0,328 0,317 0,309 0,299 0,292 0,284 0,278 0,271 0,265 0,259 0,255 0,250 1,000 0,900 0,829 0,714 0,643 0,600 0,564 0,536 0,503 0,484 0,464 0,443 0,429 0,414 0,401 0,391 0,380 0,370 0,361 0,353 0,344 0,337 0,331 0,324 0,317 1,000 0,943 0,893 0,833 0,783 0,745 0,709 0,671 0,648 0,622 0,604 0,582 0,566 0,550 0,535 0,520 0,508 0,496 0,486 0,475 0,466 0,457 0,448 0,440 — 135 — Окончание табл. 30 1 2 3 4 29 30 31 32 33 34 35 36 37 38 39 40 41 0,245 0,240 0,236 0,232 0,229 0,225 0,222 0,219 0,216 0,212 0,210 0,207 0,204 0,312 0,306 0,301 0,296 0,291 0,287 0,283 0,279 0,275 0,271 0,267 0,264 0,261 0,433 0,425 0,418 0,412 0,405 0,399 0,394 0,388 0,383 0,378 0,373 0,368 0,364 5.5. ОЦЕНКА СВЯЗИ МЕЖДУ НОМИНАЛЬНЫМИ ВЕЛИЧИНАМИ При работе с номинальными (нечисловыми) величинами их взаимозависимость оценивают на основе использования метода кросстабуляции (cross — скрещивание, пересечение; tabulation — составление в таблицу). Этот метод проверяет гипотезу о независимости номинальных величин. При определении связи между двумя качественными признаками, которые имеют по две градации, используются тетрахорические показатели. Пример 1. При оценке у кур окраски оперения ног и тела установлено: 54 полосатых со светлой окраской оперения ног; 128 полосатых с аспидной окраской оперения ног; 186 со сплошной окраской оперения тела и светлой окраской оперения ног; 24 со сплошной окраской оперения тела аспидной окраской оперения ног. Необходимо определить уровень связи между окраской оперения ног и тела у кур. — 136 — При сравнении номинальных переменных двух выборок используются критерии группы 2 х 2: Chi-square, V-square, Phi-square, Fisher exact, Mcnemar — хи-квадрат Макнемара; Chi-square A\D, Chi-square B\C. Результаты сравнения. Критерии группы 2 х 2: Chi-square = 142,48, Р = 0,00; V-square = 142,12, Р = 0,0; Vates corrected Chi-square = 140,01, Р = 0,0; Phi-square = 0,36348; Mcnemar Chi-square (A\D = 10,78, Р = 0,0; Chi-square B\C = 10,35, Р = 0,0013). Заключение. Все критерии сравнения имеют значение Р < 0,05. Между окраской оперения ног и тела у кур существует достоверная связь, равная 0,363. Куры, имеющих светлое оперение ног, чаще имеют сплошную окраску оперения тела. Оценка зависимости между качественными признаками, имеющими больше двух градаций, проводится на основе методов раздела Кросстабуляция таблиц (в стартовой панели Basic Statistics/Tables, выбрать процедуру Таблицы сопряженности). При составлении спецификации таблицы программа запросит для анализа переменные, их коды (рис. 58). Значения сравниваемых переменных должны быть представлены в документе Таблица данных, программа STATISTICA сама производит преобразование. Рис. 58. Выбор переменных для оценки связи между переменными — 137 — Критерием запуска этого преобразования является наличие в матрице данных двух переменных (если присутствует больше двух переменных, то таблица рассматривается как совокупность нескольких двухвходовых таблиц для последних двух переменных). Исходные парные переменные должны иметь целочисленные положительные значения, максимальное из которых не превосходит n (где n — число значений), минимальное должно превышать пять, в противном случае операция по кросстабулированию будет прервана с ошибкой. Пример 2. При оценке у людей цвета волос и глаз установлено: черных с карими глазами 23; черных с серыми глазами 75; черных с голубыми глазами 17; рыжих с карими глазами 8; рыжих с серыми глазами 25; рыжих с голубыми глазами 14; светлых с карими глазами 12; светлых с серыми глазами 95; светлых с голубыми глазами 177. Нужно выяснить степень связи между цветом волос и глаз у людей. Детали результатов определяются установками полей Statistics for two-way table и Compute tables на вкладке Options (рис. 59). Рис. 59. Выбор показателей для оценки связи между признаками — 138 — Установки Compute tables (подсчитать таблицы): Highlight counts > (выделить частоты). Все частоты по строкам, которые превышают введенное значение (по умолчанию 10) будут выделены красным цветом. Expected frequencies (ожидаемые частоты). Для всех двухвходовых таблиц будут вычислены ожидаемые частоты в предположении независимости всех факторов (переменных) в таблице. Residual frequencies (остаточные частоты). Для всех двухвходовых таблиц и итоговой таблицы будут вычислены остаточные частоты — наблюдаемые частоты минус ожидаемые частоты. Percentages of total count (проценты от общего числа). Программа вычислит проценты для каждой ячейки (минимальное число в отдельной ячейке должно не менее 5). Percentages of row counts (проценты по строке). Программа определит проценты относительно общего количества наблюдений в соответствующей строке. Percentages of column counts (проценты по столбцу). Программа определит проценты относительно общего количества наблюдений в соответствующем столбце. Установки статистики для двухвходовых таблиц: критерий хи-квадрат Пирсона оценивает отклонения наблюдаемых частот от ожидаемых частот; основан на проверке гипотезы об отсутствии зависимости между переменными путем сравнения фактических и ожидаемых частот; максимум правдоподобия хи-квадрат — проверка гипотезы об отсутствии зависимости между переменными путем сравнения фактических и ожидаемых частот на основе метода максимального правдоподобия; поправка Йетса — уменьшение абсолютного значения разностей между наблюдаемыми и ожидаемыми частотами на 0,5 перед возведением в квадрат (так называемая поправка Йетса); поправка Йетса делает оценку более умеренной; применяется, когда таблицы содержат малые частоты; например, когда некоторые ожидаемые частоты становятся меньше 10; точный критерий Фишера вычисляет точную вероятность появления наблюдаемых частот при нулевой гипотезе; — 139 — коэффициент Фи и Крамера V и C — показывает величину связи между переменными; коэффициент корреляции Спирмена; статистика тау Кендалла b и с оценивает связь между переменными; различают два варианта статистики, различающихся способом обработки совпадающих рангов; коэффициент Соммера: d (X|Y) и d (Y|X) оценивает несимметричную меру связи между двумя переменными; гамма-статистика применяется при наличии многосовпадающих значений; коэффициенты неопределенности S (X|Y) и S (Y|X) — оценивают информационную связь между факторами (строками и столбцами таблицы); измеряют количество информации в переменной У относительно переменной Х или в переменной Х относительно переменной У; критерий хи-квадрат Пирсона = 86,93, Р = 0,00; максимум правдоподобия хи-квадрат = 92,7, Р = 0,00; коэффициент сопряженности = 0,40; коэффициент Фи = 0,44 и Крамера V и C = 0,31; коэффициент корреляции Спирмена = 0,44, t = 10,3, Р = 0,00; статистика тау Кендалла b = 0,41 и тау Кендалла с = 0,33; коэффициент Соммера: d (X|Y) = 0,38 и d (Y|X) = 0,43 — гаммастатистика = 0,66 применяется при наличии многосовпадающих значений; коэффициенты неопределенности S (X|Y) = 0,119 и S (Y|X) = 0,110 (рис. 60). Рис. 60. Показатели связи между номинальными признаками — 140 — Заключение. Связь между цветом волос и глаз у людей достоверная, не сильная. Пример 3. В табл. 31 дано количество пациентов с ишемической болезнью, которые выжили в течение трех лет и более после постановки диагноза. Частоты даны отдельно для четырех различных типов проявления внешних симптомов (ММ, СМ, МВ, СМ); для трех возрастных групп (меньше 50 лет; 50-69 лет; старше 69 лет); отдельно для трех диагностических центров (Т, Б, Г) [21]. Таблица 31 Частота болезни в течение 3-х и более лет после постановки диагноза. Частоты номинальных признаков Место диагностики Возраст Исход болезни (выжившие — да; не выжившие — нет) ММ СМ МВ СВ Т Т Т Т Т Т В В В В В В Г < 50 < 50 50-69 50-69 > 69 > 69 < 50 < 50 50-69 50-69 > 69 > 69 < 50 нет да нет да нет да нет да нет да нет да нет 9 26 9 20 2 1 6 11 8 18 9 15 16 7 68 9 46 3 6 7 24 20 58 18 26 7 4 25 11 18 1 5 6 4 3 10 3 1 3 3 9 2 5 0 1 0 0 2 3 0 1 1 Симптомы Для оценки связи между переменными выбирается Регистрационно-линейный анализ (Логлинейный анализ) в меню Дополнительные Линейные/Нелинейные модели. Чтобы программа понимала, как организовать числа в таблице, нужно выполнить функцию Задать таблицу (см. рис. 61). — 141 — Рис. 61. Выбор переменных для логлинейного анализа В диалоговом окне выбрать Частоты с кодами и в таблице спецификаций задать имя каждого фактора или выбрать Частоты с кодами и выбрать Переменную с частотой и Переменные с кодами. При учете всех четырех факторов: симптомы (1), место диагностики (2), возраст (3), исход (4) и трехфакторных взаимодействий связь между переменными не значима (К = 4, макс. Chi-square = = 9,01, P = 0,7; Пирсон Chi-square = 8,9, Р = 0,7; К = 3, макс. Chi-square = 30,9, P = 0,32; Пирсон Chi-square = 31,2, Р = 0,31) (рис. 62). Рис. 62. Результаты оценки К-факторных взаимодействий — 142 — Двухфакторная модель является приемлемой для оценки взаимодействий между переменными (К = 2, макс. Chi-square = 134,4, P = 0,0; Пирсон Chi-square = 141,2, Р = 0,0). Критерий частных связей (Part. Ass., Chi-squ) определяет значимость соответствующих взаимодействий (указываемых цифрами в колонке Эффект) путем сравнения модели, включающей эти факторы с моделью без него (рис. 63). Критерий маргинальных связей (Marg. Ass., Chi-squ) определяет значимость взаимодействий между моделью без каких-либо двухфакторных взаимодействий и моделью, которая включает взаимодействие учитываемых факторов (но не содержащих других двухмерных взаимодействий). Например: взаимодействие 14 оценивает связь между симптомами и исходом болезни. При удалении его из модели со всеми другими двухфакторными взаимодействиями разность в значениях статистики частных и маргинальных связей значима (Part. Ass., Chi-squ = 10,17, Р = 0,017; Part. Ass., Chi-squ = 9,4, Р = 0,023). Значимыми также являются взаимодействия: 12 (симптомы и место диагностики): Part. Ass., Chi-squ = 34,2, Р = 0,00; Part. Ass., Chi-squ = 35,4, Р = 0,00; 24 (место диагностики и исход болезни): Part. Ass., Chi-squ = 7,78, Р = 0,00; Part. Ass., Chi-squ = 10,8, Р = 0,00; 23 (место диагностики и возраст): Part. Ass., Chi-squ = 66,8, Р = 0,00; Part. Ass., Chi-squ = 72,2, Р = 0,00. Рис. 63. Результаты оценки критериев связи между признаками — 143 — Программа проводит оценку заданных взаимодействий; автоматический выбор лучшей величины взаимодействий (рис. 64, 65). Рис. 64. Задание модели (14, 24, 123) для тестирования Рис. 65. Результаты тестирования модели 14, 24, 123 — 144 — Хи-квадрат максимального правдоподобия = 31,744, Р = 0,37. Хи-квадрат Пирсона = 32,077, Р = 0,36. Заданная модель (14, 24, 123) достаточна для объяснения частот в табл. 30. Рис. 66. Автоматический выбор лучшей модели Рис. 67. Результаты тестирования модели 21, 42, 32, 41 — 145 — Лучшая модель 21, 42, 32, 41 (см. рис. 66). Хи-квадрат максимального правдоподобия = 45,61, Р = 0,5713. Хи-квадрат Пирсона = 45,35, Р = 0,5017. Заданная модель (21, 42, 32, 41) эффективна для объяснения частот в табл. 30, рис. 67. Хи-квадрат максимального правдоподобия = 45,611, Р = 0,5719. Заданная модель (21, 42, 32, 41) с более высокой точностью объясняет частоты в табл. 30. Заключение. Главными факторами, связанными с выздоровлением, были диагноз и положение центра, где была проведена диагностика. ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ Задание 1. Результаты зависимости степени антропогенной нагрузки (выраженной в баллах) и индекса видового разнообразия Шеннона следующие: Степень антропогенной нагрузки Индекс видового разнообразия 1 2 3 4 5 2,506 2,168 2,124 2,114 1,965 Проведите анализ зависимости антропогенная нагрузка — видовое разнообразие птиц. Задание 2. Результаты оценки уровня рН, содержания хлоридов, фосфатов, показателя перманганатной окисляемости (ПО), числа таксонов в водоемах следующие: Водоем рН Хлориды Фосфаты ПО Число таксонов №1 №2 №3 №4 №5 7,62 7,70 7,82 7,22 7,80 69,44 79,57 102,93 4,17 98,62 6,32 0,173 5,85 0 4,85 4,01 2,54 3,871 1,56 2,65 1 12 2 0 2 — 146 — Окончание табл. №6 №7 №8 №9 № 10 7,60 7,80 7,80 7,80 7,70 67,23 95,68 103,83 81,12 96,65 0,185 5,62 5,83 0,182 4,32 2,11 2,72 3,68 2,21 3,62 11 3 3 12 4 Проведите факторный анализ и определите главные факторы в использованной системе оценок водоемов. КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Объясните применение в биологии регрессионного анализа. 2. Объясните разницу между дисперсионным, корреляционным и регрессионным анализом. 3. При решении каких задач проводят линейный, нелинейный, множественный регрессионный анализ? 4. Составьте план проведения регрессионного анализа ваших экспериментальных данных. 5. Докажите целесообразность проведения факторного анализа при обработке ваших экспериментальных данных. — 147 — 6. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ И ПРОГНОЗИРОВАНИЕ Временной ряд — последовательность измерений признака (х), произведенных через одинаковые промежутки времени (или пространственной координаты). Значения временного ряда получают регистрацией показателей признака (процесса) через определенные промежутки времени (пространства). Например, если ежесуточно в определенное время записывать показания термометра, то получится временной ряд со значениями температуры в том месте, в котором находится термометр. В тех случаях, когда у объекта производится оценка нескольких характеристик, принято говорить о многомерных временных рядах. Анализ временных рядов (Time Series/Forecasting) предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайную составляющую (шум или ошибка). Случайная компонента ( t ) отражает влияние не поддающихся учету и регистрации случайных факторов, которые затрудняют обнаружение регулярных компонент. Методы исследования временных рядов включают различные способы фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо. Большинство регулярных составляющих временных рядов принадлежат к двум классам: они являются либо трендом (ut), либо сезонной составляющей ( t ). Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая изменяется во времени. Сезонная составляющая — это периодически повторяющаяся компонента. Временные ряды могут включать циклическую компоненту (сt), отражающую повторяемость процессов в течение длительных периодов времени. При проведении анализа временных рядов выделяют этапы: графическое представление и анализ поведения временного ряда; — 148 — выделение и анализ регулярных составляющих временного ряда; сглаживание и фильтрация (удаление низко- или высокочастотных составляющих) временного ряда; исследование случайной составляющей временного ряда, построение и проверка адекватности математической модели ее описания; прогнозирование поведения временного ряда на основе проведенных исследований. Задача прогнозирования состоит в том, чтобы по значениям наблюдений, собранных к данному моменту, определить значения в следующие моменты. Чтобы делать правильные прогнозы, необходимы знания и опыт. Прогнозы строят различными методами. Выбирают для прогноза тот метод, который правдоподобно прогнозирует ряд. В модуле Временные ряды и прогнозирование (Time Series/Forecasting) реализованы различные методы: модель авторегрессии и проинтегрированного скользящего среднего (АРПСС); анализ прерванных временных рядов или модели АРПСС с интервенцией; сезонная декомпозиция; спектральный (Фурье) анализ; 12-месячная сезонная корректировка; квартальная сезонная корректировка; анализ распределенных лагов. Временные ряды, возникающие в различных предметных областях, имеют различную природу, поэтому для их изучения используют разные методы. 6.1. МОДЕЛЬ АВТОРЕГРЕССИИ И ПРОИНТЕГРИРОВАННОГО СКОЛЬЗЯЩЕГО СРЕДНЕГО Пример 1. По данным ежемесячного производства мяса птицы с января 1989 г. по декабрь 2000 г. одного из хозяйств Тюменского региона провести анализ и составить прогноз (см. табл. 32). При оценке временного ряда видно, что нет резких скачков в производстве мяса птицы, просматривается тренд ряда, который выражается в плавном увеличении объемов производства, и некоторая сезонность, проявляемая в периодичности увеличения и уменьшения объемов производства (см. рис. 68). — 149 — Таблица 32 Показатели временного ряда (ежемесячное производство мяса птицы) Год 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 I 115 118 148 174 199 207 245 287 318 343 363 420 II 121 129 153 183 199 191 236 280 304 321 345 394 III 135 144 181 196 239 238 270 320 359 365 409 422 IY 132 138 165 184 238 230 272 316 351 351 399 464 Y 124 128 175 186 232 237 273 321 358 365 423 475 Месяц YI YII 138 151 152 173 181 202 221 233 246 267 267 305 318 367 377 416 425 465 438 494 475 551 538 625 YIII 151 173 202 245 275 296 350 408 467 508 562 609 IX 139 161 187 212 240 262 315 358 407 407 466 511 Рис. 68. Изменение объемов производства — 150 — X 122 135 165 194 214 232 277 309 350 362 410 464 XI 107 117 149 175 183 206 240 274 308 313 365 393 XII 121 143 169 197 204 232 281 309 339 340 408 435 При проведении спектрального анализа (Spectral Fourier analysis) во временном ряде выявляется устойчивый сезонный цикл с периодом 12 месяцев (рис. 69). Анализ начинается с преобразования временного ряда. Возможные преобразования: на вкладке x = f(x) — прибавить константу к значениям ряда, возвести в степень, взять натуральный логарифм, вычитание среднего, стандартизация (из значения ряда вычитается среднее арифметическое и результат делится на стандартное отклонение), вычитание тренда; на вкладке сглаживание — сглаживание скользящей медианой, сглаживание скользящим средним, простое экспоненциальное сглаживание, 4253 Н фильтр; на вкладке x = f(x, у) — вычисление нового значения по формуле х = х – у(lag), где lag (запаздывание) задается в поле lag; вычисление нового значения по формуле x = x – (а + bу(lag)), где параметры а и b оцениваются программой из данных; опции этой вкладки доступны при работе с двумя временными рядами и более; на вкладке сдвиг: начальная точка ряда сдвигается вперед или назад; на вкладке вычитание (суммирование) вычисляются значения нового ряда по формуле x = x – х(lag) или x = x + х(lag). Рис. 69. Периодограмма объемов производства — 151 — Для данного временного ряда необходимо уменьшение дисперсии (разницы между высокими и низкими частотами) ряда на основе преобразования Natural log на вкладке x = f(x). После уменьшения дисперсии надо идентифицировать параметры модели. В модели АРПСС имеются следующие типы параметров: p — порядок авторегрессии, d — порядок разности, q — порядок скользящего среднего. Идентифицировать модель АРПСС — значит определить эти параметры. Различают идентификацию порядка разности — d и идентификацию стационарного процесса или порядка смешанной модели — параметров р, q. Идентификация — довольно грубая процедура, с помощью которой получают приближенные значения порядка модели. Довольно типично получение на этапе идентификации нескольких приемлемых моделей, которые с достаточной степенью точности подходят к наблюдаемым данным. Перед выбором модель подвергают детальному рассмотрению на основе критериев идентификации — поведение автокорреляционной (частной корреляционной) функции ряда. Ряд считается стационарным при отсутствии тенденции к затуханию у временного ряда автокорреляционной (частной корреляционной) функции. Автокорреляционной функцией стационарного ряда х(t) называют функцию r(k) = corr(x(t) (t + k)), где k > 0. Величина k часто называется задержкой, или лагом. Она указывает расстояние между членами временного ряда, для которых вычисляется коэффициент корреляции. После уменьшения дисперсии ряда (преобразования Natural log на вкладке x = f(x)) присутствует тенденция к затуханию у временного ряда автокорреляционной функции, то есть ряд является нестационарным (см. табл. 33, рис. 70). Нужно рассмотреть разность первого порядка наблюдаемого ряда. Для этого на вкладке вычитание (суммирование) нужно выбрать разность первого порядка x = x – х(lag), указав значение lag = 1. Если приходят к заключению, что ряд первых разностей не стационарен, то вновь берут его разности первого порядка и используют критерий стационарности. — 152 — Таблица 33 Автокорреляционная функция после преобразования ln(x) Лаг Автокорреляция Стд. ошибка Бокса– Льюнга Q Уровень значимости 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,953703 0,898916 0,850802 0,808425 0,778899 0,756442 0,737602 0,727131 0,733649 0,744255 0,758027 0,761943 0,716504 0,663043 0,618363 0,576209 0,543801 0,519456 0,500703 0,490403 0,498182 0,506167 0,516743 0,520490 0,483524 0,437398 0,400407 0,364131 0,336982 0,314723 0,082473 0,082184 0,081894 0,081603 0,081311 0,081018 0,080724 0,080429 0,080133 0,079835 0,079537 0,079237 0,078937 0,078635 0,078332 0,078027 0,077722 0,077415 0,077108 0,076799 0,076488 0,076177 0,075864 0,075550 0,075234 0,074918 0,074599 0,074280 0,073959 0,073637 133,723 253,360 361,293 459,437 551,200 638,374 721,864 803,598 887,420 974,327 1065,158 1157,625 1240,016 1311,114 1373,432 1427,965 1476,920 1521,944 1564,110 1604,886 1647,307 1691,458 1737,854 1785,318 1826,623 1860,710 1889,519 1913,550 1934,310 1952,577 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 — 153 — Нужно рассмотреть разность первого порядка наблюдаемого ряда. Для этого на вкладке вычитание (суммирование) нужно выбрать разность первого порядка x = x – х(lag), указав значение lag = 1. Если приходят к заключению, что ряд первых разностей нестациоанарен, то вновь берут его разности первого порядка и используют критерий стационарности. Рис. 70. Автокорреляционная функция после преобразования ln(x) Из табл. 34, рис. 71 видно, что есть незначительная корреляция на lag1. Тенденция к затуханию весьма слабая. Обнаружены пики устойчивого сезонного цикла с периодом в 12 месяцев (лаг12 r(k) = 0,84; лаг24 r(k) = 0,74). Таким образом, после двух преобразований (ln(x); D(-1)) построена стационарная модель. — 154 — Таблица 34 Автокорреляционная функция после преобразований ln(x), D(-1) Лаг Автокорреляция Стд. ошибка Бокса– Льюнга Q Уровень значимости 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,199751 -0,120104 -0,150772 -0,322074 -0,083975 0,025778 -0,110961 -0,336721 -0,115586 -0,109267 0,205852 0,841430 0,215087 -0,139554 -0,115996 -0,278943 -0,051706 0,012458 -0,114358 -0,337174 -0,107385 -0,075211 0,199475 0,736921 0,197262 -0,123884 -0,102699 -0,210992 -0,065357 0,015728 0,082755 0,082463 0,082170 0,081876 0,081581 0,081285 0,080987 0,080689 0,080390 0,080089 0,079788 0,079485 0,079181 0,078876 0,078569 0,078262 0,077953 0,077643 0,077332 0,077019 0,076706 0,076391 0,076074 0,075757 0,075438 0,075117 0,074796 0,074473 0,074148 0,073822 5,8263 7,9476 11,3144 26,7884 27,8479 27,9485 29,8257 47,2402 49,3076 51,1689 57,8254 169,8900 177,2689 180,3993 182,5789 195,2826 195,7226 195,7483 197,9351 217,1001 219,0600 220,0293 226,9048 321,5282 328,3659 331,0858 332,9711 340,9978 341,7747 341,8201 0,015794 0,018811 0,010150 0,000022 0,000039 0,000097 0,000103 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 — 155 — Рис. 71. Автокорреляционная функция после преобразований ln(x), D(-1) Идентификация построенной стационарной модели (после преобразований) будет проведена в классе моделей смешанная авторегрессия — скользящее среднее, которые при определенных ограничениях на параметры более точно описывают стационарные временные ряды. Как отмечалось ранее, идентификация модели заключается в определении параметров модели p и q. Для определения параметров p, q рассматривают поведение выборочных автокорреляционной и частной автокорреляционной функций ряда. Практика показывает, что большинство наблюдаемых рядов, описываемых смешанной моделью авторегрессии и скользящего среднего, могут быть с достаточной степенью точности отнесены к одному из следующих пяти классов: модели авторегрессии с одним параметром (p = 1, q = 0); модели авторегрессии с двумя параметрами (p = 2, q = 0); модели скользящего среднего с одним пара- — 156 — метром (p = 0, q = 1); модели скользящего среднего с двумя параметрами (p = 0, q = 2); модели авторегрессии с одним параметром и скользящего среднего с одним параметром (p = q = 1). Имеются следующие практические критерии по определению этих моделей с помощью автокорреляционных и частных автокорреляционных функций ряда: один параметр авторегрессии: автокорреляционная функция экспоненциально затухает; частная автокорреляционная функция имеет выброс на лаге 1 (нет корреляции для других задержек); два параметра авторегрессии: автокорреляционная функция имеет форму затухающей синусоидальной волны или экспоненциально затухает; частная автокорреляционная функция имеет выброс только для сдвигов 1 и 2 (нет корреляции для других задержек); один параметр скользящего среднего: автокорреляционная функция имеет выброс на лаге 1 (нет корреляции для других задержек); частная автокорреляционная функция экспоненциально затухает — либо монотонно, либо осциллируя, то есть меняя знак; два параметра скользящего среднего: автокорреляционная функция имеет выбросы на сдвигах 1 и 2 (нет корреляции для других задержек; частная автокорреляционная функция имеет форму синусоидальной волны или экспоненциально затухает; один параметр авторегрессии и один параметр скользящего среднего: автокорреляционная функция экспоненциально затухает, начиная с первой задержки (первое значение не нулевое), затухание может быть монотонное и колебательное; в частной автокорреляционной функции преобладает затухающий экспоненциальный член — либо монотонный, либо осциллирующий (первое значение не нулевое). Критерии носят достаточно расплывчатый характер, возможно, с их помощью будет идентифицирована и не одна модель. Наличие нескольких подходящих моделей следует рассматривать не как фатальную ошибку, а как нормальный поисковый результат. Как показывает практика, на этапе идентификации целесообразно определить несколько подходящих моделей и затем, оценив — 157 — их параметры и исследовав остатки, оценить адекватность моделей, после чего выбрать наилучшую модель из нескольких возможных. Программа STATISTICA позволяет легко анализировать модели АРПСС. С точки зрения временных затрат практически нет разницы: иметь дело лишь с одной моделью, оценивать ее параметры и строить прогноз или искать наилучшую среди нескольких подходящих. Анализируя поведение автокорреляционной (частной автокорреляционной) функции и учитывая приведенные критерии, можно сделать вывод, что наиболее подходящей моделью для ряда Производство мяса птицы ln(x), D(-1) будет модель — один параметр скользящего среднего (р = 0, q = 1). Учитывая, что d = 1, имеем несезонную модель АРПСС (0, 1, 1). Так как ряд имеет выраженную сезонную составляющую с периодом в 12 месяцев, в модель должна быть внесена сезонная корректировка. Сезонные модели АРПСС, реализованные в программе STATISTICA, являются обобщением обычных моделей АРПСС. Полная сезонная модель может быть представлена в виде АРПСС (p, d, q), (Ps, Ds, Qs), где к параметрам модели АРПСС p, d, q добавлены сезонные параметры: сезонный параметр авторегрессии — Ps, сезонная разность — Ds, сезонный параметр скользящего среднего — Qs. Идентификация полной модели АРПСС проводится тем же способом, что и идентификация несезонной модели АРПСС. Поведение автокорреляционной (частной корреляционной) функции на лагах, кратных сезонному лагу, также стандартным образом позволяет идентифицировать сезонную составляющую ряда. Для того чтобы учесть сезонные колебания с периодом в 12 месяцев, необходимо взять сезонную разность с лагом 12 ряда ln(x), D(-1) (рис. 72). В диалоговом окне преобразование переменных на вкладке вычитание (суммирование) нужно выбрать разность первого порядка x = x – х(lag), указав значение lag = 12. — 158 — Рис. 72. Автокорреляционная функция после преобразований ln(x), D(-1), D(-12) Из табл. 35 видно, что ряд является стационарным, автокорреляционная функция экспоненциально затухает, а частная автокорреляционная функция также затухает и имеет выброс на лаге 1. Значит сезонный параметр авторегрессии Ps = 0, сезонная разность Ds = 1, сезонный параметр скользящей средней Qs = 1. Таким образом, вид полной модели АРПСС (0, 1, 1), (0, 1, 1). В диалоговом окне Модели авторегрессии и проинтегрированной скользящей средней (АРПСС) нужно установить значения параметров: р = 0, q = 1, d = 1, Ps = 0, Qs = 1, Ds = 1 (см. рис. 73). — 159 — Таблица 35 Автокорреляционная функция после преобразований ln(x), D(-1), D(-12) Лаг Автокорреляция Стд. ошибка Бокса–Льюнга Q Уровень значимости 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 -0,341124 0,105047 -0,202139 0,021359 0,055654 0,030804 -0,055579 -0,000761 0,176369 -0,076358 0,064384 -0,386613 0,151602 -0,057607 0,149565 -0,138942 0,070482 0,015631 -0,010611 -0,116729 0,038554 -0,091365 0,223269 -0,018418 -0,100288 0,048566 -0,030240 0,047134 -0,018030 -0,051070 0,086379 0,086047 0,085712 0,085377 0,085040 0,084702 0,084362 0,084022 0,083679 0,083336 0,082991 0,082644 0,082296 0,081947 0,081596 0,081243 0,080889 0,080534 0,080177 0,079818 0,079457 0,079096 0,078732 0,078366 0,077999 0,077631 0,077260 0,076888 0,076514 0,076138 15,59566 17,08604 22,64779 22,71038 23,13868 23,27094 23,70497 23,70505 28,14733 28,98688 29,58875 51,47284 54,86636 55,36054 58,72044 61,64522 62,40446 62,44213 62,45965 64,59837 64,83381 66,16810 74,20994 74,26518 75,91835 76,30972 76,46292 76,83872 76,89425 77,34416 0,000079 0,000195 0,000048 0,000145 0,000319 0,000713 0,001287 0,002574 0,000904 0,001257 0,001844 0,000001 0,000000 0,000001 0,000000 0,000000 0,000000 0,000001 0,000002 0,000001 0,000002 0,000003 0,000000 0,000000 0,000001 0,000001 0,000001 0,000002 0,000003 0,000005 — 160 — Рис. 73. Выбор модели авторегрессии Результаты оценки параметров приведены в табл. 36. Оценки параметров q(1) и Qs(1) высоко значимы (Р значительно меньше 0,05). Таблица 36 Результаты оценки параметров модели АРПСС (0, 1, 1), (0, 1, 1) Асимпт. ПараЗначение стд. ошибка метр Асимпт. t (129) Значимость Нижняя 95% дов. Верхняя 95% дов. q(1) 0,377162 0,089318 4,222697 0,000045 0,200445 0,553880 Qs(1) 0,572379 0,071189 8,040233 0,000000 0,431529 0,713229 По умолчанию программа вычисляет прогнозы для одного полного сезонного цикла, начиная с последнего наблюдения (со 145-го по 156 наблюдение). — 161 — При задании прогноза со значения 133 будет построен прогноз для имеющихся значений. Как видно из рис. 74, прогнозная кривая практически повторяет фрагмент кривой исходного ряда. Наблюдаемые значения попадают в доверительный интервал. Рис. 74. Проверка модели прогноза со 133 по 145 значение Адекватность модели анализируется на основе исследования остатков (разность между наблюдаемыми значениями и значениями, предсказанными с помощью модели). В правильно подобранной модели остатки будут похожи на белый шум: в них не будет периодических колебаний, систематических смещений, между ними не будет сильных корреляций, они будут нормально распределены (рис. 75, 76). — 162 — Рис. 75. Оценка остатков на основе автокорреляционной функции Рис. 76. Оценка остатков на основе частных автокорреляционных функций — 163 — Анализ остатков показывает, что при помощи Модели авторегрессии и проинтегрированного скользящего среднего построена адекватная модель для прогноза изменения исследуемого ряда. 6.2. СЕЗОННАЯ ДЕКОМПОЗИЦИЯ В модуле Анализ временных рядов и прогнозирование реализовано два вида сезонной декомпозиции: классическая сезонная декомпозиция (Census I) и 12-месячная сезонная декомпозиция (XII/Y2k (Census I)). В начале раздела 6 было отмечено, что во временном ряде (хt — значение временного ряда в момент t) можно выделить четыре различные компоненты: сезонная компонента ( t ), тренд (ut), циклическая компонента (сt) и случайная нерегулярная компонента ( t ). Разница между циклической и сезонной компонентами состоит в том, что последняя имеет регулярную (сезонную) периодичность, тогда как циклические факторы обладают более длительным эффектом, который к тому же меняется от цикла к циклу. В методе сезонной декомпозиции тренд и циклическую компоненту обычно объединяют в одну тренд-циклическую компоненту (uсt). Конкретные функциональные взаимосвязи между этими компонентами бывают самого разного вида. Однако можно выделить два основных способа, с помощью которых они взаимодействуют: аддитивно (хt = uсt + t + t) и мультипликативно (хt = uсt t t ). При аддитивной модели временной ряд будет иметь постоянные сезонные колебания, величина которых не зависит от общего уровня значений ряда. В мультипликативном случае величина сезонных колебаний будет меняться в зависимости от общего уровня значений ряда. В прогнозировании с помощью ARIMA сезонность учитывалась (бралась разность с лагом 12), но невозможно было проанализировать ее вид, понять, какое действие она оказывает на ряд. В методах сезонной декомпозиции можно строить графики сезонной компоненты, тренд-циклической и нерегулярной составляющей. В диалоге ARIMA требуется минимум 8 полных циклов значений — 164 — ряда (8 12 = 96 случаев), а для методов сезонной декомпозиции достаточно 5 полных сезонных циклов. При задании модели декомпозиции могут быть включены следующие составляющие (рис. 77): скользящие средние (вычисляется скользящее среднее для временного ряда, при этом ширина окна берется равной периоду сезонности); отношения/разности (после взятия скользящих средних проводится исключение сезонной изменчивости: в случае аддитивной модели ряд скользящих средних вычитается из наблюдаемого ряда, в случае мультипликативной модели значения наблюдаемого ряда делятся на значения скользящих средних). Рис. 77. Выбор компонентов модели декомпозиции Сезонные факторы (вычисляются как среднее (для аддитивных моделей) или медианное среднее (для мультипликативных моделей) всех значений ряда, соответствующих данному сезону); ряд скорректированный на сезонную составляющую (исходный ряд — 165 — можно скорректировать, вычитая из него (аддитивная модель) или деля его значения (мультипликативная модель) на значения сезонной составляющей; полученный таким образом ряд называется скорректированный на сезонную составляющую (из ряда удалена сезонная составляющая)); сглаженная тренд-циклическая компонента (для получения тренд-циклической компоненты применена процедура центрирования взвешенной скользящей с весами 1, 2, 3, 2, 1 (пятиточечное центрирование)); нерегулярная составляющая (выделение случайной компоненты проводится вычитанием из ряда с сезонной поправкой (аддитивная модель) или делением этого ряда (мультипликативная модель) на тренд-составляющую компоненту). Результаты оценки составляющих временного ряда Производство мяса птицы на основе классической сезонной декомпозиции (Census I) приведены в табл. 37. Для оценки составляющих ряда использована аддитивная модель. Ряд имеет постоянные сезонные колебания, величина которых не зависит от общего уровня значений ряда. Результатом суммирования составляющих — тренд-цикла, сезонной и нерегулярной — является исходной временной ряд. Сумма скорректированного ряда и сезонной составляющей также равна исходному временному ряду. На вкладке Осмотр/Review series имеются опции для визуализации результатов декомпозиции. Для этого исследователю необходимо выбрать исходный ряд и интересующие компоненты ряда, программа построит соответствующие графики. 12-месячная сезонная декомпозиция (XII/Y2k (Census I) в отличие от классической сезонной декомпозиции (Census I) учитывает поправку на число дней, преобразовывает перед началом анализа выбросы (значения, выходящие за определенный диапазон), проводит проверку значимости фактора сезонной изменчивости, числа дней, проводит оценку ежемесячных (квартальных) изменений случайной и тренд-циклических компонент. — 166 — Таблица 37 Результаты оценки составляющих временного ряда 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Произ- Скольз. водство средние 2 3 Разности 4 Сезонные составл. 5 Скоррек. Сглажен. Нерег. ряд тренд-цикл. компон. 6 7 8 112,0000 -24,7487 136,7487 143,2875 -6,5387 118,0000 -36,1881 154,1881 141,7260 12,4621 132,0000 -2,2412 134,2412 138,6031 -4,3620 129,0000 -8,0366 137,0366 131,5989 5,4377 121,0000 -4,5063 125,5063 118,6886 6,8178 135,0000 35,4028 99,5972 104,4840 -4,8868 148,0000 126,7917 21,2083 63,8308 84,1692 96,3380 -12,168 148,0000 127,2500 20,7500 62,8232 85,1768 100,2298 -15,053 136,0000 127,9583 8,0417 16,5202 119,4798 116,6490 2,8308 119,0000 128,5833 -9,5833 -20,6427 139,6427 133,8746 5,7681 104,0000 129,0000 -25,0000 -53,5934 157,5934 144,9482 12,6452 118,0000 129,7500 -11,7500 -28,6199 146,6199 148,4861 -1,8662 115,0000 131,2500 -16,2500 -24,7487 139,7487 148,6330 -8,8843 126,0000 133,0833 -7,0833 -36,1881 162,1881 149,1334 13,0547 141,0000 134,9167 6,0833 -2,2412 143,2412 145,4920 -2,2508 135,0000 136,4167 -1,4167 -8,0366 143,0366 138,9322 4,1044 125,0000 137,4167 -12,4167 -4,5063 129,5063 127,9108 1,5955 149,0000 138,7500 10,2500 35,4028 113,5972 118,0396 -4,4423 170,0000 140,9167 29,0833 63,8308 106,1692 114,5602 -8,3910 170,0000 143,1667 26,8333 62,8232 107,1768 120,4520 -13,275 158,0000 145,7083 12,2917 16,5202 141,4798 135,5379 5,9419 133,0000 148,4167 -15,4167 -20,6427 153,6427 150,5412 3,1014 114,0000 151,5417 -37,5417 -53,5934 167,5934 162,0593 5,5341 140,0000 154,7083 -14,7083 -28,6199 168,6199 168,9306 -0,3106 145,0000 157,1250 -12,1250 -24,7487 169,7487 174,0774 -4,3287 150,0000 159,5417 -9,5417 -36,1881 186,1881 177,5779 8,6103 — 167 — Окончание табл. 37 1 2 3 4 5 6 7 8 27 178,0000 161,8333 16,1667 -2,2412 180,2412 177,9364 2,3047 28 163,0000 164,1250 -1,1250 -8,0366 171,0366 172,8211 -1,7845 29 172,0000 166,6667 5,3333 -4,5063 176,5063 163,5774 12,9289 30 178,0000 169,0833 8,9167 35,4028 142,5972 150,9285 -8,3312 31 199,0000 171,2500 27,7500 63,8308 135,1692 145,2269 -10,057 32 199,0000 173,5833 25,4167 62,8232 136,1768 148,7854 -12,608 33 184,0000 175,4583 8,5417 16,5202 167,4798 163,8712 3,6086 34 162,0000 176,8333 -14,8333 -20,6427 182,6427 179,2079 3,4348 35 146,0000 178,0417 -32,0417 -53,5934 199,5934 190,7260 8,8674 36 166,0000 180,1667 -14,1667 -28,6199 194,6199 197,0417 -2,4217 37 171,0000 183,1250 -12,1250 -24,7487 195,7487 200,4108 -4,6620 38 180,0000 186,2083 -6,2083 -36,1881 216,1881 201,5779 14,6103 39 193,0000 189,0417 3,9583 -2,2412 195,2412 197,7142 -2,4731 40 181,0000 191,2917 -10,2917 -8,0366 189,0366 192,3767 -3,3401 41 183,0000 193,5833 -10,5833 -4,5063 187,5063 185,2441 2,2622 42 218,0000 195,8333 22,1667 35,4028 182,5972 180,3729 2,2243 43 230,0000 198,0417 31,9583 63,8308 166,1692 178,0046 -11,835 44 242,0000 199,7500 42,2500 62,8232 179,1768 183,2298 -4,0530 ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ Задание 1. Проведите оценку временного ряда изменения температуры в зимнее время в Тюменском регионе с 1944 по 2012 г. Задание 2. Проведите оценку временного ряда изменения урожайности зерновых культур в Тюменском регионе с 1944 по 2012 г. — 168 — КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Объясните применение в биологии анализа временных рядов, критериев идентификации (автокорреляционной и частной корреляционной функций ряда) модели ряда. 2. Составьте план проведения анализа временного ряда по вашим экспериментальным данным. 3. Докажите целесообразность проведения анализа временного ряда выбранным вами методом. — 169 — 7. МЕТОДЫ КЛАССИФИКАЦИОННОГО АНАЛИЗА 7.1. КЛАСТЕРНЫЙ АНАЛИЗ Задача кластерного анализа состоит в классификации объектов исследования. Этот метод позволяет наглядно представить сходство или различие биологических объектов, охарактеризованных по многим признакам. Суть кластерного анализа состоит: в определении «расстояний» между объектами по всей совокупности признаков; группировании сходных объектов в кластеры (от англ. cluster — гроздь, скопление); графическом изображении древа кластеризации. В качестве меры расстояния выступают статистические показатели: Евклидова метрика — применяется, когда в кластерном анализе используются количественные признаки, измеренные в одних единицах; квадрат Евклидова расстояния — применяется при работе с признаками, измеренными в различных единицах или сильно различающихся по величине; манхэттенское расстояние — применяется с целью уменьшения больших разностей; расстояние Чебышева — применяется для сравнения объектов, различающихся по какой-либо одной координате; степенное расстояние Минковского — применяется для увеличения или уменьшения веса разности по отдельным координатам; процент несогласия — применяется при работе с номинальными признаками; 1 – Pearson r (1 минус коэффициент корреляции Пирсона) — применяется при проведении классификации в экономике и социологии (когда объекты нельзя представить как точки в k-мерном пространстве). — 170 — В программе STATISTICA реализованы так называемые агломеративные методы минимальной дисперсии: joining (tree clustering) (древовидная кластеризация) и two-way joining (двухвходовая кластеризация), а также k-means (дивизивный метод k-средних). В методе древовидной кластеризации предусмотрены различные правила иерархического объединения в кластеры: правило single linkage (одиночной связи): на первом шаге объединяются два наиболее близких объекта, на следующем шаге к ним присоединяется объект с максимальной мерой сходства с одним из объектов кластера; метод называют еще методом ближайшего соседа, так как расстояние между двумя кластерами определяется как расстояние между двумя наиболее близкими объектами в различных кластерах; правило complete llinkage (полных связей): два объекта, принадлежащих к одной и той же группе (кластеру), имеют коэффициент сходства, который больше некоторого порогового значения; правило unweighted pair-group averadge (невзвешенного попарного сравнения): расстояние между двумя кластерами определяется как среднее расстояние между всеми парами объектов в них; правило weighted pair-group averadge (взвешенное попарное сравнение) применяется при неравных размерах кластеров; unweighted pair-group centroid (невзвешенный центроидный): расстояние между двумя кластерами определяется как расстояние между их центрами; weighted pair-group centroid (взвешенный центроидный): при вычислениях используются веса для учета разности между размерами кластеров; метод Уорда (Ward method) направлен на объединение близко расположенных кластеров. Для запуска метода Кластерный анализ (Cluster Analysis) в меню STATISTICA надо выбрать Multivfriate Exploratory Techniques (Многомерные исследовательские методы) и далее выбрать Cluster Analysis. Откроется стартовая панель модуля Кластерный анализ (см. рис. 78). — 171 — Рис. 78. Стартовое окно модуля Кластерный анализ (Cluster Analysis) На вкладке Quick находится список методов кластерного анализа, реализованных в программе STATISTICA: Joining tree clustering (древовидная кластеризация); k-means clustering (метод k-средних) и Two-way joining (двухвходовая кластеризация). Пример 1. Необходимо оценить сходство биотопов по численности мелких млекопитающих и разделить биотопы на группы. Численность, экз. на 10 канавко-суток Сосняки Ельники Лист. мелколесье Бурозубка обыкновенная 3.9 7.2 6 Средняя бурозубка 1.8 1.1 0.5 Малая бурозубка 1.9 2.0 1.6 Равнозубая бурозубка 0.01 0.2 0.1 Крошечная бурозубка 0.04 0.06 0.4 Водяная кутора 0.04 0.06 0.4 Лесная мышовка 0.6 0.3 0.7 Лесной лемминг 0.2 0 0.05 Мышь малютка 0.04 0 0 Рыжая полевка 1.5 0.8 0.8 Красная полевка 0.06 0.6 0.02 Темная полевка 0.2 0 0.7 Полевка-экономка 0 0.2 0.2 Вид — 172 — В главной части стартовой панели нужно высветить k-means clustering и нажать ОК, на экране появится диалоговое k-means clustering (рис. 79). После выбора объектов для кластеризации в поле Number of claster (число кластеров) нужно определить число групп (классов), на которые мы хотим разделить биотопы. В поле Number of iteration (число повторений) задается максимальное число повторений при построении классов. Рис. 79. Диалоговое окно k-means clustering Группа опций Initial claster centers позволяет задать начальные центры кластеризации: Choose observation to maximize initial between-cluster distances (выбрать наблюдения, максимизирующие начальные расстояния между кластерами); Sort distances and take observations at constant intervals (сортировать расстояния и выбрать наблюдения на постоянных интервалах); Choose the first N (Number of cluster) observations (выбрать первые N (число кластеров) наблюдений. При выборе опции Sort distances and take observations at constant intervals (сортировать расстояния и выбрать наблюдения на постоянных интервалах) откроется окно результатов k-means clustering — 173 — results. В верхней информационной части окна представлены следующие данные: количество переменных, число наблюдений, k-means clustering of cases (метод k-средних), обработка пропущенных данных, число кластеров, число повторений при получении результата. Во вкладке Advanced содержится информация о результатах анализа: Cluster means & Euclidean distances; Analysis of variance; Graph of means; Descriptive statistics for each cluster; Members of each cluster & distances. Число кластеров два: в первый кластер входят сосняки; во второй: ельники и лиственное полесье (рис. 80). Среднее значение видов кластеров выбираются в Descriptive statistics for each cluster (рис. 81). Для первого кластера: обыкновенная бурозубка 3,9; средняя бурозубка 1,8; малая бурозубка 1,9; равнозубая бурозубка 0,01; крошечная бурозубка 0,04; водяная кутора 0,04; лесная мышовка 0,6; лесной лемминг 0,2; мышь малютка 0,04; рыжая полевка 1,5; красная полевка 0,06; темная полевка 0,2 полевка-экономка 0. Рис. 80. Результаты кластеризации биотопов методом Joining tree clustering (метод древовидной кластеризации) — 174 — Для второго кластера: обыкновенная бурозубка 6,6; средняя бурозубка 0,8; малая бурозубка 1,8; равнозубая бурозубка 0,15; крошечная бурозубка 0,02; водяная кутора 0,23; лесная мышовка 0,5; лесной лемминг 0,02; мышь малютка 0,04; рыжая полевка 0,8; красная полевка 0,31; темная полевка 0,35 полевка-экономка 0,2. На основе сравнения средних кластеров находится расстояние между кластерами (см. рис. 82). Евклидово расстояние между кластерами 1 и 2 составляет 0,83; квадрат Евклидова расстояния равен 0,69 (см. рис. 83). Диаграмма построена методом single linkage (одиночной связи или ближайшего соседа). По матрице расстояний отыскиваются ближайшие соседи для всех объектов. На диаграмме горизонтальные оси представляют расстояние объединения. Для каждого узла в графе (там где, формируется новый кластер) можно определить величину расстояния, для которого соответствующие элементы связываются в новый кластер. Кластеры отражаются в иерархическом дереве различными ветвями. Рис. 81. Сравнение средних для каждого кластера — 175 — Внутригрупповые (Within SS) и межгрупповые различия (Bet ween SS) определяются на основе дисперсионного анализа (рис. 82). Чем меньше значение внутригрупповой изменчивости и больше значение межгрупповой дисперсии, тем лучше характеризует принадлежность объектов к кластеру и тем качественнее кластеризация. Параметры F и Р также характеризуют вклад признака в разделение объектов на группы. Лучшей кластеризации соответствуют большие значения F и меньшие значения Р. Признаки с большими значениями Р из процедуры кластеризации можно исключить. Рис. 82. Выбор признаков для проведения кластеризации на основе дисперсионного анализа Рис. 83. Результаты определения расстояния (Евклидово расстояние) между кластерами — 176 — 7.2. ДИСКРИМИНАНТНЫЙ АНАЛИЗ Этот метод многомерной статистики служит для дискриминации, то есть различения (дифференциации) и диагностирования (распознавания) биологических объектов и явлений, различия между которыми не очевидны. Как и в кластерном анализе, рассматриваемые объекты могут быть охарактеризованы многими параметрами. Однако задачи дискриминантного анализа прямо противоположные: не выделить из множества объектов группы близких, а отнести тот или иной объект к определенной, априорно выделенной группе. Возможности модуля Discriminant Analysis рассмотрим на примере определения пола у молодых пеночек-весничек. Визуально самцы и самки этого вида не различаются, а морфологические признаки (длина крыла, хвоста, цевки) у них сильно перекрываются. Это не позволяет с уверенностью определять пол весничек. Дискриминантный анализ позволяет решить подобную проблему. Для запуска метода Дискриминантный анализ (Discriminant Analysis) в меню STATISTICA надо выбрать Multivfriate Exploratory Techniques (Многомерные исследовательские методы) и далее выбрать Discriminant Analysis. Откроется стартовая панель модуля Дискриминантный анализ (см. рис. 84). Чтобы выбрать переменные для анализа, нужно нажать кнопку Variables. Появится окно, в котором необходимо выбрать группирующую переменную и зависимые переменные. В рассматриваемом примере группирующей переменной будет пол пеночек-весничек. Группирующая переменная не должна входить в список независимых переменных. Независимые переменные в рассматриваемом примере: длина крыла и длина хвоста. Далее нужно задать коды для значений группирующей переменной — пол. Коды группирующей переменной: самки и самцы (см. табл. 38). — 177 — Рис. 84. Стартовая панель дискриминатного анализа (Discriminant Analysis) Таблица 38 Показатели для дискриминантного анализа. Результаты измерения пеночек-весничек Самцы Длина крыла, Длина хвоста, мм мм 65 50 61 47 64 48 63.5 51 63 47 62 46 63 48 63.5 48 62 47 64 46 Самки Длина крыла, Длина хвоста, мм мм 59 44 59 46 54 45 57.5 43 61 46.5 60.5 46 57.5 45 58 44 60.5 45 60 45 Если в диалоговом окне Discriminant Function Analysis была отмечена опция Advanced options, откроется окно диалога Model Definition (см. рис. 85). Во вкладке Advanced открывшегося окна нужно выбрать метод дискриминантного анализа: — 178 — Standart (стандартный). При этом методе все выбранные переменные будут одновременно включены в модель (уравнение); Forward stepwise (пошаговый вперед), программа на последовательных шагах включает переменные в модель; Backward stepwise (пошаговый назад). Программа включает в модель все выбранные переменные и затем удаляет на каждом шаге переменные из модели. Опция Tolerance позволяет задать нижнюю границу толерантности. Значение толерантности определяется как 1 – R² (R² — коэффициент множественной корреляции). Толерантность является мерой избыточности. Чем меньше значение толерантности, тем избыточнее переменная в модели (так как переменная несет малую дополнительную информацию). Переменные с толерантностью меньше заданного значения в модель не включаются. При пошаговом анализе (Forward stepwise, Backward stepwise) дискриминантной функции выделяют следующие опции диалога: F to enter (F-включить) при анализе дискриминантной функции переменные включаются в модель, если соответствующее им значение F-критерия больше, чем значение F-критерия-включить. Если при проведении пошагового анализа с включением необходимо включить все переменные, надо установить в F to enter значение, равное малому числу (например, 0,0001), а в поле F to remove — значение 0; F to remove (F-исключить) переменные удаляются из модели, если соответствующее им значение F меньше, чем значение F-исключить; Number of steps (числа шагов) определяет максимальное количество шагов, которое будет осуществлено; Dysplay results (вывод результатов). Если в предлагаемом программой списке выбрать Summary only (только итог), то программа выполнит все этапы пошагового анализа и только потом появится окно результатов. При выборе At each step (на каждом шаге) программа будет выводить результаты анализа на каждом шаге. После выбора стандартного метода (Standart) дискриминантного анализа откроется окно результатов (см. рис. 85). — 179 — Рис. 85. Результаты дискриминантного анализа (стандартный метод) Информационная часть окна сообщает, что: Number of variables in model (число переменных в модели) равно 2; значение лямбда Уилкса (Wilks Lambda) равно 0,31017; Wilks Lambda вычисляется как отношение детерминанта внутригрупповых дисперсий к детерминанту общей матрицы. Значения Wilks Lambda около нуля свидетельствуют о хорошей дискриминации, около 1 — о плохой дискриминации. Уровень значимости F-критерия меньше 0,05. Результаты по переменным, включенным в модель, даны на рис. 86. В первом столбце приведены значения Wilks Lambda по переменным. Чем больше значение Wilks Lambda, тем желательнее присутствие этой переменной в процедуре дискриминации. Значение Partial Lambda (частная лямбда) является отношением лямбда Уилкса после добавления соответствующей переменной к лямбде Уилкса до добавления этой переменной. Чем меньше частная лямбда, тем больше вклад переменной в общую дискриминацию. Длина крыла дает больший вклад в общую дискриминацию (частная лямбда = 0,68). — 180 — Рис. 86. Переменные, включенные в модель дискриминантного анализа F to remove (F-исключить) — это значения F-критерия, связанные с соответствующей частной лямбда Уилкса. Значения Р-level — это уровни значимости критериев F-remove. Толерантность = 1 – R², чем меньше толерантность, тем меньше дополнительной информации, тем избыточнее переменная в модели. Основа дискриминантного анализа — линейные функции (дискриминантные или классификационные функции), которые вычисляются для каждой группы и могут быть использованы для классификации наблюдений. Наблюдение приписывают той группе, для которой дискриминантная функция имеет наибольшее значение. Дикриминантная функция для самцов (пример 1): Самцы (1) = 16,634Длина крыла + 17,188Длина хвоста – – 927,775. Дикриминантная функция для самок (пример 1): Самки (2) = 15,121Длина крыла + 16,298Длина хвоста – – 810,790. Коэффициенты при переменных и свободные члены линейных функций находятся в разделе Функции классификации (Classification functions) во вкладке Классификация (окно результатов Discriminant Function Analysis) (см. рис. 87). — 181 — Рис. 87. Классификационные функции дискриминантного анализа В рамке A priori classification probabilites (априорные вероятности классификации) приведены различные опции для классификации наблюдений по группам: Proportional to group sizes (пропорциональные размерам групп); Same for all groups (одинаковые для всех групп); User defined (заданные пользователем). Если есть предварительные сведения о возможном количественном соотношении наблюдений в группах, то желательно выбрать опцию User defined, если таких сведений нет и число наблюдений в группах примерно одинаково, то надо выбрать Same for all groups, в противном случае — Same for all groups. В рамке Score to save for each case (сохранить для каждого наблюдения) приведены опции, при выборе которых можно сохранить тот или иной результат классификации: сохранить результаты классификации; сохранить расстояния; сохранить апостериорные вероятности. Расстояние между группой самцов и самок оценивается на основе квадрата расстояния Махаланобиса (Результаты анализа дискриминантных функций) = 8,006; F-статистика = 18,9; Р = 0,00. — 182 — Квадраты расстояний Махаланобиса до центров групп (самцы — G1; самки — G2) для каждого наблюдения даны на рис. 88. Меньшее из двух значений квадратов отклонений оценивает принадлежность к группе. Для наблюдения № 15 значение квадрата отклонения от центра группы самцов = 1,77; от центра группы самок = 2,24 (значения длины крыла и длины хвоста отклоняются от среднего значения самцов на меньшую величину). Апостериорная вероятность отнесения наблюдения № 15 к группе самцов составляет 0,55; к группе самок — 0,44 (см. рис. 89). Рис. 88. Квадраты расстояний Махаланобиса до центров групп Наблюдение приписывается той группе, для которой имеется наибольшая апостериорная вероятность классификации. На этом этапе удобно рассмотреть возможность классификации новых наблюдений. Для этого в таблицу исходных данных нужно добавить новое наблюдение: длина крыла 59, длина хвоста 47. — 183 — Рис. 89. Апостериорная вероятность отнесения наблюдений к классам Новое наблюдение с вероятностью 0,858 относится к группе самок (рис. 90). Расстояние нового наблюдения до центров групп минимально для группы самок = 2,46. Для группы самцов составляет 6,07 (рис. 91). Рис. 90. Определение апостериорной вероятности для нового наблюдения — 184 — Рис. 91. Определение расстояния Махаланобиса для нового наблюдения Если выделить вкладку Descriptives (раздел Модели дискриминантного анализа) и нажать на кнопку Review Descriptives Statistics, то программа предоставляет пользователю широкие возможности анализа описательных статистик исходных данных, которые можно использовать для проверки выполнения предположений применения параметрической дискриминации. Так, на вкладке Quick можно посмотреть объединенные внутригрупповые ковариации и корреляции (Pooled within-groups covariationces & correlations) и средние и число наблюдений (Means & number of cases). На вкладке Within можно посмотреть: внутригрупповые стандартные отклонения (within-groups standard deviations); категоризованные гистограммы по группам (categorized histogram by group); диаграммы размаха (box plot of means by group); категоризованные диаграммы рассеяния (categorized scatterplot by group); — 185 — категоризованный нормальный график по группам (categorized normal probability plot by group). Вкладка All cases предоставит следующие данные: полные ковариации и корреляции (total covariances & correlations); график полной корреляции (plot of total correlations); диаграмма размаха средних (box plot of means). Модуль Дискриминантный анализ (Discriminant Analysis) применяется, если распределение независимых переменных соответствует нормальному типу. При невыполнении условия применимости модуля Дискриминантный анализ (Discriminant Analysis) необходимо использовать модуль общие модели дискриминантного анализа GDA (General Discriminant Analysis Models). ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ Задание 1. Результаты орнитологического учета, проведенного в природном парке «Кондинские озера» (ХМАО, Советский район) представлены в таблице. Необходимо оценить сходство биотопов по численности видов птиц (особей/км²) и разделить биотопы на группы. Вид птиц Пеночка-теньковка Славка-завирушка Зеленая пеночка Глухарь Черный стриж Пестрый дятел Лесной конек Обыкновенная сорока Серая ворона Обыкновенный клест Местообитания (сосняки-беломошники) СбБ СбсП СбА СбюП Смв 9,34 50,77 14,53 1,38 1,05 3,67 19,49 6,75 0,20 0,87 5,98 30,06 13,05 12,16 20,56 5,46 34,65 2,07 18,17 0,37 0,29 16,67 2,07 8,9 1,73 0,29 3,22 0,02 0,29 2,6 6,28 1,11 3,02 1,26 3,33 0,28 0,56 14,84 3,56 27,04 0,57 5,11 9,33 21,29 20,77 2,22 0,15 4,65 30,77 0,74 — 186 — Задание 2. В исследовании вида уток (чирок-свистунок) фиксировались их метрические данные и половая принадлежность: 1 — самец, 2 — самка. Последний признак у ряда особей не удалось определить (значение 0 в столбце пол). Найдите классифицирующую функцию, по которой можно было бы установить пол. № п\п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Крыло 25,6 25,1 24,8 25,9 25,8 24,8 25,6 25,3 25,5 24,2 25 24,7 24,3 25,1 24,7 25,5 25,7 25,9 25,1 24,7 25,3 26,1 26 24,8 25,6 Голова 9,5 9,6 9,4 9,3 9,6 9,4 9,6 9,4 9,9 8,6 9,3 9,3 9,7 9,3 8,9 9,4 9,7 9,7 9,4 8,6 8,8 9,3 9,4 8,4 8,8 Клюв 4,2 3,8 3,8 3,9 4,5 4,4 4,1 4,4 4 3,9 3,9 3,8 4 3,9 3,8 4,1 3,9 4 4,6 3,9 3,9 3,8 3,9 4 4,2 — 187 — Лапы 14,6 14,5 15 15,5 15,6 14,7 14,5 15,4 15,1 13,6 15,1 14,5 13,9 15,2 15,1 15,2 13,8 15,6 14,9 13,9 14,3 15 14,3 14,4 15 Вес 380 355 355 375 360 355 356 360 330 350 338 335 310 332 340 333 323 325 325 345 340 327 316 336 330 Пол 0 0 1 0 2 1 0 2 2 1 2 0 2 2 2 0 2 2 0 1 1 1 0 1 2 Окончание табл. № п\п 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Крыло 24,6 25,1 25,1 24,9 25,3 24,7 24,7 25,4 25,7 23,8 24,8 25,3 24,9 25,9 25 26 25 25,7 24,8 25,3 Голова 8,4 8,6 8,3 8,9 8,4 9,3 8,2 8,6 8,6 8,4 8,8 8,4 8,6 8,3 8,2 8,5 8,4 8,4 8 8,2 Клюв 4 3,8 3,9 3,8 3,8 4 3,7 4 3,9 3,7 3,9 4,1 3,8 3,8 3,8 3,7 3,8 3,9 3,6 3,6 Лапы 14,8 14,4 14,5 14,6 13,9 15,4 14,3 13,8 13,8 14,1 14,3 14,3 14 13,8 13,3 13,7 13,3 14,8 13,2 13,3 Вес 330 329 338 314 335 285 320 310 315 300 290 305 292 317 305 300 290 300 294 292 Пол 2 0 1 0 1 0 1 1 2 1 0 1 1 0 1 2 1 1 0 1 Задание 3. В исследовании куньих (куница и соболь) фиксировались их метрические данные: количество хвостовых позвонков (с), ширина барабанной камеры (Ш), длина барабанной камеры (Д), расстояние между барабанными камерами (Р), отношение ширины к длине камеры (Ш/Д), отношение расстояния между барабанными камерами к длине барабанной камеры (Р/Д) и принадлежность к подвиду: ТК — типичная куница, ТС — типичный соболь, АК — атипичная куница, АС — атипичный соболь. Последний признак у ряда особей не удалось определить (значение 0 в столбце подвид). — 188 — Найдите классифицирующую функцию, по которой можно было бы установить подвид. № п/п 1 2 3 4 5 6 7 8 9 10 11 с 16 15 16 13 15 16 14 16 14 15 14 Ш 13,2 13,5 12,8 13,8 14 14,3 13,2 13,4 14,4 14 13,5 Д 19,3 19,5 20 18,8 19,9 18,7 19,8 17,8 19,8 18,1 18,7 Р 8,2 8,2 9,5 7,4 9,5 8,6 7,9 8,3 8,3 9,5 9,3 Ш/Д 0,68 0,69 0,64 0,73 0,70 0,76 0,67 0,75 0,73 0,77 0,72 Р/Д 0,42 0,42 0,48 0,39 0,49 0,46 0,40 0,47 0,42 0,52 0,50 Подвид АК ТС АК АС ТС АК АС АК ТС 0 0 КОНТРОЛЬНЫЕ ВОПРОСЫ 1. Объясните применение в биологии кластерного анализа. 2. Объясните разницу между дисперсионным, корреляционным, регрессионным и кластерным анализом. 3. Составьте план проведения кластерного анализа ваших экспериментальных данных. 4. Докажите целесообразность проведения кластерного анализа при обработке ваших экспериментальных данных. 5. Объясните применение в биологии дискриминантного анализа. 6. Определите разницу между кластерным и дискриминантным анализом. 7. Составьте план проведения дискриминантного анализа ваших экспериментальных данных. 8. Объясните порядок составления дискриминантных (классификационных) уравнений. — 189 — ЗАКЛЮЧЕНИЕ В связи с широким применением компьютерных технологий в сборе и обработке данных биологам и экологам необходимо владение современными программами анализа. Алгоритм анализа данных с помощью пакета STATICTICA 10 в учебном пособии рассмотрен на основе экспериментальных данных кафедры зоологии и эволюционной экологии и кафедры генетики Института биологии ТюмГУ, а также файлов данных из встроенной в программу библиотеки Examples. Изложенный материал позволит корректно применять биологам и экологам статистические методы при проведении анализа результатов полевых и лабораторных исследований. Интересных массивов данных, гипотез и открытий вам, уважаемые читатели! — 190 — ПЕРЕЧЕНЬ МАТЕМАТИКО-СТАТИСТИЧЕСКИХ ТАБЛИЦ № Страница 1 16 2 16 3 19 4 24 5 29 6 33 7 35 8 38 9 41 10 47 11 49 Наименование Область применения Критические значения коэффициента асимметрии Критические значения коэффициента эксцесса Критические значения критерия Граббса Значение интеграла вероятностей для разных значений нормированного отклонения 2-распределение. Критические точки для разных значений вероятностей и чисел степеней свободы Значения первой функции нормального распределения Объем выборки и число классов Коэффициенты критерия Шапиро–Уилка Критические значения критерия Шапиро–Уилка Стандартные значения критерия Фишера (дисперсионное отношение Фишера) Определение типа распределения Определение типа распределения Робастная оценка Оценка генеральных параметров Оценка генеральных параметров Вычисление теоретических частот Определение типа распределения Определение типа распределения Определение типа распределения Проверка гипотезы о равенстве дисперсий двух выборок Оценка достоверности разСтандартные значения криности между средними вытерия Стьюдента (критерия борок нормального распредостоверности разности) деления — 191 — Продолжение табл. № Страница Наименование 12 61 Критические значения сериального критерия Вальда–Вольфовица 13 67 Номинальные значения для сравнения групп 14 75 Стандартная таблица однофакторного дисперсионного анализа 15 77 Показатели для сравнения групп 16 79 17 82 18 86 19 90 20 99 21 100 22 103 23 108 Стандартная таблица многофакторного дисперсионного анализа Стандартная таблица многофакторного дисперсионного анализа Стандартная таблица дисперсионного анализа с повторными измерениями признаков Стандартные значения критерия соответствия Оценка времен жизни Оценка соответствия распределению Вейбулла Оценка выживаемости на основе метода Каплана– Мейера Результаты сравнения выживаемости в 2-х группах — 192 — Область применения Оценка достоверности различий между выборками, не отвечающими нормальному типу Оценка достоверности разности между зависимыми группами Оценка доли влияния фактора на величину изменчивости признака Оценка доли влияния фактора на величину изменчивости признака Оценка доли влияния факторов на величину изменчивости признака Оценка доли влияния факторов на величину изменчивости признака Оценка доли влияния факторов, взаимодействий факторов на величину изменчивости признака Оценка эмпирического и теоретического распределений Анализ времен отказов Анализ времен отказов Анализ времен отказов Анализ времен отказов Окончание табл. № Страница 24 113 25 123 26 124 27 129 28 130 29 133 30 135 31 141 32 150 33 153 34 155 35 160 36 161 37 167 38 178 Наименование Критические значения коэффициента корреляции Результаты выделения главных компонент Факторные нагрузки Результаты регрессионного анализа Показатели оценки коэффициентов регрессии Расчет коэффициента корреляции Спирмена Критические значения ранговой корреляции Спирмена Частоты номинальных признаков Показатели временного ряда Автокорреляционная функция после преобразования Автокорреляционная функция после преобразований Автокорреляционная функция после преобразований Результаты оценки параметров модели АРПСС Результаты оценки составляющих временного ряда Показатели для дискриминантного анализа — 193 — Область применения Оценка достоверности корреляции Пирсона Оценка объясненной дисперсии Оценка координатной системы факторов Оценка регрессионных коэффициентов Оценка регрессионных коэффициентов Оценка величины непараметрической связи Оценка достоверности величины непараметрической корреляции Оценка факторных взаимодействий на основе логлинейного анализа Анализ временных рядов Анализ временных рядов Анализ временных рядов Анализ временных рядов Анализ временных рядов Анализ временных рядов Дискриминантный анализ СЛОВАРЬ ТЕРМИНОВ Анализ дискриминантный — метод многомерной статистики для дифференциации биологических объектов и явлений. Анализ дисперсионный — метод оценки доли влияния факторов на изменчивость признака. Анализ регрессионный линейный — метод оценки изменений зависимой переменной в зависимости от изменения одной независимой переменной. Анализ регрессионный множественный — метод оценки изменения зависимой переменной в зависимости от нескольких линейных переменных. Анализ регрессионный нелинейный — метод оценки изменения зависимой переменной в зависимости от изменения нескольких независимых линейных и нелинейных переменных. Анализ регрессионный пошаговый — метод оценки изменений зависимой переменной с включением и выключением нескольких независимых переменных на каждом шаге вычислительного процесса. Аппроксимация — приближенное выражение каких-либо величин через другие более простые величины. Асимметрия — нарушение нормального распределения, накопление частот в правой или левой части вариационного ряда. Биномиальное распределение — разделение исследуемой совокупности на несколько субвыборок (бинов, интервалов). Частоты в каждой субвыборке определяют на основе закона биномиального распределения. Биометрия — наука о способах применения математических методов в биологии. Варианта — величина признака у отдельной особи. Вариационный ряд — двойной ряд чисел, состоящий из классов и частот. Вариация — изменение признака. Вероятность — мера возможности случайного события. — 194 — Выборочная совокупность (выборка) — часть вариант генеральной совокупности. Выборочные характеристики — числовые показатели, характеризующие выборку. Генеральная совокупность — совокупность, которая включает значения всех объектов, соответствующих условиям ее формирования. Генеральные параметры — числовые показатели, характеризующие генеральную совокупность. Градации — подразделения факторов в дисперсионном комплексе. Дисперсия — усредненная сумма квадратов отклонений каждой варианты от среднего арифметического. Доверительная вероятность — вероятность, признанная достаточной для суждения о генеральных параметрах на основании известных выборочных показателей. В качестве доверительных вероятностей в биологии используют: Р = 0,95, Р = 0,99, Р = 0,999. Они означают, что при оценке генеральных параметров по известным выборочным показателям подтверждение будет наблюдаться в 95 случаях из 100 испытаний, в 99 случаях из 100 испытаний, в 999 случаях из 1000 испытаний в генеральной совокупности. Доверительные интервалы — значения, в пределах которых с заданной доверительной вероятностью находится значение генерального параметра. Достоверность — уверенность, с которой судят о генеральных параметрах на основании выборочных показателей. Измерение — определение степени выраженности признака. Интерполяция — прогнозирование значений на основе регрессионного анализа. Квартили — варианты, которые отделяют определенную часть вариационного ряда. Корреляция — взаимная связь между варьирующими признаками. Корреляция Пирсона — связь между варьирующими признаками при линейном типе зависимости. — 195 — Корреляция Спирмена — связь между варьирующими признаками при нелинейном типе зависимости. Критерий: Достоверности — показатель, характеризующий достоверность выборочных характеристик. Колмогорова-Смирнова — величина, оценивающая разность между эмпирическим и теоретическим распределениями в области наибольших частот. Омега-квадрат — величина, оценивающая разность между эмпирическим и теоретическим распределениями на всем интервале выборочных значений. Стьюдента — показатель, используемый при сравнении средних нормальных парных распределений. Фишера — отношение выборочных дисперсий. Хи-квадрат (согласия) — величина, оценивающая разность между эмпирическим и теоретическим распределениями на всем интервале выборочных значений. Лимиты — максимальное и минимальное значения изучаемых совокупностей. Линейка кнопок — третья линейка инструментальных кнопок для чтения, записи содержимого активной страницы; операции с буфером выдачи содержимого активной страницы на печать, изменение шрифта активной страницы. Линейка подсказки — линейка оперативной подсказки к пунктам и полям ввода различных меню. Математическая статистика — раздел математики, разрабатывающий методы систематизации, обработки и использования статистических данных. Медиана — варианта, которая делит выборку пополам. Мода — наиболее часто встречающаяся варианта в совокупности. Непараметрические тесты — методы вычисления показателей, характеризующих выборки, которые не имеют нормального распределения, малого объема с ранговыми значениями. Номинальные величины — нечисловые величины. — 196 — Нормированное отклонение — отклонение отдельной варианты от среднего арифметического, выраженное в сигмах. Нулевая гипотеза — статистическая гипотеза, предполагающая отсутствие разницы между фактическими и ожидаемыми данными. Описательные статистики — показатели, используемые для характеристики совокупности. Ошибки организационные — методические ошибки точности, ошибки внимания. Параметрические тесты — методы вычисления показателей, характеризующих выборки; оценки достоверности разности между средними величинами и дисперсиями выборок, имеющих нормальное распределение. Переменные величины — числовые показатели, которые могут быть упорядочены, с которыми можно производить различные вычисления. Ранг — порядковый номер упорядоченных значений совокупности. Рандоминизированность — случайный отбор вариант из генеральной совокупности. Распределение — разделение вариант по классам. Регрессия — изменение одного признака в зависимости от изменений другого признака. Репрезентативность — правильная представимость в выборке пропорций генеральной совокупности. Среднее арифметическое — величина, характеризующая средний уровень признака. Среднее квадратическое отклонение — величина, показывающая, насколько в среднем каждая варианта отклоняется от средней арифметической. Статистики Стьюдента — показатель, используемый при сравнении средних нормально распределяющихся непарных выборок. — 197 — Статистическая ошибка (ошибка репрезентативности) — величина отклонения выборочного показателя от его генерального параметра. Статистическая совокупность — множество однородных, но индивидуально различающихся единиц наблюдения, объединенных для совместного изучения. Статистический комплекс — система разнородных групп, объединенных для совместного изучения. Степени свободы — числа, показывающие количество свободно варьирующих элементов или членов статистической совокупности. Ранговая корреляция — связь, оцениваемая при нелинейной зависимости между признаками. Ранговые величины — величины, имеющие определенный ранг. Распределение теоретическое — разделение вариант совокупности по классам на основании проведенных расчетов. Распределение эмпирическое — разделение вариант совокупности по классам на основании значений, полученных в результате эксперимента. Результативный признак — признак, изменяющийся под влиянием тех или иных причин. Транспонирование — перевод значений, расположенных в столбцах, в строки, в строках — в столбцы. Уровни значимости — вероятности ошибочных заключений, которыми в данных условиях можно пренебречь: Р = 0,05, Р = 0,01, Р = 0,001. Факторы — причины, вызывающие изменение результативного признака. Функциональная зависимость — зависимость, при которой изменениям одного признака соответствуют определенные изменения другого признака. Частоты — число вариант в классах вариационного ряда. Эксцесс — нарушение нормального распределения, накопление в классах, близких к среднему значению (положительный экс— 198 — цесс), в классах, близких к крайним значениям (отрицательный эксцесс). Электронная таблица — рабочее пространство экрана, предназначенное для ввода, хранения, просмотра, редактирования исходных данных. Столбцы электронной таблицы соответствуют переменным, строки — измерениям. Эмпирическая кривая — кривая, построенная на основании вариационного ряда, поставленного по экспериментальным данным. — 199 — СПИСОК ЛИТЕРАТУРЫ 1. Бейли Н. Математика в биологии и медицине. М., 1970. 269 с. 2. Бетляева Ф. Х. Биометрическая обработка данных на основе программы STADIA. Самара, 2008. 130 с. 3. Бетляева Ф. Х., Лупинос М. Ю., Гашев С. Н. Биометрическая обработка данных на основе компьютерной программы STATISTICA. Тюмень, 2011. 104 c. 4. Бетляева Ф. Х., Лупинос М. Ю., Гашев С. Н. Прикладные методы анализа в системе STATISTICA. Тюмень, 2012. 80 c. 5. Боровиков В. П. Искусство анализа данных на компьютере. СПб., 2001. 656 с. 6. Боровиков В. П. Популярное введение в современный анализ в системе STATISTICA. М., 2013. 608 с. 7. Гашев С. Н. Статистический анализ для биологов. Тюмень, 1998. 51 с. 8. Гашев С. Н., Беспоместных Г. Н. Математические и информационные методы в биологии. Тюмень, 2005. 69 с. 9. Гельман В. Я. Медицинская информатика. СПб., 2002. 480 с. 10. Кобзарь А. И. Современные методы в математике. М., 2006. 816 с. 11. Кулаичев А. П. Методы и средства комплексного анализа данных. М., 2006. 512 с. 12. Лакин Г. Ф. Биометрия. М., 1990. 352 с. 13. Любищев А. А. Дисперсионный анализ в биологии. М., 1986. 223 с. 14. Петри А., Сэбин К. Наглядная статистика в медицине. М., 2003. 139 с. 15. Плохинский Н. А. Биометрия. М., 1970. 366 с. 16. Пузаченко Ю. Г. Математические методы в экологических и географических исследованиях. М., 2004. 416 с. 17. Селюков А. Г., Селюкова Г. П. Биологическая статистика. Тюмень, 1994. 24 с. 18. Тюрин Ю. Н. Анализ данных на компьютере. М., 2003. 544 с. 19. Фролов Ю. П. Математические методы в биологии. Самара, 1996. 265 с. 20. Халафян А. А. STATISTICA 6. Статистический анализ данных. М., 2010. 528 с. 21. StatSoft, Inc. (2001). Электронный учебник по статистике. Москва, StatSoft. WEB: http://www.statsoft.ru/home/textbook/default.htm — 200 — ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ А Анализ дискриминантный 7, 177, 178, 179, 180-182, 186, 187, 190, 195 дисперсионный 5, 64, 65, 70-80, 82, 83, 86, 94, 126, 147, 176, 177, 193, 195, 201 кластерный 7, 170-172, 177, 178, 190 корреляционный 126, 147, 177 регрессионный линейный простой 125 регрессионный множественный 5, 125, 131, 147, 195 регрессионный нелинейный 195 Аппроксимация 195 Априорная вероятность 182, 183 Асимметрия 15, 31, 195 Б База данных 10 Буфер обмена 9 В Варианта 13-15, 75, 79, 82, 88, 195-199 Вариационный ряд 33, 60, 195, 196, 199, 200 Вероятность 6, 21, 23-26, 28, 32, 36, 37, 40, 43-46, 49, 98, 100, 101, 103, 111, 131, 139, 183-185, 192, 195, 196, 199 Взвешенное попарное сравнение 171 Вилкоксон для парных данных 58, 64, 65 Винсоризованное среднее 18, 19 Временные ряды 2, 7, 148, 149, 151, 152, 156, 164-169, 194 Выборки 6, 8, 14-19, 21, 22, 30, 31, 35, 36, 48-61, 63-65, 69, 71, 75, 78, 81, 85, 88, 92, 96, 104, 131, 134, 192, 193, 196-198 Выборочные характеристики 8, 20-22, 31, 192 Выбросы 18-20, 121, 157, 159, 166 — 201 — Г Генеральная совокупность 6, 8, 20-22, 46, 50, 52, 53, 58, 60, 61, 63, 113, 134, 196, 198 Генеральные параметры 8, 9, 20-23, 25, 28, 31, 46, 47, 50, 192, 196 Гипотеза альтернативная 46, 61, 63 нулевая 35, 36, 40, 43, 44, 46, 50, 53, 57, 60, 63, 71, 72, 75, 76, 79, 81, 82, 87, 89, 113, 134, 139, 198 Гистограмма 35, 37, 43, 54, 69, 186 Графики рассеяния 114, 133, 185 Д Данные количественные 112 номинальные 112, 118 пропущенные 10, 174 Диалоговое окно 12, 60, 74, 78, 80, 83, 96, 102, 105, 122, 126, 127, 142, 158, 159, 173, 179 Дивизивный метод 171 Дискриминантные функции 180 Дисперсионный анализ двухфакторный 70, 91, 93 при повторных измерениях 72, 83, 84, 86 однофакторный параметрический 70, 72, 74, 75, 79, 82, 176 Дисперсионный комплекс 71, 77, 80, 83, 94, 196 Дисперсия 14, 20-22, 26-28, 30, 31, 36, 40, 43, 46-48, 50, 51, 53, 55, 57, 75, 76, 78-83, 85-87, 117, 119, 121-123, 152, 171, 176, 181, 192, 194, 196-198 Доверительная вероятность 9, 23, 25-28, 31, 196 Доверительный интервал 21, 23, 25-27, 30, 31, 126, 162, 196 Достоверность 51, 52, 54, 56, 57, 70, 72, 88, 92, 112, 114, 192194, 196-198 — 202 — З Значение лямбда Уилкса 181 частная лямбда 181 И Импорт файлов 9, 10 Интерфейс анализа 73 К Квадрат Евклидова расстояния 170, 175 Квадрат расстояния Махаланобиса 183, 184 Квартили 17, 18, 30, 31, 196 Корреляция множественная 116, 117, 128, 130, 180 непараметрическая 194 параметрическая 112, 115 Коэффициент асимметрии 15, 16, 30, 31, 35, 37, 40, 43-45, 71, 76, 192 вариации 14, 23 гамма 58, 100, 132, 134, 135 детерминации 116, 128, 130 множественной корреляции 116, 117, 128, 130, 180 тау Кендалла 58, 134, 140 уравнения регрессии 125, 129-131 Критерий Вальда–Вольфовица 58-61, 69, 193 Вилкоксона 58, 64, 65, 104, 107, 109, 111 достоверности 21, 22, 49, 51-54, 69, 192 знаков 58, 64, 65 Колмогорова–Смирнова 36, 37, 40, 43, 44, 51, 54, 58, 59, 63, 64, 69, 72, 76 Кохрена 58, 66, 67, 71 Краскела–Уоллиса 58, 64, 87-89 Манна–Уитни 58, 59, 61, 63, 69 — 203 — омега-квадрат 45, 197 Пирсона 139, 140, 145, 146 Стьюдента 46, 48-51, 54, 55, 69, 116, 192, 197 Фишера 46, 47, 50, 51, 53-55, 57, 69, 72, 75, 76, 78, 79, 81, 82, 85-87, 94, 139, 192, 197 Фридмана 58, 65, 87, 91, 92 хи-квадрат 27, 45, 58, 89, 139, 140, 145, 146, 192, 197 хи-квадрат Макнемара 58, 66, 137 Шапиро–Уилка 36-38, 40, 41, 43-45, 51, 54, 72, 76, 192 Критическое значение коэффициента асимметрии 16, 35, 192 коэффициента корреляции 112, 113, 194 хи-квадрат 27 коэффициента эксцесса 16, 35, 192 Кросстабуляция 136, 137 М Манхэттенское расстояние 170 Медиана 14, 18, 30, 31, 89, 98, 151, 197 Медианный тест 58, 64, 87-90 Метод Уорда 171 Метрика Евклидова 170 Многомерные методы дискриминантный 7, 177-182, 186, 187, 189, 190, 195 кластерный 7, 170-172, 177, 178, 189, 190 факторный 7, 117-120, 122 Мода 14, 30, 31, 197 Н Непараметрические критерии 3, 58, 59, 88, 91, 196 Номинальные величины 4, 136, 197 Нормальное распределение 6, 15, 18, 31, 32, 35-37, 40, 41, 43-46, 51, 54, 68, 69, 71, 87, 104, 112, 162, 192, 195, 197-199 Нормированное отклонение 23, 26-28, 33, 192, 198 — 204 — Нулевая гипотеза 35, 36, 40, 43, 44, 46, 50, 53, 57, 60, 63, 71, 72, 75, 76, 79, 81, 82, 87, 89, 113, 134, 139, 198 О Описательная статистика 9, 12, 30, 31, 35, 51, 54, 69, 186, 198 Ошибка репрезентативности 15, 21-23, 26, 27, 31, 198 П Параметрические тесты 198 Переменные количественные 5, 70, 174 номинальные 5, 66, 137 парные 49, 121, 138 ранговые 5, 6 Показатель точности 21-23 Проверка нормальности 3, 32, 35, 36, 45 Прогнозирование 2, 4, 148, 149, 164, 196 Пропущенное значение 10 Процентиль 17, 18 Р Рандоминизация 8, 71, 197 Распределение асимметричное 87 биномиальное 32, 195 нормальное 6, 15, 18, 31, 32, 35-37, 41, 43, 45, 46, 51, 54, 68, 69, 71, 72, 79, 82, 86, 87, 104, 112, 131, 192, 195, 197, 198 теоретическое 193, 197, 199 эксцессивное 104 эмпирическое 3, 32, 35, 37, 100, 111, 193, 197, 199 Расстояние Минковского 170 Расстояние Чебышева 170 Регрессионное уравнение 131 — 205 — Регрессия линейная 125, 129 множественная 5, 125, 131 Репрезентативность 8, 15, 21-23, 26, 27, 197 Робастная оценка 3, 18, 19, 192 С Сервер 9, 10 Среднее арифметическое 13-15, 18, 19, 21-23, 30, 31, 33, 36, 43, 44, 46, 47, 51-58, 68-72, 76, 77, 79, 80, 82, 83, 86, 87, 151, 196, 198 Среднее квадратическое отклонение 13, 14, 18-22, 30, 31, 33, 40, 43, 44, 198 Статистика Спирмена 58, 132, 196 Стьюдента 48, 53, 58, 69, 112, 113, 199 Степени свободы 46, 100, 113, 199 Т Таблица данных 5, 112, 114, 133, 137, 184 Точечные оценки параметров 3, 8, 9, 12, 20 У Уровень значимости 16, 19, 27, 28, 31, 36, 41, 43, 45, 46, 48-50, 61, 63, 65, 68, 71, 72, 75, 76, 78, 79, 81, 82, 85, 86, 89, 92, 100, 107, 113, 116, 128-131, 134, 135, 153, 155, 160, 181, 199 Ф Файлы данных 7, 102, 131, 190 Фишера критерии 46, 47, 50, 51, 53-55, 57, 69, 72, 75, 76, 78, 79, 81, 82, 85-87, 94, 139, 192, 197 Функциональная зависимость 121, 199 — 206 — Х Хи-квадрат распределение 29, 191 критерий 45, 89, 90, 145, 146, 192, 196 Ч Частоты теоретические 32, 33, 35, 45, 89, 192 эмпирические 37, 43, 45 Число степеней свободы 45, 46, 48, 49, 53, 55, 57, 58, 75, 79, 82, 86, 90, 112, 116, 128, 131, 134, 192 Э Эксцесс 15, 31, 35, 87, 199, 200 Электронная таблица 9-12, 114, 200 Эмпирическое распределение 3, 32, 37, 196, 198 — 207 — Учебное издание Сергей Николаевич ГАШЕВ Фания Халитовна БЕТЛЯЕВА Мария Юрьевна ЛУПИНОС МАТЕМАТИЧЕСКИЕ МЕТОДЫ В БИОЛОГИИ: АНАЛИЗ БИОЛОГИЧЕСКИХ ДАННЫХ В СИСТЕМЕ STATISTICA Учебное пособие Редактор Технический редактор Компьютерная верстка Компьютерный дизайн обложки Печать электрографическая Печать офсетная Л. А. Шмакова Н. Г. Яковенко С. Ф. Обрядова Е. Г. Шмакова А. В. Башкиров, С. Г. Выходцева В. В. Торопов, С. Г. Наумов Подписано в печать 22.08.2014. Тираж 500 экз. Объем 13,0 усл. п. л. Формат 6084/16. Заказ 733. Издательство Тюменского государственного университета 625003, г. Тюмень, ул. Семакова, 10 Тел./факс: (3452) 45-56-60, 46-27-32 E-mail: izdatelstvo@utmn.ru — 208 —