Статистическая обработка результатов исследовательской работы Семинар для педагогов и обучающихся Алексанов Виктор Валентинович ecokonkurs@list.ru План • О возможности и необходимости статистической обработки результатов (на примере проектов регионального этапа олимпиады по экологии и конкурсов исследовательских работ 2015 г.) • Статистические методы и дизайн исследования • Важнейшие методы статистической обработки результатов • Компьютерные программы для статистической обработки Структура исследовательской работы Выполнение исследования Задача 1 Задача 2 Задача 3 Гипотеза Цель Тема статистическая гипотеза Вывод 1 Вывод 2 Вывод 3 Оценка гипотезы статистический тест Новая тема 3 Математическая статистика необходима для оценки вероятности того, что суждение истинно Истинные суждения Вероятностные суждения • Площадь квадрата равна квадрату длины его стороны (функциональная связь) • Свинец тяжелее меди • Численность населения Калуги больше, чем численность населения Обнинска • В лесу Х растет дерево вида У • Число видов птиц связано степенной зависимостью с площадью острова • Растения, выросшие в загрязненной свинцом почве, имеют меньшие размеры • Дерево вида У более характерно для лесов типа Х, чем для лесов типа А Результат статистической обработки – оценка статистической значимости • • • • • • • Significance Исследователь работает с выборкой, но желает распространить результаты на генеральную совокупность Вероятность события – P (probability) При статистической обработке вычисляется Р для нулевой гипотезы Нулевая гипотеза – утверждение, противоречащее выдвинутой научной гипотезе. Гипотеза о случайности события или об отсутствии эффекта. Чем меньше значение P, тем больше оснований для отклонения нулевой гипотезы Уровень значимости – P, Sig. Общепринятый критический уровень значимости P<0,05 Эксперимент • Активный • Контролируемый • manipulative • Пассивный • Измерительный • mesurative Метод познания, при помощи которого в контролируемых или управляемых условиях исследуются явления действительности с целью проверки гипотез, выдвинутых до начала эксперимента Состав экологических проектов на региональном этапе олимпиады по экологии 2015-2016 года по характеру исследования практический проект 6% описание / мониторинг 50% активный эксперимент 22% измерительный эксперимент 22% Распределение проектов на региональном этапе олимпиады по экологии 2015-2016 года по применению статистической обрбаотки применена не в полном объеме требуется, но не применена не требуется 2 5 26 Примеры тем работ, требующих статистической обработки • Выживаемость и поведенческие реакции ракообразных Daphnia magna при различных концентрациях солей кадмия • Закономерности биологического действия ионов кадмия на выживаемость микроводоросли Chlorella Vulgaris • Влияние солей меди на выживаемость и физиологические показатели дафний (Daphnia magna) • Раздельное и сочетанное действие солей свинца и стимуляторов роста на морфометрические и биохимические показатели ячменя посевного • Исследование относительного загрязнения воздуха в микрорайоне школы методом лихеноиндикации • Влияние комнатных растений на окружающую среду помещения и здоровье человека Математическая статистика для биологии Планирование исследования • Экспериментальные единицы (experimental unit) • Измеряемые единицы (Evaluation unit) • Повторности • Выборка • Генеральная совокупность • Репрезентативность • Измеряемые признаки Обработка результатов • Проверка статистических гипотез / Оценка статистической значимости различий • Построение моделей • Поиск смысла в данных Сколько повторностей? Шкалы измерений переменных • Интервальная • Порядковая • Номинальная (категориальная) Методы статистической обработки Параметрические Непараметрические • Измерения в интервальной • Условия применения шкале параметрических методов не соблюдаются • Распределение не отклоняется от нормального • Тест Стьюдента • Дисперсионный анализ Нормальное распределение Два параметра: среднее арифметическое и дисперсия (из дисперсии – стандартное отклонение, стандартная ошибка) 2 ( xi x ) 2 n 1 Проверка нормальности распределения программа Past Проверка нормальности распределения В некоторых случаях распределение может быть приведено к нормальному посредством логарифмирования программа STATISTICA Распределение не может быть приведено к нормальному 90 80 Frequency 70 60 50 40 30 20 10 0 2 3 4 5 6 7 8 длина клещей, мм 9 10 11 Дисперсионный анализ (ANOVA) – оценивает влияние градаций фактора на измеряемую переменную. Сравнивает изменчивость признака внутри групп и между группами Дисперсионный анализ в программе Past Влияние концентрации соли меди на частоту сердцебиения дафнии (Герасимова В., Средняя школа № 11 г. Обнинск) Результаты дисперсионного анализа и множественных сравнений Влияние фактора будет значимым, если хотя бы в одной паре сравниваемых групп различие значимо. Множественные сравнения групп Результаты непараметрического аналога дисперсионного анализа Тест Краскала - Уоллиса Непараметрические критерии обладают меньшей мощностью Результаты дисперсионного анализа в программе STATISTICA Множественные сравнения в STATISTICA Представление результатов эксперимента для статистической обработки Результаты статистической обработки для помещение=кабинет биологии Статистическая обработка в MS Excel. Включаем пакет анализа Группируем данные по столбцам в соответствии с градациями фактора Результаты дисперсионного анализа Представление результатов и их статистическая обработка Дата измерения Средняя высота растений, см 2 вариант 3 вариант 4 вариант 1 вариант 6 апреля 2.5 3 3 3 3 20 апреля 2,5 2,8 3 2,5 2,5 5 мая 6,5 7 8 6,5 6,5 13 мая 7 9 9 7 8 25 мая 7,5 11 12 8,5 11 5 вариант Динамика высоты рассады астры однолетней 12 10 06.апр 8 20.апр 6 05.май 4 13.май 25.май 2 0 вариант 1 вариант 2 вариант 3 вариант 4 вариант 5 30 Визуализация результатов статистической обработки Полосу погрешностей следует расшифровать Дивеев И., средняя школа № 11 г. Обнинск Точечные диаграммы – более экономный способ визуализации 70 65 60 55 50 45 40 число видов 35 30 25 20 двор сад луг город лес бер шир ольх вне города Вертикальные линии – 0,95 доверительный интервал Boxplot – компактный вариант представления данных, не имеющих нормального распределения В программе Past квартиль медиана минимум Процент выполнения заданий олимпиады по экологии В программе STATISTICA В программе R Корреляция линейная и нелинейная Коэффициент корреляции Пирсона Коэффициент корреляции Спирмена более универсален Вычисления коэффициентов корреляции в программе Past http://folk.uio.no/ohammer/past Регрессионный анализ в пакете STATISTICA Модель линейной регрессии в программе Past Статистические программы с графическим пользовательским интерфейсом. STATISTICA R - программная среда со строковым командным интерфейсом Пример скрипта для проведения кластерного и последующего дисперсионного анализа > setwd("D:/Данные/R analyse/R mezoph") > data<-read.csv2("data12.csv", row.names=1) > View(data) > attach(data) > library("vegan") > dis<-vegdist(data, method="jaccard", binary=FALSE) > hcl1<-hclust (dis, method="complete") > plot(hcl1) Нажмите <Ввод>, чтобы увидеть следующий график:rect.hclust(hcl1, 4) > ncl<-cutree(hcl1, 4) > summary(aov(as.matrix(data)~ncl, data)) Response Lumbricidae : Df Sum Sq Mean Sq F value Pr(>F) ncl 1 83.182 83.182 11.653 0.001758 ** Residuals 32 228.428 7.138 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Стандартные рисунки в среде R для кластерного анализа The R Project for Statistical Computing http://www.r-project.org/ Литература • Гланц С. Медико-биологическая статистика / пер. с англ. – М.: Практика, 1998. – 459 с. http://statosphere.ru/booksarch/multistat/120-glantz-medbiolstatistics.html • Ивантэр Э.В., Коросов А.В. Введение в количественную биологию. Петрозаводск, 2011. • Козлов М.В. Планирование экологических исследований: теория и практические рекомендации. М., 2015 • Волкова П.А., Шипунов А.Б. Статистическая обработка данных в учебно-исследовательских работах. М., 2008. http://herba.msu.ru/shipunov/software/r/cbook.pdf • Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованиемR. -Тольятти: «Кассандра», 2013.