Лекция 6 Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Статистическая гипотеза Любое утверждение о виде или свойствах закона распределения наблюдаемых случайных величин Всякий раз предполагаем, что у нас имеются две взаимоисключающие гипотезы: основная и альтернативная 2 2 Нулевой (основной) гипотезой - H0 называют какое-либо конкретное предположение о теоретической функции распределения или предположение, влекущее за собой важные практические последствия Альтернативная гипотеза H1 - любая гипотеза, исключающая нулевую 3 3 Задача проверки статистической гипотезы состоит в том, чтобы, используя статистические данные (выборку) X1, X2, …, Xn, принять или отклонить нулевую гипотезу 4 4 Нулевые и альтернативные гипотезы формулируются как утверждение о принадлежности функций распределения некоторой случайной величины определенному классу распределений , , 0 0 1 1 0 1 HF ; HF 0: x 0 1: x 1 5 5 Гипотеза называется простой, если соответствующий класс распределений содержит лишь одно распределение, в противном случае гипотеза будет сложной. Гипотезы о параметрах распределений называются параметрическими 6 6 Статистикой критерия называется функция от выборки TX значение которой для заданной выборки служит основанием принятия или отклонения основной гипотезы 7 7 Статистический критерий - правило, позволяющее только по результатам наблюдений X1, X2, …, Xn принять или отклонить нулевую гипотезу H0 8 8 Каждому критерию отвечает разбиение области значений статистики критерия на две непересекающихся части: • критическую область 1 • область принятия гипотезы 0 9 9 Критические области Односторонние 1 0 1 Двусторонняя t c t 0 1 c1 Неправдоподобно маленькие значения 0 c 1 c2 Приемлемые значения t Неправдоподобно большие значения 10 10 Если значение статистики критерия попадает в область принятия гипотезы 0 , то принимается нулевая гипотеза, в противном случае она отвергается (принимается альтернативная гипотеза) 11 11 Задать статистический критерий значит: • задать статистику критерия • задать критическую область 12 12 В ходе проверки гипотезы H0 можно прийти к правильному выводу, либо совершить два рода ошибок: • ошибку первого рода -- отклонить H0, когда она верна • ошибку второго рода -- принять H0, когда она не верна. 13 13 Так как статистика критерия TX есть случайная величина со своим законом распределения, то попадание её в ту или иную область характеризуется соответствующими вероятностями: • вероятностью ошибки первого рода • вероятностью ошибки второго рода 14 14 Ошибку первого рода ещё называют уровнем значимости критерия. Часто пользуются понятием мощности критерия W -- вероятности попадания в критическую область при условии справедливости альтернативной гипотезы W 1 15 15 В общем случае вводят функцию мощности W 1F FPTX W , 1W F F 0 1 WW F 1 16 16 При разработке статистического критерия невозможно одновременно минимизировать обе ошибки. Поэтому поступают следующим образом: при заданном числе испытаний n устанавливается верхняя граница для ошибки первого рода Выбирается тот критерий, у которого наименьшая ошибка второго рода. 17 17 Распределение статистики критерия для нулевой и альтернативной гипотез (односторонний критерий) 18 Уровень значимости устанавливается из значений следующего ряда: 0.05, 0.01, 0.005, … события с такими вероятностями считаются практически невозможными. Допустимая величина уровня значимости определяется теми последствиями, которые наступают после совершения ошибки. 19 19 Примеры формулировок статистических гипотез Гипотеза о виде распределения: произведено n независимых измерений случайной величины с неизвестной функцией распределения F(x). Следует проверить гипотезу: H : F x 0 0 20 20 Гипотеза однородности Произведено k серий независимых испытаний x , x , x , x , x , x , x , x , x 1 2 n 1 1 2 n 21 n k 1 2 2 k Можно ли с достаточной надежностью считать, что закон распределения наблюдений от серии к серии не менялся? Если это так, то статистические данные однородны. Проверяется гипотеза однородности: H : F x F x F x 0 1 2 k 21 21 Гипотеза независимости Наблюдается двухмерная случайная величина = (1, 2) с неизвестной функцией распределения F (x, y) и есть основания полагать, что компоненты 1, 2 -- независимы. В этом случае проверяется гипотеза независимости: H : F x , y F x F y 0 1 2 22 22 Пять шагов проверки гипотезы 1 шаг – выдвигается основная гипотеза H0 2 шаг – задается уровень значимости α 3 шаг – задается статистика критерия T(X) с известным законом распределения 23 23 4 шаг – из таблиц распределения статистики критерия находятся квантили, соответствующие границам критической области 5 шаг – для данной выборки рассчитывается значение статистики критерия 24 Если значение статистики критерия попадает в область принятия гипотезы, то нулевая гипотеза принимается на уровне значимости α. В противном случае принимается альтернативная гипотеза (отвергается нулевая гипотеза) 25 Среди критериев выделяются такие, которые улавливают любые отклонения от нулевой гипотезы. Они называются « критерии согласия » 26 26 Критерий согласия Колмогорова Применяется для проверки гипотезы о виде распределения H0: Fn X = F X H1: F n X ≠ F X При условии, что теоретическая функция распределения непрерывная и полностью определена Критерий согласия Колмогорова За меру близости распределений принимается максимальное отклонение эмпирической функции распределения Fn(x) от теоретической F(x). T X = n⋅ max vert F X − F n x vert D n= max∣ F X − F n x ∣ 28 28 1 0.8 0.6 i N c no rm Xi 0.4 0.2 0 Xi 29 Статистика критерия T X = n Dn = n max F X Fn X Распределение статистики Колмогорова не зависит от F (x). При больших n оно стремится к распределению Колмогорова. l i m P n D X t 1 e n n 2 2 i 2 i t i 30 31 Критерий согласия χ2 Пирсона (хи-квадрат) Первоначально разработан для дискретных распределений 32 Простейшие параметрические гипотезы Гипотезы о среднем значении гауссовской случайной величины Гипотезы о сравнении дисперсий 33 33