М.В.Дубатовская. Теория вероятностей и математическая статистика Лекция 18 § 17. Статистическая гипотеза. Нулевая и конкурирующая гипотезы Часто необходимо знать закон распределения генеральной совокупности. Если закон распределения неизвестен, то имеются основания предположить, что он имеет определенный вид (назовем его А). Выдвигают гипотезу: генеральная совокупность распределена по закону А. Таким образом. в этой гипотезе идет речь о виде предполагаемого распределения. Возможен случай, когда распределение известно, а параметры неизвестны. Если есть основания предполагать, что неизвестный параметр равен определенному значению 0 , выдвигают гипотезу 0 . В этой гипотезе речь идет о предполагаемой величине параметра известного распределения. Возможны другие гипотезы: о равенстве параметров двух или нескольких распределений, о независимости выборок и др. Статистической называется гипотеза о виде неизвестного распределения или о параметрах известных распределений. Например, статистическими являются гипотезы: 1) Генеральная совокупность распределена по закону Пуассона, 2) Дисперсии двух нормальных совокупностей равны между собой. Наряду с выдвинутой гипотезой H 0 (нулевой гипотезой) рассматривают конкурирующую (альтернативную) гипотезу H 1 , противоречащую H 0 . Например, математическое ожидание a нормального распределения равно 10 (гипотеза H 0 ). Конкурирующая гипотеза может состоять в том, что a 10 .Записывают так: H 0 : a 10 , H1 : a 10 . Различают гипотезы, которые содержат одно и более одного предположений. Простой называют гипотезу, содержащую одно предположение. Например, математическое ожидание нормального распределения равно 3 (с.к.о. известно) – простая гипотеза. Сложной называют гипотезу, которая состоит из конечного или бесконечного числа простых гипотез. Например, гипотеза H : 5 состоит из бесчисленного множества гипотез H i : bi , где bi – любое число, большее 5. § 18. Ошибки первого и второго рода Выдвинутая гипотеза может быть правильной или неправильной. Поэтому возникает необходимость ее проверки. Поскольку проверку осуществляют статистическими методами, то ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т.е. могут быть допущены ошибки двух типов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Последствия этих двух типов ошибок могут быть весьма различными. Замечание 1. Правильное решение может принято также в двух случаях: 1) Гипотеза принимается, причем в действительности она правильная. 2) Гипотеза отвергается, причем в действительности она неверна. М.В.Дубатовская. Теория вероятностей и математическая статистика Замечание 2. Вероятность совершить ошибку первого рода принято обозначать . Ее называют уровнем значимости. Часто 0,05 или 0,01 . Это значит, что в 5% (1%) случаев из 100 есть риск допустить ошибку первого рода (отвергнуть правильную гипотезу). Вероятность совершить ошибку второго рода обозначают . Вероятность не совершить ошибку второго рода 1 называют мощностью критерия. § 19. Статистический критерий проверки нулевой гипотезы Наблюдаемое значение критерия Для проверки нулевой гипотезы используют специально подобранную СВ, точное или приближенное распределение которой известно. Эту величину обозначают U или Z , если она распределена нормально, F или v 2 – по закону Фишера, T – по закону Стьюдента, 2 – по закону «хи-квадрат». В целях общности обозначим эту СВ K . Статистическим критерием (критерием или статистикой) называют СВ K , которая служит для проверки нулевой гипотезы. Например, если проверяют нулевую гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия K выбирают отношение исправленных выборочных дисперсий: F s12 . s22 Эта величина случайная, потому что в различных опытах дисперсии принимают различные наперед неизвестные значения. Эта СВ распределена по закону Фишера. Для проверки гипотезы по данным выборок вычисляют частные значения входящих в критерий величин и таким образом получают частное (наблюдаемое) значение критерия. Наблюдаемым значением критерия K набл называют значение критерия, вычисленное по выборкам. Например, если по двум выборкам найдены исправленные выборочные s12 20 2 2 дисперсии s1 20 , s2 5 , то наблюдаемое значение критерия Fнабл 2 4. s2 5 § 20. Критическая область. Область принятия гипотезы. Критические точки. После выбора критерия множество всех возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, другая – при которых она принимается. Критической областью называется совокупность всех значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают. Основной принцип проверки статистических гипотез: если наблюдаемое значение принадлежит критической области – гипотезу отвергают, если наблюдаемое значение принадлежит области принятия гипотезы – гипотезу принимают. Критерий K – одномерная СВ, следовательно, критическая область и область принятия гипотезы – интервалы. Существуют точки, которые их разделяют. М.В.Дубатовская. Теория вероятностей и математическая статистика Критическими точками (границами) k кр называют точки, отделяющие критическую область от области принятия гипотезы. Различают одностороннюю (левостороннюю и правостороннюю) и двустороннюю критические области. Правосторонней называют критическую область, определяемую неравенством K k кр , где k кр 0 . Левосторонней называют критическую область, определяемую неравенством K k кр , где kкр 0 . Односторонней называют левостороннюю или правостороннюю критическую область. Двусторонней называют критическую область, определяемую неравенствами K k1 , K k2 , k2 k1 . Если точки k2 , k1 симметричны относительно нуля, то двусторонняя критическая область определяется неравенством K kкр . Двусторонняя критическая область определяется в случае, когда альтернативная гипотеза имеет вид H1 : 0 . Правосторонняя критическая область определяется в случае, когда альтернативная гипотеза имеет вид H1 : 0 . Левосторонняя критическая область определяется в случае, когда альтернативная гипотеза имеет вид H1 : 0 . § 21. Отыскание критических областей Найдем правостороннюю критическую область, которая определяется неравенством K k кр , где k кр 0 . Достаточно найти критическую точку k кр . Для ее нахождения задают уровень значимости (достаточно малую вероятность). Ищем k кр из условия P ( K k кр ) . Для каждого критерия K имеются соответствующие таблицы, из которых находят k кр , удовлетворяющее этому требованию. Когда k кр найдено, по данным выборки вычисляют наблюдаемое значение критерия и если K набл k кр , то нулевую гипотезу отвергают, если K набл k кр , то нет оснований отвергнуть нулевую гипотезу. Если нулевая гипотеза принята, то ошибочно думать, что тем самым она доказана. Один пример, подтверждающий справедливость некоторого общего утверждения, еще его не доказывает. Поэтому правильнее говорить: «Данные наблюдений согласуются с нулевой гипотезой, следовательно, нет оснований ее отвергнуть». Отвергают гипотезу категорично, так как один контрпример опровергает некое общее утверждение. Замечание. Левосторонняя критическая область определяется неравенством K k кр , где kкр 0 . Ищем k кр из условия P ( K k кр ) . Двусторонняя критическая область определяется неравенствами K k1 , K k2 , k2 k1 . Критические точки k 2 , k1 находят из требования P( K k1 ) P( K k2 ) . М.В.Дубатовская. Теория вероятностей и математическая статистика Если распределение критерия симметрично относительно нуля и имеются основания выбрать симметричные относительно нуля критические точки k кр , k кр ( k кр 0 ), то P( K kкр ) P( K kкр ) и P( K kкр ) 2 . Эти точки k кр находят по соответствующим таблицам. § 22. Общая схема проверки гипотез 1) Сформулировать нулевую гипотезу H 0 и альтернативную гипотезу H 1 . 2) Выбрать уровень значимости . 3) Определить объем выборки n . 4) Выбрать критерий K для проверки статистической гипотезы H 0 . 5) Определить критические области и области принятия гипотезы. 6) Вычислить наблюдаемое значение критерия K набл . 7) Принять решение. Если K набл , вычисленное по выборке, принадлежит критической области, то гипотезу H 0 отвергают. Если K набл принадлежит области принятия гипотезы, то нулевую гипотезу H 0 нет оснований отвергнуть.