Курс «Управление качеством» Лекция № 7 Статистическая проверка статистических гипотез Статистическая гипотеза. Нулевая и конкурирующая, простая и сложная гипотеза. При статистическом анализе важно знать закон распределения генеральной совокупности. Если закон неизвестен, но имеются основания предположить, что он имеет определенный вид, то говорят: генеральная совокупность распределена по закону А. Если закон известен, но неизвестны его параметры и, например, есть основания предполагать, что 0 , то выдвигают гипотезу: 0 (здесь речь идет о гипотезе: равенстве 0 параметру закона). Возможны и другие гипотезы: 1. о равенстве параметров двух или нескольких распределений; 2. о независимости выборок и др. Статистической называют гипотезу если идет речь о виде неизвестного распределения или означениях параметров известных распределений. Гипотеза о наличии жизни на комете Хейла-Ботте не является статистической, т.к. нет закона или параметров. Наряду с выдвинутой гипотезой рассматривают и противоположную ей. Если выдвинутая гипотеза будет отвергнута, то имеет место противоположная ей. По этой причине гипотезы делят на: 1. нулевую. Нулевой (основной) называют выдвинутую гипотезу Н0; 2. конкурирующую. Конкурирующей (альтернативной) называют гипотезу Н1, которая противоречит основной. Кроме того гипотез делят на простые и сложные. Простой называют гипотезу, содержащую только одно предположение. Сложной называют гипотезу, содержащую несколько простых гипотез. Например гипотеза Н: 5 содержит бесчисленное множество простых гипотез Нi: bi ,где bi -любое число большее 5. Ошибки первого и второго рода Выдвинутая гипотеза может быть правильной или неправильной. Поэтому необходима ее проверка. Проверку осуществляют статистическими методами. При проверке возможны ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Статистический критерий проверки нулевой гипотезы. Критическая область Для проверки нулевой гипотезы используют случайно подобранную случайную величину, распределение которой будет известно. Будем обозначать это распределение буквой К (K=U,F,T и т.п.). Статистическим критерием называют случайную величину К, которая служит для проверки Н0. Если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия К принимают отношение исправленных выборочных дисперсий F S12 . S22 Эта величина распределена по закону Фишера-Снедепора. Для проверки гипотезы по данным выборок вычисляют его частное значение К1. Наблюдаемым значением Кнабл называют значение критерия, вычисленное по выборкам. После выбора критерия множество его возможных значений разбивают на два непересекающихся множества: 1. значения критерия, при которых Н0 отвергается; 2. значения критерия, при которых Н0 принимается. Критической областью называют совокупность значений критерия К, при которых Н0 отвергается, т.е. первая область. Областью принятия гипотезы Н0 называют совокупность значений критерия К, при которых Н0 принимают. Основной принцип проверки статистических гипотез: если К набл области принятия гипотез, то гипотезу принимают. К –одномерная случайная величина. Ее возможные значения принадлежат некоторому интервалу. Критическими точками называют точки отделяющие критическую область от области принятия гипотезы. Различают следующие критические области: 1. правостороннюю критическую область: К>ккр; 2. левостороннюю критическую область: К<ккр; 3. односторонней называют право- или левостороннюю критическую область; 4. двухсторонней называют область, у которой К>ккр1 ,К<ккр2. Отыскание критических областей Для отыскания правосторонней критической областидостаточно найти ккр. Для ее нахождения задаются достаточно малой вероятностью –уровнем значимости 0.05,0.01,0.001 . ккр ищут исходя из требования, чтобы при условии справедливости Н0 вероятность того, что К примет значение > ккр была бы равна , т.е. Р(К> ккр)= . Из этого уравнения и находят ккр. Почему для нахождения ккр требуется выполнение условия Р(К> ккр)= ? Т.к. Р(К> ккр) –мала, то событие при справедливости Н0 не должно наступить в единичном испытании, если все же оно наступило (К набл> ккр), тоо это можно обьяснить тем, что Н0 ложно, и следовательно Н0 должна быть отвергнута. Т.о. условие Р(К> ккр)= определяет такие значения критерия, при которых Н0 отвергается, и следовательно, такие К составляют критическую область. Введем понятие мощности критерия. Мощностью критерия называют вероятность попадания критерияв критическую область при условии, что справеедлива конкурирующая гипотеза (Н1). Другими словами мощность критерияесть вероятность того, что Н0 будет отвергнута, если верна Н1. Если вероятность ошибки второго рода равна , томощность равна 1- . Если для проверки гипотезы принят определенный уровень значимости и выборка имеет фиксированный обьем, то остается произвол в выборе критической области. Критическую область необходимо строить так, чтобы мощность критерия была максимальна. Элементы дисперсионного и корреляционного анализа. Элементы дисперсионного анализа Дисперсионный анализ основан на анализе значений частных средних и дисперсий, полученных по выборкам, характеризующим выпускаемую продукцию на разных технологических установках. Продукция выпускаемая на разном технологическом оборудовании должна быть проанализирована на однородность значений параметров определяющих качество продукции. Задача дисперсионного анализа состоит в ответе на вопрос: существенно ли отличаются значения параметров качества изделий. Пусть имеется К выборок с n числом изделий в каждой. Тогда число наблюдений за некоторым параметром равно N=n*k. В дисперсионном анализе их располагают в таблицы: Номер выборки Номер наблюдения 1 2 … I … K 1 2 … X11 X12 … X21 X22 … … … … Xi1 Xi2 … … … … Xk1 Xk2 … J … X1j … X2j … … … Xij … … … Xkj … Xin x2 … … S 22 … N X1n X2n Частная средняя x1 Частная дисперсия S12 n Здесь xi n x ij j 1 ; Si2 n (x j 1 ij Xkn xi … … S i2 … S k2 xk xi ) 2 . n 1 Кроме описанных характеристик вычисляют также общую и среднюю дисперсию. N n,k (x K x xij j 1 ; S n2 K i 1 j 1 ij x )2 N 1 . В дисперсионном анализе кроме общей дисперсии вычисляют еще две другие оценки рассеяния: 1. дисперсию между выборками N n,k n S 2 ср i 1 j 1 ( xi x ) 2 k 1 ; 2. дисперсию внутри выборок K Sв2н N (x i 1 j 1 ij xi ) 2 N k . Т.о. вычислив S ср2 , S в2н и S n2 , которые являются представительными оценками 2 , и оформив их в таблицу, можно выполнить анализ о качестве выпускаемой продукции на разном технологическом оборудовании. Элементы корреляционного анализа. Корреляционный анализ используют тогда, когда анализируются два различных параметра качества. Возможны следующие варианты их взаимной связи: 1. параметры тесно связаны функциональной зависимостью y=f(x); 2. параметры совершенно не связаны между собой и, следовательно, переменные x и y независимы; 3. параметры связаны между собой не строго. В этом случае говорят о статистической зависимости. При анализе ттехнологического процесса в целом отвечают на следующие два вопроса: 1. насколько тесно связаны между собой две характеристики x и y? 2. Каков вид связи между x и y? На первый вопрос отвечает величина коэффициента корреляции: n (x i j 1 rxy n (x i j 1 x)( yi y ) n x) 2 ( yi y ) 2 ; rxy x y . x y j 1 rxy 1 . При r 1 связь между х и у функциональная, при r 0, х и у – независимы, при r <1 связь между х и у статистическая. При rxy>0 зависимость возрастающая, т.е. большему х соответствует большее у. При rxy<0 зависимость убывающая. На вторй вопрос отвечает следующее уравнение регрессии. Его получают из следующих соображений. При статистических связях каждому фиксированному х соответствует распределение у и наоборот. Поэтому подсчитав y x можно эту связь записать ввиде y x f x и соответственно x y x . y x f x Y Данные уравнения регрессии у на х (х на у). иноX1 X2называют Xi уравнениями Xn X гда их называют корреляционными уравнениями. На практике чаще всего уравнения регрессии получают линейными. В тех случаях, когда зависимость нелинейна, ее линеаризуют посредством преобразований. Линейную регрессию записывают ввиде: y y b( x x ) , y 1 n 1 n y x , i xi . n i 1 n i 1 Коэффициент b называют коэффициентом регрессии и вычисляют по формуле: n b ( x x)( y i i 1 i y) . n ( x x) i 1 i 2