Дисперсионный анализ 1.1 Однофакторный дисперсионный анализ 1.1.1 Параметрический однофакторный дисперсионный анализ Пусть требуется проверить наличие влияния на результативный признак одного контролируемого фактора А, имеющего m уровней A j , j 1,2,...m . Наблюдаемые значения результативного признака Y на каждом из фиксированных уровней A j обозначим yij , i 1, n j , где n j - число объектов наблюдения. Можно также рассмотреть эту задачу как задачу проверки однородности нескольких генеральных совокупностей, а именно случайных величин 𝜉1 , 𝜉2 , … , 𝜉𝑚 , 𝐹𝜉1 (𝑥1 − 𝛼1 ), 𝐹𝜉2 (𝑥2 − 𝛼2 ), … , 𝐹𝜉𝑚 (𝑥𝑚 − 𝛼𝑚 ), где 𝛼1 . . 𝛼𝑚 −параметры сдвига. Для изучения случайных величин 𝜉1 , 𝜉2 , … , 𝜉𝑚 рассматриваем априорные выборки 𝜉1,𝑛1 , 𝜉2, 𝑛2 , … , 𝜉𝑚,𝑛𝑚 , где 𝜉𝑗,𝑛𝑗 , 𝑗 = 1. . 𝑚 Реализации априорных выборок представлены матрице: 𝑦11 𝑦21 y=( … 𝑦𝑛1 𝑦12 𝑦22 … 𝑦𝑛2 … 𝑦1𝑛 … 𝑦2𝑛 ) … … 𝑦𝑛𝑛 Где yij -Наблюдаемые значения результативного признака Y на каждом из фиксированных уровней A j . Любое наблюдение yij можно представить в виде: Апостериорная модель однофакторного дисперсионного анализа: 𝑦𝑖𝑗 = 𝑎 + 𝛼𝑗 + 𝑧𝑖𝑗 , 𝑗 = ̅̅̅̅̅̅ 1, 𝑚, 𝑖 = ̅̅̅̅̅̅ 1, 𝑛𝑗 где 𝑎 – некоторое общее среднее, 𝛼𝑗 – отклонение от среднего, вызванное влиянием фактора на j уровень, 𝑧𝑖𝑗 – величина отклонения 𝑦𝑖𝑗 от 𝑎 + 𝛼𝑗 Априорная модель: 𝑀1 – уровни фактора А фиксированы 𝑚 𝜉𝑖𝑗 = 𝑎 + 𝛼𝑗 + 𝜀𝑖𝑗 , где ∑ 𝛼𝑗 = 0 − отклонение 𝑗=1 𝑀2 – уровни фактора А случайны 𝜉𝑖𝑗 = 𝑎 + 𝛿𝑗 + 𝜀𝑖𝑗 Требования к 𝛿: 𝑀𝛿𝑗 = 0 𝑐𝑜𝑣(𝛿𝑗 , 𝛿𝑠 ) = 𝑀 ((𝛿𝑗 − 𝑀𝛿𝑗 )(𝛿𝑠 − 𝑀𝛿𝑠 )) = 𝑀𝛿𝑗 ∙ 𝛿𝑠 = 0, ∀ 𝑗 ≠ 𝑠 𝐷𝛿𝑗 = 𝑀𝛿𝑗2 = 𝜎 2 (один для всех уровней) 𝑐𝑜𝑣(𝛿𝑠 , 𝜀𝑖𝑗 ) = 𝑀𝛿𝑠 ∙ 𝜀𝑖𝑗 = 0 𝐷𝜉𝑖𝑗 = 𝜎𝜀2 𝐷𝛿𝑗 = 𝜎𝛿2 Требования на остаточную компоненту: Относительно ij будем предполагать, что они распределены нормально и удовлетворяют следующим условиям: M ij 0 ; M ij i ' j ' 0 i i' или j j ' ; M ij2 2 - остаточная дисперсия. В зависимости от изучаемой модели относительно j предполагаем: модель М1 – j - фиксированные величины, такие что j n j 0 и основная гипотеза H0: j 0 j 1, m , то есть нет влияния фактора А на результативный признак; модель М2 – j - случайные величины, удовлетворяющие условиям M j 0 ; M j j ' 0 j j ' ; M j ij 0 i, j ; M 2j 2 - факторная дисперсия и основная гипотеза H0: 2 0 , то есть нет влияния фактора А на результативный признак. Для проверки основной гипотезы дисперсионного анализа, утверждающей, что нет влияние фактора А (уровней фактора А) на изменение результативного признака, вычислим следующие средние: 1 𝑛𝑗 𝑦̅∗𝑗 (𝑦𝑗,𝑛𝑗 ) = 𝑛 ∑𝑖=1 𝑦𝑖𝑗 - групповые средние (средние уровней A j ); 𝑗 𝑛 1 1 𝑗 𝑚 𝑦̅∗∗ (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = 𝑦̅∗∗ = 𝑛 ∑𝑚 ̅∗𝑗 - общая средняя 𝑗=1 ∑𝑖=1 𝑦𝑖𝑗 = 𝑛 ∑𝑗=1 𝑛𝑗 ∗ 𝑦 m результативного признака, где N n j . j 1 Определим две дисперсии: межгрупповую (дисперсию групповых средних) или факторную, обусловленную влиянием изучаемого фактора и внутригрупповую (остаточную), величина которой рассматривается как случайная. Необходимые суммы квадратов отклонений обозначим: Апостериорные суммы квадратов отклонений: 𝑛𝑗 𝑄факт (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗𝑗 − 𝑦̅∗∗ )2 = ∑𝑚 ̅∗𝑗 − 𝑦̅∗∗ )2𝑗=1 ∑𝑖=1(𝑦 𝑗=1 𝑛𝑗 ∗ (𝑦 факторная сумма квадратов отклонений; 𝑛𝑗 𝑄ост (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗𝑗 )2- остаточная сумма квадратов 𝑗=1 ∑𝑖=1(𝑦𝑖𝑗 − 𝑦 отклонений; 𝑛𝑗 𝑄общ (𝑦1,𝑛1 , 𝑦2,𝑛2 , … , 𝑦𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗∗ )2 - общая сумма квадратов 𝑗=1 ∑𝑖=1(𝑦𝑖𝑗 − 𝑦 отклонений. Априорные суммы квадратов отклонений: 𝑛 𝑗 𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗𝑗(𝜉1,𝑛 𝑗=1 ∑𝑖=1(𝑦 1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) − 𝑦̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2 = ∑𝑚 ̅∗𝑗 (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) − 𝑗=1 𝑛𝑗 ∗ (𝑦 2 𝑦̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 )) - факторная сумма квадратов отклонений; 𝑛𝑗 𝑄ост (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗𝑗 (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2- остаточная 𝑗=1 ∑𝑖=1(𝜉𝑖𝑗 − 𝑦 сумма квадратов отклонений; 𝑛 𝑗 𝑄общ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = ∑𝑚 ̅∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ))2𝑗=1 ∑𝑖=1(𝜉𝑖𝑗 − 𝑦 общая сумма квадратов отклонений. Легко проверить Qобщ Qфакт Qост Несмещенные оценки общей, факторной и остаточной дисперсий: 𝑄 𝑆 ^2 общ(𝜉 1,𝑛1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) 𝑆 ^2 факт(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛𝑚 ) 1 = общ(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) 1 2 𝑚 𝑁−1 𝑄 = факт(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) 1 2 𝑚 𝑚−1 2 𝑆 ^2 ост(𝜉 1,𝑛1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) = ; 𝑄ост (𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) Если влияние фактора отсутствует, то 1 2 𝑁−𝑚 2 S факт 2 𝑚 ; . и 2 S ост можно рассматривать как независимые оценки дисперсии всей совокупности. Наоборот, если фактор оказывает существенное влияние на результативный 2 2 признак, то отношение S факт : S ост будет расти и превзойдет некоторый критический предел. Таким образом, первоначальную гипотезу Н0 можно 2 2 заменить такой Н0: факт = ост . Для проверки нулевой гипотезы рассмотрим статистику: 1 𝑄факт (𝜉1,𝑛1 , … , 𝜉𝑚,𝑛𝑚 ) 𝑚 𝐹(𝜉1,𝑛1 , … , 𝜉𝑚,𝑛𝑚 ) = − 1 = 1 𝑄 (𝜉 , … , 𝜉 ) 𝑚,𝑛𝑚 𝑛 − 𝑚 ост 1,𝑛1 = 𝑆^2 факт(𝜉1,𝑛1 ,𝜉2,𝑛2,…,𝜉𝑚,𝑛𝑚 ) ~𝐹(𝑚 − 1; 𝑛 − 𝑚) 𝑆^2 ост(𝜉1,𝑛1 ,𝜉2,𝑛2,…,𝜉𝑚,𝑛𝑚 ) распределенную, очевидно, по закону Фишера-Снедекора со 1 m 1 и 2 N m степенями свободы. 𝑃(𝐹(𝜉) > 𝐹крит ) = 𝛼 𝑃(𝐹(𝜉) < 𝐹крит ) = 1 − 𝛼 𝐹крит представляет собой квантиль уровня 1 − 𝛼 Если Fнабл Fкр ( , m 1, N m) , то гипотеза не отвергается, то есть влияние фактора А на результативный признак не доказано. Если Fнабл Fкр , то Н0 отвергается и с вероятностью ошибки можно утверждать: влияние фактора А на результативный признак существенно. Если влияние фактора доказано, то можно проверить гипотезы: 1) Н0: j j ' - о равенстве двух средних выбранных уровней с помощью статистики 𝐹(𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) = (𝑦∗𝑗(𝜉1,𝑛 ,𝜉2,𝑛 − 𝑦∗𝑗′(𝜉1,𝑛 ,𝜉2,𝑛 , …,𝜉𝑚,𝑛 ) )2 𝑚 1 2 1 𝑄ост (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) 𝑛−𝑚 ~ 𝐹(1; 𝑛 − 𝑚) 1 = ∗ 2) 𝑛𝑗 𝑛𝑗′ 𝑛𝑗 + 𝑛𝑗′ 2 , …,𝜉𝑚,𝑛𝑚 ) , распределенной по закону Фишера-Снедекора с 1 1 и 2 N m При проверке гипотезы Н0: а=а0 не пользуется: в случае модели М1 статистика 𝐹(𝜉1,𝑛 1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) = 𝑛(𝑦∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) − 𝑎0 )2 𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) 𝑛−𝑚 ~ 𝐹(1; 𝑛 − 𝑚) имеющая F – распределение с 1 1 и 2 N m ; в случае модели М2 и nj n 𝐹(𝜉1,𝑛 1 ,𝜉2,𝑛2 , …,𝜉𝑚,𝑛𝑚 ) = 𝑁(𝑦∗∗ (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) − 𝑎0 )2 𝑄факт (𝜉1,𝑛1 , 𝜉2,𝑛2 , … , 𝜉𝑚,𝑛𝑚 ) 𝑚−1 статистика ~ 𝐹(1; 𝑚 − 1) имеющая F – распределение с 1 1 и 2 m 1 . Несмещенную точечную оценку для факторной дисперсии, в случае отклонения нулевой гипотезы, можно уточнить N (m 1) 2 2 2 . Sˆфакт ( Sˆфакт Sˆост ) 2 N n 2j уточ Интервальная оценка для D( ij ) 2 с надежностью Qост Qост . 2 2 1 2 1 x ( , N m) x ( , N m) 2 2 Практическая реализация Предполагая, что фактор имеет случайные уровни, а значения результативного признака распределены нормально, требуется: А) проверить при α=0,05 существенность влияния фактора на результативный признак; Б) проверить при α=0,05 существенность влияния фактора на втором и третьем уровнях на результативный признак; В) проверить при α=0,05 гипотезу относительно равенства общей средней заданному номиналу. Исследовалась зависимость объема выручки (млн. руб.) от расходов на рекламу (тыс. руб.). Были получены следующие данные: Таблица 1 - Исходные данные Номер исследования 1 150-200 6,6 2 3 4 5,9 6,4 7,1 Расходы на рекламу 200-250 250-300 6,0 8,4 6,8 7,4 8,1 5 7,5 6,9 7,3 300-400 8,7 7,8 7,1 7,6 7,7 Для проверки существенности влияния расходов на рекламу на объем выручки выдвинем гипотезу 𝐻0 и альтернативную 𝐻1 : 2 2 (нет влияния расходов на рекламу на объем выручки); H 0 : факт ост В основе проверки гипотезы лежит сравнение факторной и остаточной дисперсий. Для проверки нулевой гипотезы воспользуемся статистикой Qфакт (1n1 , 2 n2 ,..., m ,nm ) 2 Sˆфакт (1n1 , 2 n2 ,..., m,nm ) m 1 F (1n1 , 2 n2 ,..., m,nm ) 2 , где m 4, N 17 , Q ( S ост (1n1 , 2 n2 ,..., m,nm ) ост 1n1 , 2 n2 ,..., m , nm ) N m которая при справедливости гипотезы 𝐻0 имеет распределение Фишера-Снедекора со 𝜈1 = 3 𝜈2 = 13 степенями свободы. Если Fнабл Fкр (m 1, N m) , то гипотеза не отвергается, то есть влияние расходов на рекламу на объем выручки не доказано. Если Fнабл Fкр , то Н0 отвергается и с вероятностью ошибки можно утверждать, что влияние расходов на рекламу на объем выручки существенно. Для проверки гипотезы рассчитаем оценки факторной, остаточной и общей дисперсий. Qфакт 4,06 Qост 5,69 Qобщ 9,75 2 Sˆфакт 2 Sˆост Fнабл 1 1 Qфакт 4,06 1,35 m 1 4 1 1 1 Qост 5,69 0,43 N m 17 4 1,35 3,09 0,43 Fкр 3,41(0,05;3;17) Так как Fнабл. Fкр . , следовательно, нулевая гипотеза принимается, то есть, нет влияния расходов на рекламу на объем выручки. Проверим результаты в пакете STATISTICA. Для реализации однофакторного непараметрического дипсперионного анализа в пакете STATISTICA воспользуемся функцией One-way ANOVA – Quick specs dialog.Результаты представлены в таблице 2 а так же в приложении 1. Таблица 2-Результаты проверки нулевой гипотезы об отсутствии влияния расходов на рекламу от объема выручки. Effect SS a 4,063 Degr. Of MS freedom 3 1,354 F p 3,089 0,064 Здесь приведены факторная сумма квадратов 4,063, несмещенная оценка факторной дисперсии 1,354, выборочное значение статистики 3,089 и достигаемый уровень значимости 0,064. Поскольку 0,064 > 0,05, то нулевая гипотеза об отсутствии влияния фактора на результат принимается (Приложение А, рисунок 1, таблица 2) На рисунке 2 показан график оценок средних на каждом уровне факторе вместе с доверительными интервалами для них Таблица 3-Результаты дисперсионного анализа представленные на рисунке 3. 𝑅̂ y 0,645 ̂2 𝑅 2 𝑅̂несм 0,416 0,281 SS Df 4,063 3 MS SS Df MS F Model Residual Residual Residual 1,354 5,7 13 0,44 3,089 p 0,065 Такая форма дает возможность вывести факторную и остаточную суммы квадратов (𝑄факт = SS Model = 4,063 и 𝑄ост =SS Residual = 5,7 соответственно), несмещенные оценки факторной и остаточной дисперсий 2 2 (𝑆̂факт =MS Model =1,354 и 𝑆̂ост =MS Residual =0,44), значение статистики F = 3,089 и достигаемый уровень значимости p=0,064. Таблица 4-Наиболее полный результат дисперсионного анализа представленный в приложении 4 . Degr. Of y SS y MS yF yP Intercept a Error Total Freedom 1 3 13 16 881,3 4,06 5,7 9,76 881,3 1,354 0,44 2010,16 3,09 0,000 0,064 Для реализации однофакторного дисперсионного анализа в пакете STATA воспользуемся функцией Statistics – Linear models and related – ANOVA/MANOVA – One –way ANOVA. Таблица 5-Результаты выполнения однофакторного дисперсионного анализа представленные на рисунке 5 Var2 1 2 3 4 Total Mean 6,5 7,075 7,559 7,8 7,253 Std. Dev. 0,4966 0,892 0,555 0,668 0,78 Freq. 4 4 5 4 17 В столбце Mean приведены средние на каждом уровне фактора y*1=6,5, y*2=7,075, y*3=7,56, y*4=7,8; Std. Dev. – оценки среднеквадратических отклонений; Freq. – количество наблюдений на каждом уровне фактора n1=4, n2=4, n3=5, n4=4. В строке Total приведены оценки среднего y**=7,253, оценка среднеквадратического отклонения 0,78 и общее число наблюдений N = 17. В строке Between groups приведены факторная сумма квадратов (обозначена SS) и несмещенная оценка факторной дисперсии (обозначена MS). В строке Within groups приведены остаточная сумма квадратов (обозначена SS) и несмещенная оценка остаточной дисперсии (обозначена MS). В строке Total приведены общая сумма квадратов (обозначена SS) и несмещенная оценка общей дисперсии (обозначена MS). Значение статистики Фишера-Снедекора составило 3,09, достигаемый уровень значимости 0,0645. Поскольку 0,0645> 0,05, то на уровне значимости 5% нулевая гипотеза об отсутствии влияния фактора на результат принимается. Таблица 6-Результаты выполнения команды anova представленные на рисунке 6 source Partial ss df ms f Prob>f Model 3,988 3 1,33 2,83 0,0836 Var2 3,988 3 1,33 2,83 0,836 Residual Total 5,646 9,63 13 15 0,47 0,64 1.2 Двухфакторный дисперсионный анализ 1.2.1 Параметрический двухфакторный дисперсионный анализ (без повторений) Будем исследовать влияние двух факторов А и В на результативный нормально распределенный признак Y; Ai , i 1, m ; B j , j 1, l - уровни факторов. Рассмотрим два случая. Пусть каждой паре уровней факторов Ai и B j соответствует одно наблюдаемое значение результативного признака yij , то есть наблюденные значение можно представить в виде матрицы с двумя входами. 𝐵1 𝑦11 𝑦 y=( 21 … 𝑦𝑛1 𝐵2 𝐵3 𝑦12 … 𝑦1𝑛 𝐴 1 𝑦22 … 𝑦2𝑛 ) 𝐴2 … … 𝑦𝑛2 … 𝑦𝑛𝑛 𝐴3 Где yij наблюдаемое значение результативного признака для каждой пары уровней факторов Ai и B j . В этом случае апостериорная модель дисперсионного анализа будем рассматривать в виде: 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝑧𝑖𝑗 𝑖 = ̅̅̅̅̅̅ 1, 𝑚, 𝑗 = ̅̅̅̅ 1, 𝑙 Априорная модель: 𝜂𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 , где а – общая генеральная средняя; ij - независимые нормально распределенные остатки, с M ij 0 и D ij 2 , i 1, m ; j 1, l ; i , j - отклонения от а, обусловленные влиянием соответствующих уровней факторов А и В. Если уровни факторов Ai и B j фиксированные (модель М1), то i и j есть неслучайные величины, удовлетворяющие очевидным условиям m i 0 ; i 1 l j 0. j 1 Ненулевые гипотезы формулируются в виде: Н0: i 0 , i 1, m ; Н0: j 0 , j 1, l ; Если уровни факторов Ai и B j случайные, то i и j будем считать независимыми между собой и с ij случайными величинами распределенными нормально. M j M j 0 и D i 2 ; D j 2 . Отсутствие влияния уровней факторов на изменения результативного признака – нулевые гипотезы – формально записывается в виде: Н0: 2 0 ; Н0: 2 0 . Если уровни фактора А – случайные, а В – фиксированные (смешанная модель), то i независимые между собой и с ij случайные величины с M j 0 , D i 2 ; j - неслучайные величины, удовлетворяющие условию j 0. Нулевые гипотезы об отсутствии влияния уровней факторов на изменения результативного признака формулируются в виде: Н0: 2 0 ; Н0: j 0 , j 1, l . Аналогично строиться смешанная модель, в которой фактор А имеет фиксированные уровни, а фактор В – случайные. Построим разложение для: m l m l Qобщ ( yij y** ) ( yij y* j yi * y* j yi * y** y** y** ) 2 2 i 1 j 1 m i 1 j 1 l (( y* j y** ) ( yi * y** ) ( yij y* j yi * y** )) 2 i 1 j 1 m l (( y* j y** ) 2 ( yi* y** ) 2 ( yij y* j yi* y** ) 2 i 1 j 1 2( y* j y** )( yi* y** ) 2( y* j y** )( yij y* j yi* y** ) l l i 1 j 1 2( yi * y** )( yij y* j yi * y** )) m ( y* j y** ) 2 l ( yi * y** ) 2 m l ( yij y* j yi * y** ) QB Q A Qост i 1 j 1 m где QA l ( yi * y** ) 2 ; i 1 l QB m ( y* j y** ) 2 ; j 1 m l Qост ( yij y* j yi * y** ) 2 i 1 j 1 В случае двухфакторного дисперсионного анализа с повторениями для каждого сочетания уровней А и В имеется ровно 𝑝 наблюдений матрица 11: 𝐵1 𝑦111 , 𝑦112 , … 𝑦11𝑝 … ( 𝑦𝑚11 , 𝑦𝑚12 , … 𝑦𝑚1𝑝 𝑦𝑖𝑗𝑘 𝐵2 𝑦121 , 𝑦122 , … 𝑦12𝑝 … 𝑦𝑚21 , 𝑦𝑚22 , … 𝑦𝑚2𝑝 𝐵3 … 𝑦1𝑙1 , 𝑦1𝑙2 , … 𝑦1𝑙𝑝 𝐴1 … ) 𝐴2 … 𝑦𝑚𝑙1 , 𝑦𝑚𝑙2 , … 𝑦𝑚𝑙𝑝 𝐴3 Апостериорная модель 𝑖 = ̅̅̅̅̅̅ 1, 𝑚 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + (𝛼𝛽)𝑖𝑗 + 𝑧𝑖𝑗𝑘 𝑗 = ̅̅̅̅ 1, 𝑙 𝑘 = ̅̅̅̅̅ 1, 𝑝 Априорная модель 𝜂𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 Для проверки нулевой гипотезы об отсутствии влияния одного из факторов D A; B рассматриваем статистику QD m, D A n 1 , где nD F D Qост l , D B N nD распределенную, очевидно, по закону Фишера-Снедекора с 1 nD 1 и 2 N n D степенями свободы. 1.2.2 Параметрический двухфакторный дисперсионный анализ (без повторений) В общем случае, когда для каждой пары уровней Ai и B j имеется n(n>1) наблюдений. 𝐵1 𝐵2 𝐵3 y111, y112, … , y11n y121, y122, … , y12n … y1𝑛1, y1n2, … , y1nn 𝐴 … y2l1, y2l2, … , y2ln 𝐴1 y211, y212, … , y21n y221, y222, … , y22n ( ) 2 … … 𝐴3 ym11, ym12, … , ym1n ym21, ym22, … , ym2n … yml1, yml2, … , ymln Где yijk - к-ое наблюдение результативного признака для i-го уровня фактора А и j-го уровня фактора В; Модель дисперсионного анализа представим в виде yijk a i j ( )ij ijk , i 1, m j 1, l , k 1, n , а – общая генеральная средняя; i , j - отклонения от а, обусловленные влиянием соответствующих уровней Аi и Вj; ( )ij - отклонения от а, обусловленные совместным влиянием уровней факторов А и В; ijk (0, ) и независимы между собой. Если уровни факторов Аi и Вj фиксированные (модель М1), то отклонения i , j и ( )ij - неслучайные величины, удовлетворяющие условиям: m l m l i 1 j 1 i 1 j 1 i 0 ; j 0 ; ( )ij 0 ; ( )ij 0 . Сформулируем гипотезы об отсутствии влияния: фактора А – Н0: i 0 ; i 1, m ; фактора В – Н0: j 0 ; j 1, l ; совместного влияния факторов А и В – Н0: ( ) ij 0 ; i 1, m ; j 1, l . В случае модели М2 i , j и ( )ij есть независимые между собой и с ijk случайные величины, распределенные нормально с нулевым 2 математическим ожиданием и с дисперсиями 2 , 2 и . Сформулируем нулевые гипотезы от отсутствии влияния: фактора А – Н0: 2 0 ; фактора В – Н0: 2 0 ; совместного влияния 2 факторов А и В – Н0: 0. Для смешанной модели, когда, к примеру, уровни фактора А случайные, а фактора В – фиксированные, отклонения i и ( )ij независимые между собой и с ijk нормально распределены случайные величины с нулевыми математическими ожиданиями, с дисперсиями 2 и 2 , при этом m ( )ij 0 , а i 1 l ( )ij 0 ; j 1 l j 0. j 1 Нулевые гипотезы об отсутствии влиянием факторов имеют вид: Фактора А – Н0: 2 0 ; Фактора В – Н0: j 0 ; j 1, l ; 2 совместного влияния факторов А и В – Н0: 0 .` Аналогично строится другая смешанная модель. Разложив, как и при n=1, общую сумму квадратов на составляющие: Qобщ QA Q B QAB Qост , где m l n 2 Qобщ ( y ijk y***) ; i 1 j 1k 1 m QA l n ( y i 1 l 2 ; i** y***) 2 Q B m n ( y * j * y ***) ; m j 1 l Q AB n ( y i 1 j 1 m l n ij * y i** y* j* y***) 2 ; 2 Qост ( y ijk y* j *) ; i 1 j 1k 1 Практическая реализация Двухфакторный дисперсионный анализ без повторений По данным индивидуального задания при α=0,05: А) проверить нулевую гипотезу об отсутствии влияния первого фактора на результативный признак; Б) проверить нулевую гипотезу об отсутствии влияния второго фактора на результативный признак; В) проверить нулевую гипотезу об отсутствии совместного влияния факторов на результативный признак В двухфакторном комплексе приводится сменная выработка рабочего в зависимости от типа станка (А) и стажа его работы (В). При α=0,01 проверить влияние факторов А и В на сменную выработку рабочего: Таблица 12-Исходные данные. В1 В2 В3 А1 122 128 162 А2 128 118 160 А3 126 116 165 Для реализации двухфакторного дисперсионного анализа без повторений в пакете STATISTICA воспользуемя функцией Statistics – Nonparametrics-Comparing multiple dep. Samples (variables)-Variables (var1-var3)-Summary. Таблица 13-Проверка влияния фактора A (рисунок 7): Average rank Sum of ranks mean Std. Dev. Var1 3,0000 27,0000 136,1111 20,12737 Var2 1,5000 13,0000 2,00000 0,86603 Var3 1,5000 13,5000 2,00000 0,86603 Фактор А (тип станка) оказывает влияние на результативный признак, так как значимость (0,04979) меньше заданного уровня 0,05, то нулевая гипотеза об отсутствии влияния фактора на результат принимается Для реализации двухфакорного диспреснионного анализа в пакете STATA вопользуемся функцией Statistics – Lineat models and related – ANOVA/MANOVA – Analysis of variance and covariances (рисунок 8, таблица 14). Таблица 14-Реализация двухфакторного дисперсионного анализа в пакете STATA source Model Partial SS DF 3133,77778 4 MS 783,44444 f 29,26 Prob>f 0,0032 Var2 Var3 Residual Total 6,88889 3126,8889 107,1111 3240,88889 3,444444 0,13 1563,44444 58,39 26,777778 405,11111 0,8828 0,0011 2 2 4 8 В строке var2 приведены факторная сумма квадратов по фактору стаж работы (фактор B) 𝑄𝐵 = 6,88889 (обозначена Partial SS) и несмещенная оценка факторной дисперсии по фактору А 𝑆̂𝐵2 = 3,444444 (обозначена MS). В строке var3 приведены факторная сумма квадратов по фактору тип станка (фактор A) 𝑄А =3126,8889 и несмещенная оценка факторной дисперсии по фактору А 𝑆̂А2 = 1563,44444. В строке Residual приведены остаточная сумма квадратов 𝑄ост = 107,1111 (обозначена Partial SS) и несмещенная оценка остаточной 2 дисперсии 𝑆̂ост = 26,777778 (обозначена MS). В строке Total приведены общая сумма квадратов 𝑄общ = 3240,88889 2 (обозначена SS) и несмещенная оценка общей дисперсии 𝑆̂общ = 405,11111 (обозначена MS). Значение статистики Фишера-Снедекора для проверки гипотезы об отсутствии влияния фактора А приведено в строке Столбцы, столбец F – оно составило 58,39. В столбце Prob > F приведено соответствующее p-value (достигаемый уровень значимости) 0,0011< 0,05, нулевая гипотеза об отсутствии влияния отвергается, есть влияние фактора А. Значение статистики Фишера-Снедекора для проверки гипотезы об отсутствии влияния фактора В приведено в строке Строки, столбец F – оно составило 0,13. В столбце Prob > F приведено соответствующее p-value (достигаемый уровень значимости) 0,8828>0,05, нулевая гипотеза об отсутствии влияния принимается, нет влияния фактора В. Двухфакторный дисперсионный анализ с повторениями Изучается зависимость заработной платы выпускника вуза (тыс. руб.) на первом месте работы в зависимости от направления подготовки и способностей студента Таблица 15- Исходные данные Низкие На 50; 40;30;20;25;60 правлен ие 1 На 15;20;15;15;20;15;16;16; правлен 17;20;21;22 ие 2 На 15;15;15;16;17;19;9;8;10 правлен ;10;12 ие 3 На 20;25;25;25;25;24;22;24 правлен ие 4 Средние 45;60;50;50;50;50 Высокие 50;45;70;80;100;120; 120; 20;20;25;30;35;35 ;35; 30;35;35;30;20;12;15; 15;16;17;18 10;12;15;17;16;18 ;30;30;24 15;20;30;30;32;25;25 25;22;30;30;30 25;22;24;26;23;30;29; 30;35; 40;35;33;34;36;36;38 Для реализации двухфакторного дисперсионного анализа с повторениями в пакете STATA воспользуемся функцией anova var1 var2 var3#var3 (рисунок 9, таблица 16). Таблица 16-Реализация двухфакторного дисперсионного анализа с повторениями в пакете STATA source Model Var2 Var3 Partial ss 25194,2405 20369,5811 3845,94951 df 5 3 2 MS 5038,84809 6789,86036 1922,97476 F 34,42 46,38 13,14 Prob>F 0,000 0,000 0,000 Residual Total 14493,15 99 39687,3905 104 146,395455 381,609524 В столбце Prob > F приведено соответствующее p-value (достигаемый уровень значимости) 0,000 < 0,05. Значит, есть влияние стажа работы, влияние вида станка, а так же эффекта их взаимодействия. Приложение А Рисунок 1 Рисунок 2 Рисунок 3 Рисунок 4 Рисунок 5 Рисунок 6 Рисунок 7 Рисунок 8 Рисунок 9