6. Корреляционный анализ и регрессионный анализ данных 6.1

реклама
6. Корреляционный анализ и регрессионный анализ данных
6.1. Корреляционный анализ
Корреляционный анализ – это совокупность методов обнаружения так
называемой корреляционной зависимости между случайными величинами.
Для двух случайных величин Х и Y корреляционный анализ состоит из
следующих этапов:
 построение корреляционного поля и составление корреляционной
таблицы;
 вычисление выборочного коэффициента корреляции;
 проверка статической гипотезы о значимости корреляционной связи.
Рассмотрим подробнее каждый из указанных этапов.
Корреляционное поле и корреляционная таблица являются исходными
данными при корреляционном анализе. Пусть ( xk ; yk ) , k  1, 2 , ... , n , –
результаты парных наблюдений над случайными величинами Х и Y.
Изображая полученные результаты в виде точек в декартовой системе
координат, получим корреляционное поле. По характеру расположения точек
поля можно составить предварительное представление о форме зависимости
случайных величин (например, о том, что одна из них в среднем возрастает
или убывает с возрастанием другой).
Пример 6.1. Исследование зависимости между среднемесячными доходами X
на семью (в тыс. у.е.) и расходами Y на покупку кондитерских изделий (в у.е.)
представлено в таблице:
X
Y
4,8 3,8 5,4 4,2 3,4 4,6 3,4 4,8 5,0 3,8 5,2 4,0 3,8 4,6 4,4
75 68 78 71 64 73 66 75 75 65 77 69 67 72 70
Построить корреляционное поле и сделать предварительный вывод о
форме зависимости случайных величин.
419
Решение. Корреляционное поле, построенное по статистическим данным,
приведено на рис. 6.1.
Рис. 6.1.
Анализ рис. 6.1 позволяет сделать вывод о наличии сильной линейной
статистической связи между среднемесячными доходами семьи и затратами
на приобретение ею кондитерских изделий. При этом связь имеет
положительную тенденцию, т.е. с ростом переменной X наблюдается
увеличение отклика Y.
При
большом
объеме
выборки
результаты
группируются
и
представляются в виде корреляционной таблицы.
Пример 6.2. По 20 туристическим фирмам были установлены затраты X на
рекламу и количества туристов Y, воспользовавшихся услугами каждой
фирмы. В таблице фирмы ранжированы по величине затрат на рекламу:
Порядковый
Затраты
номер
на рекламу,
фирмы
усл. ден. ед.
1
2
3
4
5
6
7
8
8
8
9
9
9
9
Количество туристов,
воспользовавшихся
услугами фирмы,
чел.
800
850
720
850
800
880
950
420
8
9
10
11
12
13
14
15
16
17
18
19
20
9
10
10
10
10
10
11
11
11
11
12
12
12
820
900
1000
920
1060
950
900
1200
1150
1000
1200
1100
1000
Построить корреляционную таблицу и сделать предварительный вывод о
форме зависимости случайных величин.
Решение. Исходные данные, ранжированные по величине затрат на рекламу,
уже могут быть использованы при ответе на вопрос о наличии или отсутствии
корреляционной
связи.
Этот
простейший
прием
обнаружения
связи
называется сопоставлением двух параллельных рядов. Согласно этому
элементарному приему, значения факторного признака X располагают в
неубывающем порядке и затем прослеживают направление изменения
результативного признака Y.
По таблице можно видеть, что в целом для всей совокупности фирм
увеличение затрат на рекламу приводит к увеличению количества туристов,
пользующихся услугами фирмы. Хотя в отдельных случаях наличие такой
зависимости может не усматриваться. Например, сопоставим данные по
фирмам с порядковыми номерами 7 и 11. Здесь можно увидеть даже обратное
соотношение: у фирмы 11 количество туристов меньше, чем у фирмы 7, хотя
затраты на рекламу выше. В каждом отдельном случае количество туристов,
воспользовавшихся услугами фирмы, будет зависеть не только от размера
затрат фирмы на рекламу, но и от того, как сложатся прочие факторы,
определяющие величину результативного признака.
421
Однако наличие большого числа различных значений результативного
признака, соответствующих одному и тому же значению признака-фактора,
затрудняет восприятие таких параллельных рядов. Особенно это сказывается
при большом числе единиц, составляющих изучаемую совокупность. В таких
случаях целесообразнее воспользоваться для установления факта наличия
связи корреляционной таблицей. Построение корреляционной таблицы
начинают с группировки значений факторного и результативного признаков.
Поскольку в приводимом примере факторный признак представлен всего
пятью вариантами повторяющихся значений, достаточно в первом столбце
корреляционной таблицы выписать эти результаты. Для результативного
признака необходимо определить величину интервала группировки. Это
можно сделать с помощью формулы Стержэсса:
bY 
ymax  ymin
1200  720

 96 человек .
1  3,322  lg n
5
В корреляционной таблице факторный признак
X, как правило,
располагают в строках, а результативный признак Y – в столбцах таблицы.
Числа, расположенные на пересечении строк и столбцов таблицы, означают
частоту повторения данного значения X и Y:
Середина
j-го
768
865
962
1059
1156
интервала
по Y
ni 
группы
по Y [720; 816] [817; 913] [914; 1010] [1011; 1107] [1108; 1207]
группы
по X
8
9
10
11
12
n j
2
1
3
1
3
1
1
6
1
3
1
1
6
1
1
2
2
1
3
yj
3 800
5 865
5 962
4 1035
3 1059
20
422
Данная корреляционная таблица уже при общем знакомстве дает
возможность выдвинуть предположение о наличии или отсутствии связи, а
также выяснить ее направление. Если частоты в корреляционной таблице
расположены на диагонали из левого верхнего угла в правый нижний угол
(т.е. бóльшим значениям фактора соответствуют бóльшие значения функции),
то можно предположить наличие прямой корреляционной зависимости между
признаками. Если же частоты расположены по диагонали из правого верхнего
угла в левый нижний, то предполагают наличие обратной связи между
признаками.
Необходимо подчеркнуть, что при рассмотрении корреляционной таблицы
важно установить расположение основной части частот. Возможны варианты,
когда все клетки корреляционной таблицы окажутся заполненными. Однако
это обстоятельство еще не означает, что корреляционная связь между
признаками отсутствует. Нужно установить, как расположена в таблице
основная масса частот. Для того, чтобы сделать восприятие корреляционной
таблицы более доступным и в целях более четкого выявления основной
тенденции связи, можно для каждой строки рассчитать средние значения y j
результативного признака Y, соответствующие определенному значению
признака-фактора X. Так, в рассматриваемом примере среднее число туристов
для первой группы, состоящей из трех фирм, которые тратят на рекламу 8 усл.
ден. ед., будет равно 800 человек:
y1 
768  2  865  1
 800 человек .
3
Для следующей группы, состоящей из пяти фирм, у которых затраты на
рекламу 9 усл. ден. ед.
y2 
768  1  865  3  962  1
 865 человек ,
5
423
и т.д. (рассчитанные таким образом средние y j представлены в последнем
столбце корреляционной таблицы).
Итак,
увеличение
средних
значений
результативного
признака
с
увеличением значений факторного признака еще раз свидетельствует о
возможном наличии прямой корреляционной зависимости числа туристов,
воспользовавшихся услугами фирмы, от затрат фирмы на рекламу.
Корреляционная таблица позволяет сжато, компактно изложить материал.
Поэтому все последующие расчеты можно вести по корреляционной таблице.
Выборочный коэффициент корреляции Пирсона для группированной l1  l2
корреляционной таблицы определяется формулой:
*X , Y 
SX ,Y
S X SY
,
(6.1)
где
1 l l 

( xi  x )( y j  y )nij
(6.2)

n i1 j 1


– выборочная ковариация; xi и y j – центры соответствующих интервалов
SX , Y 
1
2
группировки;
S X  S X2 , SY  SY2 ,
S X2 
1 l
1 l


2
2
S

n j ( y j  y ) 2
,
n
(
x

x
)


Y
i
i
n j 1
n i1
2
1
(6.3)
– соответствующие выборочные дисперсии.
Для выборочной ковариации S X , Y справедлива формула
S X , Y  1*,1  x y 
1 l l

nij xi y j  x y ,

n i1 j 1
1
2
(6.4)
424
являющаяся аналогом формулы K X , Y  1,1  mX mY в теории вероятностей. Для
простой (негруппированной) выборки формулы (6.2) – (6.4) упрощаются и
приобретают вид:
SX , Y 
1 n
 ( xk  x )( yk  y ) ,
n k 1
1*,1 
S X2 
(6.5)
1 n
 xk yk ,
n k 1
1 n
1 n
2
2
(
x

x
)
S

( yk  y ) 2 .
,


k
Y
n k 1
n k 1
(6.6)
Выборочный коэффициент корреляции *X , Y обладает всем свойствами,
которыми обладает теоретико-вероятностный коэффициент корреляции  X , Y .
В частности, для любой выборки *X , Y  1.
При этом, чем ближе *X , Y к 1 (или к  1 ), тем сильнее выражена линейная
зависимость между X и Y. Однако значимость такой зависимости должна быть
подкреплена проверкой гипотезы. Проверка гипотезы о наличии корреляции
осуществляется следующим образом. Основная гипотеза – отсутствие
линейной статистической связи ( H 0 :   0 ); альтернативной гипотезой может
  0 ;

выступать любая из трех возможных H1 :   0 ;
  0 .

В тех случаях, когда справедливо предположение о нормальном
распределении
двумерного
генерального
вектора
(X ; Y) ,
подходящей
статистикой для проверки основной гипотезы является статистика Стъюдента
Z
r n2
1 r2
~ St (n  2) ,
(6.7)
где обозначено r  *X , Y – выборочный коэффициент корреляции, а объем n
выборки предполагается большим (число степеней свободы равно n  2 ).
425
Пример 6.3. В таблице представлены результаты измерений роста Х (см) и
веса Y (кг) 50 мужчин – слушателей военной академии:
Y
Х
[155; 165)
[165; 175)
[175; 185)
n j
[55; 65)
[65; 75)
[75; 85)
[85; 95)
ni 
2
2
0
4
5
8
4
17
4
9
6
19
1
4
5
10
12
23
15
50
Вычислить выборочный коэффициент корреляции и проверить гипотезу о
значимости корреляционной связи.
По формулам группированной выборки вычисляем средние
x
1 3 
8530
1 4 
3850
xi ni  
 170,6 , y   y j n j 
 77 ,

n i1
50
n j 1
50
выборочные вторые начальные моменты
2, 0 
1 3 2
1 4 2
1 3 4 


x
n

29158
,
,


y
n

6006


 i i
 j j
 nij xi y j  13156.
0, 2
1,1
n i1
n j 1
n i1 j 1
Далее, используя формулы (6.2) – (6.4), получаем:
S X2  2, 0  x 2  53,64 , SY2  0, 2  y 2  77 , S X , Y  1,1  x y  19,8 .
Наконец, по формуле (6.1) определяем:
r
19,8
 0,308 .
7,3239  8,7749
Проверим значимость коэффициента корреляции при двусторонней
альтернативе ( H1 :   0 ) и   0,05 . Из таблицы распределения Стъюдента
находим
квантиль
t1  2 (n  2)  t 0,975 (48)  2,01.
Выборочное
значение
статистики Z равно:
Z выб 
0,308  48
1  0,3082
 2,2429 .
426
Так как | Z выб |  t0,975 (48) , то Z выб G , поэтому гипотеза H 0 отклоняется в
пользу гипотезы H 1 . Корреляция значима.
Замечание. Несколько
обескураживающий
результат
предыдущего
примера( H 0 отвергнута при достаточно малом значении r) объясняется
сильной зависимостью статистики Стъюдента от объема выборки n. В
следующем параграфе при анализе регрессии будет показано, что линейная
связь может оказаться значимой и при малых значениях коэффициента
корреляции r. Однако для получения надежных выводов при использовании
статистики Z следует иметь более 100 наблюдений.
Менее чувствительной к объему выборки является статистика U,
основанная на преобразовании Фишера:
V
1
1 r
 ln
.
2
1 r
Фишером было доказано, что при n  30 случайная величина V имеет
приближенно нормальное распределение с независящей от r дисперсией
V2 
1
,
n3
и математическим ожиданием
1 1 

1 1 
,
mV   ln

  ln
2 1   2n  2 2 1  
где  – истинное (но неизвестное) значение коэффициента корреляции
двумерного генерального вектора ( X ; Y ) .
Стандартизуя V, получим подходящую статистику Фишера:
U
V  mV
~ N(0 ; 1) .
V
(6.8)
Заметим, что с помощью указанной статистики можно проверять более
общую гипотезу о сравнении с эталоном H 0 :   0 против любой из трех
427
альтернатив
  0 ;

H1 :   0 ; . В этом случае mV
   .
0

заменяется на условное
математическое ожидание
MV | H 0  
1 1  0
 ln
,
2 1  0
центрирование статистики V в формуле (6.8) осуществляется на эту величину.
Пример 6.4. Проведены парные измерения производительности труда Y в
зависимости от уровня механизации работ X для 28 промышленных
предприятий Московской области. В результате получен выборочный
коэффициент корреляции r  0,51 . Решить следующие две задачи.
1) В условиях двусторонней альтернативы H1 :   0 найти критическое
значение уровня значимости  0 , такое, что при   0 гипотеза H 0 :   0
будет приниматься для полученного в данной выборке коэффициента
корреляции.
2) Для
  0,05
и
правосторонней
альтернативы
H1 :   0
найти
критическое значение rкр такое, что при r  rкр гипотеза H 0 :   0 будет
отвергаться в пользу H 1 .
1) Воспользуемся статистикой Фишера (6.8). Так как  0  0 (проверяется
значимость коэффициента корреляции), то mV 
1 1  0
 ln
 0 , поэтому
2 1  0
статистика U принимает вид:
U
n3
1 r
 ln
~ N(0 ; 1) .
2
1 r
Вычислим
5
1,51 5
U выб   ln
  1,1249  2,812 .
2
0,49 2
428
Примем полученное значение за критическую точку, определяемую как
квантиль u1 2 из нормального распределения. Из таблицы нормального
распределения, полагая (2,812)  0,9975  1 

, находим:  0  0,005 .
2
Таким образом, при   0  0,005 гипотеза H 0 для данного значения
r  0,51 будет приниматься.
2) Пусть   0,05 . По таблице нормального распределения находим квантиль
u0,995  1,645 . Отсюда следует, что при U выб  1,645 гипотеза H 0 будет
отклонена.
Решая неравенство
5 1 r
 ln
 1,645 относительно r, получим условие
2 1 r
отклонения гипотезы H 0 в пользу гипотезы H 1 : r  rкр  0,31 .
6.2. Регрессионный анализ
Зависимость
между
случайными
величинами
X
и
Y
называется
стохастической, если с изменением одной их них (например, Х) меняется
закон распределения другой (Y). В качестве примеров такой зависимости
приведем зависимость веса человека (Y) от его роста (Х), предела прочности
стали (Y) от ее твердости (Х) и т.д.
В теории вероятностей стохастическую зависимость Y от Х описывают
условным математическим ожиданием:
 y k ФY  y k / x, Y - СВДТ
k

y ( x )  M [Y / X  x ]   
  y  f ( y / x )dy , Y - СВНТ
 
которое, как видно из записи, является функцией от независимой переменной
х , имеющей смысл возможного значения случайной величины Х.
429
Уравнение y  y(x) называется уравнением регрессии Y на x. Переменная х
называется регрессионной переменной или регрессором. График функции
y  y(x)
называется линией или кривой регрессии. Кривые регрессии
обладают следующим свойством: среди всех действительных функций (x)
минимум M[(Y  ( x))2 ] достигается для функции
( x)  M[Y | X  x] ,
т.е. регрессия Y на x дает наилучшее в среднеквадратическом смысле
предсказание величины Y по заданному значению X  x . На практике это
используется для прогноза Y по Х: если непосредственно наблюдаемой
величиной является лишь компонента Х случайного вектора
(X ; Y)
(например, Х – диаметр сосны), то в качестве прогнозируемого значения Y
(высота сосны) берется условное математическое ожидание y(x) . Наиболее
простым является случай, когда регрессия Y на x линейна:
y ( x)  a0  a1 x .
Если ( X ; Y ) – случайный вектор, распределенный по двумерному
нормальному закону, то коэффициенты a 0 и a1 определяются равенствами:
a0  mY  

Y
mX , a1   Y ,
X
X
уравнением регрессии в этом случае является прямая линия
y ( x)  mY  
Y
 ( x  mX ) ,
X
проходящая через центр рассеивания (m X ; mY ) с угловым коэффициентом
rX , Y   
Y
, называемым коэффициентом регрессии Y на x.
X
В реальных экспериментах, связанных со статической обработкой
опытных данных, условный закон распределения случайной величины Y при
условии X  x обычно заранее неизвестен. В таком случае, речь может идти
430
лишь о каком либо приближении к теоретической кривой регрессии,
построенном на основе выборочных данных. Другими словами, задача
заключается
в
подборе
подходящей
функциональной
зависимости,
наилучшим образом (в некотором статистическом смысле) приближающей
стохастическую зависимость.
Во многих случаях можно считать, что «независимая» переменная Х
находится под контролем экспериментатора, и может бать измерена с любой
заданной точностью, в то время как измеряемые значения Y как функции от Х
(выборочные значения yi при фиксированных xi ) определяются с ошибкой
(содержат
шум
зафиксирован,
измерения).
то
Если
статистическую
вид
функциональной
модель регрессии
зависимости
можно
записать
следующим образом:
yi  y( xi )  ( xi ; a0 , a1 , ... , am )  ( xi )
где
a0 , a1 , ... , am
–
набор
неизвестных
(1)
параметров,
определяющих
функциональную зависимость (параметры регрессии); ( xi ) – случайные
величины, складывающиеся при каждом фиксированном
xi
из шума
измерений и ошибки модели. При исследовании качества построения модели
важно уметь разделять эти ошибки.
Следует иметь в виду, что наличие шума измерения делает невозможной
задачу интерполяции, т.е. график искомой зависимости не должен проходить
через все выборочные точки, а должен проходить таким образом, чтобы
«сгладить» шум. Поскольку уровень шума определяется дисперсией D[] , то
задача состоит в подборе параметров a0 , a1 , ... , am , которые минимизируют
D[] . В действительности минимизируется не сама
дисперсия (она
неизвестна), а ее выборочная оценка, которая, как будет показано ниже,
пропорциональна сумме квадратов отклонений (по оси Оу) кривой регрессии
от соответствующих выборочных значений yi , т.е. пропорциональна величине
431
    yk  ( xk ) ; a~0 , a~1 , ... , a~m 2
n
k 1
Указанный критерий минимизации суммы квадратов отклонений носит
название метода наименьших квадратов (сокращенно МНК), а полученные в
результате решения этой задачи оценки a~ , a~ , ... , a~ параметров называются
0
1
m
МНК-оценками. Основанием для выбора критерия МНК служит следующая
теорема.
Теорема. Пусть в модели регрессии (1) случайные величины  i , i  1, 2 , ... , n ,
независимы в совокупности и одинаково распределены по закону N(0 ; )
(физически условие
D[ i ]   2 ,
i  1, 2 , ... , n , означает, что измерения
проводятся с одинаковой точностью). Тогда МНК-оценки a~0 , a~1 , ... , a~m
параметров регрессии совпадают с оценками максимального правдоподобия.
Заметим, что по условию теоремы
M[ yk ]  yk0  ( xk ; a0 , a1 , ... , am ) , D[ yk ]  D[k ]  2 ,
поэтому наблюдаемые значения y k одинаково распределены по закону
N( yk0 ; ) . Так как 1 ,  2 , ... ,  n независимы в совокупности, то функция
правдоподобия выборки запишется в виде
n

1
 1 n 2
2
2
LY ( ; a0 , a1 , ... , am ) 
 ( )  exp  2  k  .
( 2 ) n
 2 k 1 
2
Из этого выражения следует, что
n
max LY (2 ; a0 , a1 , ... , am )  min   2k ,
k 1
что и требовалось доказать.
Замечание. На
практике
ошибки
измерений
часто
удовлетворяют
поставленным в теореме условиям в силу центральной предельной теоремы.
Регрессионный анализ проводится в три этапа.
432
На первом этапе по характеру корреляционного поля выдвигают гипотезу
о виде функциональной зависимости ( xk ; a0 , a1 , ... , am ) . Довольно часто
используют следующее представление для функции  :
m
( xk ; a0 , a1 , ... , am )  a0   ak k ( x) ,
k 1
где  k (x) – известные координатные функции. Такая модель регрессии
называется линейной по параметрам. В частном случае, когда k ( x)  x k ,
модель называется полиномиальной.
На втором этапе по имеющимся выборочным данным осуществляют
подгонку модели, т.е. находят МНК-оценки неизвестных параметров
регрессии a0 , a1 , ... , am .
На третьем этапе анализируют качество построения модели: проверяются
так
называемые
корректность
и
адекватность
модели.
Этот
этап
осуществляется средствами проверки статистических гипотез.
Пример 1. Построение прямой регрессии Y на x.
Пусть
получена
выборка
( xk ; yk ) ,
k  1, 2 , ... , n ,
из
двумерного
распределения ( X ; Y ) . Корреляционный анализ показал, что корреляционная
связь Y на x значима на некотором уровне  . Выдвигается гипотеза о том, что
уравнение прямой регрессии
y( x)  ax  b  ( x)
должно хорошо аппроксимировать стохастическую зависимость Y на x. Найти
МНК-оценки параметров а и b.
Пусть задан план эксперимента, т.е. совокупность точек x1 , x2 , ... , xn . Выбор
этих точек – отдельная задача, решаемая в рамках теории оптимального
планирования эксперимента и на данном этапе не обсуждается. Часто точки
x1 , x2 , ... , xn распределяют эквидистантно, перекрывая интересующий нас
интервал на оси Ох.
433
Искомые оценки являются решениями следующей задачи минимизации:
(a , b)    2k    yk  axk  b  min .
Применим
n
k
k 1
k 1
классический
дифференцируемой
метод
функции
2
a,b
поиска
 ( a , b) .
безусловного
Запишем
экстремума
необходимые
условия
экстремума:
d 
 d a  0 ,

 d   0.
 d b
Получаем следующую систему линейных алгебраических уравнений для
неизвестных значений а и b:
n
n
 n 2
a
x

b
x

xk yk ,


k
k
 
k 1
k 1
k 1
 n
n
a  xk2  bn   yk .
 k 1
k 1
Деля обе части на n и вводя обычные обозначения для выборочных
характеристик случайного вектора ( X ; Y ) , приводим данную систему к виду
a *2, 0  b x  1*,1 ,

a x  b  y .
где *r , s 
(2)
1
xkr yks – начальный выборочный момент порядка r  s , x и y –

n k
средние значения соответствующих переменных.
Решение системы (2), как нетрудно убедиться, имеет вид:
S
S
S ~
a~  X , Y  *  Y , b  y  x *  Y ,
SX
SX
SX
где  * – выборочный коэффициент корреляции, S X и SY – выборочные
среднеквадратические отклонения.
Уравнение линейной регрессии приобретает вид:
434
y ( x)  y  * 
Заметим,
что
полученное
SY
 (x  x)
SX
уравнение
(3)
аналогично
теоретическому
уравнению регрессии, если заметить все входящие в него вероятностные
моменты соответствующими выборочными оценками в соответствии с
методом подстановки.
6.3 Однофакторный дисперсионный анализ
Пусть имеется l независимых нормальных совокупностей X 1 , X 2 , ... , X l с
одной и той же, хотя и неизвестной, дисперсией 2 . Математические
ожидания mi  M[ X i ] также неизвестны, но имеются основания предполагать,
что они равны. Требуется поверить основную гипотезу H 0 : m1  m2  ...  ml
против
альтернативы
H1  H 0 .
Для
этого
из
каждой
совокупности
(подпопуляции) X i взята выборка объема ni :
xi , xi , ... , xin , i  1, 2 , ... , l .
1
2
i
Формулируется следующая линейная модель дисперсионного анализа:
xij  mi  ij – j-е наблюдение из i-ой подпопуляции,
mi  m0  i – среднее i-ой подпуляции,
m0 
1 l
 ni mi – генеральное (тотальное) среднее всей популяции X,
n i1
 i – дифференциальный эффект, определяющий различие средних.
Интерпретация. Можно считать, что существует некоторый фактор A,
имеющий l уровней, воздействие которого приводит к расщеплению всей
популяции X на l подпопуляций xi , i  1, 2 , ... , l . Например, если измерения
проводятся на l различных приборах, то можно исследовать влияние фактора
«прибор» на результаты измерений. Термин «дисперсионный анализ» был
первоначально предложен Р. Фишером (1925) для обработки результатов
435
агрономических
позволяющих
опытов,
целью
максимизировать
которых
было
выявление
урожай.
Современные
условий,
приложения
дисперсионного анализа охватывают широкий круг задач техники, экономики,
социологии, биологии, медицины и трактуются в терминах статистической
теории проверки гипотез.
Заметим, что если дифференциальные эффекты  i малы, то отклонение
средних значений отдельных подпопуляций от тотального среднего можно
рассматривать как случайное отклонение, и гипотеза
H0
с большой
вероятностью будет принята. Если l  2 , то получается уже известная нам
задача проверки гипотезы о равенстве средних двух независимых нормальных
совокупностей.
Напомним, что для проверки этой гипотезы использовалась статистика
Стъюдента W, основанная на нормированной разности выборочных средних.
Фишером доказано, что при l  2 подходящей статистикой для проверки
указанной
гипотезы
является
фишеровское
отношение
дисперсий,
сконструированных специальным образом.
Обозначим выборочное среднее i-ой выборки:
xi  
1 n
 xik ;
ni k 1
i
(1)
общее среднее объединенной выборки:
1 l n
x   xik ;
n i1 k 1
i
объем объединенной выборки:
l
n   ni .
i 1
Легко видеть, что
x
 1 l
1 l 1 n

n
x
 i  ij    ni xi  ,
n i1  ni j 1  n i1
i
(2)
436
т.е. тотальное среднее равно среднему арифметическому внутригрупповых
средних.
Обозначим через сумму квадратов отклонений результатов наблюдений от
общего среднего
ni
l
Q   ( xik  x )2 .
i 1 k 1
Очевидно, что
~2  Q

n 1
является несмещенной оценкой неизвестной дисперсии 2 , и кроме того, xi 
являются несмещенными и состоятельными оценками математического
ожидания mi .
Если гипотеза H 0 верна, то xi  не должны сильно отличаться от общего
среднего x , но для точного решения задачи нужна подходящая статистика.
Идея ее построения основана на разбиении суммы квадратов:
Q  QB  QW ,
где
l
QB   ni ( xi   x ) 2
(3)
i 1
– сумма квадратов отклонений «внутри групп»,
l
ni
QW   ( xik  xi  )2
(4)
i 1 k 1
– сумма квадратов отклонений «внутри групп».
Покажем, как получается это разбиение. Преобразуем разность:
xik  x  ( xik  xi  )  ( xi   x ) .
Возведем в квадрат:
( xik  x )2  ( xi   x )2  ( xik  xi  )2  2( xik  xi  )( xi   x ) .
437
Далее обе части равенства необходимо просуммировать сначала по k от 1
до ni , затем по i от 1 до l. Учтем, что согласно (1):
ni
ni
k 1
k 1
 ( xik  xi  )   xik  ni xi   0 .
Поэтому
l
l
ni
Q   ni ( xi   x )2   ( xik  xi  )2  QB  QW .
i 1
i 1 k 1
Выражение для этих сумм можно преобразовать к виду более удобному
для вычислений:
l
l
i 1
i 1
QB   ni ( xi   x ) 2   ni xi2  n x 2 ,
l
ni
l
ni
l
QW   ( xik  xi  )2   xik2   ni xi2 .
i 1 k 1
i 1 k 1
i 1
Теорема. Если X 1 , X 2 , ... , X l независимы в совокупности, X i ~ N(mi ; ) , и
справедлива гипотеза H 0 , то QB и QW независимы, причем QB распределена
по закону  2 (l  1) , а QW – по закону  2 (n  l ) .
Из этой теоремы и теоремы Фишера следует, что статистика
QB QW
S B2
F
:

l  1 n  l SW2
распределена по закону Фишера F(l  1; n  l ) . Нетрудно убедиться, что F
является подходящей статистикой для проверки гипотезы H 0 . Действительно,
если гипотеза H 0 верна, то величины S B2 
QB
Q
и SW2  w являются
l 1
nl
независимыми несмещенными оценками одного и того же параметра 2 .
Поэтому S B2  SW2 , что приводит к событию Fвыб  G1 . Если же верна H 1 , то
разброс между группами будет значительно больше, чем разброс внутри
438
групп, т.е. S B2  SW2 , что приведет к попаданию Fвыб в критическую область, и
основная гипотеза H 0 будет с большой вероятностью отвергнута.
Пример 1. Три группы водителей обучались по различным методикам. По
окончанию срока обучения был произведен тестовый контроль над случайно
отобранными водителями из каждой группы. Результаты контроля сведены в
следующую таблицу:
номер
группы,
i
число ошибок,
допущенных водителями,
xij
среднее
группы,
xi 
1
2
3
1321021
23214
453
1,43
2,4
4,0
число
контролируемых
водителей,
ni
7
5
3
На уровне значимости   0,05 проверить гипотезу об отсутствии
различий в результатах, получаемых по различным методикам.
В данном случае фактор А – «методика обучения» имеет 3 уровня:
l  3 , n  n1  n2  n3  15 .
По формуле (2) вычисляем тотальное среднее выборки: x  2,2(6) . Далее
по формулам (3) и (4) находим QB  14,02 , QW  12,91.
Отсюда
zвыб 
QB QW
:
 6,52 .
2 12
По таблице квантилей распределения Фишера находим критическую
область t0,95 (2 ; 12)  3,89 . Отсюда G  z | z  3,89.
Поскольку zвыб G , то гипотеза H 0 отклоняется в пользу H 1 . Фактор
«методика обучения» приводит к значимым результатам в практике вождения
автомобиля.
439
Скачать