N – 1

реклама
Дисперсионный анализ.
(Analysis Of Variance – ANOVA)
Основной целью дисперсионного анализа является
исследование значимости различия между средними значениями групп.
Дисперсионный анализ позволяет сравнивать средние нескольких групп по одной, двум и более
признакам одновременно оценивая влияние на величину среднего каждого признака по
отдельности, а также их сочетания (взаимодействия).
В основе анализа лежит линейная модель:
xi , j  общ.  (  j  общ. )   i , j  общ.   j   i , j
Результат конкретного наблюдения xi , j складывется
из математичсекого ожиданя генеральной совокупности  общ.
отклонения математического ожидания группы от общего математичсекого ожиданя
и отклонения наблюдения от математического ожидания своей группы (  j  xi , j ) =
(  j  общ. )   j
 i, j
Признак, по которому образованы группы, называется фактором.
Например, при сравнении фонового содержания элемента в разных породах фактором является горная порода.
Если сравнивается скорость прохождения сейсмических волн в разных направлениях, фактором является
направление и т.д.
Группы, выделенные по какому-либо фактору, называются уровнями этого фактора.
Например, при сравнении фоновых содержаний Ag в углистых сланцах, зелёных сланцах и известняках, фактор
порода имеет 3 уровня.
В зависимости от количества факторов дисперсионный анализ подразделяется на
однофакторный, двух- и многофакторный.
В отличие от t-критерия, который оценивает непосредственную разность средних значений
случайной величины t  | x  y | , в дисперсионном анализе исследуется дисперсия, т.е
sx  y
изменчивость случайной величины.
NN
(i)
Уровни фактора (j)
1
2
3
4
5
1
x
x
x
x
x
2
x
x
x
x
x
3
x
x
x
x
x
4
x
x
x
x
x
5
2
1
x
s
2
2
x
s
s32 s42 s52
x x x
6
x
x
x
x
x
7
x
x
x
x
x
8
x
x
x
x
x
9
x
x
x
x
x
10
x
x
x
x
x
Дисперсию генеральной совокупности можно оценить двумя способами:
1) Вычислив дисперсию уровня:
1 n
s 
( x  xi1 ) 2

n  1 i 1
2
1
для большей точности взять среднее из дисперсий всех k уровней
2
sWG

1 k 2
s

j 1 j
k
Эта дисперсия характеризует случайную изменчивость. Она не зависит от того
отличаются средние значения уровней (групп) друг от друга или нет, т.е. никак не
связана с влиянием фактора и поэтому называется дисперсией ошибки или
внутригрупповой дисперсией (Within Groups).
2) Другой способ –
оценить дисперсию совокупности через дисперсию средних значений уровней:
k
NN
(i)
Уровни фактора (j)
1
2
3
4
5
1
x
x
x
x
x
2
x
x
x
x
x
3
x
x
x
x
x
x
x
x
x
x
5
x1 x2 x3 x4 x5
x
x x x x
6
x
x
x
x
x
7
x
x
x
x
x
8
x
x
x
x
x
9
x
x
x
x
x
10
x
x
x
x
x
4

2
BG
n
2
(
x

x
)
 j
j 1
k 1
, где
1 k
x   xj
k j 1
- общее среднее значение
n – количество наблюдений в уровне (группе)
вычисленная дисперсия умножается на количество элементов (по которым
вычислена), поскольку дисперсия средних значений в n раз меньше дисперсии
выборки (группы)
Эта дисперсия не зависит от разброса значений внутри групп (поскольку для её
вычисления используются средние значения групп). Она обусловлена вариациями
(разбросом) средних значений, их отличием друг от друга, которое связано с
влиянием фактора.
Эта дисперсия называется межгрупповой (Between Groups) или дисперсией эффекта.
Сравнивая дисперсию эффекта с дисперсией ошибки, можно сделать следующие заключения:
- если дисперсия эффекта окажется сравнимой или меньше дисперсии ошибки, мы сделаем
вывод, что наблюдаемые различия средних не выходят за пределы точности (ошибки) измерений,
являются случайными и, следовательно, существенных различий между средними значениями
групп нет;
- если дисперсия эффекта будет значительно превосходить дисперсию ошибки, будет сделано
заключение о существенном различии средних и определена вероятность ошибочности этого
решения.
В качестве критерия сравнения дисперсий используется F-критерий Фишера.
s12
F 2
s2
График плотности вероятности
F-распределения
Таким образом, в дисперсионном анализе производится разделение общей дисперсии изучаемой
совокупности на компоненты, соответствующие источникам изменчивости, а применяемые критерии
позволяют одновременно изучить различия как в средних значениях, так и в дисперсиях.
Однофакторный дисперсионный анализ.
В однофакторном дисперсионном анализе общая дисперсия разбивается на 2 составляющие:
дисперсию внутри сравниваемых групп (внутривыборочная дисперсия или дисперсия ошибки) и
дисперсию между группами (межвыборочная дисперсия или дисперсия эффекта)
В технике вычислений дисперсионного анализа дисперсии не используются напрямую. Вместо этого
вычисляются суммы квадратов отклонения от среднего (SS – Sum of Square), которые делят на
соответствующее число степеней свободы:
Сумма квадратов
1 n
s 
( x  xi ) 2

n  1 i 1
2
n
SS   ( x  xi ) 2
i 1
s2 
SS
n 1
Количество степеней свободы
SS WG  SS1  SS2  ...  SSk
sW2 G 
SSW G
SS
SS
 WG  WG
k (n  1) kn  k N  k
N – количество наблюдений во всех выборках
Схема однофакторного дисперсионного анализа.
Источник
изменчивости
Сумма квадратов
(SS)
Число степеней cвободы (df)
Средний квадрат
(дисперсия) (MS)
F-критерий
Между выборками
SS эффекта
k - 1 (k – количество групп)
SSэффекта/dfэффекта
MS эффекта
SS ошибки
N – k ( = n1-1+n2-1…+nm-1)
SSошибки/dfошибки
SS общая
N – 1 (N = n1+n2…+nm)
Внутри
выборок
Общая
изменчивость
MS ошибки
Вычисления:
k
nj
ssошибки   ( xij  x j ) 2
j 1 i 1
N – общее количество наблюдений
k – количество групп,
nj – количество наблюдений в группе
xij - i-ое наблюдение в группе j
x j - среднее значение в группе j
x - общее среднее
k
nj
ssобщая   ( xij  x ) 2
j 1 i 1
ssэффекта  ssобщая  ssошибки
Пример выполнения однофакторного дисперсионного анализа в программе Statistica 6.0
Задача: Определить, различаются ли зоны латеритной коры выветривания по содержанию SiO2 :
железистых стяжений (1); бесструктурных охр(2); структурных охр(3); структурных полуохр (4);
выщелоченных материнских пород (5); дезинтегрированных материнских пород (6);
Нулевая гипотеза:
Альтернатива:
H 0 : 1  2  3  4  5  6
По меньшей мере одно математическое ожидание не равно остальным
0,05
График плотности вероятности F-распределения
Проверка предположения об
однородности дисперсий
0,05
Если нулевая гипотеза отвергается, то поиск групп, отличающихся друг от друга по
среднему значению, осуществляется с помощью апостериорных критериев:
Множественный критерий
Фишера
tF 
xi  x j
2
2
sошибки
sошибки

ni
nj
Наиболее либеральный критерий,
требует равенства дисперсий в выборках
Критерий наименьшей значимости
разности
Попарное сравнение средних с помощью
t-критерия для независимых выборок.
Критерий Шеффе
Наиболее строгий критерий
t sh,кр  F  (k  1)
(k – число групп)
Графическое представление результатов анализа.
Оценка силы факторного эффекта.

 
2
ss эффекта
ssобщая
Доля дисперсии эффекта в общей дисперсии признака.
2
ssэффекта  (k  1) sошибки
2
ssобщая  sошибки
Более точная оценка.
(k – число групп)
h2 
2
2
sэффекта
 sошибки
2
2
sэффекта
 (n  1) sошибки
При неравных по объёму группах
ni2 
1 


n
N

k 1 
N 
(k – число групп)
N – общее количество наблюдений
Показатель Снедекора.
Двухфакторный дисперсионный анализ.
Двухфакторный план 2 х 3
Двухфакторный дисперсионный анализ.
Линейная модель двухфакторного дисперсионного анализа
as jg
- вклад межфакторного взаимодействия
Фактор 1
уровни
1
2
3
1
X
X
X
1
X
1
x Xx xX
X 12
Xx 13
X
11
x X1x xX
X
1
X
1
X
2
X
3
2
X
X
X
2
X
x
xXx
xX
2
X 22
X 23
X
21
2
X
X
X
2
X
X
X
1
уровни
Фактор 2
xijg  общ.   j   g  as jg   ijg
2
ss эффект _ общий
- дисперсия средних всех уровней * n
- дисперсия средних уровней фактора 1* n
ssфактор1
ssфактор 2
- дисперсия средних уровней фактора 2* n
as jg  ssэффект _ общий  ssфактор1  ssфактор 2
x x x
x
11 12 13
x
x x x 1
=
1 2 3
-
x
2
x x x
21 22 23
x
x x
1
2
3
1
x
2
Взаимодействие факторов
Оценивая взаимодействие двух факторов, мы выясняем будет ли одинаковым влияние
на зависимую переменную одного из факторов на всех уровнях другого фактора.
Факторы независимы
Факторы зависимы
Пример выполнения двухфакторного дисперсионного анализа в программе Statistica 6.0
Задача: Определить, различаются ли зоны латеритной коры выветривания по содержанию MgO :
железистых стяжений (1); бесструктурных охр(2); структурных охр(3); структурных полуохр (4);
выщелоченных материнских пород (5); дезинтегрированных материнских пород (6);
Нулевая гипотеза:
По фактору месторождение:
H0: содержание MgO не зависит от типа месторождения, т.е среднее содержание Mg
одинаковое на всех месторождениях.
H1: по меньшей мере на одном из месторождений содержание Mg отличается от
остальных.
По фактору зона:
H0: содержание MgO во всех зонах одинаковое.
H1: по меньшей мере в одной из зон содержание Mg отличается от остальных.
По взаимодействию факторов месторождение-зона :
H0: на всех месторождениях содержание MgO изменяется однотипно при переходе
от зоны к зоне.
H1: по меньшей мере на одном из месторождений тип изменения содержание Mg при
переходе от зоны к зоне отличается от остальных.
Эффект взаимодействия факторов
Допущения дисперсионного анализа.
1. Значения признаков, соответствующих каждому уровню контролируемого
фактора должны быть нормально распределены.
2. Дисперсии признаков, соответствующих каждому уровню контролируемого фактора
должны быть равны  12   22   32 ... k2 (требование однородности или гомогенности
дисперсии)
3. Независимость наблюдений (для любых 2-х измерений нельзя предсказать по
значению одного наблюдения значение другого).
Последствия нарушений допущений дисперсионного анализа.
Многочисленные исследования показали очень слабую чувствительность
дисперсионного анализа к нарушению предположения о нормальности. Вероятность
ошибки первого рода практически не отличается от устанавливаемой
экспериментатором.
E>0
E=0
E<0
Если эксцесс больше 0, то значение статистики F может
стать очень маленьким. Нулевая гипотеза при этом
принимается, хотя она может быть и не верна. Ситуация
меняется на противоположную, когда эксцесс меньше 0.
Неоднородность дисперсии влияет на величину ошибки 1 рода. Возрастает
вероятность отбросить нулевую гипотезу, когда она равна.
Влияние неоднородности может быть компенсировано, если объёмы выборок
равны или отличаются незначительно и используются выборки большого
объёма.
Одна из причин неравенства дисперсий – выбросы.
Влияние выбросов на результат анализа
Скачать