Загрузил Богдан Шевчук

Вариант 15

реклама
РАСЧЕТНАЯ РАБОТА № 1
ПАРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ:
ПОСТРОЕНИЕ МОДЕЛИ И ПРОВЕРКА ЕЕ КАЧЕСТВА
Задание. На основании данных, представленных в приложения (см. табл. П.1.1
П.1.2) для соответствующего варианта (см. табл. 1.2):
1. Построить предложенные в табл. 1.2 уравнения регрессии, включая
линейную регрессию, используя формулы (1.4)–(1.9).
2. Вычислить показатели качества и точности уравнений.
3. Определить лучшее уравнение регрессии на основе средней ошибки
аппроксимации.
4. Проверить значимость уравнений регрессии при уровнях значимости
0,05.
5. Проверить значимость коэффициентов линейной регрессии и построить
доверительные интервалы для значений a и b уравнения линейной регрессии с
уровнем значимости 0,05.
6. Построить точечный и интервальный прогноз для значения x= xmax по
уравнению линейной регрессии с уровнем значимости 0,05.
7. Определить средний коэффициент эластичности по уравнению
линейной регрессии.
Вариант 15
Номер
наблюдения
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
значения
х
у
0,16 20,7
0,24 20,5
0,32 20,6
0,48
21
0,13 19,9
0,1
19,6
0,22 20,8
0,13
20
0,11 19,9
0,3
20,6
0,18 20,2
0,14 20,6
0,24 20,2
0,36 20,7
0,17 19,8
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
0,19 19,6
0,48 19,8
0,03 18,4
0,15 20,6
0,04 19,5
0,09
20
0,1
19,8
0,17 19,9
0,44 20,7
0,33 20,4
0,47 20,1
0,1
19,4
0,3
20,1
0,06 21,5
0,11 19,8
0,28 20,6
0,39 20,9
0,47 20,3
0,45 19,6
0,41 20,4
0,38 21,3
0,09
21
0,28 19,9
0,48
21
0,12 19,6
0,08 19,9
0,46 20,8
0,34 21,3
0,34 20,8
0,1
20
Линейное
Линейное уравнение регрессии имеет вид y = bx + a
Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь
вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, a и b соответственно
оценки параметров α и β регрессионной модели, которые следует найти.
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это
попытка общего выражения совокупности решений отдельных индивидов о расходах. Это
лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их
значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно
величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и
несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если
выполняются определенные предпосылки относительно случайного члена (ε) и независимой
переменной (x).
Формально критерий МНК можно записать так:
S = ∑(yi - y*i)2 → min
Система нормальных уравнений.
a·n + b·∑x = ∑y
a·∑x + b·∑x2 = ∑y·x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)
x
0.16
0.24
0.32
0.48
0.13
0.1
0.22
0.13
0.11
0.3
0.18
0.14
0.24
0.36
0.17
0.19
0.48
0.03
0.15
0.04
y
20.7
20.5
20.6
21
19.9
19.6
20.8
20
19.9
20.6
20.2
20.6
20.2
20.7
19.8
19.6
19.8
18.4
20.6
19.5
x2
0.0256
0.0576
0.1024
0.2304
0.0169
0.01
0.0484
0.0169
0.0121
0.09
0.0324
0.0196
0.0576
0.1296
0.0289
0.0361
0.2304
0.0009
0.0225
0.0016
y2
428.49
420.25
424.36
441
396.01
384.16
432.64
400
396.01
424.36
408.04
424.36
408.04
428.49
392.04
384.16
392.04
338.56
424.36
380.25
x•y
3.312
4.92
6.592
10.08
2.587
1.96
4.576
2.6
2.189
6.18
3.636
2.884
4.848
7.452
3.366
3.724
9.504
0.552
3.09
0.78
0.09
20
0.0081
400
0.1
19.8
0.01
392.04
0.17
19.9
0.0289
396.01
0.44
20.7
0.1936
428.49
0.33
20.4
0.1089
416.16
0.47
20.1
0.2209
404.01
0.1
19.4
0.01
376.36
0.3
20.1
0.09
404.01
0.06
21.5
0.0036
462.25
0.11
19.8
0.0121
392.04
0.28
20.6
0.0784
424.36
0.39
20.9
0.1521
436.81
0.47
20.3
0.2209
412.09
0.45
19.6
0.2025
384.16
0.41
20.4
0.1681
416.16
0.38
21.3
0.1444
453.69
0.09
21
0.0081
441
0.28
19.9
0.0784
396.01
0.48
21
0.2304
441
0.12
19.6
0.0144
384.16
0.08
19.9
0.0064
396.01
0.46
20.8
0.2116
432.64
0.34
21.3
0.1156
453.69
0.34
20.8
0.1156
432.64
0.1
20
0.01
400
11.01
912.1
3.6129
18503.41
Для наших данных система уравнений имеет вид
1.8
1.98
3.383
9.108
6.732
9.447
1.94
6.03
1.29
2.178
5.768
8.151
9.541
8.82
8.364
8.094
1.89
5.572
10.08
2.352
1.592
9.568
7.242
7.072
2
224.826
45a + 11.01·b = 912.1
11.01·a + 3.613·b = 224.826
Домножим уравнение (1) системы на (-0.245), получим систему, которую решим
методом алгебраического сложения.
-11.01a -2.697 b = -223.465
11.01*a + 3.613*b = 224.826
Получаем:
0.916*b = 1.362
Откуда b = 1.8121
Теперь найдем коэффициент «a» из уравнения (1):
45a + 11.01*b = 912.1
45a + 11.01*1.8121 = 912.1
45a = 892.149
a = 19.8255
Получаем эмпирические коэффициенты регрессии: b = 1.8121, a = 19.8255
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 1.8121 x + 19.8255
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических
коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении
рассматриваемых переменных.
1. Параметры уравнения регрессии.
Выборочные средние.
∑xi
11.01
x = n = 45 = 0.245
∑yi
912.1
y = n = 45 = 20.269
∑xiyi
224.83
xy = n =
45 = 4.996
Выборочные дисперсии:
∑x2i
3.61
2
S2(x) = n - x 2 =
45 - 0.245 = 0.0204
∑y2i
18503.41
S2(y) = n - y 2 =
- 20.2692 = 0.36
45
Среднеквадратическое отклонение
S(x) = S2(x) =
0.0204 = 0.143
2
S(y) = S (y) =
0.36 = 0.599
Коэффициент корреляции b можно находить по формуле, не решая систему
непосредственно:
x·y - x · y
4.996-0.245·20.269
b=
=
= 1.8121
S2(x)
0.0204
a = y - b· x = 20.269 - 1.8121·0.245 = 19.8255
1.1. Коэффициент корреляции.
Ковариация.
cov(x,y) = x·y - x · y = 4.996 - 0.245·20.269 = 0.037
Рассчитываем показатель тесноты связи. Таким показателем является выборочный
линейный коэффициент корреляции, который рассчитывается по формуле:
x·y - x · y
4.996 - 0.245·20.269
rxy = S(x)·S(y) =
= 0.432
0.143·0.599
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии
оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y и фактором X умеренная и прямая.
Кроме того, коэффициент линейной парной корреляции может быть определен через
коэффициент регрессии b:
S(x)
0.143
rx,y = b·S(y) = 1.8120.599 = 0.432
2.1. Значимость коэффициента корреляции.
Выдвигаем гипотезы:
H0: rxy = 0, нет линейной взаимосвязи между переменными;
H1: rxy ≠ 0, есть линейная взаимосвязь между переменными;
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве
нулю генерального коэффициента корреляции нормальной двумерной случайной величины
при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия
(величина случайной ошибки)
n-2
tнабл = rxy
1 - r2xy
и по таблице критических точек распределения Стьюдента, по заданному уровню
значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней
критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| >
tкрит — нулевую гипотезу отвергают.
43
= 3.143
1 - 0.4322
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=43
находим tкрит:
tкрит(n-m-1;α/2) = tкрит(43;0.025) = 2.009
где m = 1 - количество объясняющих переменных.
Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается
значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции,
отвергается).
Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции.
Другими словами, коэффициент корреляции статистически - значим
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости
коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности
линейного уравнения регрессии.
2.2. Интервальная оценка для коэффициента корреляции (доверительный
интервал).
1-r2
1-r2
(r - tкрит
; r + tкрит
)
n-2
n-2
Доверительный интервал для коэффициента корреляции.
1-0.4322
1-0.4322
(0.432 - 2.009
;
0.432
+
2.009
45-2
45-2 )
r∈(0.156;0.708)
1.2. Уравнение регрессии (оценка уравнения регрессии).
x- x
x - 0.245
yx = rxy· S(x) ·S(y) + y = 0.432 0.143 0.599 + 20.269 = 1.812x + 19.826
tнабл = 0.432
Линейное уравнение регрессии имеет вид y = 1.812 x + 19.826
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент регрессии b = 1.812 показывает среднее изменение результативного
показателя (в единицах измерения у) с повышением или понижением величины фактора х на
единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в
среднем на 1.812.
Коэффициент a = 19.826 формально показывает прогнозируемый уровень у, но только
в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация
может привести к неверным результатам, и даже если линия регрессии довольно точно
описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции
влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить
выровненные (предсказанные) значения результативного показателя y(x) для каждого
наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь,
иначе - обратная). В нашем примере связь прямая.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для
непосредственной оценки влияния факторов на результативный признак в том случае, если
существует различие единиц измерения результативного показателя у и факторного признака
х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по
совокупности изменится результат у от своей средней величины при изменении фактора x на
1% от своего среднего значения.
Коэффициент эластичности находится по формуле:
x
∂y x
E = ∂x y = b
y
0.245
E = 1.81220.269 = 0.0219
Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y
изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.
Бета – коэффициент
Бета – коэффициент показывает, на какую часть величины своего среднего
квадратичного отклонения изменится в среднем значение результативного признака при
изменении факторного признака на величину его среднеквадратического отклонения при
фиксированном на постоянном уровне значении остальных независимых переменных:
S(x)
0.143
βj = bjS(y) = 1.8120.599 = 0.432
Т.е. увеличение x на величину среднеквадратического отклонения S x приведет к
увеличению среднего значения Y на 43.2% среднеквадратичного отклонения S y.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной
аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от
фактических:
∑|yi - yx| : yi
A =
100%
n
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе
уравнения регрессии к исходным данным.
0.907
A = 45 100% = 2.01%
В среднем, расчетные значения отклоняются от фактических на 2.01%. Поскольку
ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
1.5. Эмпирическое корреляционное отношение.
Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит
для измерение тесноты зависимости. Изменяется в пределах [0;1].
η=
η=
∑( y - yx)2
∑(yi - y )2
3.018
16.16 = 0.432
где
( y - yx)2 = 16.16 - 13.14 = 3.018
Индекс корреляции.
Для линейной регрессии индекс корреляции равен коэффициенту корреляции rxy =
0.432.
Полученная величина свидетельствует о том, что фактор x умеренно влияет на y
Для любой формы зависимости теснота связи определяется с помощью
множественного коэффициента корреляции:
∑(yi - yx)2
R=
1∑(yi - y )2
Данный коэффициент является универсальным, так как отражает тесноту связи и
точность модели, а также может использоваться при любой форме связи переменных. При
построении однофакторной корреляционной модели коэффициент множественной
корреляции равен коэффициенту парной корреляции rxy.
В отличие от линейного коэффициента корреляции он характеризует тесноту
нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
Теоретическое корреляционное отношение для линейной связи равно коэффициенту
корреляции rxy.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом
детерминации, который показывает долю вариации результативного признака, объясненную
вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в
процентах.
R2= 0.4322 = 0.1868
т.е. в 18.68% случаев изменения х приводят к изменению y. Другими словами - точность
подбора уравнения регрессии - низкая. Остальные 81.32% изменения Y объясняются
факторами, не учтенными в модели (а также ошибками спецификации).
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
x
0.16
0.24
0.32
0.48
0.13
0.1
0.22
0.13
0.11
0.3
0.18
0.14
0.24
0.36
0.17
0.19
0.48
0.03
0.15
0.04
0.09
0.1
0.17
0.44
0.33
0.47
0.1
0.3
0.06
0.11
0.28
0.39
0.47
0.45
0.41
0.38
0.09
0.28
y
20.7
20.5
20.6
21
19.9
19.6
20.8
20
19.9
20.6
20.2
20.6
20.2
20.7
19.8
19.6
19.8
18.4
20.6
19.5
20
19.8
19.9
20.7
20.4
20.1
19.4
20.1
21.5
19.8
20.6
20.9
20.3
19.6
20.4
21.3
21
19.9
y(x)
20.115
20.26
20.405
20.695
20.061
20.007
20.224
20.061
20.025
20.369
20.152
20.079
20.26
20.478
20.134
20.17
20.695
19.88
20.097
19.898
19.989
20.007
20.134
20.623
20.424
20.677
20.007
20.369
19.934
20.025
20.333
20.532
20.677
20.641
20.568
20.514
19.989
20.333
(yi-ycp)2
0.186
0.0534
0.11
0.535
0.136
0.447
0.282
0.0723
0.136
0.11
0.00475
0.11
0.00475
0.186
0.22
0.447
0.22
3.493
0.11
0.591
0.0723
0.22
0.136
0.186
0.0172
0.0285
0.755
0.0285
1.516
0.22
0.11
0.398
0.000968
0.447
0.0172
1.063
0.535
0.136
(y-y(x))2
0.342
0.0574
0.0379
0.0928
0.026
0.165
0.332
0.00373
0.0156
0.0533
0.00233
0.271
0.00365
0.0493
0.111
0.325
0.802
2.19
0.253
0.158
0.00013
0.0427
0.0546
0.00595
0.000553
0.333
0.368
0.0724
2.452
0.0506
0.0713
0.135
0.142
1.084
0.0284
0.618
1.023
0.187
|y - yx|:y
0.0282
0.0117
0.00945
0.0145
0.0081
0.0208
0.0277
0.00306
0.00627
0.0112
0.00239
0.0253
0.00299
0.0107
0.0168
0.0291
0.0452
0.0804
0.0244
0.0204
0.000569
0.0104
0.0117
0.00373
0.00115
0.0287
0.0313
0.0134
0.0728
0.0114
0.013
0.0176
0.0186
0.0531
0.00826
0.0369
0.0482
0.0218
0.48
21
20.695
0.535
0.12
19.6
20.043
0.447
0.08
19.9
19.97
0.136
0.46
20.8
20.659
0.282
0.34
21.3
20.442
1.063
0.34
20.8
20.442
0.282
0.1
20
20.007
0.0723
11.01
912.1
912.1
16.156
2. Оценка параметров уравнения регрессии.
0.0928
0.196
0.00497
0.0199
0.737
0.128
4.5E-5
13.138
0.0145
0.0226
0.00354
0.00677
0.0403
0.0172
0.000337
0.907
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
∑(yi - yx)2
S2 = n - m - 1
13.138
S2 = 43 = 0.306
S2 = 0.306 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса
зависимой переменной вокруг линии регрессии).
S = S2 = 0.306 = 0.55
S = 0.55 - стандартная ошибка оценки.
Стандартная ошибка регрессии рассматривается в качестве меры разброса данных
наблюдений от смоделированных значений. Чем меньше значение стандартной ошибки
регрессии, тем качество модели выше.
Sa - стандартное отклонение случайной величины a.
∑x2
Sa = S·n S(x)
3.61
Sa = 0.55·45·0.143 = 0.163
Sb - стандартное отклонение случайной величины b.
S
Sb =
n·S(x)
0.55
Sb =
= 0.577
45·0.143
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bxi ± ε)
где
ε = tкрит S
ε = 2.009·0.55
( x -xi)2
1
1+n+
∑(xi - x )2
1 (0.245 - xi)2
1 + 45 +
0.92
tкрит (n-m-1;α/2) = (43;0.025) = 2.009
xi
0.16
0.24
0.32
0.48
0.13
0.1
y=
19.83 +
1.81xi
20.115
20.26
20.405
20.695
20.061
20.007
εi
1.127
1.123
1.126
1.155
1.131
1.135
ymin = y - ymax = y
εi
+ εi
18.988
19.138
19.279
19.54
18.931
18.872
21.243
21.383
21.532
21.851
21.192
21.142
0.22
20.224 1.123 19.101 21.347
0.13
20.061 1.131 18.931 21.192
0.11
20.025 1.134 18.891 21.158
0.3
20.369 1.125 19.245 21.494
0.18
20.152 1.125 19.026 21.277
0.14
20.079 1.129
18.95 21.209
0.24
20.26
1.123 19.138 21.383
0.36
20.478 1.131 19.347 21.609
0.17
20.134 1.126 19.007 21.26
0.19
20.17
1.125 19.045 21.294
0.48
20.695 1.155
19.54 21.851
0.03
19.88
1.15
18.73
21.03
0.15
20.097 1.128 18.969 21.225
0.04
19.898 1.148
18.75 21.046
0.09
19.989 1.137 18.852 21.126
0.1
20.007 1.135 18.872 21.142
0.17
20.134 1.126 19.007 21.26
0.44
20.623 1.145 19.478 21.768
0.33
20.424 1.127 19.296 21.551
0.47
20.677 1.153 19.525 21.83
0.1
20.007 1.135 18.872 21.142
0.3
20.369 1.125 19.245 21.494
0.06
19.934 1.143 18.791 21.077
0.11
20.025 1.134 18.891 21.158
0.28
20.333 1.124 19.209 21.456
0.39
20.532 1.135 19.397 21.668
0.47
20.677 1.153 19.525 21.83
0.45
20.641 1.148 19.493 21.789
0.41
20.568 1.139
19.43 21.707
0.38
20.514 1.134
19.38 21.648
0.09
19.989 1.137 18.852 21.126
0.28
20.333 1.124 19.209 21.456
0.48
20.695 1.155
19.54 21.851
0.12
20.043 1.132 18.911 21.175
0.08
19.97
1.139 18.832 21.109
0.46
20.659
1.15
19.509 21.809
0.34
20.442 1.128 19.313 21.57
0.34
20.442 1.128 19.313 21.57
0.1
20.007 1.135 18.872 21.142
С вероятностью 95% можно гарантировать, что значения Y при неограниченно
большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения
регрессии.
1) t-статистика. Критерий Стьюдента.
С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые
характерны для конкретного статистического наблюдения (конкретного набора значений x и
y).
Для оценки статистической значимости коэффициентов регрессии и корреляции
рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей.
Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от
нуля.
Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для
генеральной совокупности используют статистические методы проверки гипотез.
В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от
нуля параметра или статистической характеристики в генеральной совокупности. Наряду с
основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о
неравенстве нулю параметра или статистической характеристики в генеральной
совокупности.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при
альтернативе H1 не равно) на уровне значимости α=0.05.
H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в
генеральной совокупности;
H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной
совокупности.
В случае если основная гипотеза окажется неверной, мы принимаем альтернативную.
Для проверки этой гипотезы используется t-критерий Стьюдента.
Найденное по данным наблюдений значение
t-критерия (его еще называют
наблюдаемым или фактическим) сравнивается с табличным (критическим) значением,
определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце
учебников и практикумов по статистике или эконометрике).
Табличное значение определяется в зависимости от уровня значимости (α) и числа
степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число
наблюдений.
Если фактическое значение t-критерия больше табличного (по модулю), то основную
гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая
характеристика в генеральной совокупности значимо отличается от нуля.
Если фактическое значение t-критерия меньше табличного (по модулю), то нет
оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в
генеральной совокупности незначимо отличается от нуля при уровне значимости α.
tкрит(n-m-1;α/2) = tкрит(43;0.025) = 2.009
b
tb = S
b
1.812
tb = 0.577 = 3.14
Поскольку 3.14 > 2.009, то статистическая значимость коэффициента регрессии b
подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
a
ta = S
a
19.826
ta = 0.163 = 121.35
Поскольку 121.35 > 2.009, то статистическая значимость коэффициента регрессии a
подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с
надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
(1.81 - 2.009*0.577; 1.81 + 2.009*0.577)
(0.654;2.97)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать
в найденном интервале.
(a - tкрит Sa; a + tкрит Sa)
(19.826 - 2.009*0.163; 19.826 + 2.009*0.163)
(19.497;20.154)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать
в найденном интервале.
2) F-статистика. Критерий Фишера.
Коэффициент детерминации R2 используется для проверки существенности уравнения
линейной регрессии в целом.
Проверка значимости модели регрессии проводится с использованием F-критерия
Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда
наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной
последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного
при заданном уровне значимости, то модель считается значимой.
∑(yi - yx)2
13.14
R2 = 1 = 1 - 16.16 = 0.1868
2
∑(yi - y )
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по
следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически
незначимо: H0: R2=0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
R2 (n - m -1)
F = 1 - R2
m
0.1868 (45-1-1)
F = 1 - 0.1868 1
= 9.878
или по формуле:
∑(yx - y )2 (n - m -1) 3.0181 (45-1-1)
F = ∑(y - y )2
= 13.14 · 1
= 9.878
m
i
x
где
∑(yx - y )2 = 16.16 - 13.14 = 3.0181
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного
уровня значимости, принимая во внимание, что число степеней свободы для общей суммы
квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы
квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
Fтабл - это максимально возможное значение критерия под влиянием случайных
факторов при данных степенях свободы и уровне значимости α. Уровень значимости α вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α
принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет
основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается
альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=43, Fтабл = 4
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации
статистически значим (найденная оценка уравнения регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
t2r = t2b = F = 9.878 = 3.14
Дисперсионный анализ.
При анализе качества модели регрессии используется теорема о разложении дисперсии,
согласно которой общая дисперсия результативного признака может быть разложена на две
составляющие – объясненную и необъясненную уравнением регрессии дисперсии.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(yi - ycp)2 = ∑(y(x) - ycp)2 + ∑(y - y(x))2
где
∑(yi - ycp)2 - общая сумма квадратов отклонений;
∑(y(x) - ycp)2 - сумма квадратов отклонений, обусловленная регрессией («объясненная»
или «факторная»);
∑(y - y(x))2 - остаточная сумма квадратов отклонений.
Источник
вариации
Сумма
квадратов
Число степеней Дисперсия на 1
свободы
степень
свободы
1
3.018
Модель
3.018
(объясненная)
Остаточная
13.14
43
Общая
16.16
45-1
Показатели качества уравнения регрессии.
Показатель
Коэффициент
детерминации
Средний коэффициент
эластичности
Средняя ошибка
аппроксимации
0.31
F-критерий
9.878
1
Значение
0.1868
0.0219
2.01
Выводы.
Изучена зависимость Y от X. На этапе спецификации была выбрана парная линейная
регрессия. Оценены её параметры методом наименьших квадратов. Статистическая
значимость уравнения проверена с помощью коэффициента детерминации и критерия
Фишера. Установлено, что в исследуемой ситуации 18.68% общей вариабельности Y
объясняется изменением X. Установлено также, что параметры модели статистически
значимы. Возможна экономическая интерпретация параметров модели - увеличение X на 1
ед.изм. приводит к увеличению Y в среднем на 1.812 ед.изм.
Проверка нормальности распределения остаточной компоненты.
Расчетное значение RS-критерия равно:
εmax - εmin
RS =
Sε
где εmax = 1.5657 – максимальное значение остатков, εmin = -1.4799 – минимальный
уровень ряда остатков.
Sε – среднеквадратическое отклонение
Несмещенная оценка среднеквадратического отклонения.
∑e2
13.138
Se =
n-1 =
45-1 = 0.546
1.566 - (-1.48)
RS =
= 5.574
0.546
Расчетное значение RS-критерия не попадает в интервал (2,7-3,7), следовательно,
свойство нормального распределения не выполняется. Таким образом, модель не адекватна по
нормальности распределения остаточной компоненты.
22
21,5
21
20,5
20
19,5
19
18,5
18
0
0,1
0,2
0,3
0,4
0,5
0,6
Экспоненциальное
Экспоненциальное уравнение регрессии имеет вид y = a*ebx
Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь
вид y = a*ebx + ε, где ei – наблюдаемые значения (оценки) ошибок εi, a и b соответственно
оценки параметров α и β регрессионной модели, которые следует найти.
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это
попытка общего выражения совокупности решений отдельных индивидов о расходах. Это
лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их
значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно
величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
После линеаризации получим: ln(y) = ln(a) + bx
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и
несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если
выполняются определенные предпосылки относительно случайного члена (ε) и независимой
переменной (x).
Формально критерий МНК можно записать так:
S = ∑(yi - y*i)2 → min
Система нормальных уравнений.
a·n + b·∑x = ∑y
a·∑x + b·∑x2 = ∑y·x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)
x
0.16
0.24
0.32
0.48
0.13
0.1
0.22
0.13
0.11
0.3
0.18
0.14
0.24
0.36
0.17
0.19
0.48
0.03
0.15
0.04
0.09
ln(y)
3.0301
3.0204
3.0253
3.0445
2.9907
2.9755
3.035
2.9957
2.9907
3.0253
3.0057
3.0253
3.0057
3.0301
2.9857
2.9755
2.9857
2.9124
3.0253
2.9704
2.9957
x2
0.0256
0.0576
0.1024
0.2304
0.0169
0.01
0.0484
0.0169
0.0121
0.09
0.0324
0.0196
0.0576
0.1296
0.0289
0.0361
0.2304
0.0009
0.0225
0.0016
0.0081
ln(y)2
9.1817
9.123
9.1524
9.2691
8.9444
8.8538
9.2109
8.9744
8.9444
9.1524
9.0341
9.1524
9.0341
9.1817
8.9143
8.8538
8.9143
8.4818
9.1524
8.8234
8.9744
x • ln(y)
0.4848
0.7249
0.9681
1.4614
0.3888
0.2976
0.6677
0.3894
0.329
0.9076
0.541
0.4235
0.7214
1.0908
0.5076
0.5654
1.4331
0.08737
0.4538
0.1188
0.2696
0.1
2.9857
0.01
8.9143
0.17
2.9907
0.0289
8.9444
0.44
3.0301
0.1936
9.1817
0.33
3.0155
0.1089
9.0935
0.47
3.0007
0.2209
9.0043
0.1
2.9653
0.01
8.7928
0.3
3.0007
0.09
9.0043
0.06
3.0681
0.0036
9.4129
0.11
2.9857
0.0121
8.9143
0.28
3.0253
0.0784
9.1524
0.39
3.0397
0.1521
9.2401
0.47
3.0106
0.2209
9.0638
0.45
2.9755
0.2025
8.8538
0.41
3.0155
0.1681
9.0935
0.38
3.0587
0.1444
9.3557
0.09
3.0445
0.0081
9.2691
0.28
2.9907
0.0784
8.9444
0.48
3.0445
0.2304
9.2691
0.12
2.9755
0.0144
8.8538
0.08
2.9907
0.0064
8.9444
0.46
3.035
0.2116
9.2109
0.34
3.0587
0.1156
9.3557
0.34
3.035
0.1156
9.2109
0.1
2.9957
0.01
8.9744
11.01
135.3891
3.6129
407.3778
Для наших данных система уравнений имеет вид
0.2986
0.5084
1.3333
0.9951
1.4103
0.2965
0.9002
0.1841
0.3284
0.8471
1.1855
1.415
1.339
1.2364
1.1623
0.274
0.8374
1.4614
0.3571
0.2393
1.3961
1.04
1.0319
0.2996
33.2085
45a + 11.01·b = 135.389
11.01·a + 3.613·b = 33.208
Домножим уравнение (1) системы на (-0.245), получим систему, которую решим
методом алгебраического сложения.
-11.01a -2.697 b = -33.17
11.01*a + 3.613*b = 33.208
Получаем:
0.916*b = 0.0381
Откуда b = 0.09058
Теперь найдем коэффициент «a» из уравнения (1):
45a + 11.01*b = 135.389
45a + 11.01*0.09058 = 135.389
45a = 134.392
a = 2.9865
Получаем эмпирические коэффициенты регрессии: b = 0.09058, a = 2.9865
Уравнение регрессии (эмпирическое уравнение регрессии):
y = e2.9864842881711e0.09058x = 19.81589e0.09058x
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических
коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении
рассматриваемых переменных.
1. Параметры уравнения регрессии.
Выборочные средние.
∑xi
11.01
x = n = 45 = 0.245
∑yi
135.389
y = n =
= 3.009
45
∑xiyi
33.21
xy = n = 45 = 0.738
Выборочные дисперсии:
∑x2i
3.61
2
2
S (x) = n - x 2 =
45 - 0.245 = 0.0204
∑y2i
407.38
2
S2(y) = n - y 2 =
45 - 3.009 = 0.000885
Среднеквадратическое отклонение
S(x) = S2(x) =
0.0204 = 0.143
2
S(y) = S (y) =
0.000885 = 0.0297
Коэффициент корреляции b можно находить по формуле, не решая систему
непосредственно:
x·y - x · y
0.738-0.245·3.009
b=
=
= 0.09058
2
S (x)
0.0204
a = y - b· x = 3.009 - 0.09058·0.245 = 2.9865
2.1. Значимость коэффициента корреляции.
Выдвигаем гипотезы:
H0: rxy = 0, нет линейной взаимосвязи между переменными;
H1: rxy ≠ 0, есть линейная взаимосвязь между переменными;
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве
нулю генерального коэффициента корреляции нормальной двумерной случайной величины
при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия
(величина случайной ошибки)
n-2
tнабл = rxy
1 - r2xy
и по таблице критических точек распределения Стьюдента, по заданному уровню
значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней
критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| >
tкрит — нулевую гипотезу отвергают.
43
tнабл = 0.435
= 3.17
1 - 0.4352
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=43
находим tкрит:
tкрит(n-m-1;α/2) = tкрит(43;0.025) = 2.009
где m = 1 - количество объясняющих переменных.
Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается
значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции,
отвергается).
Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции.
Другими словами, коэффициент корреляции статистически - значим
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости
коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности
линейного уравнения регрессии.
2.2. Интервальная оценка для коэффициента корреляции (доверительный
интервал).
1-r2
1-r2
(r - tкрит
n-2 ; r + tкрит
n-2 )
Доверительный интервал для коэффициента корреляции.
1-0.4352
1-0.4352
(0.435 - 2.009
45-2 ; 0.435 + 2.009
45-2 )
r∈(0.159;0.711)
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для
непосредственной оценки влияния факторов на результативный признак в том случае, если
существует различие единиц измерения результативного показателя у и факторного признака
х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.
Средний коэффициент эластичности E показывает, на сколько процентов в среднем по
совокупности изменится результат у от своей средней величины при изменении фактора x на
1% от своего среднего значения.
Коэффициент эластичности находится по формуле:
∂y x
E = ∂x y = x ln(b)
E = 0.245(0.0906) = 0.0222
Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y
изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.
Бета – коэффициент
Бета – коэффициент показывает, на какую часть величины своего среднего
квадратичного отклонения изменится в среднем значение результативного признака при
изменении факторного признака на величину его среднеквадратического отклонения при
фиксированном на постоянном уровне значении остальных независимых переменных:
S(x)
0.143
βj = bjS(y) = 0.09060.0297 = 0.435
Т.е. увеличение x на величину среднеквадратического отклонения S x приведет к
увеличению среднего значения Y на 43.5% среднеквадратичного отклонения S y.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной
аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от
фактических:
∑|yi - yx| : yi
A =
100%
n
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе
уравнения регрессии к исходным данным.
0.904
A = 45 100% = 2.01%
В среднем, расчетные значения отклоняются от фактических на 2.01%. Поскольку
ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
1.5. Эмпирическое корреляционное отношение.
Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит
для измерение тесноты зависимости. Изменяется в пределах [0;1].
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии
оцениваются по шкале Чеддока:
0.1 < η < 0.3: слабая;
0.3 < η < 0.5: умеренная;
0.5 < η < 0.7: заметная;
0.7 < η < 0.9: высокая;
0.9 < η < 1: весьма высокая;
η=
η=
∑( y - yx)2
∑(yi - y )2
2.997
16.16 = 0.431
где
( y - yx)2 = 16.16 - 13.16 = 2.997
Индекс корреляции.
Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к
единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение
регрессии.
R=
R=
1-
∑(yi - yx)2
∑(yi - y )2
13.16
1 - 16.16 = 0.431
Полученная величина свидетельствует о том, что фактор x умеренно влияет на y
Для любой формы зависимости теснота связи определяется с помощью
множественного коэффициента корреляции:
∑(yi - yx)2
R=
1∑(yi - y )2
Данный коэффициент является универсальным, так как отражает тесноту связи и
точность модели, а также может использоваться при любой форме связи переменных. При
построении однофакторной корреляционной модели коэффициент множественной
корреляции равен коэффициенту парной корреляции rxy.
В отличие от линейного коэффициента корреляции он характеризует тесноту
нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].
1.6. Индекс детерминации.
Величину R2 (равную отношению объясненной уравнением регрессии дисперсии
результата у к общей дисперсии у) для нелинейных связей называют индексом
детерминации.
Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах.
∑(yi - yx)2
R2 = 1 ∑(yi - y )2
13.16
R2 = 1- 16.16 = 0.186
т.е. в 18.55% случаев изменения х приводят к изменению y. Другими словами - точность
подбора уравнения регрессии - низкая. Остальные 81.45% изменения Y объясняются
факторами, не учтенными в модели (а также ошибками спецификации).
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
x
0.16
0.24
0.32
0.48
0.13
0.1
0.22
0.13
0.11
0.3
0.18
0.14
0.24
0.36
0.17
0.19
0.48
0.03
0.15
0.04
0.09
0.1
y
20.7
20.5
20.6
21
19.9
19.6
20.8
20
19.9
20.6
20.2
20.6
20.2
20.7
19.8
19.6
19.8
18.4
20.6
19.5
20
19.8
y(x)
20.105
20.251
20.399
20.696
20.051
19.996
20.215
20.051
20.014
20.362
20.142
20.069
20.251
20.473
20.123
20.16
20.696
19.87
20.087
19.888
19.978
19.996
(yi-ycp)2
0.186
0.0534
0.11
0.535
0.136
0.447
0.282
0.0723
0.136
0.11
0.00475
0.11
0.00475
0.186
0.22
0.447
0.22
3.493
0.11
0.591
0.0723
0.22
(y-y(x))2
0.354
0.0618
0.0405
0.0921
0.0227
0.157
0.343
0.00256
0.0131
0.0568
0.00341
0.282
0.00264
0.0517
0.105
0.313
0.804
2.16
0.263
0.15
0.00048
0.0385
|y - yx|:y
0.0287
0.0121
0.00977
0.0145
0.00757
0.0202
0.0281
0.00253
0.00574
0.0116
0.00289
0.0258
0.00254
0.011
0.0163
0.0286
0.0453
0.0799
0.0249
0.0199
0.0011
0.00991
0.17
19.9
20.123
0.136
0.44
20.7
20.622
0.186
0.33
20.4
20.417
0.0172
0.47
20.1
20.678
0.0285
0.1
19.4
19.996
0.755
0.3
20.1
20.362
0.0285
0.06
21.5
19.924
1.516
0.11
19.8
20.014
0.22
0.28
20.6
20.325
0.11
0.39
20.9
20.528
0.398
0.47
20.3
20.678
0.000968
0.45
19.6
20.64
0.447
0.41
20.4
20.566
0.0172
0.38
21.3
20.51
1.063
0.09
21
19.978
0.535
0.28
19.9
20.325
0.136
0.48
21
20.696
0.535
0.12
19.6
20.032
0.447
0.08
19.9
19.96
0.136
0.46
20.8
20.659
0.282
0.34
21.3
20.436
1.063
0.34
20.8
20.436
0.282
0.1
20
19.996
0.0723
11.01
912.1
911.775
16.156
2. Оценка параметров уравнения регрессии.
0.0499
0.00614
0.000295
0.334
0.355
0.0685
2.484
0.0459
0.0757
0.138
0.143
1.082
0.0274
0.624
1.044
0.181
0.0921
0.187
0.0036
0.0199
0.747
0.133
1.4E-5
13.159
0.0112
0.00379
0.000842
0.0287
0.0307
0.013
0.0733
0.0108
0.0134
0.0178
0.0186
0.0531
0.00812
0.0371
0.0487
0.0214
0.0145
0.0221
0.00302
0.00678
0.0406
0.0175
0.00019
0.904
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
∑(yi - yx)2
S2 = n - m - 1
13.159
S2 = 43 = 0.306
S2 = 0.306 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса
зависимой переменной вокруг линии регрессии).
S = S2 = 0.306 = 0.55
S = 0.55 - стандартная ошибка оценки.
Стандартная ошибка регрессии рассматривается в качестве меры разброса данных
наблюдений от смоделированных значений. Чем меньше значение стандартной ошибки
регрессии, тем качество модели выше.
Sa - стандартное отклонение случайной величины a.
∑x2
Sa = S·n S(x)
3.61
Sa = 0.55·45·0.143 = 0.163
Sb - стандартное отклонение случайной величины b.
S
Sb =
n·S(x)
0.55
Sb =
= 0.577
45·0.143
Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bxi ± ε)
где
ε = tкрит S
ε = 2.009·0.55
( x -xi)2
1
1+n+
∑(xi - x )2
1 (0.245 - xi)2
1 + 45 +
0.92
tкрит (n-m-1;α/2) = (43;0.025) = 2.009
xi
0.16
0.24
0.32
0.48
0.13
0.1
0.22
0.13
0.11
0.3
0.18
0.14
0.24
0.36
0.17
0.19
0.48
0.03
0.15
0.04
0.09
0.1
0.17
0.44
0.33
0.47
0.1
0.3
0.06
0.11
0.28
0.39
0.47
0.45
0.41
0.38
0.09
0.28
0.48
0.12
0.08
0.46
0.34
0.34
y = 2.99
+
0.0906xi
20.105
20.251
20.399
20.696
20.051
19.996
20.215
20.051
20.014
20.362
20.142
20.069
20.251
20.473
20.123
20.16
20.696
19.87
20.087
19.888
19.978
19.996
20.123
20.622
20.417
20.678
19.996
20.362
19.924
20.014
20.325
20.528
20.678
20.64
20.566
20.51
19.978
20.325
20.696
20.032
19.96
20.659
20.436
20.436
εi
1.128
1.124
1.127
1.156
1.131
1.136
1.124
1.131
1.134
1.125
1.126
1.13
1.124
1.132
1.127
1.125
1.156
1.151
1.129
1.148
1.138
1.136
1.127
1.146
1.128
1.154
1.136
1.125
1.144
1.134
1.124
1.136
1.154
1.149
1.14
1.135
1.138
1.124
1.156
1.133
1.14
1.151
1.129
1.129
ymin = y - ymax = y
εi
+ εi
18.977
19.128
19.272
19.54
18.919
18.86
19.091
18.919
18.88
19.236
19.015
18.939
19.128
19.341
18.996
19.034
19.54
18.719
18.958
18.739
18.84
18.86
18.996
19.475
19.289
19.524
18.86
19.236
18.78
18.88
19.201
19.392
19.524
19.492
19.426
19.375
18.84
19.201
19.54
18.9
18.82
19.508
19.307
19.307
21.233
21.375
21.526
21.853
21.182
21.132
21.339
21.182
21.149
21.487
21.268
21.199
21.375
21.604
21.25
21.285
21.853
21.021
21.216
21.036
21.116
21.132
21.25
21.768
21.545
21.831
21.132
21.487
21.068
21.149
21.449
21.665
21.831
21.789
21.706
21.644
21.116
21.449
21.853
21.165
21.1
21.81
21.565
21.565
0.1
19.996 1.136
18.86 21.132
С вероятностью 95% можно гарантировать, что значения Y при неограниченно
большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения
регрессии.
1) t-статистика. Критерий Стьюдента.
С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые
характерны для конкретного статистического наблюдения (конкретного набора значений x и
y).
Для оценки статистической значимости коэффициентов регрессии и корреляции
рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей.
Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от
нуля.
Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для
генеральной совокупности используют статистические методы проверки гипотез.
В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от
нуля параметра или статистической характеристики в генеральной совокупности. Наряду с
основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о
неравенстве нулю параметра или статистической характеристики в генеральной
совокупности.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при
альтернативе H1 не равно) на уровне значимости α=0.05.
H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в
генеральной совокупности;
H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной
совокупности.
В случае если основная гипотеза окажется неверной, мы принимаем альтернативную.
Для проверки этой гипотезы используется t-критерий Стьюдента.
Найденное по данным наблюдений значение
t-критерия (его еще называют
наблюдаемым или фактическим) сравнивается с табличным (критическим) значением,
определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце
учебников и практикумов по статистике или эконометрике).
Табличное значение определяется в зависимости от уровня значимости (α) и числа
степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число
наблюдений.
Если фактическое значение t-критерия больше табличного (по модулю), то основную
гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая
характеристика в генеральной совокупности значимо отличается от нуля.
Если фактическое значение t-критерия меньше табличного (по модулю), то нет
оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в
генеральной совокупности незначимо отличается от нуля при уровне значимости α.
tкрит(n-m-1;α/2) = tкрит(43;0.025) = 2.009
b
tb = S
b
0.0906
tb = 0.577 = 0.16
Поскольку 0.16 < 2.009, то статистическая значимость коэффициента регрессии b не
подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает,
что в данном случае коэффициентом b можно пренебречь.
a
ta = S
a
2.986
ta = 0.163 = 18.27
Поскольку 18.27 > 2.009, то статистическая значимость коэффициента регрессии a
подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с
надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
(0.0906 - 2.009*0.577; 0.0906 + 2.009*0.577)
(-1.069;1.25)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать
в найденном интервале.
Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка
коэффициента b статистически незначима.
(a - tкрит Sa; a + tкрит Sa)
(2.986 - 2.009*0.163; 2.986 + 2.009*0.163)
(2.658;3.315)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать
в найденном интервале.
2) F-статистика. Критерий Фишера.
Индекс детерминации R2 используется для проверки существенности уравнения
нелинейной регрессии в целом.
Проверка значимости модели регрессии проводится с использованием F-критерия
Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда
наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной
последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного
при заданном уровне значимости, то модель считается значимой.
∑(yi - yx)2
13.16
R2 = 1 =
1
16.16 = 0.1855
∑(yi - y )2
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по
следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически
незначимо: H0: R2=0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
R2 (n - m -1)
F = 1 - R2
m
0.1855 (45-1-1)
F = 1 - 0.1855 1
= 9.794
или по формуле:
∑(yx - y )2 (n - m -1) 2.9972 (45-1-1)
F = ∑(y - y )2
= 13.16 · 1
= 9.794
m
i
x
где
∑(yx - y )2 = 16.16 - 13.16 = 2.9972
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного
уровня значимости, принимая во внимание, что число степеней свободы для общей суммы
квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы
квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
Fтабл - это максимально возможное значение критерия под влиянием случайных
факторов при данных степенях свободы и уровне значимости α. Уровень значимости α вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α
принимается равной 0,05 или 0,01.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет
основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается
альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=43, Fтабл = 4
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации
статистически значим (найденная оценка уравнения регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
t2r = t2b = F = 9.794 = 3.13
Дисперсионный анализ.
При анализе качества модели регрессии используется теорема о разложении дисперсии,
согласно которой общая дисперсия результативного признака может быть разложена на две
составляющие – объясненную и необъясненную уравнением регрессии дисперсии.
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
∑(yi - ycp)2 = ∑(y(x) - ycp)2 + ∑(y - y(x))2
где
∑(yi - ycp)2 - общая сумма квадратов отклонений;
∑(y(x) - ycp)2 - сумма квадратов отклонений, обусловленная регрессией («объясненная»
или «факторная»);
∑(y - y(x))2 - остаточная сумма квадратов отклонений.
Источник
вариации
Сумма
квадратов
Число степеней Дисперсия на 1
свободы
степень
свободы
1
2.997
Модель
2.997
(объясненная)
Остаточная
13.16
43
Общая
16.16
45-1
Показатели качества уравнения регрессии.
Показатель
Коэффициент
детерминации
Средний коэффициент
эластичности
Средняя ошибка
аппроксимации
0.31
F-критерий
9.794
1
Значение
0.1855
0.0222
2.01
Выводы.
Изучена зависимость Y от X. На этапе спецификации была выбрана парная
экспоненциальная регрессия. Оценены её параметры методом наименьших квадратов.
Статистическая значимость уравнения проверена с помощью коэффициента детерминации и
критерия Фишера. Установлено, что в исследуемой ситуации 18.55% общей вариабельности
Y объясняется изменением X. Установлено также, что параметры модели статистически не
значимы.
Проверка нормальности распределения остаточной компоненты.
Расчетное значение RS-критерия равно:
εmax - εmin
RS =
Sε
где εmax = 1.5761 – максимальное значение остатков, εmin = -1.4698 – минимальный
уровень ряда остатков.
Sε – среднеквадратическое отклонение
Несмещенная оценка среднеквадратического отклонения.
∑e2
13.159
Se =
=
n-1
45-1 = 0.547
1.576 - (-1.47)
= 5.57
0.547
Расчетное значение RS-критерия не попадает в интервал (2,7-3,7), следовательно,
свойство нормального распределения не выполняется. Таким образом, модель не адекватна по
нормальности распределения остаточной компоненты.
RS =
Скачать