Загрузил Kiseleva.erudit

Эконометрика вариант 1

реклама
Вариант
1
Парная регрессия и корреляция
По территориям региона приводятся данные за 199Х год.
Номер
региона
1
2
3
4
5
6
7
8
9
10
11
12
Среднедушевой прожиточный
минимум в день одного
трудоспособного, руб., х
81
77
85
79
93
100
72
90
71
89
82
111
Среднедневная заработная плата, руб., у
124
131
146
139
143
159
135
152
127
154
127
162
Требуется:
1. Построить линейное уравнение парной регреси у по х.
2. Расчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.
3.
Оценить статистическую значимость уравнения регрессии в целом и
отдельных параметров регрессии и корреляции с помощью F- критерия Фишера и
t-критерия Стъюдента.
4. Выполнить прогноз заработной платы у при прогнохном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.
5.
Оценить точность прогноза, расчитав ошибку прогноза и его доверительный интервал.
6. На одном графике отложить исходные данные и теоретическую прямую.
РЕШЕНИЕ
1.
таблицу 1.
Для расчета парметров уравнения линейной регрессии построим расчетную
Таблица 1.
№
x
y
x y
x2
y2
1
2
3
4
81
77
85
79
124
131
146
139
10044
10087
12410
10981
6561
5929
7225
6241
15376
17161
21316
19321
yˆ x
 y  yˆ x 
2
137.005 169.1311
133.216 4.9111446
140.794 27.102721
135.111 15.12762
Ai
10.49%
1.69%
3.57%
2.80%
5
6
7
8
9
10
11
12
Сумма
Средн.

2
93
100
72
90
71
89
82
111
1030
85.8333
11.1343
123.972
143
159
135
152
127
154
127
162
1699
141.583
12.5861
158.41
13299
15900
9720
13680
9017
13706
10414
17982
147240
12270
8649
10000
5184
8100
5041
7921
6724
12321
89896
7491.33
20449
25281
18225
23104
16129
23716
16129
26244
242451
20204.3
148.372
155.002
128.48
145.53
127.533
144.583
137.952
165.422
1699
141.583
28.856612
15.980288
42.511101
41.859131
0.2837836
88.681699
119.95231
11.710259
566.10778
47.175648
3.76%
2.51%
4.83%
4.26%
0.42%
6.11%
8.62%
2.11%
51.17%
4.26%
Находим оценки параметров уравнения регрессии:
b
x y  x  y
 x2
 0.94723
Получено уравнение регрессии:
a  y  b  x  60.279184
yˆ x 
60.2792
+
0.9472328 x
Т.е. с увеличением среднедушевого прожиточного минимума на 1 руб., средняя заработная
плата возрастает в среднем на
0.94723 руб.
2.
Тесноту линейной связи оценит коэффициент корреляции:
rxy  b 
x
 0.83797
y
Т.к. значение коэффициента больше 0,7, то это говорит о наличии весьма тесной линейной
связи между признаками.
Коэффициент детерминации:
rxy2  0.70219
Это означает, что
70% вариации заработной платы объясняется вариацией среднедушевого прожиточного минимума.
Качество модели определяет средняя ошибка аппроксимации:
A
1
 Ai  4.26%
n
Качество построенной модели оценивается как хорошее, так как средняя ошибка
аппроксимации не превышает 10 %.
Оценим значимость уравнения регрессии в целом с помощью F- критерия
3.
Фишера. Фактическое значение F-критерия:
Ffact 
rxy2
1  rxy2
  n  2   23.5787
Табличное значение критерия при пятипроцентном уровне значимости и степенях
свободы k1  1, k2  12  2  10 составляет Ftabl  4,96
Ffact  Ftabl
Т.к. Ffact  Ftabl , то уравнение признается статистически значимым.
Оценку статистической значимости параметров регрессии проведем с помощью
t- критерия Стъюдента и путем расчета доверительного интервала каждого из показателей
Табличное значение t-критерия для пятипроцентного уровня значимости и числе степеней
свободы = 10 составит ttabl 
2.23
Определим случайные ошибки ma , mb , mr .
Остаточная дисперсия на одну степень свободы равна:
S
2
ost
 y  yˆ 

2
 56.6108
x
n2
ma 
S
2
ost
mb 
mr 
x
2
n 2 x2
 16.884
2
Sost
 0.19507
n   x2
1  rxy2
n2
 0.17257
Тогда
ta 
a
 3.57019
ma
tb 
b
 4.85579
mb
tr 
rxy
 4.855791
mr
a, b, rxy не
Фактические значения превосходят табличное, поэтому параметры
случайно отличаются от нуля, а статистически значимы.
Расчитаем доверительные интервалы для параметров регрессии a и b . Для этого определим
предельную ошибку для каждого показателя:
 a  ttabl  ma  37.6514
 b  ttabl  mb 
0.43501
Доверительные интервалы:
 a  a  a
и
 b  b  b
, тогда
22.6278  a*  97.9306
0.51222  b*  1.38225
Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что
с вероятностью 0,95 параметры a и b , находясь в указанных границах, не принимают
нулевых значений, т.е. являются статистически значимыми и существенно отличны от нуля.
4.
Полученные оценки уравнения регрессии позволяют использовать его для
прогноза. Если прогнозное значение прожиточного минимума составит:
x p  x  1,07  91.8417 руб., тогда индивидуальное прогнозное значение заработной
платы составит:
yˆ p  a  b  x p  147.275 руб.
5.
Ошибка прогноза составит:
myˆ p
2


x

x


1
p
2 
  7.91846
 Sost 1  
2

n
n  x 


Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:
 yˆ p  ttabl  m yˆ p  17.6582
 yˆ  yˆ p   yˆ
Доверительный интервал прогноза:
p
p
, тогда
129.616  yˆ p  164.933
Выполненный прогноз среднемесячной заработной платы является надежным и находится
в указанных пределах.
6.
Построим на одном графике исходные данные и теоретическую прямую.
200
190
180
170
Series1
160
Series2
150
140
130
120
60
70
80
90
100
110
120
Множественная регрессия и корреляция
По 20 предприятиям региона изучается зависимость выработки продукции на одного
работника y (тыс. руб.) от ввода в действие новых основных фондов x1 (% от стоимости
фондов на конец года) и от удельного веса рабочих высокой квадификации в общей
численности рабочих x2 (%).
Номер предприятия
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
y
6
6
6
7
7
7
8
8
9
10
9
11
11
12
12
13
13
13
14
14
x1
3.6
3.6
3.9
4.1
3.9
4.5
5.3
5.3
5.6
6.8
6.3
6.4
7
7.5
7.9
8.2
8
8.6
9.5
9
x2
9
12
14
17
18
19
19
19
20
21
21
22
24
25
28
30
30
31
33
36
Требуется:
1. Построить линейную модель множественной регрессии. Записать стандарти- зированное
уравнение множественной регрессии. На основе стандартизированных коэффициентов
регрессии и средних коэффициентов эластичности ранжировать факторы по степени их
влияния на результат.
2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать
их.
3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с
нескорректированным (общим) коэффициентом детерминации.
4. С помощью F -критерия Фишера оценить статистическую надежность уравнения
реграссии и коэффициента детерминации.
5. С помощью частных F- критериев Фишера оценить целесообразность включения в
уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1.
6. Составить уравнение линейной регрессии, оставив лишь один значащий фактор.
РЕШЕНИЕ.
Для удобства проведения расчетов поместим результаты промежуточных расчетов в
таблицу:
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Сумма
Среднее
y
6
6
6
7
7
7
8
8
9
10
9
11
11
12
12
13
13
13
14
14
196
9.8
x1
x2
yx1
yx2
x1 x2
3.6
3.6
3.9
4.1
3.9
4.5
5.3
5.3
5.6
6.8
6.3
6.4
7
7.5
7.9
8.2
8
8.6
9.5
9
125
6.25
9
12
14
17
18
19
19
19
20
21
21
22
24
25
28
30
30
31
33
36
448
22.4
21.6
21.6
23.4
28.7
27.3
31.5
42.4
42.4
50.4
68
56.7
70.4
77
90
94.8
106.6
104
111.8
133
126
1327.6
66.38
54
72
84
119
126
133
152
152
180
210
189
242
264
300
336
390
390
403
462
504
4762
238.1
32.4
43.2
54.6
69.7
70.2
85.5
100.7
100.7
112
142.8
132.3
140.8
168
187.5
221.2
246
240
266.6
313.5
324
3051.7
152.585
x12
12.96
12.96
15.21
16.81
15.21
20.25
28.09
28.09
31.36
46.24
39.69
40.96
49
56.25
62.41
67.24
64
73.96
90.25
81
851.94
42.597
x22
81
144
196
289
324
361
361
361
400
441
441
484
576
625
784
900
900
961
1089
1296
11014
550.7
Найдем средние квадратические отклонения признаков:
 y  y 2  y 2  2.76767
 x  x12  x12  1.88003
1
 x  x22  x22  6.99571
2
1.
Вычисление параметров линейного уравнения множественной регрессии.
Для нахождения параметров линейного уравнения множественной регрессии
y  a  b1 x1  b2 x2
Ннеобходимо решить следующую систему линейных уравнений относительно неизвестных
параметров a, b1 , b2

na  b1  x1  b2  x2   y

2
 a  x1  b1  x1  b2  x1 x2   yx1
2
a x  b
1  x1 x2  b2  x2   yx2
  2
либо воспользоваться готовыми формулами:
y2
36
36
36
49
49
49
64
64
81
100
81
121
121
144
144
169
169
169
196
196
2074
103.7
ryx1 
ryx2 
cov  y, x1  yx1  y  x1

 0.98591
 y   x1
 y   x1
cov  y, x2  yx2  y  x2

 0.95962
 y   x2
 y   x2
cov  x1 , x2  x1 x2  x1  x2

 0.95688
 x1   x2
 x1   x2
rx1x2 
Вычислим теперь коэффициенты по формулам:
b1 
 y ryx  ryx rx x

 1.18064
x
1  rx2x
1
1
b2 
2
1 2
1 2
 y ryx  ryx rx x

 0.07604
x
1  rx2x
2
2
1
1 2
1 2
a  y  b1 x1  b2 x2  0.71759
Таким образом получили следующее уравнение множественной регрессии:
ŷ 
0.71759
+
1.18064 x1 +
0.0760444 x2
Уравнение регрессии показывает, что при увеличении ввода в действие основных фондов
на 1 % (при неизменном уровне удельного веса рабочих высокой квалификации) выработка
продукции на одного рабочего увеличивается в среднем на
1.181 тыс. руб., а при
увеличении удельного веса рабочих высокой квалификации в общей численности рабочих на
1% (при неизменном уровне ввода в действие новых основных фондов), выработка продукции на одного рабочего увеличится в среднем на
0.076 тыс. руб.
Коэффициенты 1и  2 стандартизированного уравнения регрессии
t y  1t x1   2t x2   , находятся по формулам:
1  b1
x
 0.80199
y
 2  b2
x
 0.19221
y
1
2
Т.е. уравнение будет выглядеть следующим образом:
tˆy  0.80199 t x +
1
0.19221 t x2
Т.к. стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно
сказать, что ввод в действие новых фондов оказывает большее влияние на выработку продукции, чем
удельный вес рабочих высокой квалификации.
Сравнивать влияние факторов на результат можно также при помощи средних
коэффициентов эластичности:
Эi  bi 
xi
yxi
Вычисляем:
Э1 
Э2  0.17382
0.75296
Т.е. увеличение только основных фондов (от своего среднего значения) или только
удельного веса рабочих высокой квалификации на 1 %, увеличивает в среднем выработку
продукции на
0.75 или
0.17 процентов соответственно. Таким образом,
подтверждается большее влияние на результат y фактора x1, чем фактора x2 .
2.
Коэффициенты парной корреляции уже найдены:
ryx1 
ryx2 
0.986
0.960
rx1x2 
0.957
Они указывают на весьма сильную связь каждого фактора с результатом, а также
rx1x2 
высокую межфакторную взаимосвязь (факторы x1 и x2 явно коллинеарны, т.к.
0.95688 >0,7). При такой сильной межфакторной зависимости рекомендуется один из
факторов исключить из рассмотрения.
Частные коэффициенты корреляции характеризуют тесноту связи между результатом
и соответствующим фактором при элиминировании (устранении влияния) других факторов,
включенных в уравнение регрессии.
При двух факторах частные коэффициенты корреляции расчитываются следующим
образом:
ryx1x2 

ryx1  ryx2  rx1x2

1  ryx2 2  1  rx21x2
ryx2  ryx1  rx1x2
ryx2 x1 

1  r   1  r 
2
yx1

0.82818

0.467
2
x1 x2
Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что
из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышен-ные
оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной колинеарности
(взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной
зависимости меньше, чем теснота межфакторной связи.
Коэффициент множественной корреляции можно определить через матрицу парных
коэффициентов корреляции:
Ryx1x2  1 
где
1
ryx1
ryx2
 r  ryx1
1
rx1x2
rx2 x1
1
ryx2
r
,
 r11
определитель матрицы парных коэффициентов
корреляции;
 r11 
1
rx1x2
rx2 x1
1
определитель матрицы межфакторной корреляции.
r 
1
0.986
0.960
0.986
1
0.957
0.960
0.957
1
=
 r11 
1
0.957
0.957
1
=
0.0844
0.0021
Коэффициент множественной корреляции:
Ryx1x2  1 
r

 r11
0.987
Коэффициент множественной корреляции показывает на весьма сильную связь
всего набора факторов с результатом.
3.
Нескорректированный коэффициент множественной детерминации
2
Ryx

1x2
0.975 оценивает долю вариации результата за счет представленых в
уравнении факторов в общей вариации. Здесь эта доля составляет
97.5% и указывает на
весьма высокую степень обусловленности вариации результата вариацией факторов, иными
словами - на весьма тесную связь факторов с результатом.
Скорректированный коэффициент множественной детерминации:
Rˆ 2  1  1  R 2 
n 1

n  m 1
0.972
определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсии. Он дает
такую оценку тесноты связи, которая на зависит от числа факторов и поэтому может
сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на
x2 .
весьма высокую детерминированность результата y в модели факторами x1 и
4.
Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает
F - критерий Фишера:
R2
n  m 1
Ffact 

 333.47
1  R2
m
(при n= 20), т.е. вероятность случайно получить
Полусили, что Ffact  Ftabl  3, 49
такое значение F - критерия не превышает допустимый уровень значимости 5 %.
Следовательно, полученной значение не случайно, оно сформировалось под влиянием
существенных факторов, т.е. подтверждается статистическая значимость всего уравнения
2
и показателя тесноты связи Ryx
x
1 2
С помощью частных F- критериев Фишера оценим целесообразность включения в
5.
уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1 при
помощи формул:
2
Ryx
 ryx2 2 n  m  1
1 x2
Fx1 


2
1  Ryx
1
x
1 2
37.119
2
Ryx
 ryx2 1 n  m  1
1 x2
2.132
Fx2 


2
1  Ryx
1
1 x2
Получили, что Fx2  Ftabl  3,49.
Следовательно, включение в модель фактора
x2 после того, как в модель включен фактор x1 статистически нецелесообразно:
x2
прирост факторной дисперсии за счет дополнительного признака
оказывается
x1
незначительным, несущественым; фактор x2 включать в уравнение после фактора
не следует.
Если поменять первоначальный порядок включения факторов в модель и
рассмотреть вариант включения x1 после x2 , то результат расчета частного F -критерия
для x1 будет иным. Fx1  Ftabl  3,49,
т.е. вероятность его случайного формирования
меньше принятого стандарта в 5 %. Следовательно, значение частного F -критерия для
дополнительно включенного фактора
не случайно, является статистически
x1
значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного
x1
фактора
является существенным. Фактор x1 должен присутствовать в уравнении,
в том числе в варианте, когда он дополнительно включается после фактора
x2
x2
Общий вывод состоит в том, что множественная модель с факторами
xи1
x
 0.975 содержит неинформативный фактор
с R
Если исключить его, то
2
можно ограничиться уравнением парной регрессии:
6.
2
yx1x2
yˆ x1  ax1  bx1  x1  0.73
+
1.45 x
Скачать