Пример 2 - Natalymath.ru

реклама
1
Задача.
На основе данных таблицы найти точечную оценку уравнения регрессии y = β0 + β1x,
проверить значимость уравнения регрессии по коэффициенту детерминации.
1
14
7
x
y
2
15,5
6,1
3
17,1
5
4
19,2
3,1
5
23
2,5
6
25,2
1,1
7
29
0,2
1. Рассчитаем параметры уравнения линейной регрессии y = β0 + β1x
Для определения параметров парной линейной регрессии применяется метод
наименьших квадратов.
Сущность метода наименьших квадратов заключается в том, что рассчитываются
такие значения параметров b0 и b1, при которых сумма квадратов отклонений теоретических
значений результативного признака Ŷx от эмпирических значений y минимальна:
Σ (yi-Ŷx)2  min или S = Σ (yi-b0-b1xi)2  min.
Математически эта задача решается путем приравнивания частных производных функции нулю
(необходимое условие экстремума).
S
 2 ( y i  b0  b1 xi )  (1)  0 ;
b0
S
 2 ( y i  b0  b1 xi )  ( x)  0 .
b1
Раскрывая скобки и приводя подобные слагаемые, получаем систему уравнений для определения
параметров уравнения линейной регрессии:
 nb0  b1  xi   yi ;

2
 b0  xi  b1  xi   xi yi .
b0
y x -x y x

n x -   x 
2
i
i
2
i
i
i
i
2
b1 
;
i
n xi yi -  xi  yi
n xi2 -   xi 
2
.
Коэффициент b1 называется коэффициентом регрессии Y по X. Он показывает, на сколько
единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу.
Расчеты оформим в виде таблицы.
№
1
2
3
4
5
6
7
Σ
X
14,0
15,5
17,1
19,2
23,0
25,2
29,0
143,0
Y
7,0
6,1
5,0
3,1
2,5
1,1
0,2
25,0
X2
196,00
240,25
292,41
368,64
529,00
635,04
841,00
3102,34
 x  y   x xy  3102,34  25  143  428,59  16270,13  12,837610

1267,38
n  x  ( x)
7  3102,34  143
2
b0
Y2
49,00
37,21
25,00
9,61
6,25
1,21
0,04
128,32
2
2
2
XY
98,00
94,55
85,50
59,52
57,50
27,72
5,80
428,59
2
b1 
n  xy   x  y
n  x  ( x)
2
2

7  428,59  143  25 -574,87

 -0,453589
1267,38
7  3102,34  1432
Y= 12,838 – 0,454∙x
Изобразим линию регрессии на графике.
2. Рассчитаем коэффициент корреляции и детерминации.
Линейный парный коэффициент корреляции является показателем тесноты связи
между переменными. Он принимает значения в интервале [-1;1]. Чем ближе r по модулю к
единице, тем теснее связь.
Выборочный коэффициент корреляции:
r

n  xy   x  y
n  x 2  ( x) 2 n  y 2  ( y) 2
-574,87
1267,38  273,24
Шкала Чеддока:

7  428,59  143  25
7  3102,34  1432 7 128,32  252

 -0,976886
‫׀‬r‫׀‬
0,1-0,3
0,3-0,5
0,5-0,7
0,7-0,9
0,9-0,99
связь слабая умеренная заметная высокая весьма высокая
Связь между переменными весьма высокая
Коэффициент детерминации D = r2 ≈ 0,954307. Он показывает, что 95,4 % вариации
результативного признака Y объясняется влиянием факторного признака X.
3
3. Оценим статистическую значимость коэффициента корреляции с помощью tкритерия Стьюдента
Наблюдаемое значение критерия:
tr  r
n2
1  r2
 -0,976886 
72
1   -0,976886 
2
 10,219
Критическое значение критерия при уровне значимости =0,05:
t (1-α; n-2) = t (0,95; 5) = 2,57.
> tкр, коэффициент корреляции статистически значим.
tr
4. Оценим значимость уравнения, используя коэффициент детерминации.
Для уравнения линейной регрессии критерий значимости уравнения можно записать в
виде:
R 2 (n  m)
F
 F ;k1 ;k2
(1  R 2 )( m  1)
где F ;k1 ;k 2 - табличное значение F-критерия Фишера - Снедекора, определённое на уровне
значимости α при k1 = m - 1 и k2 = n - m степенях свободы (m – число оцениваемых
параметров уравнения регрессии; n – число наблюдений)
F
0,954307(7  2)
 104,426;
(1  0,954307)  2  1 
F ;k1 ;k2  F0,05;1;5  6,608;
104,426  6,608
Уравнение статистически значимо.
5. Вычисление в программе Excel, надстройка «Анализ данных» → «регрессия»:
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,976886442
R-квадрат
0,954307121
Нормированный R-кв.
0,945168545
Стандартная ошибка
0,597258554
Наблюдения
7
Дисперсионный анализ
df
Регрессия
Остаток
Итого
Y-пересечение
Переменная X 1
1
5
6
SS
37,25069681
1,7835889
39,03428571
MS
37,25069681
0,35671778
F
104,4262409
Коэфф.
12,83760987
-0,453589294
Станд. ошибка
0,934444796
0,044387223
t-стат.
13,7382218
-10,21891584
P-Значение
3,66698E-05
0,000154071
Скачать