1 Задача. На основе данных таблицы найти точечную оценку уравнения регрессии y = β0 + β1x, проверить значимость уравнения регрессии по коэффициенту детерминации. 1 14 7 x y 2 15,5 6,1 3 17,1 5 4 19,2 3,1 5 23 2,5 6 25,2 1,1 7 29 0,2 1. Рассчитаем параметры уравнения линейной регрессии y = β0 + β1x Для определения параметров парной линейной регрессии применяется метод наименьших квадратов. Сущность метода наименьших квадратов заключается в том, что рассчитываются такие значения параметров b0 и b1, при которых сумма квадратов отклонений теоретических значений результативного признака Ŷx от эмпирических значений y минимальна: Σ (yi-Ŷx)2 min или S = Σ (yi-b0-b1xi)2 min. Математически эта задача решается путем приравнивания частных производных функции нулю (необходимое условие экстремума). S 2 ( y i b0 b1 xi ) (1) 0 ; b0 S 2 ( y i b0 b1 xi ) ( x) 0 . b1 Раскрывая скобки и приводя подобные слагаемые, получаем систему уравнений для определения параметров уравнения линейной регрессии: nb0 b1 xi yi ; 2 b0 xi b1 xi xi yi . b0 y x -x y x n x - x 2 i i 2 i i i i 2 b1 ; i n xi yi - xi yi n xi2 - xi 2 . Коэффициент b1 называется коэффициентом регрессии Y по X. Он показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу. Расчеты оформим в виде таблицы. № 1 2 3 4 5 6 7 Σ X 14,0 15,5 17,1 19,2 23,0 25,2 29,0 143,0 Y 7,0 6,1 5,0 3,1 2,5 1,1 0,2 25,0 X2 196,00 240,25 292,41 368,64 529,00 635,04 841,00 3102,34 x y x xy 3102,34 25 143 428,59 16270,13 12,837610 1267,38 n x ( x) 7 3102,34 143 2 b0 Y2 49,00 37,21 25,00 9,61 6,25 1,21 0,04 128,32 2 2 2 XY 98,00 94,55 85,50 59,52 57,50 27,72 5,80 428,59 2 b1 n xy x y n x ( x) 2 2 7 428,59 143 25 -574,87 -0,453589 1267,38 7 3102,34 1432 Y= 12,838 – 0,454∙x Изобразим линию регрессии на графике. 2. Рассчитаем коэффициент корреляции и детерминации. Линейный парный коэффициент корреляции является показателем тесноты связи между переменными. Он принимает значения в интервале [-1;1]. Чем ближе r по модулю к единице, тем теснее связь. Выборочный коэффициент корреляции: r n xy x y n x 2 ( x) 2 n y 2 ( y) 2 -574,87 1267,38 273,24 Шкала Чеддока: 7 428,59 143 25 7 3102,34 1432 7 128,32 252 -0,976886 ׀r׀ 0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 связь слабая умеренная заметная высокая весьма высокая Связь между переменными весьма высокая Коэффициент детерминации D = r2 ≈ 0,954307. Он показывает, что 95,4 % вариации результативного признака Y объясняется влиянием факторного признака X. 3 3. Оценим статистическую значимость коэффициента корреляции с помощью tкритерия Стьюдента Наблюдаемое значение критерия: tr r n2 1 r2 -0,976886 72 1 -0,976886 2 10,219 Критическое значение критерия при уровне значимости =0,05: t (1-α; n-2) = t (0,95; 5) = 2,57. > tкр, коэффициент корреляции статистически значим. tr 4. Оценим значимость уравнения, используя коэффициент детерминации. Для уравнения линейной регрессии критерий значимости уравнения можно записать в виде: R 2 (n m) F F ;k1 ;k2 (1 R 2 )( m 1) где F ;k1 ;k 2 - табличное значение F-критерия Фишера - Снедекора, определённое на уровне значимости α при k1 = m - 1 и k2 = n - m степенях свободы (m – число оцениваемых параметров уравнения регрессии; n – число наблюдений) F 0,954307(7 2) 104,426; (1 0,954307) 2 1 F ;k1 ;k2 F0,05;1;5 6,608; 104,426 6,608 Уравнение статистически значимо. 5. Вычисление в программе Excel, надстройка «Анализ данных» → «регрессия»: ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,976886442 R-квадрат 0,954307121 Нормированный R-кв. 0,945168545 Стандартная ошибка 0,597258554 Наблюдения 7 Дисперсионный анализ df Регрессия Остаток Итого Y-пересечение Переменная X 1 1 5 6 SS 37,25069681 1,7835889 39,03428571 MS 37,25069681 0,35671778 F 104,4262409 Коэфф. 12,83760987 -0,453589294 Станд. ошибка 0,934444796 0,044387223 t-стат. 13,7382218 -10,21891584 P-Значение 3,66698E-05 0,000154071