РАСЧЕТНАЯ РАБОТА № 1 ПАРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ: ПОСТРОЕНИЕ МОДЕЛИ И ПРОВЕРКА ЕЕ КАЧЕСТВА Задание. На основании данных, представленных в приложения (см. табл. П.1.1 П.1.2) для соответствующего варианта (см. табл. 1.2): 1. Построить предложенные в табл. 1.2 уравнения регрессии, включая линейную регрессию, используя формулы (1.4)–(1.9). 2. Вычислить показатели качества и точности уравнений. 3. Определить лучшее уравнение регрессии на основе средней ошибки аппроксимации. 4. Проверить значимость уравнений регрессии при уровнях значимости 0,05. 5. Проверить значимость коэффициентов линейной регрессии и построить доверительные интервалы для значений a и b уравнения линейной регрессии с уровнем значимости 0,05. 6. Построить точечный и интервальный прогноз для значения x= xmax по уравнению линейной регрессии с уровнем значимости 0,05. 7. Определить средний коэффициент эластичности по уравнению линейной регрессии. Вариант 15 Номер наблюдения 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 значения х у 0,16 20,7 0,24 20,5 0,32 20,6 0,48 21 0,13 19,9 0,1 19,6 0,22 20,8 0,13 20 0,11 19,9 0,3 20,6 0,18 20,2 0,14 20,6 0,24 20,2 0,36 20,7 0,17 19,8 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 0,19 19,6 0,48 19,8 0,03 18,4 0,15 20,6 0,04 19,5 0,09 20 0,1 19,8 0,17 19,9 0,44 20,7 0,33 20,4 0,47 20,1 0,1 19,4 0,3 20,1 0,06 21,5 0,11 19,8 0,28 20,6 0,39 20,9 0,47 20,3 0,45 19,6 0,41 20,4 0,38 21,3 0,09 21 0,28 19,9 0,48 21 0,12 19,6 0,08 19,9 0,46 20,8 0,34 21,3 0,34 20,8 0,1 20 Линейное Линейное уравнение регрессии имеет вид y = bx + a Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, a и b соответственно оценки параметров α и β регрессионной модели, которые следует найти. Здесь ε - случайная ошибка (отклонение, возмущение). Причины существования случайной ошибки: 1. Невключение в регрессионную модель значимых объясняющих переменных; 2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры. 3. Неправильное описание структуры модели; 4. Неправильная функциональная спецификация; 5. Ошибки измерения. Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то: 1) по наблюдениям xi и yi можно получить только оценки параметров α и β 2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке; Для оценки параметров α и β - используют МНК (метод наименьших квадратов). Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x). Формально критерий МНК можно записать так: S = ∑(yi - y*i)2 → min Система нормальных уравнений. a·n + b·∑x = ∑y a·∑x + b·∑x2 = ∑y·x Для расчета параметров регрессии построим расчетную таблицу (табл. 1) x 0.16 0.24 0.32 0.48 0.13 0.1 0.22 0.13 0.11 0.3 0.18 0.14 0.24 0.36 0.17 0.19 0.48 0.03 0.15 0.04 y 20.7 20.5 20.6 21 19.9 19.6 20.8 20 19.9 20.6 20.2 20.6 20.2 20.7 19.8 19.6 19.8 18.4 20.6 19.5 x2 0.0256 0.0576 0.1024 0.2304 0.0169 0.01 0.0484 0.0169 0.0121 0.09 0.0324 0.0196 0.0576 0.1296 0.0289 0.0361 0.2304 0.0009 0.0225 0.0016 y2 428.49 420.25 424.36 441 396.01 384.16 432.64 400 396.01 424.36 408.04 424.36 408.04 428.49 392.04 384.16 392.04 338.56 424.36 380.25 x•y 3.312 4.92 6.592 10.08 2.587 1.96 4.576 2.6 2.189 6.18 3.636 2.884 4.848 7.452 3.366 3.724 9.504 0.552 3.09 0.78 0.09 20 0.0081 400 0.1 19.8 0.01 392.04 0.17 19.9 0.0289 396.01 0.44 20.7 0.1936 428.49 0.33 20.4 0.1089 416.16 0.47 20.1 0.2209 404.01 0.1 19.4 0.01 376.36 0.3 20.1 0.09 404.01 0.06 21.5 0.0036 462.25 0.11 19.8 0.0121 392.04 0.28 20.6 0.0784 424.36 0.39 20.9 0.1521 436.81 0.47 20.3 0.2209 412.09 0.45 19.6 0.2025 384.16 0.41 20.4 0.1681 416.16 0.38 21.3 0.1444 453.69 0.09 21 0.0081 441 0.28 19.9 0.0784 396.01 0.48 21 0.2304 441 0.12 19.6 0.0144 384.16 0.08 19.9 0.0064 396.01 0.46 20.8 0.2116 432.64 0.34 21.3 0.1156 453.69 0.34 20.8 0.1156 432.64 0.1 20 0.01 400 11.01 912.1 3.6129 18503.41 Для наших данных система уравнений имеет вид 1.8 1.98 3.383 9.108 6.732 9.447 1.94 6.03 1.29 2.178 5.768 8.151 9.541 8.82 8.364 8.094 1.89 5.572 10.08 2.352 1.592 9.568 7.242 7.072 2 224.826 45a + 11.01·b = 912.1 11.01·a + 3.613·b = 224.826 Домножим уравнение (1) системы на (-0.245), получим систему, которую решим методом алгебраического сложения. -11.01a -2.697 b = -223.465 11.01*a + 3.613*b = 224.826 Получаем: 0.916*b = 1.362 Откуда b = 1.8121 Теперь найдем коэффициент «a» из уравнения (1): 45a + 11.01*b = 912.1 45a + 11.01*1.8121 = 912.1 45a = 892.149 a = 19.8255 Получаем эмпирические коэффициенты регрессии: b = 1.8121, a = 19.8255 Уравнение регрессии (эмпирическое уравнение регрессии): y = 1.8121 x + 19.8255 Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. 1. Параметры уравнения регрессии. Выборочные средние. ∑xi 11.01 x = n = 45 = 0.245 ∑yi 912.1 y = n = 45 = 20.269 ∑xiyi 224.83 xy = n = 45 = 4.996 Выборочные дисперсии: ∑x2i 3.61 2 S2(x) = n - x 2 = 45 - 0.245 = 0.0204 ∑y2i 18503.41 S2(y) = n - y 2 = - 20.2692 = 0.36 45 Среднеквадратическое отклонение S(x) = S2(x) = 0.0204 = 0.143 2 S(y) = S (y) = 0.36 = 0.599 Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно: x·y - x · y 4.996-0.245·20.269 b= = = 1.8121 S2(x) 0.0204 a = y - b· x = 20.269 - 1.8121·0.245 = 19.8255 1.1. Коэффициент корреляции. Ковариация. cov(x,y) = x·y - x · y = 4.996 - 0.245·20.269 = 0.037 Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле: x·y - x · y 4.996 - 0.245·20.269 rxy = S(x)·S(y) = = 0.432 0.143·0.599 Линейный коэффициент корреляции принимает значения от –1 до +1. Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока: 0.1 < rxy < 0.3: слабая; 0.3 < rxy < 0.5: умеренная; 0.5 < rxy < 0.7: заметная; 0.7 < rxy < 0.9: высокая; 0.9 < rxy < 1: весьма высокая; В нашем примере связь между признаком Y и фактором X умеренная и прямая. Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b: S(x) 0.143 rx,y = b·S(y) = 1.8120.599 = 0.432 2.1. Значимость коэффициента корреляции. Выдвигаем гипотезы: H0: rxy = 0, нет линейной взаимосвязи между переменными; H1: rxy ≠ 0, есть линейная взаимосвязь между переменными; Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки) n-2 tнабл = rxy 1 - r2xy и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают. 43 = 3.143 1 - 0.4322 По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=43 находим tкрит: tкрит(n-m-1;α/2) = tкрит(43;0.025) = 2.009 где m = 1 - количество объясняющих переменных. Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. 2.2. Интервальная оценка для коэффициента корреляции (доверительный интервал). 1-r2 1-r2 (r - tкрит ; r + tкрит ) n-2 n-2 Доверительный интервал для коэффициента корреляции. 1-0.4322 1-0.4322 (0.432 - 2.009 ; 0.432 + 2.009 45-2 45-2 ) r∈(0.156;0.708) 1.2. Уравнение регрессии (оценка уравнения регрессии). x- x x - 0.245 yx = rxy· S(x) ·S(y) + y = 0.432 0.143 0.599 + 20.269 = 1.812x + 19.826 tнабл = 0.432 Линейное уравнение регрессии имеет вид y = 1.812 x + 19.826 Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент регрессии b = 1.812 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 1.812. Коэффициент a = 19.826 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями. Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо. Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения. Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая. 1.3. Коэффициент эластичности. Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х. Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения. Коэффициент эластичности находится по формуле: x ∂y x E = ∂x y = b y 0.245 E = 1.81220.269 = 0.0219 Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно. Бета – коэффициент Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных: S(x) 0.143 βj = bjS(y) = 1.8120.599 = 0.432 Т.е. увеличение x на величину среднеквадратического отклонения S x приведет к увеличению среднего значения Y на 43.2% среднеквадратичного отклонения S y. 1.4. Ошибка аппроксимации. Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических: ∑|yi - yx| : yi A = 100% n Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным. 0.907 A = 45 100% = 2.01% В среднем, расчетные значения отклоняются от фактических на 2.01%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии. 1.5. Эмпирическое корреляционное отношение. Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1]. η= η= ∑( y - yx)2 ∑(yi - y )2 3.018 16.16 = 0.432 где ( y - yx)2 = 16.16 - 13.14 = 3.018 Индекс корреляции. Для линейной регрессии индекс корреляции равен коэффициенту корреляции rxy = 0.432. Полученная величина свидетельствует о том, что фактор x умеренно влияет на y Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции: ∑(yi - yx)2 R= 1∑(yi - y )2 Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy. В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1]. Теоретическое корреляционное отношение для линейной связи равно коэффициенту корреляции rxy. 1.6. Коэффициент детерминации. Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака. Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах. R2= 0.4322 = 0.1868 т.е. в 18.68% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - низкая. Остальные 81.32% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации). Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2) x 0.16 0.24 0.32 0.48 0.13 0.1 0.22 0.13 0.11 0.3 0.18 0.14 0.24 0.36 0.17 0.19 0.48 0.03 0.15 0.04 0.09 0.1 0.17 0.44 0.33 0.47 0.1 0.3 0.06 0.11 0.28 0.39 0.47 0.45 0.41 0.38 0.09 0.28 y 20.7 20.5 20.6 21 19.9 19.6 20.8 20 19.9 20.6 20.2 20.6 20.2 20.7 19.8 19.6 19.8 18.4 20.6 19.5 20 19.8 19.9 20.7 20.4 20.1 19.4 20.1 21.5 19.8 20.6 20.9 20.3 19.6 20.4 21.3 21 19.9 y(x) 20.115 20.26 20.405 20.695 20.061 20.007 20.224 20.061 20.025 20.369 20.152 20.079 20.26 20.478 20.134 20.17 20.695 19.88 20.097 19.898 19.989 20.007 20.134 20.623 20.424 20.677 20.007 20.369 19.934 20.025 20.333 20.532 20.677 20.641 20.568 20.514 19.989 20.333 (yi-ycp)2 0.186 0.0534 0.11 0.535 0.136 0.447 0.282 0.0723 0.136 0.11 0.00475 0.11 0.00475 0.186 0.22 0.447 0.22 3.493 0.11 0.591 0.0723 0.22 0.136 0.186 0.0172 0.0285 0.755 0.0285 1.516 0.22 0.11 0.398 0.000968 0.447 0.0172 1.063 0.535 0.136 (y-y(x))2 0.342 0.0574 0.0379 0.0928 0.026 0.165 0.332 0.00373 0.0156 0.0533 0.00233 0.271 0.00365 0.0493 0.111 0.325 0.802 2.19 0.253 0.158 0.00013 0.0427 0.0546 0.00595 0.000553 0.333 0.368 0.0724 2.452 0.0506 0.0713 0.135 0.142 1.084 0.0284 0.618 1.023 0.187 |y - yx|:y 0.0282 0.0117 0.00945 0.0145 0.0081 0.0208 0.0277 0.00306 0.00627 0.0112 0.00239 0.0253 0.00299 0.0107 0.0168 0.0291 0.0452 0.0804 0.0244 0.0204 0.000569 0.0104 0.0117 0.00373 0.00115 0.0287 0.0313 0.0134 0.0728 0.0114 0.013 0.0176 0.0186 0.0531 0.00826 0.0369 0.0482 0.0218 0.48 21 20.695 0.535 0.12 19.6 20.043 0.447 0.08 19.9 19.97 0.136 0.46 20.8 20.659 0.282 0.34 21.3 20.442 1.063 0.34 20.8 20.442 0.282 0.1 20 20.007 0.0723 11.01 912.1 912.1 16.156 2. Оценка параметров уравнения регрессии. 0.0928 0.196 0.00497 0.0199 0.737 0.128 4.5E-5 13.138 0.0145 0.0226 0.00354 0.00677 0.0403 0.0172 0.000337 0.907 2.3. Анализ точности определения оценок коэффициентов регрессии. Несмещенной оценкой дисперсии возмущений является величина: ∑(yi - yx)2 S2 = n - m - 1 13.138 S2 = 43 = 0.306 S2 = 0.306 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса зависимой переменной вокруг линии регрессии). S = S2 = 0.306 = 0.55 S = 0.55 - стандартная ошибка оценки. Стандартная ошибка регрессии рассматривается в качестве меры разброса данных наблюдений от смоделированных значений. Чем меньше значение стандартной ошибки регрессии, тем качество модели выше. Sa - стандартное отклонение случайной величины a. ∑x2 Sa = S·n S(x) 3.61 Sa = 0.55·45·0.143 = 0.163 Sb - стандартное отклонение случайной величины b. S Sb = n·S(x) 0.55 Sb = = 0.577 45·0.143 Индивидуальные доверительные интервалы для Y при данном значении X. (a + bxi ± ε) где ε = tкрит S ε = 2.009·0.55 ( x -xi)2 1 1+n+ ∑(xi - x )2 1 (0.245 - xi)2 1 + 45 + 0.92 tкрит (n-m-1;α/2) = (43;0.025) = 2.009 xi 0.16 0.24 0.32 0.48 0.13 0.1 y= 19.83 + 1.81xi 20.115 20.26 20.405 20.695 20.061 20.007 εi 1.127 1.123 1.126 1.155 1.131 1.135 ymin = y - ymax = y εi + εi 18.988 19.138 19.279 19.54 18.931 18.872 21.243 21.383 21.532 21.851 21.192 21.142 0.22 20.224 1.123 19.101 21.347 0.13 20.061 1.131 18.931 21.192 0.11 20.025 1.134 18.891 21.158 0.3 20.369 1.125 19.245 21.494 0.18 20.152 1.125 19.026 21.277 0.14 20.079 1.129 18.95 21.209 0.24 20.26 1.123 19.138 21.383 0.36 20.478 1.131 19.347 21.609 0.17 20.134 1.126 19.007 21.26 0.19 20.17 1.125 19.045 21.294 0.48 20.695 1.155 19.54 21.851 0.03 19.88 1.15 18.73 21.03 0.15 20.097 1.128 18.969 21.225 0.04 19.898 1.148 18.75 21.046 0.09 19.989 1.137 18.852 21.126 0.1 20.007 1.135 18.872 21.142 0.17 20.134 1.126 19.007 21.26 0.44 20.623 1.145 19.478 21.768 0.33 20.424 1.127 19.296 21.551 0.47 20.677 1.153 19.525 21.83 0.1 20.007 1.135 18.872 21.142 0.3 20.369 1.125 19.245 21.494 0.06 19.934 1.143 18.791 21.077 0.11 20.025 1.134 18.891 21.158 0.28 20.333 1.124 19.209 21.456 0.39 20.532 1.135 19.397 21.668 0.47 20.677 1.153 19.525 21.83 0.45 20.641 1.148 19.493 21.789 0.41 20.568 1.139 19.43 21.707 0.38 20.514 1.134 19.38 21.648 0.09 19.989 1.137 18.852 21.126 0.28 20.333 1.124 19.209 21.456 0.48 20.695 1.155 19.54 21.851 0.12 20.043 1.132 18.911 21.175 0.08 19.97 1.139 18.832 21.109 0.46 20.659 1.15 19.509 21.809 0.34 20.442 1.128 19.313 21.57 0.34 20.442 1.128 19.313 21.57 0.1 20.007 1.135 18.872 21.142 С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов. 2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии. 1) t-статистика. Критерий Стьюдента. С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y). Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез. В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности. Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05. H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности; H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности. В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента. Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений. Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля. Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α. tкрит(n-m-1;α/2) = tкрит(43;0.025) = 2.009 b tb = S b 1.812 tb = 0.577 = 3.14 Поскольку 3.14 > 2.009, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента). a ta = S a 19.826 ta = 0.163 = 121.35 Поскольку 121.35 > 2.009, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента). Доверительный интервал для коэффициентов уравнения регрессии. Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими: (b - tкрит Sb; b + tкрит Sb) (1.81 - 2.009*0.577; 1.81 + 2.009*0.577) (0.654;2.97) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. (a - tкрит Sa; a + tкрит Sa) (19.826 - 2.009*0.163; 19.826 + 2.009*0.163) (19.497;20.154) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. 2) F-статистика. Критерий Фишера. Коэффициент детерминации R2 используется для проверки существенности уравнения линейной регрессии в целом. Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели. Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой. ∑(yi - yx)2 13.14 R2 = 1 = 1 - 16.16 = 0.1868 2 ∑(yi - y ) где m – число факторов в модели. Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму: 1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α. 2. Далее определяют фактическое значение F-критерия: R2 (n - m -1) F = 1 - R2 m 0.1868 (45-1-1) F = 1 - 0.1868 1 = 9.878 или по формуле: ∑(yx - y )2 (n - m -1) 3.0181 (45-1-1) F = ∑(y - y )2 = 13.14 · 1 = 9.878 m i x где ∑(yx - y )2 = 16.16 - 13.14 = 3.0181 где m=1 для парной регрессии. 3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2. Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01. 4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу. В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом. Табличное значение критерия со степенями свободы k1=1 и k2=43, Fтабл = 4 Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна). Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством: t2r = t2b = F = 9.878 = 3.14 Дисперсионный анализ. При анализе качества модели регрессии используется теорема о разложении дисперсии, согласно которой общая дисперсия результативного признака может быть разложена на две составляющие – объясненную и необъясненную уравнением регрессии дисперсии. Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной: ∑(yi - ycp)2 = ∑(y(x) - ycp)2 + ∑(y - y(x))2 где ∑(yi - ycp)2 - общая сумма квадратов отклонений; ∑(y(x) - ycp)2 - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»); ∑(y - y(x))2 - остаточная сумма квадратов отклонений. Источник вариации Сумма квадратов Число степеней Дисперсия на 1 свободы степень свободы 1 3.018 Модель 3.018 (объясненная) Остаточная 13.14 43 Общая 16.16 45-1 Показатели качества уравнения регрессии. Показатель Коэффициент детерминации Средний коэффициент эластичности Средняя ошибка аппроксимации 0.31 F-критерий 9.878 1 Значение 0.1868 0.0219 2.01 Выводы. Изучена зависимость Y от X. На этапе спецификации была выбрана парная линейная регрессия. Оценены её параметры методом наименьших квадратов. Статистическая значимость уравнения проверена с помощью коэффициента детерминации и критерия Фишера. Установлено, что в исследуемой ситуации 18.68% общей вариабельности Y объясняется изменением X. Установлено также, что параметры модели статистически значимы. Возможна экономическая интерпретация параметров модели - увеличение X на 1 ед.изм. приводит к увеличению Y в среднем на 1.812 ед.изм. Проверка нормальности распределения остаточной компоненты. Расчетное значение RS-критерия равно: εmax - εmin RS = Sε где εmax = 1.5657 – максимальное значение остатков, εmin = -1.4799 – минимальный уровень ряда остатков. Sε – среднеквадратическое отклонение Несмещенная оценка среднеквадратического отклонения. ∑e2 13.138 Se = n-1 = 45-1 = 0.546 1.566 - (-1.48) RS = = 5.574 0.546 Расчетное значение RS-критерия не попадает в интервал (2,7-3,7), следовательно, свойство нормального распределения не выполняется. Таким образом, модель не адекватна по нормальности распределения остаточной компоненты. 22 21,5 21 20,5 20 19,5 19 18,5 18 0 0,1 0,2 0,3 0,4 0,5 0,6 Экспоненциальное Экспоненциальное уравнение регрессии имеет вид y = a*ebx Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = a*ebx + ε, где ei – наблюдаемые значения (оценки) ошибок εi, a и b соответственно оценки параметров α и β регрессионной модели, которые следует найти. Здесь ε - случайная ошибка (отклонение, возмущение). Причины существования случайной ошибки: 1. Невключение в регрессионную модель значимых объясняющих переменных; 2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры. 3. Неправильное описание структуры модели; 4. Неправильная функциональная спецификация; 5. Ошибки измерения. Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то: 1) по наблюдениям xi и yi можно получить только оценки параметров α и β 2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке; После линеаризации получим: ln(y) = ln(a) + bx Для оценки параметров α и β - используют МНК (метод наименьших квадратов). Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x). Формально критерий МНК можно записать так: S = ∑(yi - y*i)2 → min Система нормальных уравнений. a·n + b·∑x = ∑y a·∑x + b·∑x2 = ∑y·x Для расчета параметров регрессии построим расчетную таблицу (табл. 1) x 0.16 0.24 0.32 0.48 0.13 0.1 0.22 0.13 0.11 0.3 0.18 0.14 0.24 0.36 0.17 0.19 0.48 0.03 0.15 0.04 0.09 ln(y) 3.0301 3.0204 3.0253 3.0445 2.9907 2.9755 3.035 2.9957 2.9907 3.0253 3.0057 3.0253 3.0057 3.0301 2.9857 2.9755 2.9857 2.9124 3.0253 2.9704 2.9957 x2 0.0256 0.0576 0.1024 0.2304 0.0169 0.01 0.0484 0.0169 0.0121 0.09 0.0324 0.0196 0.0576 0.1296 0.0289 0.0361 0.2304 0.0009 0.0225 0.0016 0.0081 ln(y)2 9.1817 9.123 9.1524 9.2691 8.9444 8.8538 9.2109 8.9744 8.9444 9.1524 9.0341 9.1524 9.0341 9.1817 8.9143 8.8538 8.9143 8.4818 9.1524 8.8234 8.9744 x • ln(y) 0.4848 0.7249 0.9681 1.4614 0.3888 0.2976 0.6677 0.3894 0.329 0.9076 0.541 0.4235 0.7214 1.0908 0.5076 0.5654 1.4331 0.08737 0.4538 0.1188 0.2696 0.1 2.9857 0.01 8.9143 0.17 2.9907 0.0289 8.9444 0.44 3.0301 0.1936 9.1817 0.33 3.0155 0.1089 9.0935 0.47 3.0007 0.2209 9.0043 0.1 2.9653 0.01 8.7928 0.3 3.0007 0.09 9.0043 0.06 3.0681 0.0036 9.4129 0.11 2.9857 0.0121 8.9143 0.28 3.0253 0.0784 9.1524 0.39 3.0397 0.1521 9.2401 0.47 3.0106 0.2209 9.0638 0.45 2.9755 0.2025 8.8538 0.41 3.0155 0.1681 9.0935 0.38 3.0587 0.1444 9.3557 0.09 3.0445 0.0081 9.2691 0.28 2.9907 0.0784 8.9444 0.48 3.0445 0.2304 9.2691 0.12 2.9755 0.0144 8.8538 0.08 2.9907 0.0064 8.9444 0.46 3.035 0.2116 9.2109 0.34 3.0587 0.1156 9.3557 0.34 3.035 0.1156 9.2109 0.1 2.9957 0.01 8.9744 11.01 135.3891 3.6129 407.3778 Для наших данных система уравнений имеет вид 0.2986 0.5084 1.3333 0.9951 1.4103 0.2965 0.9002 0.1841 0.3284 0.8471 1.1855 1.415 1.339 1.2364 1.1623 0.274 0.8374 1.4614 0.3571 0.2393 1.3961 1.04 1.0319 0.2996 33.2085 45a + 11.01·b = 135.389 11.01·a + 3.613·b = 33.208 Домножим уравнение (1) системы на (-0.245), получим систему, которую решим методом алгебраического сложения. -11.01a -2.697 b = -33.17 11.01*a + 3.613*b = 33.208 Получаем: 0.916*b = 0.0381 Откуда b = 0.09058 Теперь найдем коэффициент «a» из уравнения (1): 45a + 11.01*b = 135.389 45a + 11.01*0.09058 = 135.389 45a = 134.392 a = 2.9865 Получаем эмпирические коэффициенты регрессии: b = 0.09058, a = 2.9865 Уравнение регрессии (эмпирическое уравнение регрессии): y = e2.9864842881711e0.09058x = 19.81589e0.09058x Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. 1. Параметры уравнения регрессии. Выборочные средние. ∑xi 11.01 x = n = 45 = 0.245 ∑yi 135.389 y = n = = 3.009 45 ∑xiyi 33.21 xy = n = 45 = 0.738 Выборочные дисперсии: ∑x2i 3.61 2 2 S (x) = n - x 2 = 45 - 0.245 = 0.0204 ∑y2i 407.38 2 S2(y) = n - y 2 = 45 - 3.009 = 0.000885 Среднеквадратическое отклонение S(x) = S2(x) = 0.0204 = 0.143 2 S(y) = S (y) = 0.000885 = 0.0297 Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно: x·y - x · y 0.738-0.245·3.009 b= = = 0.09058 2 S (x) 0.0204 a = y - b· x = 3.009 - 0.09058·0.245 = 2.9865 2.1. Значимость коэффициента корреляции. Выдвигаем гипотезы: H0: rxy = 0, нет линейной взаимосвязи между переменными; H1: rxy ≠ 0, есть линейная взаимосвязь между переменными; Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки) n-2 tнабл = rxy 1 - r2xy и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают. 43 tнабл = 0.435 = 3.17 1 - 0.4352 По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=43 находим tкрит: tкрит(n-m-1;α/2) = tкрит(43;0.025) = 2.009 где m = 1 - количество объясняющих переменных. Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. 2.2. Интервальная оценка для коэффициента корреляции (доверительный интервал). 1-r2 1-r2 (r - tкрит n-2 ; r + tкрит n-2 ) Доверительный интервал для коэффициента корреляции. 1-0.4352 1-0.4352 (0.435 - 2.009 45-2 ; 0.435 + 2.009 45-2 ) r∈(0.159;0.711) 1.3. Коэффициент эластичности. Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х. Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения. Коэффициент эластичности находится по формуле: ∂y x E = ∂x y = x ln(b) E = 0.245(0.0906) = 0.0222 Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно. Бета – коэффициент Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных: S(x) 0.143 βj = bjS(y) = 0.09060.0297 = 0.435 Т.е. увеличение x на величину среднеквадратического отклонения S x приведет к увеличению среднего значения Y на 43.5% среднеквадратичного отклонения S y. 1.4. Ошибка аппроксимации. Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических: ∑|yi - yx| : yi A = 100% n Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным. 0.904 A = 45 100% = 2.01% В среднем, расчетные значения отклоняются от фактических на 2.01%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии. 1.5. Эмпирическое корреляционное отношение. Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1]. Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока: 0.1 < η < 0.3: слабая; 0.3 < η < 0.5: умеренная; 0.5 < η < 0.7: заметная; 0.7 < η < 0.9: высокая; 0.9 < η < 1: весьма высокая; η= η= ∑( y - yx)2 ∑(yi - y )2 2.997 16.16 = 0.431 где ( y - yx)2 = 16.16 - 13.16 = 2.997 Индекс корреляции. Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии. R= R= 1- ∑(yi - yx)2 ∑(yi - y )2 13.16 1 - 16.16 = 0.431 Полученная величина свидетельствует о том, что фактор x умеренно влияет на y Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции: ∑(yi - yx)2 R= 1∑(yi - y )2 Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy. В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1]. 1.6. Индекс детерминации. Величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации. Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах. ∑(yi - yx)2 R2 = 1 ∑(yi - y )2 13.16 R2 = 1- 16.16 = 0.186 т.е. в 18.55% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - низкая. Остальные 81.45% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации). Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2) x 0.16 0.24 0.32 0.48 0.13 0.1 0.22 0.13 0.11 0.3 0.18 0.14 0.24 0.36 0.17 0.19 0.48 0.03 0.15 0.04 0.09 0.1 y 20.7 20.5 20.6 21 19.9 19.6 20.8 20 19.9 20.6 20.2 20.6 20.2 20.7 19.8 19.6 19.8 18.4 20.6 19.5 20 19.8 y(x) 20.105 20.251 20.399 20.696 20.051 19.996 20.215 20.051 20.014 20.362 20.142 20.069 20.251 20.473 20.123 20.16 20.696 19.87 20.087 19.888 19.978 19.996 (yi-ycp)2 0.186 0.0534 0.11 0.535 0.136 0.447 0.282 0.0723 0.136 0.11 0.00475 0.11 0.00475 0.186 0.22 0.447 0.22 3.493 0.11 0.591 0.0723 0.22 (y-y(x))2 0.354 0.0618 0.0405 0.0921 0.0227 0.157 0.343 0.00256 0.0131 0.0568 0.00341 0.282 0.00264 0.0517 0.105 0.313 0.804 2.16 0.263 0.15 0.00048 0.0385 |y - yx|:y 0.0287 0.0121 0.00977 0.0145 0.00757 0.0202 0.0281 0.00253 0.00574 0.0116 0.00289 0.0258 0.00254 0.011 0.0163 0.0286 0.0453 0.0799 0.0249 0.0199 0.0011 0.00991 0.17 19.9 20.123 0.136 0.44 20.7 20.622 0.186 0.33 20.4 20.417 0.0172 0.47 20.1 20.678 0.0285 0.1 19.4 19.996 0.755 0.3 20.1 20.362 0.0285 0.06 21.5 19.924 1.516 0.11 19.8 20.014 0.22 0.28 20.6 20.325 0.11 0.39 20.9 20.528 0.398 0.47 20.3 20.678 0.000968 0.45 19.6 20.64 0.447 0.41 20.4 20.566 0.0172 0.38 21.3 20.51 1.063 0.09 21 19.978 0.535 0.28 19.9 20.325 0.136 0.48 21 20.696 0.535 0.12 19.6 20.032 0.447 0.08 19.9 19.96 0.136 0.46 20.8 20.659 0.282 0.34 21.3 20.436 1.063 0.34 20.8 20.436 0.282 0.1 20 19.996 0.0723 11.01 912.1 911.775 16.156 2. Оценка параметров уравнения регрессии. 0.0499 0.00614 0.000295 0.334 0.355 0.0685 2.484 0.0459 0.0757 0.138 0.143 1.082 0.0274 0.624 1.044 0.181 0.0921 0.187 0.0036 0.0199 0.747 0.133 1.4E-5 13.159 0.0112 0.00379 0.000842 0.0287 0.0307 0.013 0.0733 0.0108 0.0134 0.0178 0.0186 0.0531 0.00812 0.0371 0.0487 0.0214 0.0145 0.0221 0.00302 0.00678 0.0406 0.0175 0.00019 0.904 2.3. Анализ точности определения оценок коэффициентов регрессии. Несмещенной оценкой дисперсии возмущений является величина: ∑(yi - yx)2 S2 = n - m - 1 13.159 S2 = 43 = 0.306 S2 = 0.306 - необъясненная дисперсия или дисперсия ошибки регрессии (мера разброса зависимой переменной вокруг линии регрессии). S = S2 = 0.306 = 0.55 S = 0.55 - стандартная ошибка оценки. Стандартная ошибка регрессии рассматривается в качестве меры разброса данных наблюдений от смоделированных значений. Чем меньше значение стандартной ошибки регрессии, тем качество модели выше. Sa - стандартное отклонение случайной величины a. ∑x2 Sa = S·n S(x) 3.61 Sa = 0.55·45·0.143 = 0.163 Sb - стандартное отклонение случайной величины b. S Sb = n·S(x) 0.55 Sb = = 0.577 45·0.143 Индивидуальные доверительные интервалы для Y при данном значении X. (a + bxi ± ε) где ε = tкрит S ε = 2.009·0.55 ( x -xi)2 1 1+n+ ∑(xi - x )2 1 (0.245 - xi)2 1 + 45 + 0.92 tкрит (n-m-1;α/2) = (43;0.025) = 2.009 xi 0.16 0.24 0.32 0.48 0.13 0.1 0.22 0.13 0.11 0.3 0.18 0.14 0.24 0.36 0.17 0.19 0.48 0.03 0.15 0.04 0.09 0.1 0.17 0.44 0.33 0.47 0.1 0.3 0.06 0.11 0.28 0.39 0.47 0.45 0.41 0.38 0.09 0.28 0.48 0.12 0.08 0.46 0.34 0.34 y = 2.99 + 0.0906xi 20.105 20.251 20.399 20.696 20.051 19.996 20.215 20.051 20.014 20.362 20.142 20.069 20.251 20.473 20.123 20.16 20.696 19.87 20.087 19.888 19.978 19.996 20.123 20.622 20.417 20.678 19.996 20.362 19.924 20.014 20.325 20.528 20.678 20.64 20.566 20.51 19.978 20.325 20.696 20.032 19.96 20.659 20.436 20.436 εi 1.128 1.124 1.127 1.156 1.131 1.136 1.124 1.131 1.134 1.125 1.126 1.13 1.124 1.132 1.127 1.125 1.156 1.151 1.129 1.148 1.138 1.136 1.127 1.146 1.128 1.154 1.136 1.125 1.144 1.134 1.124 1.136 1.154 1.149 1.14 1.135 1.138 1.124 1.156 1.133 1.14 1.151 1.129 1.129 ymin = y - ymax = y εi + εi 18.977 19.128 19.272 19.54 18.919 18.86 19.091 18.919 18.88 19.236 19.015 18.939 19.128 19.341 18.996 19.034 19.54 18.719 18.958 18.739 18.84 18.86 18.996 19.475 19.289 19.524 18.86 19.236 18.78 18.88 19.201 19.392 19.524 19.492 19.426 19.375 18.84 19.201 19.54 18.9 18.82 19.508 19.307 19.307 21.233 21.375 21.526 21.853 21.182 21.132 21.339 21.182 21.149 21.487 21.268 21.199 21.375 21.604 21.25 21.285 21.853 21.021 21.216 21.036 21.116 21.132 21.25 21.768 21.545 21.831 21.132 21.487 21.068 21.149 21.449 21.665 21.831 21.789 21.706 21.644 21.116 21.449 21.853 21.165 21.1 21.81 21.565 21.565 0.1 19.996 1.136 18.86 21.132 С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов. 2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии. 1) t-статистика. Критерий Стьюдента. С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y). Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез. В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности. Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05. H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности; H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности. В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента. Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений. Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля. Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α. tкрит(n-m-1;α/2) = tкрит(43;0.025) = 2.009 b tb = S b 0.0906 tb = 0.577 = 0.16 Поскольку 0.16 < 2.009, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь. a ta = S a 2.986 ta = 0.163 = 18.27 Поскольку 18.27 > 2.009, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента). Доверительный интервал для коэффициентов уравнения регрессии. Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими: (b - tкрит Sb; b + tкрит Sb) (0.0906 - 2.009*0.577; 0.0906 + 2.009*0.577) (-1.069;1.25) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента b статистически незначима. (a - tкрит Sa; a + tкрит Sa) (2.986 - 2.009*0.163; 2.986 + 2.009*0.163) (2.658;3.315) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. 2) F-статистика. Критерий Фишера. Индекс детерминации R2 используется для проверки существенности уравнения нелинейной регрессии в целом. Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели. Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой. ∑(yi - yx)2 13.16 R2 = 1 = 1 16.16 = 0.1855 ∑(yi - y )2 где m – число факторов в модели. Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму: 1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α. 2. Далее определяют фактическое значение F-критерия: R2 (n - m -1) F = 1 - R2 m 0.1855 (45-1-1) F = 1 - 0.1855 1 = 9.794 или по формуле: ∑(yx - y )2 (n - m -1) 2.9972 (45-1-1) F = ∑(y - y )2 = 13.16 · 1 = 9.794 m i x где ∑(yx - y )2 = 16.16 - 13.16 = 2.9972 где m=1 для парной регрессии. 3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2. Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01. 4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу. В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом. Табличное значение критерия со степенями свободы k1=1 и k2=43, Fтабл = 4 Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна). Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством: t2r = t2b = F = 9.794 = 3.13 Дисперсионный анализ. При анализе качества модели регрессии используется теорема о разложении дисперсии, согласно которой общая дисперсия результативного признака может быть разложена на две составляющие – объясненную и необъясненную уравнением регрессии дисперсии. Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной: ∑(yi - ycp)2 = ∑(y(x) - ycp)2 + ∑(y - y(x))2 где ∑(yi - ycp)2 - общая сумма квадратов отклонений; ∑(y(x) - ycp)2 - сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»); ∑(y - y(x))2 - остаточная сумма квадратов отклонений. Источник вариации Сумма квадратов Число степеней Дисперсия на 1 свободы степень свободы 1 2.997 Модель 2.997 (объясненная) Остаточная 13.16 43 Общая 16.16 45-1 Показатели качества уравнения регрессии. Показатель Коэффициент детерминации Средний коэффициент эластичности Средняя ошибка аппроксимации 0.31 F-критерий 9.794 1 Значение 0.1855 0.0222 2.01 Выводы. Изучена зависимость Y от X. На этапе спецификации была выбрана парная экспоненциальная регрессия. Оценены её параметры методом наименьших квадратов. Статистическая значимость уравнения проверена с помощью коэффициента детерминации и критерия Фишера. Установлено, что в исследуемой ситуации 18.55% общей вариабельности Y объясняется изменением X. Установлено также, что параметры модели статистически не значимы. Проверка нормальности распределения остаточной компоненты. Расчетное значение RS-критерия равно: εmax - εmin RS = Sε где εmax = 1.5761 – максимальное значение остатков, εmin = -1.4698 – минимальный уровень ряда остатков. Sε – среднеквадратическое отклонение Несмещенная оценка среднеквадратического отклонения. ∑e2 13.159 Se = = n-1 45-1 = 0.547 1.576 - (-1.47) = 5.57 0.547 Расчетное значение RS-критерия не попадает в интервал (2,7-3,7), следовательно, свойство нормального распределения не выполняется. Таким образом, модель не адекватна по нормальности распределения остаточной компоненты. RS =