Вариант 1 Парная регрессия и корреляция По территориям региона приводятся данные за 199Х год. Номер региона 1 2 3 4 5 6 7 8 9 10 11 12 Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х 81 77 85 79 93 100 72 90 71 89 82 111 Среднедневная заработная плата, руб., у 124 131 146 139 143 159 135 152 127 154 127 162 Требуется: 1. Построить линейное уравнение парной регреси у по х. 2. Расчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации. 3. Оценить статистическую значимость уравнения регрессии в целом и отдельных параметров регрессии и корреляции с помощью F- критерия Фишера и t-критерия Стъюдента. 4. Выполнить прогноз заработной платы у при прогнохном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня. 5. Оценить точность прогноза, расчитав ошибку прогноза и его доверительный интервал. 6. На одном графике отложить исходные данные и теоретическую прямую. РЕШЕНИЕ 1. таблицу 1. Для расчета парметров уравнения линейной регрессии построим расчетную Таблица 1. № x y x y x2 y2 1 2 3 4 81 77 85 79 124 131 146 139 10044 10087 12410 10981 6561 5929 7225 6241 15376 17161 21316 19321 yˆ x y yˆ x 2 137.005 169.1311 133.216 4.9111446 140.794 27.102721 135.111 15.12762 Ai 10.49% 1.69% 3.57% 2.80% 5 6 7 8 9 10 11 12 Сумма Средн. 2 93 100 72 90 71 89 82 111 1030 85.8333 11.1343 123.972 143 159 135 152 127 154 127 162 1699 141.583 12.5861 158.41 13299 15900 9720 13680 9017 13706 10414 17982 147240 12270 8649 10000 5184 8100 5041 7921 6724 12321 89896 7491.33 20449 25281 18225 23104 16129 23716 16129 26244 242451 20204.3 148.372 155.002 128.48 145.53 127.533 144.583 137.952 165.422 1699 141.583 28.856612 15.980288 42.511101 41.859131 0.2837836 88.681699 119.95231 11.710259 566.10778 47.175648 3.76% 2.51% 4.83% 4.26% 0.42% 6.11% 8.62% 2.11% 51.17% 4.26% Находим оценки параметров уравнения регрессии: b x y x y x2 0.94723 Получено уравнение регрессии: a y b x 60.279184 yˆ x 60.2792 + 0.9472328 x Т.е. с увеличением среднедушевого прожиточного минимума на 1 руб., средняя заработная плата возрастает в среднем на 0.94723 руб. 2. Тесноту линейной связи оценит коэффициент корреляции: rxy b x 0.83797 y Т.к. значение коэффициента больше 0,7, то это говорит о наличии весьма тесной линейной связи между признаками. Коэффициент детерминации: rxy2 0.70219 Это означает, что 70% вариации заработной платы объясняется вариацией среднедушевого прожиточного минимума. Качество модели определяет средняя ошибка аппроксимации: A 1 Ai 4.26% n Качество построенной модели оценивается как хорошее, так как средняя ошибка аппроксимации не превышает 10 %. Оценим значимость уравнения регрессии в целом с помощью F- критерия 3. Фишера. Фактическое значение F-критерия: Ffact rxy2 1 rxy2 n 2 23.5787 Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы k1 1, k2 12 2 10 составляет Ftabl 4,96 Ffact Ftabl Т.к. Ffact Ftabl , то уравнение признается статистически значимым. Оценку статистической значимости параметров регрессии проведем с помощью t- критерия Стъюдента и путем расчета доверительного интервала каждого из показателей Табличное значение t-критерия для пятипроцентного уровня значимости и числе степеней свободы = 10 составит ttabl 2.23 Определим случайные ошибки ma , mb , mr . Остаточная дисперсия на одну степень свободы равна: S 2 ost y yˆ 2 56.6108 x n2 ma S 2 ost mb mr x 2 n 2 x2 16.884 2 Sost 0.19507 n x2 1 rxy2 n2 0.17257 Тогда ta a 3.57019 ma tb b 4.85579 mb tr rxy 4.855791 mr a, b, rxy не Фактические значения превосходят табличное, поэтому параметры случайно отличаются от нуля, а статистически значимы. Расчитаем доверительные интервалы для параметров регрессии a и b . Для этого определим предельную ошибку для каждого показателя: a ttabl ma 37.6514 b ttabl mb 0.43501 Доверительные интервалы: a a a и b b b , тогда 22.6278 a* 97.9306 0.51222 b* 1.38225 Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью 0,95 параметры a и b , находясь в указанных границах, не принимают нулевых значений, т.е. являются статистически значимыми и существенно отличны от нуля. 4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит: x p x 1,07 91.8417 руб., тогда индивидуальное прогнозное значение заработной платы составит: yˆ p a b x p 147.275 руб. 5. Ошибка прогноза составит: myˆ p 2 x x 1 p 2 7.91846 Sost 1 2 n n x Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит: yˆ p ttabl m yˆ p 17.6582 yˆ yˆ p yˆ Доверительный интервал прогноза: p p , тогда 129.616 yˆ p 164.933 Выполненный прогноз среднемесячной заработной платы является надежным и находится в указанных пределах. 6. Построим на одном графике исходные данные и теоретическую прямую. 200 190 180 170 Series1 160 Series2 150 140 130 120 60 70 80 90 100 110 120 Множественная регрессия и корреляция По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов x1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квадификации в общей численности рабочих x2 (%). Номер предприятия 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 y 6 6 6 7 7 7 8 8 9 10 9 11 11 12 12 13 13 13 14 14 x1 3.6 3.6 3.9 4.1 3.9 4.5 5.3 5.3 5.6 6.8 6.3 6.4 7 7.5 7.9 8.2 8 8.6 9.5 9 x2 9 12 14 17 18 19 19 19 20 21 21 22 24 25 28 30 30 31 33 36 Требуется: 1. Построить линейную модель множественной регрессии. Записать стандарти- зированное уравнение множественной регрессии. На основе стандартизированных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат. 2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их. 3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации. 4. С помощью F -критерия Фишера оценить статистическую надежность уравнения реграссии и коэффициента детерминации. 5. С помощью частных F- критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1. 6. Составить уравнение линейной регрессии, оставив лишь один значащий фактор. РЕШЕНИЕ. Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу: № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Сумма Среднее y 6 6 6 7 7 7 8 8 9 10 9 11 11 12 12 13 13 13 14 14 196 9.8 x1 x2 yx1 yx2 x1 x2 3.6 3.6 3.9 4.1 3.9 4.5 5.3 5.3 5.6 6.8 6.3 6.4 7 7.5 7.9 8.2 8 8.6 9.5 9 125 6.25 9 12 14 17 18 19 19 19 20 21 21 22 24 25 28 30 30 31 33 36 448 22.4 21.6 21.6 23.4 28.7 27.3 31.5 42.4 42.4 50.4 68 56.7 70.4 77 90 94.8 106.6 104 111.8 133 126 1327.6 66.38 54 72 84 119 126 133 152 152 180 210 189 242 264 300 336 390 390 403 462 504 4762 238.1 32.4 43.2 54.6 69.7 70.2 85.5 100.7 100.7 112 142.8 132.3 140.8 168 187.5 221.2 246 240 266.6 313.5 324 3051.7 152.585 x12 12.96 12.96 15.21 16.81 15.21 20.25 28.09 28.09 31.36 46.24 39.69 40.96 49 56.25 62.41 67.24 64 73.96 90.25 81 851.94 42.597 x22 81 144 196 289 324 361 361 361 400 441 441 484 576 625 784 900 900 961 1089 1296 11014 550.7 Найдем средние квадратические отклонения признаков: y y 2 y 2 2.76767 x x12 x12 1.88003 1 x x22 x22 6.99571 2 1. Вычисление параметров линейного уравнения множественной регрессии. Для нахождения параметров линейного уравнения множественной регрессии y a b1 x1 b2 x2 Ннеобходимо решить следующую систему линейных уравнений относительно неизвестных параметров a, b1 , b2 na b1 x1 b2 x2 y 2 a x1 b1 x1 b2 x1 x2 yx1 2 a x b 1 x1 x2 b2 x2 yx2 2 либо воспользоваться готовыми формулами: y2 36 36 36 49 49 49 64 64 81 100 81 121 121 144 144 169 169 169 196 196 2074 103.7 ryx1 ryx2 cov y, x1 yx1 y x1 0.98591 y x1 y x1 cov y, x2 yx2 y x2 0.95962 y x2 y x2 cov x1 , x2 x1 x2 x1 x2 0.95688 x1 x2 x1 x2 rx1x2 Вычислим теперь коэффициенты по формулам: b1 y ryx ryx rx x 1.18064 x 1 rx2x 1 1 b2 2 1 2 1 2 y ryx ryx rx x 0.07604 x 1 rx2x 2 2 1 1 2 1 2 a y b1 x1 b2 x2 0.71759 Таким образом получили следующее уравнение множественной регрессии: ŷ 0.71759 + 1.18064 x1 + 0.0760444 x2 Уравнение регрессии показывает, что при увеличении ввода в действие основных фондов на 1 % (при неизменном уровне удельного веса рабочих высокой квалификации) выработка продукции на одного рабочего увеличивается в среднем на 1.181 тыс. руб., а при увеличении удельного веса рабочих высокой квалификации в общей численности рабочих на 1% (при неизменном уровне ввода в действие новых основных фондов), выработка продукции на одного рабочего увеличится в среднем на 0.076 тыс. руб. Коэффициенты 1и 2 стандартизированного уравнения регрессии t y 1t x1 2t x2 , находятся по формулам: 1 b1 x 0.80199 y 2 b2 x 0.19221 y 1 2 Т.е. уравнение будет выглядеть следующим образом: tˆy 0.80199 t x + 1 0.19221 t x2 Т.к. стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации. Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности: Эi bi xi yxi Вычисляем: Э1 Э2 0.17382 0.75296 Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1 %, увеличивает в среднем выработку продукции на 0.75 или 0.17 процентов соответственно. Таким образом, подтверждается большее влияние на результат y фактора x1, чем фактора x2 . 2. Коэффициенты парной корреляции уже найдены: ryx1 ryx2 0.986 0.960 rx1x2 0.957 Они указывают на весьма сильную связь каждого фактора с результатом, а также rx1x2 высокую межфакторную взаимосвязь (факторы x1 и x2 явно коллинеарны, т.к. 0.95688 >0,7). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения. Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии. При двух факторах частные коэффициенты корреляции расчитываются следующим образом: ryx1x2 ryx1 ryx2 rx1x2 1 ryx2 2 1 rx21x2 ryx2 ryx1 rx1x2 ryx2 x1 1 r 1 r 2 yx1 0.82818 0.467 2 x1 x2 Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышен-ные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной колинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи. Коэффициент множественной корреляции можно определить через матрицу парных коэффициентов корреляции: Ryx1x2 1 где 1 ryx1 ryx2 r ryx1 1 rx1x2 rx2 x1 1 ryx2 r , r11 определитель матрицы парных коэффициентов корреляции; r11 1 rx1x2 rx2 x1 1 определитель матрицы межфакторной корреляции. r 1 0.986 0.960 0.986 1 0.957 0.960 0.957 1 = r11 1 0.957 0.957 1 = 0.0844 0.0021 Коэффициент множественной корреляции: Ryx1x2 1 r r11 0.987 Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом. 3. Нескорректированный коэффициент множественной детерминации 2 Ryx 1x2 0.975 оценивает долю вариации результата за счет представленых в уравнении факторов в общей вариации. Здесь эта доля составляет 97.5% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом. Скорректированный коэффициент множественной детерминации: Rˆ 2 1 1 R 2 n 1 n m 1 0.972 определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсии. Он дает такую оценку тесноты связи, которая на зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на x2 . весьма высокую детерминированность результата y в модели факторами x1 и 4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает F - критерий Фишера: R2 n m 1 Ffact 333.47 1 R2 m (при n= 20), т.е. вероятность случайно получить Полусили, что Ffact Ftabl 3, 49 такое значение F - критерия не превышает допустимый уровень значимости 5 %. Следовательно, полученной значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения 2 и показателя тесноты связи Ryx x 1 2 С помощью частных F- критериев Фишера оценим целесообразность включения в 5. уравнение множественной регрессии фактора x1 после x2 и фактора x2 после x1 при помощи формул: 2 Ryx ryx2 2 n m 1 1 x2 Fx1 2 1 Ryx 1 x 1 2 37.119 2 Ryx ryx2 1 n m 1 1 x2 2.132 Fx2 2 1 Ryx 1 1 x2 Получили, что Fx2 Ftabl 3,49. Следовательно, включение в модель фактора x2 после того, как в модель включен фактор x1 статистически нецелесообразно: x2 прирост факторной дисперсии за счет дополнительного признака оказывается x1 незначительным, несущественым; фактор x2 включать в уравнение после фактора не следует. Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения x1 после x2 , то результат расчета частного F -критерия для x1 будет иным. Fx1 Ftabl 3,49, т.е. вероятность его случайного формирования меньше принятого стандарта в 5 %. Следовательно, значение частного F -критерия для дополнительно включенного фактора не случайно, является статистически x1 значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного x1 фактора является существенным. Фактор x1 должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора x2 x2 Общий вывод состоит в том, что множественная модель с факторами xи1 x 0.975 содержит неинформативный фактор с R Если исключить его, то 2 можно ограничиться уравнением парной регрессии: 6. 2 yx1x2 yˆ x1 ax1 bx1 x1 0.73 + 1.45 x