Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Алтайский государственный технический университет им. И.И. Ползунова» Факультет информационных технологий Кафедра высшей математики Отчет по лабораторной работе №2 «Множественная регрессия» Выполнил студент группы ЭБ-91 Проверила кандидат физико-математических наук, доцент Никифорова Елена Геннадьевна БАРНАУЛ 2022 Таблица 1 – Исходные данные Объем реализации некоторого продукта фирмы, шт. Расходы Средняя на Цена цена Время рекламу, товара, товара у Индекс реализации, сотни тыс. конкурентов, потребительских дни руб. руб. тыс. руб. расходов, % y x1 x2 x3 x4 x5 164 40,5 43,9 53,9 55,9 138,9 175 41 44,7 54,7 56,2 137,3 186 229 312 408 470 483 405 405 359 345 369 383 402 422 42 43 44 45 46 47 48 49 50 51 52 53 54 55 43,7 48,6 48,1 49,6 54,6 58,6 59,7 50,5 48,5 46,4 52,5 45,7 45,7 45,6 54,1 54,4 54,4 54,9 57 51,9 54,7 55,8 55,2 55 54,3 54,6 54,9 54 55,7 55,1 54,9 56,9 59,1 54,7 57,1 55,7 55,9 57,2 55,3 55,1 56,6 55,1 140,1 142,4 143 145,9 146,3 147,4 147,2 148,1 149 149,6 149,2 150,7 151,2 151,8 x1 x2 y y x1 x2 X3 x4 x5 1 0,672906402 0,638549359 0,133217706 0,226319338 0,81601787 X3 x4 1 0,08842367 1 0,08702503 -0,0611306 1 -0,0523699 0,21053898 0,7231328 1 0,95929034 0,26217839 0,1163371 0,0307844 x5 1 Рисунок 1 – Таблица парных коэффициентов корреляции Отбор факторов в модель начинаем с построения таблицы парных коэффициентов корреляции. Вкладка => Данные => Анализ данных => корреляция => входной интервал вместе с названиями => метки => OK. Рассматриваем правую часть таблицы, ищем числа > = 0,7. Убираем те переменные, у которых связь с «у» слабее, т.е. показатель связи будет меньше 0,7 , что смотрим по левой части таблицы. Можем взять в конечную модель тот фактор, у которого показатель связи будет больше 0,7. В таблице это Х5, так как он равен 0,816018. Сделаем проверку факторов еще по другим критериям отбора. i – стандартизированные коэффициенты регрессии показывают, на сколько 1) сигм (средних квадратических отклонений) в среднем изменится результат Y, если соответствующий фактор Хi изменится на одну сигму при неизменном среднем уровне других факторов. Найдем стандартизованные коэффициенты i для каждого Хi по формуле: i bi xi , где y b1 – коэффициент регрессии, 𝜎𝑥𝑖 , 𝜎𝑦 – стандартные отклонения. Общий ВЫВОД ИТОГОВ Регрессионная статистика Множественный0,943772443 R R-квадрат 0,890706424 Нормированный0,836059636 R-квадрат Стандартная ошибка 41,64961661 Наблюдения 16 Дисперсионный анализ 3,3258345 df SS MS F Значимость F Регрессия 5 141371,532 28274,3064 16,299337 0,0001585 Остаток 10 17346,9056 1734,69056 Итого 15 158718,438 Коэффициенты Стандартная ошибка t-статистика P-ЗначениеНижние 95% Верхние 95% Нижние 95,0% Верхние 95,0% Y-пересечение -4154,02406 1106,70233 -3,7535152 0,003762 -6619,911 -1688,14 -6619,91 -1688,14 x1 -13,5305286 10,3263642 -1,3102897 0,2193946 -36,5391 9,478045 -36,5391 9,478045 x2 6,754163395 2,97830165 2,26779023 0,0467458 0,1180938 13,39023 0,118094 13,39023 X3 -1,72863464 16,1338898 -0,1071431 0,9167945 -37,67718 34,21991 -37,6772 34,21991 x4 8,803927691 15,1010502 0,58300102 0,5728043 -24,84331 42,45116 -24,8433 42,45116 x5 30,18589353 11,1342817 2,71107686 0,0218931 5,3771678 54,99462 5,377168 54,99462 2,14478669 Так: b1 = -13,5305 b2 =6,754163 b3 =-1,72863 b4 =8,803928 b5 =30,18589 102,8651 4,709808 4,942469 1,048093507 1,139426 4,512755 среднее квадр. отклонение Так: β1= -13,5305*(4,709808/102,8651) = -0,619512266 β2= 6,754163*(4,942469/102,8651) =0,324524477 β3= -1,72863*(1,048093507/102,8651) =-0,017613075 β4=8,803928*(1,139426/102,8651) =0,097520191 β5=30,18589*(4,512755/102,8651) =1,324273653 2) Средние коэффициенты эластичности показывают, на сколько процентов, в среднем, изменится среднее значение y , при увеличении среднего значения соответствующего 𝑥̅ фактора на 1% . Найдем средние коэффициенты эластичности по формуле: э̅𝑖 = 𝑏𝑖 𝑦̅𝑖, где 𝑥̅𝑖 и 𝑦̅ – ср. значения по x и y , соответственно. 344,8125 47,53125 49,15 54,6125 56,03125 146,13125 среднее значение Так: Э1=-13,5305* (47,53125/344,8125) = -1,865138119 Э2=6,754163*(49,15/344,8125) = 0,9627468 Э3=-1,72863* (54,6125/344,8125) = -0,273786649 Э4=8,803928*(56,0313/344,8125) = 1,430618303 Э5 =30,18589*(146,1313/344,8125) = 12,79275651 3) Индекс множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком или, иначе говоря, оценивает тесноту совместного влияния факторов на результат. Ryx1x2 ... xm 2 2 факт ост , R 1 2 2 y y 2 Ryx1x2 ... xm 0;1 Для сравнения качества моделей с разным числом факторов скорректированный (нормированный) коэффициент множественной детерминации: применяется 2 ∑(𝑦−𝑦̅) ⁄(𝑛−𝑚−1) 𝑅̂ 2 = 1 − ∑(𝑦−𝑦̅)⁄(𝑛−1) Нужные нам показатели мы можем найти в таблицах вывода итогов: Общий ВЫВОД ИТОГОВ Без x 1 ВЫВОД ИТОГОВ Без x 2 ВЫВОД ИТОГОВ Регрессионная статистикаРегрессионная статистикаРегрессионная статистика Множественный0,913508692 R Множественный0,933778484 R Множественный0,943772443 R R-квадрат 0,871942257 R-квадрат 0,834498131 R-квадрат 0,890706424 R-квадрат Нормированный0,774315633 R-квадрат Нормированный0,836059636 R-квадрат Нормированный0,825375805 42,98533039 Стандартная ошибка 48,86735116 Стандартная ошибка 41,64961661 Стандартная ошибка 16 Наблюдения 16 Наблюдения 16 Наблюдения Без x 3 ВЫВОД ИТОГОВ Без x 4 ВЫВОД ИТОГОВ Без x 5 ВЫВОД ИТОГОВ Регрессионная статистикаРегрессионная статистикаРегрессионная статистика Множественный 0R,94370597 Множественный0,941802337 R Множественный0,900209046 R R-квадрат 0,890580959 R-квадрат 0,886991642 R-квадрат 0,810376326 Нормированный0,850792216 R-квадрат Нормированный0,845897694 R-квадрат Нормированный0,741422263 R-квадрат Стандартная ошибка 39,73413836 Стандартная ошибка 40,38058709 Стандартная ошибка 52,30745929 Наблюдения 16 Наблюдения 16 Наблюдения 16 Общий показатель R2 = 0,890706 > 0,7 , значит модель адекватная, существенные переменные влияющие на нее присутствуют, значит, модель строим. В модели из пяти переменных 𝑅 2 = 0,891. если убрать х1, значение индекса детерминации становится = 0,872, т. е. уменьшается на 0,019; если убрать х2, индекс детерминации становится = 0,834, уменьшается на 0,057; если убрать х3, индекс детерминации = 0,891, т.е. не изменяется; если убрать х4, индекс детерминации становится = 0,887, т. е. уменьшается на 0,004; если убрать х5, индекс детерминации становится = 0,81, т.е. уменьшается на 0,081. Если исключить переменные х1, х3 и х4 значение индекса детерминации изменяется незначимо, а при исключении переменных х2 и х5 изменение индекса детерминации становится довольно заметным. Это значит, что все переменные, кроме х2 и х5, несущественны. 4) Частные коэффициенты корреляции r характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии, и вычисляется по формуле: ryxi x1x2 ... xi 1xi 1... xm 1 1 Ryx2 1x2 ... xi ... xm 1 Ryx2 1x2 ... xi 1xi 1... xm , Так: 1−0,890706424 𝒓𝟏 = √1 − 1− 0,871942257 = 0,382791004 ; 1−0,890706424 𝒓𝟑 = √1 − 1−0,890580959 = 0,033862186; 1−0,890706424 𝒓𝟐 = √1 − 1−0,834498131 = 𝟎, 𝟓𝟖𝟐𝟕𝟕𝟐𝟎𝟗𝟑; 𝒓𝟒 = √1 − 1−0,890706424 1−0,886991642 = 0,181305656; 1−0,890706424 𝒓𝟓 = √1 − 1−0,810376326 = 𝟎, 𝟔𝟓𝟎𝟖𝟔𝟕𝟗𝟐𝟓. Решающими показателями являются частный F–критерий Фишера и t–статистики Стьюдента. 5) Мерой для оценки включения фактора в модель служит частный F–критерий Фишера, с формулой: 𝐹𝑥𝑖 = 2 𝑅 2 −𝑅без 𝑥𝑖 1−𝑅 2 ∗ 𝑛−𝑚−1 1 , где n – число наблюдений, m – число переменных в модели. С помощью функции (FРАСПОБР) находим Fкритич= 3,325835. Так: 0,890706424 − 0,871942257 = 1,716859 1 − 0,890706424 0,890706424 − 0,834498131 𝐹2 = = 𝟓, 𝟏𝟒𝟐𝟖𝟕𝟑 1 − 0,890706424 0,890706424 − 0,890580959 𝐹3 = = 0,01148 1 − 0,890706424 0,890706424 − 0,886991642 𝐹4 = = 0,33989 1 − 0,890706424 0,890706424 − 0,810376326 𝐹5 = = 𝟕, 𝟑𝟒𝟗𝟗𝟑𝟖 1 − 0,890706424 𝐹1 = Сравниваем Fxi и Fкритич, из всех значений только х2 и х5 больше Fкритич. 6) t-статистики Стьюдента применяются для проверки гипотезы о статистической значимости и надежности каждого коэффициента уравнения регрессии : 𝑡𝑏𝑖 = 𝑏𝑖 𝑚𝑏𝑖 Возьмем данные в таблице вывода итогов: С помощью функции (=СТЬЮДЕНТ.ОБР.2Х(0,05;14)) находим tкритич=2,144787, и сравним с t-критерием Стьюдента по модулю, как следствие видим, несущественность всех переменных, кроме х2 и х5. x1 bi βi ryxi Эyxi R без xi r без xi Fxi tbi x2 X3 x4 x5 -13,5305 6,754163 -1,72863 8,803928 30,18589 -0,61951 0,672906 -1,86514 0,871942 0,382791 1,716859 -1,31029 0,324524 0,638549 0,962747 0,834498 0,582772 5,142873 2,26779 -0,01761 0,133218 -0,27379 0,890581 0,033862 0,01148 -0,10714 0,09752 0,226319 1,430618 0,886992 0,181306 0,33989 0,583001 0,69835 1,324274 0,816018 12,79276 0,810376 0,890706 0,650868 7,349938 3,325835 2,711077 2,144787 0,803167 Строим модель по переменным x2 и x5: y 164 175 186 229 312 408 470 483 405 405 359 345 369 383 402 422 x2 43,9 44,7 43,7 48,6 48,1 49,6 54,6 58,6 59,7 50,5 48,5 46,4 52,5 45,7 45,7 45,6 x5 138,9 137,3 140,1 142,4 143 145,9 146,3 147,4 147,2 148,1 149 149,6 149,2 150,7 151,2 151,8 Уравнение модели: y=-2441,53+9,49x2+15,88x5 C x2 и x5 y=-2441,53+9,49x 2+15,88x 5 ВЫВОД ИТОГОВ Регрессионная статистика Множественный0,927083519 R R-квадрат 0,859483852 Нормированный0,837865983 R-квадрат Стандартная ошибка 41,41952667 Наблюдения 16 Дисперсионный анализ df SS MS F Значимость F Регрессия 2 136415,934 68207,967 39,758029 2,885E-06 Остаток 13 22302,5035 1715,57719 Итого 15 158718,438 Коэффициенты Стандартная ошибка t-статистика P-ЗначениеНижние 95% Верхние 95% Нижние 95,0% Верхние 95,0% Y-пересечение -2441,53297 346,836248 -7,03944 8,808E-06 -3190,827 -1692,24 -3190,83 -1692,24 x2 9,48941092 2,24222655 4,23213744 0,0009792 4,645375 14,33345 4,645375 14,33345 x5 15,87573449 2,45573604 6,46475609 2,117E-05 10,570439 21,18103 10,57044 21,18103 2,14478669 Коэффициент детерминации R2= 0,859483852> 0,7, значит, модель считается адекватной. Это значит, что на 85,95% изменений Y объясняются изменением переменных x2 и x5, а на 14,05% на изменения Y влияют другие случайные факторы. Экономический смысл коэффициентов уравнения регрессии: при увеличении расходов фирмы на рекламу на 100 рублей, некоторого продукта фирмы возрастает на 9,49 единиц при неизменном потребительских расходов; при увеличении индекса потребительских расходов на 1%, некоторого продукта фирмы возрастает на 15,88 единиц при неизменном фирмы на рекламу. 1) Коэффициент эластичности: э ̅𝑖 = 𝑏𝑖 Э𝟐 = 6,754163 ∗ 𝑥̅𝑖 𝑦̅ объем реализации значении индекса объем реализации значении расходов , 49,15 = 𝟎, 𝟗𝟔𝟐𝟕𝟒𝟔𝟖 344,8125 146,1313 Э𝟓 = 30,18589 ∗ 344,8125 = 12,79275651 Коэффициент эластичности означает, что при увеличении расходов на рекламу на 1% от их среднего значения объем реализации продукта фирмы возрастает на 0,96 % от своего среднего значения при фиксировании всех остальных факторов на среднем уровне. Коэффициент эластичности означает, что при увеличении индекса потребительских расходов на 1% от его среднего значения объем реализации продукта фирмы возрастает на 12,79% от своего среднего значения при фиксировании всех остальных факторов на среднем уровне. Частный коэффициент линейной корреляции: 2) ryxi x1x2 ... xi 1xi 1... xm 1 1 Ryx2 1x2 ... xi ... xm 1 Ryx2 1x2 ... xi 1xi 1... xm , Частный коэффициент линейной корреляции ryx2 x1x3 x4 x5 𝟎, 𝟓𝟖𝟐𝟕𝟕𝟐 характеризует силу линейной корреляционной зависимости между объемом реализации товара y и расходами фирмы на рекламу при фиксировании всех других факторов на их средних значениях. Таким образом, при средних значениях времени реализации, при цене товара, равной ее среднему значению в данной фирме и у конкурентов, при среднем значении индекса потребительских расходов сила линейной корреляционной зависимости объема реализации товара от расходов на рекламу характеризуется как прямая: с ростом расходов на рекламу растет объем продаж данного продукта. Частный коэффициент линейной корреляции ryx5 x1x2 x3 x4 𝟎, 𝟔𝟓𝟎𝟖𝟔𝟖 характеризует силу линейной корреляционной зависимости между объемом реализации товара y и индексом потребительских расходов при фиксировании всех других факторов на их средних значениях. Таким образом, при среднем времени реализации, средних расходах фирмы на рекламу при цене товара, равной ее среднему значению в данной фирме и у конкурентов, сила линейной корреляционной зависимости объема реализации товара от индекса потребительских расходов характеризуется как прямая, сильная: с ростом индекса потребительских расходов растет объем продаж данного продукта фирмы. Стандартизованные коэффициенты регрессии i bi 3) 4,942469 𝛽2 = 6,754163 ∗ 102,8651 = 𝟎, 𝟑𝟐𝟒𝟓𝟐𝟒𝟒𝟕𝟕, что x : y i означает, что при увеличении расходов на рекламу на одно среднее квадратическое отклонение объем реализации продукта увеличивается на 0,32 среднее квадратическое отклонение. 4,512755 𝛽5 = 30,18589 ∗ 102,8651 = 𝟏, 𝟑𝟐𝟒𝟐𝟕𝟑𝟔𝟓𝟑, что означает, что при увеличении индекса потребительских расходов на одно среднее квадратическое отклонение объем реализации продукта увеличивается на 1,32 средних квадратических отклонений. ryxi i R2 -коэффициенты: 4) Вычислим парные коэффициенты корреляции R без xi r без xi 𝑥2 = 0,871942 0,834498 0,890581 0,886992 0,810376 0,382791 0,582772 0,033862 0,181306 0,650868 0,582772 = 0,69835, 0,834498 𝑥5 = 0,650868 = 0,803167, 30,810376 Таким образом, Δ2=0,69835 и Δ5= 0,803167. Изменение объема реализации продукта на 80,32% объясняется изменением индекса потребительских расходов и на 69,84% изменением расходов фирмы на рекламу. Уравнение модели: y=-2441,53+9,49x2+15,88x5 95% доверительный интервал для параметров уравнения регрессии: max min x2 x5 59,7 43,7 151,8 137,3 𝑥2 ∈ (43,7; 59,7) 𝑥5 ∈ (137,3; 151,8) Интервал использования моделей: Х𝑚𝑎𝑥 −𝑋𝑚𝑖𝑛 3 . Найдем max значения переменных: x2=59,7; x5=151,8. Найдем min значения переменных: 𝑥2 = 59,7−43,7 3 𝑥5 = = 5,3, 151,8−137,3 3 x2=43,7; x5=137,3. 𝑥2 ∈ (43,7 – 5,3; 59,7+5,3) 𝑥2 ∈ (38,4; 65) = 4,8, 𝑥5 ∈ (137,3 – 4,8; 151,8+4,8) 𝑥5 ∈ (132,5; 156,6) y(50;145) = -2441,53+9,49*50+15,88*145 = 335,57, т. е. при вложениях в рекламу в объеме 1000 рублей и при значении индекса потребительских расходов 145%, ожидаемый объем продаж продукта составит 335 единиц.