Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель Семинары 1-2 Парная линейная регрессия: спецификация, параметризация модели, проверка качества и прогнозирование Задание. Фирма провела рекламную кампанию. Через 10 недель она решила проанализировать ее эффективность, сопоставив недельные объемы продаж (у, тыс.р.) с расходами на рекламу (х, тыс.р.): 1) Постройте поле корреляции в Excel и сделайте предположение о форме зависимости между х и у. 2) Постройте модель регрессии в Excel с помощью инструмента «Регрессия» надстройки Пакет анализа. 3) Оцените качество построенной модели (уровень значимости 5%), используя данные протокола Регрессия. 4) Выполните прогноз объемов продаж на две недели вперёд (с вероятностью 95%) N 1 2 3 4 5 6 7 8 9 10 х 5 8 6 5 3 9 12 4 3 10 у 72 76 78 70 68 80 82 65 62 90 Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель Решение: Экзогенная переменная х - расходы на рекламу (тыс.р.): Эндогенная переменная у - недельные объемы продаж (тыс.р.) 1) Построим поле корреляции В MS Excel вкладка ВСТАВКА − ДИАГРАММЫ − ТОЧЕЧНАЯ (добавим линию тренда) Вытянутость облака точек на диаграмме рассеяния вдоль некоторой прямой позволяет сделать предположение, что существует некоторая объективная тенденция между значениями х и у, т.е. с увеличением расходов на рекламу недельные объемы продаж в среднем увеличиваются. Вывод: По виду поля корреляции можно предположить наличие линейной связи между х и у. Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель 2) Построим уравнение парной линейной регрессии yx = a + b x Для этого найдем оценки параметров a и b в этом уравнении методом наименьших квадратов. Составим расчетную таблицу на листе MS Excel: № х y ŷ y − yˆ = y − yˆ y Воспользуемся инструментом «Регрессия» в Excel для столбцов 2-3 расчетной таблицы. Расчетная таблица 1 2 3 4 5 6 № х y ŷ y − yˆ = y 1 2 3 4 5 6 7 8 9 10 Сумма 5 8 6 5 3 9 12 4 3 10 65 72 76 78 70 68 80 82 65 62 90 743 70,650 77,950 73,083 70,650 65,783 80,384 87,684 68,216 65,783 82,817 - 1,350 -1,950 4,917 -0,650 2,217 -0,384 -5,684 -3,216 -3,783 7,183 0,000 0,019 0,026 0,063 0,009 0,033 0,005 0,069 0,049 0,061 0,080 0,414 Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель Результат в Excel Протокол состоит из 4-х таблиц: 1 – Регрессионная статистика, 2 – Дисперсионный анализ, 3 – без названия, 4 – Вывод остатка. ВЫВОД ИТОГОВ Табл.1Регрессионная статистика Множественный R 0,8836 R-квадрат Нормированный Rквадрат Стандартная ошибка 0,7808 Наблюдения 0,7534 4,2403 10 Табл.2Дисперсионный анализ Регрессия Остаток Итого df 1 8 9 SS 512,2572 143,8428 656,1 MS 512,2572 17,9803 F 28,4898 Значимость F 0,0007 Табл. 3 Коэффициенты Y-пересечение х 58,4821 2,4335 Стандартная tPошибка статистика Значение 3,2527 17,9793 0,0000 0,4559 5,3376 0,0007 Табл.4 ВЫВОД ОСТАТКА Наблюдение 1 2 3 4 5 6 7 8 9 10 сумма Предсказанное у 70,6497 77,9503 73,0832 70,6497 65,7827 80,3838 87,6844 68,2162 65,7827 82,8173 - Остатки, еi 1,3503 -1,9503 4,9168 -0,6497 2,2173 -0,3838 -5,6844 -3,2162 -3,7827 7,1827 0 Нижние 95% 50,9812 1,3822 Верхние 95% 65,9829 3,4849 Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель ✓ Уравнение парной линейной регрессии имеет вид (см. табл. 3 Протокола, столбец - Коэффициенты): yx = 58,48 + 2,43 x Интерпретация параметра b: с увеличением расходов на рекламу на 1 тыс.руб. недельные объемы продаж увеличатся в среднем на 2,43 тыс.руб. 3) Оценим качество построенной модели (уровень значимости 5%). 3.1. Теснота связи Линейный коэффициент парной корреляции (см. табл.1 Регрессионная статистика, строка - множественный R) ryx = 0,8836 !!! Обратите внимание: в Excel не определяется знак ryx, а только значение ryx по модулю. Знак ryx совпадает со знаком коэффициента регрессии b В данном случае т.к. b 0, то ryx 0. Вывод: Т.к. ryx0, то связь между расходами на рекламу х и недельным объемом продаж у прямая (с ростом расходов на рекламу растут недельные объемы продаж). По шкале Чеддока эта связь тесная. Замечание: коэффициент корреляции можно вычислить с помощью встроенной функции =КОРРЕЛ (массив х; массив у) Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель 3.2. Точность модели А) Линейный коэффициент детерминации (см.табл.1 Регрессионная статистика, строка – R-квадрат) R2yx = r2yx = 0,7808 0,781 Вывод: 78,1% вариации недельных объёмов продаж товара объясняется вариацией расходов на рекламу, остальные 21,9% - влияние факторов, не учтённых в данной модели. Б) Средняя относительная ошибка аппроксимации Вычисляется по формуле (см. Расчетная табл., столбец 6): А= 1 y − yˆ 1 100% = 0,414 100% = 4,14% 10% n y 10 Вывод: В среднем расчетные значения ŷ для линейной модели отличаются от фактических значений на 4,14%, что находится в пределах нормы. Модель можно считать хорошо подобранной. Она достаточно точно описывает связь между фактором (расходами на рекламу) и результатом (недельными объемами продаж). Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель 3.3. Статистическая значимость уравнения регрессии в целом • Н0: b=0 (уравнение регрессии в целом статистически незначимо) • Н1: b≠0 (уравнение регрессии в целом статистически значимо) Воспользуемся критерием Фишера. ✓ Фактическое значение критерия (см.табл.2 Дисперсионный анализ, столбец – F). Fфакт = 28,4898 ✓ Табличное значение критерия Fтабл = F.ОБР.ПХ ( = 0,05; k1 = m = 1, k2 = n − m −1 = 8) = 5,32 Т.к. Fфакт Fтабл, то Н0 отклоняется. Вывод: Уравнение регрессии с вероятностью 95% в целом статистически значимо и его можно использовать для прогнозирования. Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель 3.4. Статистическая значимость параметров регрессии и корреляции Н0: a = 0 (параметр а статистически незначим), Н1: a ≠ 0 Н0: b = 0 (параметр b статистически незначим), Н1: b ≠ 0 Н0: rxy = 0 (коэффициент корреляции rxy статистически незначим), Н1: rxy ≠ 0 Воспользуемся критерием Стьюдента. ✓ Найдем стандартную ошибку для r (по формуле): 1− rху2 1− 0,781 mr = = = 0,165 n−2 8 ✓ Найдем фактические значения t-критерия (для параметров а и b - см. табл.3 Протокола, столбец – t-статистика; для коэффициента корреляции r – вычисления по формуле): tфакт(a) = 17,9793 tфакт(b) = 5,3376 tфакт(r ) = r 0,8836 = = 5,3376 mr 0,165 Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель ✓ Табличное значение tтабл = СТЬЮДЕНТ.ОБР.2Х(; k = n - 2) = СТЬЮДЕНТ.ОБР.2Х (0,05; 8) = 2,306 Фактические значения tфакт(b), tфакт(a), tфакт(r) больше табличного, следовательно, нулевая гипотеза Н0 отклоняется. Вывод: С вероятностью 95% можно считать, что коэффициент регрессии b, параметр a и коэффициент корреляции rух статистически значимы. Замечание: Для параметров a и b статистическую значимость коэффициентов полученной регрессионной модели можно проверить по P-значению (Р-value) tстатистики Стьюдента для каждого коэффициента (см. табл.3 Протокола, столбец – Р-значение) Из протокола: Р-value (для а): 0 0,00000009393 0,05 Р-value (для b): 0 0,00069615 0,05 Р-значения для каждого из параметров меньше заданного уровня значимости (5%). С вероятностью 95% можно считать, что параметры a и b в уравнении регрессии статистически значимы. Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель 3.5. Доверительные интервалы для a и b См. табл. 3 Протокола, столбцы – Нижние 95% (это левые границы интервалов) и Верхние 95% (это правые границы интервалов) ✓ Для параметра a получим интервал: (50,9812; 65,9829) ✓ Для параметра b получим интервал: (1,3822; 3,4849) Вывод: С вероятностью 95% можно утверждать, что оценки параметров принадлежат интервалам a(50,98; 66), b(1,38; 3,48) !!! Т.к. границы интервала для а одного знака, границы интервала для b одного знака и не равны 0, то оценки параметров a и b статистически значимы и надёжны. Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель 4. Выполним прогноз объемов продаж на две недели вперёд (с вероятностью 95%) Найдем прогнозное значение расходов на рекламу х на 11-й и 12-й неделе. Сначала найдем хр,11 = хn+k = х10+1 = 10 + 0,561 = 10,56 - прогнозное значение расходов на рекламу на 11-й неделе. хр,12 = хn+k = х10+2 = 10 + 0,562 = 11,12 - прогнозное значение расходов на рекламу на 12-й неделе. А) Точечный прогноз объемов продаж (по уравнению регрессии yx = 58,48 + 2,43 x ) y р,11 = 58,48 + 2,4310,56 = 84,14 тыс. руб. y р,12 = 58,48 + 2,4311,12 = 85,5 тыс. руб. На 11-й неделе расходы на рекламу будут составлять в среднем 10,56 тыс.руб., а недельные объемы продаж с вероятностью 95% будут равны 84,14 тыс.руб. На 12-й неделе расходы на рекламу будут составлять в среднем 11,12 тыс.руб., а недельные объемы продаж с вероятностью 95% будут равны 85,5 тыс.руб. Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2) Семинары 1-2. Парная линейная регрессионная модель Б) Интервальный прогноз объемов продаж • Стандартная ошибка прогноза 2 2 x − x ˆ y − y ( ) ( ) 1 143,84 1 (10,56 − 6,5) p myˆ p = 1+ + 1+ + = 4,82 2 = 2 65 n − m −1 n 10 − 1 − 1 10 x ( ) 509 − x2 − 10 n 2 2 2 x − x ˆ y − y ( ) ( ) 1 143,84 1 (11,12 − 6,5) p myˆ p = 1+ + 1+ + = 4,92 2 = 2 65 n − m −1 n 10 − 1 − 1 10 x ( ) 509 − x2 − 10 n 2 • Предельная ошибка прогноза 11-я неделя: yˆ p = myˆ p tтабл = 4,82 2,31 = 11,13 12-я неделя: yˆ p = myˆ p tтабл = 4,92 2,31 = 11,37 • Доверительный интервал прогноза • yˆ p −yˆ p yˆ p yˆ p +yˆ p 11-я неделя: (84,14 – 11,13; 84,14 + 11,13) = (73,01; 95,27) тыс.руб. 12-я неделя: (85,5 – 11,37; 85,5 + 11,37) = (74,13; 96,87) тыс.руб. Вывод: С вероятностью 95% прогнозное значение объёмов продаж при расходах на рекламу 10,56 тыс.руб. попадает в интервал (73,01; 95,27) тыс.руб.; а при расходах на рекламу 11,12 тыс.руб. - в интервал (74,13; 96,87) тыс.руб. Прогноз надежный, т.к. границы доверительных интервалов прогноза не содержат нулевого значения.