Загрузил Максим Сидоренко

SEMINAR 1-2 Parnaya lineynaya regressia

реклама
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
Семинары 1-2
Парная линейная регрессия:
спецификация, параметризация модели,
проверка качества и прогнозирование
Задание. Фирма провела рекламную кампанию. Через 10 недель она решила
проанализировать ее эффективность, сопоставив недельные объемы продаж
(у, тыс.р.) с расходами на рекламу (х, тыс.р.):
1) Постройте поле корреляции в Excel и сделайте предположение о форме зависимости между х и у.
2) Постройте модель регрессии в Excel с помощью инструмента «Регрессия»
надстройки Пакет анализа.
3) Оцените качество построенной модели (уровень значимости 5%), используя данные протокола Регрессия.
4) Выполните прогноз объемов продаж на две недели вперёд (с вероятностью
95%)
N
1
2
3
4
5
6
7
8
9
10
х
5
8
6
5
3
9
12
4
3
10
у
72
76
78
70
68
80
82
65
62
90
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
Решение:
Экзогенная переменная х - расходы на рекламу (тыс.р.):
Эндогенная переменная у - недельные объемы продаж (тыс.р.)
1) Построим поле корреляции
В MS Excel вкладка ВСТАВКА − ДИАГРАММЫ − ТОЧЕЧНАЯ
(добавим линию тренда)
Вытянутость облака точек на диаграмме рассеяния вдоль некоторой прямой
позволяет сделать предположение, что существует некоторая объективная
тенденция между значениями х и у, т.е. с увеличением расходов на рекламу
недельные объемы продаж в среднем увеличиваются.
Вывод: По виду поля корреляции можно предположить наличие линейной
связи между х и у.
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
2) Построим уравнение парной линейной регрессии
yx = a + b  x
Для этого найдем оценки параметров a и b в этом уравнении методом
наименьших квадратов.
Составим расчетную таблицу на листе MS Excel:
№
х
y
ŷ
y − yˆ = 
y − yˆ
y
Воспользуемся инструментом «Регрессия» в Excel для столбцов 2-3
расчетной таблицы.
Расчетная таблица
1
2
3
4
5
6
№
х
y
ŷ
y − yˆ = 

y
1
2
3
4
5
6
7
8
9
10
Сумма
5
8
6
5
3
9
12
4
3
10
65
72
76
78
70
68
80
82
65
62
90
743
70,650
77,950
73,083
70,650
65,783
80,384
87,684
68,216
65,783
82,817
-
1,350
-1,950
4,917
-0,650
2,217
-0,384
-5,684
-3,216
-3,783
7,183
0,000
0,019
0,026
0,063
0,009
0,033
0,005
0,069
0,049
0,061
0,080
0,414
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
Результат в Excel
Протокол состоит из 4-х таблиц: 1 – Регрессионная статистика, 2 – Дисперсионный анализ, 3 – без названия, 4 – Вывод остатка.
ВЫВОД ИТОГОВ
Табл.1Регрессионная статистика
Множественный R
0,8836
R-квадрат
Нормированный Rквадрат
Стандартная ошибка
0,7808
Наблюдения
0,7534
4,2403
10
Табл.2Дисперсионный
анализ
Регрессия
Остаток
Итого
df
1
8
9
SS
512,2572
143,8428
656,1
MS
512,2572
17,9803
F
28,4898
Значимость
F
0,0007
Табл. 3
Коэффициенты
Y-пересечение
х
58,4821
2,4335
Стандартная
tPошибка
статистика Значение
3,2527
17,9793
0,0000
0,4559
5,3376
0,0007
Табл.4 ВЫВОД
ОСТАТКА
Наблюдение
1
2
3
4
5
6
7
8
9
10
сумма
Предсказанное
у
70,6497
77,9503
73,0832
70,6497
65,7827
80,3838
87,6844
68,2162
65,7827
82,8173
-
Остатки, еi
1,3503
-1,9503
4,9168
-0,6497
2,2173
-0,3838
-5,6844
-3,2162
-3,7827
7,1827
0
Нижние
95%
50,9812
1,3822
Верхние
95%
65,9829
3,4849
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
✓ Уравнение парной линейной регрессии имеет вид (см. табл. 3 Протокола, столбец - Коэффициенты):
yx = 58,48 + 2,43 x
Интерпретация параметра b: с увеличением расходов на рекламу на 1
тыс.руб. недельные объемы продаж увеличатся в среднем на 2,43 тыс.руб.
3) Оценим качество построенной модели (уровень значимости 5%).
3.1. Теснота связи
Линейный коэффициент парной корреляции (см. табл.1 Регрессионная статистика, строка - множественный R)
ryx = 0,8836
!!! Обратите внимание: в Excel не определяется знак ryx, а только значение
ryx по модулю.
Знак ryx совпадает со знаком коэффициента регрессии b
В данном случае т.к. b  0, то ryx  0.
Вывод: Т.к. ryx0, то связь между расходами на рекламу х и недельным объемом продаж у прямая (с ростом расходов на рекламу растут недельные объемы продаж). По шкале Чеддока эта связь тесная.
Замечание: коэффициент корреляции можно вычислить с помощью встроенной функции =КОРРЕЛ (массив х; массив у)
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
3.2. Точность модели
А) Линейный коэффициент детерминации (см.табл.1 Регрессионная статистика, строка – R-квадрат)
R2yx = r2yx = 0,7808  0,781
Вывод: 78,1% вариации недельных объёмов продаж товара объясняется вариацией расходов на рекламу, остальные 21,9% - влияние факторов, не
учтённых в данной модели.
Б) Средняя относительная ошибка аппроксимации
Вычисляется по формуле (см. Расчетная табл., столбец 6):
А=
1
y − yˆ
1
100% =  0,414 100% = 4,14%  10%

n
y
10
Вывод: В среднем расчетные значения ŷ для линейной модели отличаются от
фактических значений на 4,14%, что находится в пределах нормы.
Модель можно считать хорошо подобранной. Она достаточно точно
описывает связь между фактором (расходами на рекламу) и результатом (недельными объемами продаж).
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
3.3. Статистическая значимость уравнения регрессии в целом
•
Н0: b=0 (уравнение регрессии в целом статистически незначимо)
•
Н1: b≠0 (уравнение регрессии в целом статистически значимо)
Воспользуемся критерием Фишера.
✓ Фактическое значение критерия (см.табл.2 Дисперсионный анализ, столбец – F).
Fфакт = 28,4898
✓ Табличное значение критерия
Fтабл = F.ОБР.ПХ ( = 0,05; k1 = m = 1, k2 = n − m −1 = 8) = 5,32
Т.к. Fфакт  Fтабл, то Н0 отклоняется.
Вывод: Уравнение регрессии с вероятностью 95% в целом статистически
значимо и его можно использовать для прогнозирования.
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
3.4. Статистическая значимость параметров регрессии и корреляции
Н0: a = 0 (параметр а статистически незначим),
Н1: a ≠ 0
Н0: b = 0 (параметр b статистически незначим),
Н1: b ≠ 0
Н0: rxy = 0 (коэффициент корреляции rxy статистически незначим), Н1: rxy ≠ 0
Воспользуемся критерием Стьюдента.
✓ Найдем стандартную ошибку для r (по формуле):
1− rху2
1− 0,781
mr =
=
= 0,165
n−2
8
✓ Найдем фактические значения t-критерия
(для параметров а и b - см. табл.3 Протокола, столбец – t-статистика;
для коэффициента корреляции r – вычисления по формуле):
tфакт(a) = 17,9793
tфакт(b) = 5,3376
tфакт(r ) =
r 0,8836
=
= 5,3376
mr 0,165
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
✓ Табличное значение
tтабл = СТЬЮДЕНТ.ОБР.2Х(; k = n - 2) = СТЬЮДЕНТ.ОБР.2Х (0,05; 8) =
2,306
Фактические значения tфакт(b), tфакт(a), tфакт(r) больше табличного, следовательно,
нулевая гипотеза Н0 отклоняется.
Вывод: С вероятностью 95% можно считать, что коэффициент регрессии b,
параметр a и коэффициент корреляции rух статистически значимы.
Замечание:
Для параметров a и b статистическую значимость коэффициентов полученной регрессионной модели можно проверить по P-значению (Р-value) tстатистики Стьюдента для каждого коэффициента (см. табл.3 Протокола,
столбец – Р-значение)
Из протокола:
Р-value (для а):
0  0,00000009393  0,05
Р-value (для b):
0  0,00069615  0,05
Р-значения для каждого из параметров
меньше заданного уровня значимости (5%).
С вероятностью 95% можно считать, что
параметры a и b в уравнении регрессии статистически значимы.
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
3.5. Доверительные интервалы для a и b
См. табл. 3 Протокола, столбцы – Нижние 95% (это левые границы интервалов) и Верхние 95% (это правые границы интервалов)
✓ Для параметра a получим интервал: (50,9812; 65,9829)
✓ Для параметра b получим интервал: (1,3822; 3,4849)
Вывод: С вероятностью 95% можно утверждать, что оценки параметров принадлежат интервалам a(50,98; 66), b(1,38; 3,48)
!!! Т.к. границы интервала для а одного знака, границы интервала для b одного знака и не равны 0, то оценки параметров a и b статистически значимы и
надёжны.
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
4. Выполним прогноз объемов продаж на две недели вперёд (с вероятностью 95%)
Найдем прогнозное значение расходов на рекламу х на 11-й и 12-й неделе.
Сначала найдем
хр,11 = хn+k = х10+1 = 10 + 0,561 = 10,56 - прогнозное значение расходов на рекламу на 11-й неделе.
хр,12 = хn+k = х10+2 = 10 + 0,562 = 11,12 - прогнозное значение расходов на рекламу на 12-й неделе.
А) Точечный прогноз объемов продаж
(по уравнению регрессии
yx = 58,48 + 2,43 x )
y р,11 = 58,48 + 2,4310,56 = 84,14 тыс. руб.
y р,12 = 58,48 + 2,4311,12 = 85,5 тыс. руб.
На 11-й неделе расходы на рекламу будут составлять в среднем 10,56
тыс.руб., а недельные объемы продаж с вероятностью 95% будут равны 84,14
тыс.руб.
На 12-й неделе расходы на рекламу будут составлять в среднем 11,12
тыс.руб., а недельные объемы продаж с вероятностью 95% будут равны 85,5
тыс.руб.
Эконометрика (продвинутый уровень). 1 семестр 2022-23 уч.г. (группа 1ЭМНБНз2)
Семинары 1-2. Парная линейная регрессионная модель
Б) Интервальный прогноз объемов продаж
• Стандартная ошибка прогноза




2


2

x
−
x
ˆ
y
−
y
(
)
(
)
1
143,84
1
(10,56
−
6,5)
p

myˆ p = 
 1+ +
 1+ +
 = 4,82
2 =
2

65
n − m −1
n
10
−
1
−
1
10
x


( ) 
509 −


x2 −

10 

n 

2




2


2

x
−
x
ˆ
y
−
y
(
)
(
)
1
143,84
1
(11,12
−
6,5)
p

myˆ p = 
 1+ +
 1+ +
 = 4,92
2 =
2
65
n − m −1  n
10
−
1
−
1
10
x


( ) 
509 −


x2 −

10 

n 

2
• Предельная ошибка прогноза
11-я неделя: yˆ p = myˆ p  tтабл = 4,82  2,31 = 11,13
12-я неделя: yˆ p = myˆ p  tтабл = 4,92  2,31 = 11,37
• Доверительный интервал прогноза
•
yˆ p −yˆ p  yˆ p  yˆ p +yˆ p
11-я неделя: (84,14 – 11,13; 84,14 + 11,13) = (73,01; 95,27) тыс.руб.
12-я неделя: (85,5 – 11,37; 85,5 + 11,37) = (74,13; 96,87) тыс.руб.
Вывод: С вероятностью 95% прогнозное значение объёмов продаж при расходах на рекламу 10,56 тыс.руб. попадает в интервал (73,01; 95,27) тыс.руб.;
а при расходах на рекламу 11,12 тыс.руб. - в интервал (74,13; 96,87) тыс.руб.
Прогноз надежный, т.к. границы доверительных интервалов прогноза не содержат нулевого значения.
Скачать