1 Регрессионный анализ Регрессионный анализ позволяет установить причинно-следственные взаимосвязи между переменными (объемом продаж и расходами на рекламу, уровнем обслуживания и площадью торгового зала, предпочтениями потребителей и степенью узнаваемости торговой марки и т.д.). Однако, прежде, чем приступить к изучению регрессии, необходимо рассмотреть понятие корреляции, лежащей в основе регрессионного анализа. Часто при проведении маркетингового исследования нас интересует связь между двумя метрическими переменными: 1. Насколько сильно связан объем продаж с расходами на рекламу? 2. Существует ли связь между долей рынка и количеством торгового персонала? 3. Связано ли восприятие качества товара с уровнем цены? Для определения силы взаимосвязи между метрическими переменными используется коэффициент корреляции Пирсона – r. Формула для расчета: n r ( X i X ) * (Yi Y ) i 1 n (X i 1 i n X ) * (Yi Y ) 2 2 i 1 В формуле переменная Х является независимой, а Y – зависимой. В Excel выполняется командой «Мастер функций» - «Статистические» - «Коррел» (или «Мастер функций» - «Статистические» - «Пирсон»). Коэффициент Пирсона принимает значения от -1 до +1. Абсолютное значение (по модулю) <0,5 означает отсутствие устойчивой взаимосвязи, 0,5 – 0,7 – средний уровень, > 0,7 – наличие тесной (сильной) взаимосвязи. Знак коэффициента Пирсона означает наличие прямой или обратной взаимосвязи между переменными. Парная корреляция составляет концептуальную основу для парного и множественного регрессионного анализа. Расчет коэффициента корреляции носит название «корреляционного анализа». 2 Пример. Рассмотреть силу взаимосвязи между показателями ВВП и доходами страховых компаний. Год Доходы страховых компаний ВВП (млн. грн.) 2002 2003 2004 2005 2006 2007 2008 2009 3049,6 6167,2 14913,5 27822,7 23927 25511,2 35644 32710 225810 267344 345113 441452 544153 720731 948056 913345 Коррел = 0,900995506 3 Таким образом, между этими переменными, существует сильная взаимосвязь (корреляция). Если маркетологу приходится иметь дело с категориальными переменными, то для изучения взаимосвязи рассчитывается ранговый коэффициент корреляции Спирмена. n r 1 6 * ( X i Yi ) 2 i 1 n * (n 2 1) , где n – количество парных наблюдений. Регрессионный анализ представляет собой статистический метод изучения данных, в результате которого устанавливаются причинноследственные взаимосвязи между переменными. В результате анализа появляется возможность рассчитывать значение зависимой переменной в зависимости от того, какое значение примет независимая переменная (предиктор), т.е. выполнять прогнозирование. Все переменные для регрессионного анализа должны быть метрическими. Парная (двумерная) регрессия – это метод установления зависимости между двумя метрическими переменными в виде математического уравнения, одна из которых является зависимой (категориальной), а другая – независимой. Примеры для применения регрессионного анализа. 1. На сколько можно ожидать увеличение объема продаж при увеличении количества продавцов? 2. Как влияет изменение расходов на рекламу на степень узнаваемости торговой марки? 3. Как цена товара влияет на количество лояльных покупателей? Порядок выполнения регрессионного анализа Построение корреляционной диаграммы Построение модели линейной регрессии диаграммы Расчет параметров модели Проверка модели 4 Пример. Изучить влияние рекламы на объемы продаж. Расходы на рекламу Объем продаж 41 54 63 54 48 46 62 61 64 71 1250 1380 1425 1425 1450 1300 1400 1510 1575 1650 1. Построение корреляционной диаграммы и расчет коэффициента корреляции. («Мастер диаграмм» - «Точечная» - «Ок»). Объем продаж Влияние рекламы на объемы продаж 1800 1600 1400 1200 1000 800 600 400 200 0 Объем продаж 0 10 20 30 40 50 60 70 80 Расходы на рекламу r = 0,84, что свидетельствует о сильной взаимосвязи между переменными. 5 2. Построение модели и вывод уравнения регрессии. 1800 y = 10,787x + 828,13 R2 = 0,719 1600 1400 1200 1000 Ряд1 Линейный (Ряд1) 800 600 400 200 0 0 10 20 30 40 50 Уравнение регрессии имеет вид: 3. Расчет параметров модели. 60 70 80 y 10,787 * x 828,13 ВЫВОД ИТОГОВ Регрессионная статистика Множествен. R 0,847950033 R-квадрат 0,719019259 Нормированный R-квадрат 0,683896667 Стандартная ошибка 67,19447214 Наблюдения 10 Дисперсионный анализ 1 8 9 SS 92431,72 36120,78 128552,5 MS 92431,72 4515,097 F 20,4717 Значимость F 0,001938 Коэффиц. 828,1268882 10,7867573 Стандарт. ошибка 136,1286 2,384042 tстатистика 6,083416 4,524567 PЗначение 0,000295 0,001938 Нижние 95% 514,2138 5,289146 Предсказ. Y 1270,383938 1410,611782 1507,692598 1410,611782 1345,891239 1324,317724 1496,905841 1486,119084 1518,479355 1593,986657 Остатки -20,3839 -30,6118 -82,6926 14,38822 104,1088 -24,3177 -96,9058 23,88092 56,52064 56,01334 df Регрессия Остаток Итого Y-пересечение Переменная X 1 ВЫВОД ОСТАТКА Наблюдение 1 2 3 4 5 6 7 8 9 10 Верхние 95% 1142,04 16,28437 6 Основные параметры регрессионной модели: 1. Множественный R = 0,847950033 (коэффициент корреляции Пирсона). 2. R-квадрат = 0,719019259 (коэффициент детерминации) – показывает долю вариации зависимой переменной, которая объясняется вариацией независимой переменной (значения от 0 до 1). 3. Стандартная ошибка SE = 67,19 (значение SE Ymax Ymin не должно превышать 30%). 4. F – критерий Фишера (полученное значение должно быть больше табличного), Значимость F < 0,05. 5. t – статистика (коэффициент Стьюдента) – значение должно быть > 2; р – значение < 0,05; доверительный интервал не должен включать 0. Эти три показателя между собой взаимосвязаны и интерепретируются одинаково: переменная Х оказывает значимое влияние на переменную Y. 6. Остатки (влияние случайных факторов) – коэффициент автокорреляции для остатков должен стремиться к нулю. Рассчитывается как коэффициент корреляции для двух наборов данных их одного столбца: первый – значения с 1 по 9 (предпоследний), второй – значения с 2 по 10 (последний). 4. Проверка модели на возможность ее практического применения производится по критериям точности, надежности и адекватности. Все параметры должны выполняться одновременно. Несоответствие одному из критериев означает отсутствие модели как таковой. Точность оценивается по значениям коэффициента корреляции r, коэффициента детерминации r2 и стандартной ошибки SE. Критерий Критическое значение r > 0,7 r2 SE Расчетное значение Вывод о точности модели 0,847 + > 0,5 0,719 + < 30% 67,19 16,7% 1650 1250 + 7 Надежность модели оценивается по значениям F – для модели в целом и значениям t, p и доверительного интервала – для независимой переменной Х. Критерий Критическое значение Для независимой переменной Х для модели F Расчетное значение Вывод о надежности модели 20,47 + F > Fтабличн Значимость F > 0,05 0,0018 + t t>2 4,524 + p p < 0,05 0,019 + доверительный интервал 0 отсутствует 5,289 – 16,283 + Адекватность модели оценивается по коэффициенту автокорреляции. Критерий Критическое значение Расчетное значение Вывод о точности модели r < 0,3 0,164 + ВЫВОД ОСТАТКА Наблюдение 1 2 3 4 5 6 7 8 9 10 Предсказанное Y 1270,383938 1410,611782 1507,692598 1410,611782 1345,891239 1324,317724 1496,905841 1486,119084 1518,479355 1593,986657 Остатки -20,3839 -30,6118 -82,6926 14,38822 104,1088 -24,3177 -96,9058 23,88092 56,52064 56,01334 Автокорреляция 0,164647 8 Вывод: Уравнение y 10,787 * x 828,13 , описывающее зависимость двух переменных отвечает требованиям точности, надежности и адекватности и может быть использовано для прогнозирования результатов. Таким образом, при расходах на рекламу в размере 50 и 80 денежных единиц, прогнозируется объем продаж на уровне 1367 и 1690 соответственно.