Лекция № 5 множественная регрессия и корреляция. • Уравнение множественной регрессии y a b1 x1 b2 x2 ... b p x p Основная регрессии цель множественной – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель. например • Современная потребительская функция чаще всего рассматривается как модель вида С f ( y , P, M , Z ) , • • • • • С – потребление; у – доход; P – цена, M – наличные деньги; Z – ликвидные активы; Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Условия включения факторов при построении множественной регрессии. • 1. факторы должны быть количественно измеримы. • 2. Факторы не должны быть интеркоррелированы. • Если между факторами существует высокая корреляция, то параметры уравнения регрессии оказываются неинтерпретируемыми. • Пусть в уравнении y a b1 х1 b2 х 2 rx1x 2 0. Если же rx1x 2 1 то b1 , b2 нельзя интерпретировать как показатели раздельного влияния x1 и x 2 на у . Пример. • Рассмотрим регрессию себестоимости: единицы продукции (руб.,у) от заработной платы работника (руб., x) и производительности его труда (единиц в час, z ): y 22600 5 x 10 z • rxz = 0,95 Отбор факторов при построении множественной регрессии. • 2 этапа отбора факторов: – факторы подбираются исходя из сущности проблемы; – на основе корреляционной матрицы производится исключение части факторов • 1) проверка парной корреляции, • 2) оценка мультиколлинеарности факторов: – Проверка гипотезы H0: Det R=1 Пути преодоления сильной межфакторной корреляции • Исключение одного или нескольких факторов • Преобразование факторов для уменьшения корреляции между ними – Переход к первым разностям – Переход к линейным комбинациям (метод главных компонент) • Переход к совмещенным уравнениям регрессии • Переход к уравнениям приведенной формы • Предпочтение отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточной тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. • Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей: y y x z v 1 x 0,8 1 z v 0,7 0,8 1 0,6 0,5 0,2 1 пример y y x z v 1 x 0,3 1 z v 0,7 0,75 1 0,6 0,5 0,8 1 • Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. • Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции была бы единичной матрицей т.е. rx1x1 rx2 x1 rx3 x1 1 0 0 0 0 1 Det R rx1x2 rx 2 x 2 rx3 x2 0 1 0 1, rx1x3 rx2 x3 rx3 x3 • Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю: 1 1 1 Det R 1 1 1 1 1 0. 1 • Таким образом, • чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. • Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. • Сравнивая между собой коэффициенты множественной детерминации факторов 2 R x x , x ... x 1 2 3 p 2 ; R x x x ... x 2 1 3 p ; • оставляем в уравнении факторы с минимальной величиной коэффициента множественной детерминации. • При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться; R 2 p 1 R 2 p и S p21 S p2 . • Пусть для регрессии, включающих пять факторов, коэффициент детерминации составил 0,857 включение шестого фактора дало коэффициент детерминации 0,855, вряд ли целесообразно дополнительно включать в модель этот фактор. Оценка параметров уравнения множественной регрессии • Метод: – а) метод наименьших квадратов (МНК) – б) метод наименьших квадратов (МНК) для стандартизованного уравнения • В линейной множественной регрессии y x a b1 x1 b2 x2 ... b p x p параметры при переменной x называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленном на среднем уровне. • уравнение регрессии в стандартизованном виде: t y 1 t x1 2 t x2 b p t x p Где t y , yx ,, t x переменные 1 t xi xi xi x -стандартизованные p ty , i Свойства: yy y t y t xi 0, t t 1; y x i -стандартизованные коэффициенты регрессии. • Стандартизованные коэффициенты регрессии показывают, на сколько % изменится в среднем результат, если соответствующий фактор xi изменится на 1 % при неизменном среднем уровне других факторов. • Стандартизованные коэффициенты регрессии i сравнимы между собой. • Связь между «чистыми» и «стандартизованными» коэффициентами регрессии y bi i x i • Пример. Пусть функция издержек производства y(тыс. руб.) характеризуется уравнением вида y 200 1,2 x1 1,1 x2 • x1 - основные производственные фонды(тыс.руб.) • х2 - численность занятых в производстве(чел.) • уравнение регрессии в стандартизованном виде выглядит так t y 0,5 t x1 0,8 t x 2 . • Вывод: • Достоинство стандартизованных коэффициентов регрессии: использовать при отсеве факторов – из модели исключаются факторы с наименьшим значением j