Лекция 8. Корреляция

реклама
Лекция 8.
Корреляция
8-1. Корреляция
8-2. Значимость коэффициента корреляции
8-3. Виды связи между переменными
8-4. Другие коэффициенты связи
7 мая 2016 г.
Примеры
1. Менеджер интересуется, зависит ли объем продаж в этом
месяце от объема рекламы в этом же периоде?
2. Преподаватель хочет выяснить, есть ли зависимость между
количеством часов, потраченных студентом на занятия, и
результатами экзамена?
3. Врач исследует, влияет ли кофеин на сердечные болезни и
существует ли связь между возрастом человека и его
кровяным давлением?
4. Социолог исследует, какова связь между уровнем
преступности и уровнем безработицы в регионе? Есть ли
зависимость между расходами на жилье и совокупным
доходом семьи? Связаны ли доход от профессиональной
деятельности и продолжительность образования?
 Иванов О.В. 2005
2
Постановка проблемы
Наша цель – научиться отвечать на четыре вопроса:
Вопрос 1. Существует ли связь между двумя или более
переменными?
Вопрос 2. Какой тип имеет эта связь?
Вопрос 3. Насколько она сильна?
Вопрос 4. Какой можно сделать прогноз, основываясь на этой
связи?
 Иванов О.В. 2005
3
Методы
Корреляция – статистический метод, позволяющий определить,
существует ли зависимость между переменными и на сколько
она сильна.
Регрессия – статистический метод, который используется для
описания характера связи между переменными (положительная
или отрицательная, линейная или нелинейная зависимость).
 Иванов О.В. 2005
4
Простая и множественная связь
Простая связь означает
наличие двух переменных.
Множественная связь означает
наличие несколько переменных.
Стаж менеджера
по продажам
на фирме
Годовой объем
продаж
 Иванов О.В. 2005
Успеваемость
студента
Успеваемость
в школе
Коэффициент
IQ
Время
на занятия
5
График рассеяния (Scatter Plot)
Рассматриваем две переменные: «продолжительность занятий»
студентов перед экзаменом и «итоговая оценка» (из 100 балов).
Пытаемся визуально определить связь. Правда ли, что чем
меньше времени занятий, тем выше оценка?
Студент Часы Оценка
x
y
A
6
82
B
2
63
C
1
57
D
5
88
E
2
68
F
3
75
 Иванов О.В. 2005
100
80
60
40
20
0
0
1
2
3
4
5
6
7
6
Независимая и зависимая переменные
Независимая переменная – это та переменная в регрессии,
которую можно изменять. Переменная «количество часов
занятий» является независимой и обозначается х.
Зависимая переменная – это переменная в регрессии, которую
нельзя изменять. «Экзаменационная оценка» является
зависимой переменной. Она обозначается у.
 Иванов О.В. 2005
7
Объяснение
Разделение переменных на зависимые и независимые
основывается на предположении, что оценка, которую получит
студент, зависит от количества часов, которые он занимался.
Предполагается также, что студенты могут повлиять на
количество часов, которые будут потрачены на занятия.
Не всегда возможно определить, какая переменная зависимая, а
какая независимая, и выбор иногда делается произвольно.
 Иванов О.В. 2005
8
Положительная и отрицательная зависимость
Визуально видно, что имеет место линейная зависимость,
которая отрицательна. Это означает, что увеличение
переменной x приводит к уменьшению второй переменной y.
Студент Пропустил
х
Оценка
у
100
A
6
82
80
B
2
86
60
C
15
43
40
D
9
74
E
12
58
F
5
90
G
8
78
 Иванов О.В. 2005
20
0
0
3
6
9
12
15
18
9
Нелинейная зависимость
График показывает, что имеется зависимость, которая не
является линейной. Возможно, эта зависимость квадратичная
или какая-то иная.
 Иванов О.В. 2005
10
Отсутствие зависимости
График сообщает нам об отсутствии зависимости времени на
подготовку к экзамену и количества вопросов, заданных
преподавателем на экзамене.
Студент
Часы
х
Вопросы
у
A
3
3
B
0
2
C
2
1
6
D
5
7
4
E
8
1
F
5
4
G
10
6
H
2
8
I
1
5
 Иванов О.В. 2005
10
8
2
0
0
2
4
6
8
10
12
11
8-1. Корреляция
Связь между двумя переменными
7 мая 2016 г.
Коэффициент корреляции
Коэффициент корреляции измеряет силу и направление связи
между двумя переменными.
Обозначения:
Выборочный коэффициент корреляции
Коэффициент корреляции генеральной совокупности
 Иванов О.В. 2005
r
ρ
13
Формула для вычисления r
Коэффициент корреляции вычисляется по формуле:
r
 ( x  x)( y  y )
2
2
 ( x  x)  ( y  y )
Это, так называемый, коэффициент корреляции Пирсона,
равный произведению моментов. Он назван по имени статистика
Карла Пирсона, который первый провел исследования в этой
области.
 Иванов О.В. 2005
14
Вторая формула для вычисления r
После несложных преобразований, из первой формулы можно
получить другую формулу для коэффициента.
r
n x
n xy   x  y 
2
   x 
2
n y
Как мы увидим, она более пригодна
коэффициента при помощи таблиц.
 Иванов О.В. 2005
2
   y 
2
для
вычисления
15
Значения коэффициента корреляции
Коэффициент корреляции изменяется на отрезке от –1 до +1.
Если между переменными существует сильная положительная
связь, то значение r будет близко к +1.
Если между переменными существует сильная отрицательная
связь, то значение r будет близко к –1.
Когда между переменными нет линейной связи или она очень
слабая, значение r будет близко к 0.
Сильная
отрицательная
связь
-1
 Иванов О.В. 2005
Отсутствие
связи
0
Сильная
положительная
связь
+1
16
Интерпретация коэффициента корреляции
Значение r
0,75 – 1.00
0,50 – 0.74
0,25 – 0.49
0,00 – 0.24
0,00 – -0.24
-0,25 – -0.49
-0,50 – -0.74
-0,75 – -1.00
 Иванов О.В. 2005
Уровень связи между переменными
Очень высокая положительная
Высокая положительная
Средняя положительная
Слабая положительная
Слабая отрицательная
Средняя отрицательная
Высокая отрицательная
Очень высокая отрицательная
17
Пример вычисления
Вычислим коэффициент корреляции для
студентами.
Студент Часы Оценка
x
y
A
6
82
B
2
63
C
1
57
D
E
F
 Иванов О.В. 2005
5
2
3
примера
со
88
68
75
18
Шаг 1. Достроим таблицу
Достраиваем таблицу тремя столбцами и итоговой строкой.
Проводим необходимые вычисления.
Студент
Часы
x
Оценка
y
xy
x2
y2
A
B
C
D
6
2
1
5
82
63
57
88
492
126
57
440
36
4
1
25
6724
3969
3249
7744
E
2
68
136
4
4624
F
3
Σx=19
75
Σy=433
225
Σxy=1476
9
Σx2=79
5625
Σy2=31935
 Иванов О.В. 2005
19
Шаги 2-3. Подставим в формулу, получим ответ
Подставим данные в формулу и найдем r :
r
6  1476  19  433
6  79  19
2
6  31935  433
2
 0,922
Ответ. Значение коэффициента корреляции равно 0,922. Это
означает, что существует сильная положительная связь. Мы
видели эту связь на графике.
 Иванов О.В. 2005
20
8-2. Значимость
коэффициента корреляции
Проверка гипотезы
7 мая 2016 г.
Постановка проблемы
Коэффициент корреляции генеральной совокупности ρ – это
корреляция, вычисленная с использованием всевозможных пар
значений признаков (х,у) генеральной совокупности.
Требуется
Оценить коэффициент корреляции генеральной совокупности ρ
на основе значения коэффициента корреляции выборки r.
Условия
Выборочный коэффициент корреляции r используется для
оценки ρ, если выполнены следующие предположения:
– Переменные х и у линейно зависимы
– Переменные являются случайными
– Обе переменные имеют нормальное распределение
 Иванов О.В. 2005
22
Последовательность действий
Чтобы принять верное решение, воспользуемся процедурой
проверки гипотезы. Она включает традиционные пять шагов:
Шаг 1. Сформулировать гипотезы.
Шаг 2. Построить критическую область.
Шаг 3. Вычислить значение критерия.
Шаг 4. Сравнить, принять решение.
Шаг 5. Написать ответ.
 Иванов О.В. 2005
23
Гипотезы
Гипотезы сформулированы следующим образом.
Основная гипотеза
Н0: ρ = 0
Альтернативная гипотеза Н1: ρ ≠ 0
Основная гипотеза утверждает, что не существует корреляции
между признаками х и у в генеральной совокупности.
Альтернативная гипотеза утверждает, что корреляция между
признаками х и у в генеральной совокупности значима.
Когда основная гипотеза отвергается на определенном уровне
значимости, это значит, что существует значимое различие
между значением r и 0. Когда основная гипотеза принимается,
это значит, что значение r не сильно отличается от 0 и является
случайным.
 Иванов О.В. 2005
24
Статистика и критическая область
Для проверки гипотезы используется t-критерий с df = n – 2
степенями свободы:
n2
tr
1 r2
Границы двусторонней критической области находятся при
помощи таблиц значений t-распределения.
 Иванов О.В. 2005
25
Пример
Рассчитан коэффициент корреляции и его значение оказалось
равно 0,897. Выборка содержала 6 пар.
На уровне значимости 0,05 проверить гипотезу о значимости
коэффициента корреляции.
 Иванов О.В. 2005
26
Решение
Шаг 1.
Шаг 2.
Шаг 3.
Шаг 4.
Шаг 5.
 Иванов О.В. 2005
Гипотезы: Н0: ρ = 0
Н1: ρ ≠ 0
Критическая область: α = 0,05, df = 6 – 2 = 4.
Критические значения по таблице равны ±2,776.
Статистика по выборке:
n2
62
tr
 0,897
 4,059
2
2
1 r
1  (0,897)
Сравниваем значение статистики с критической
областью. Нулевую гипотезу отвергаем, так как
значение критерия попадает в область критических
значений.
Делаем вывод, что существует значимая связь между
признаками.
27
8-3. Виды связи между
переменными
Связь между двумя переменными
7 мая 2016 г.
Корреляция и причинная связь
Когда проверка гипотезы показывает, что существует значимая
линейная связь между переменными, исследователь должен
рассмотреть возможные виды связи между переменными и
выбрать ту, которая диктуется логикой исследования.
 Иванов О.В. 2005
29
Пять видов связи между переменными
1. Прямая причинно-следственная связь
2. Обратная причинно-следственная связь
3. Связь вызвана третьей (скрытой) переменной
4. Взаимосвязь вызвана несколькими скрытыми переменными
5. Связи нет, наблюдаемая зависимость случайна
 Иванов О.В. 2005
30
1. Прямая связь
Прямая причинно-следственная связь между переменными
(переменная х определяет значение переменной у).
Наличие воды ускоряет рост растений. Яд вызывает смерть.
Температура воздуха прямо влияет на скорость таяния льда.
Влажность
воздуха
 Иванов О.В. 2005
?
Скорость
роста
растений
31
2. Обратная связь
Обратная
причинно-следственная
связь
переменными
(переменная
у
определяет
переменной х).
между
значение
Исследователь может думать, что чрезмерное потребление
кофе вызывает нервозность. Но, может быть, очень нервный
человек выпивает кофе, чтобы успокоить свои нервы?
Чрезмерное
потребление
кофе
 Иванов О.В. 2005
?
Нервозность
32
3. Связь определена третьей переменной
Связь между переменными может быть вызвана третьей
переменной.
Исследователь установил, что существует некая зависимость
между числом утонувших людей и числом выпитых
безалкогольных напитков в летнее время. А может быть, обе
переменные связаны с жарой и потребностью людей во влаге?
Число
утонувших
?
Объем
выпитых
напитков
Жара,
потребность
влаги
 Иванов О.В. 2005
33
4. Несколько переменных
Взаимосвязь
может быть
определена
несколькими
скрытыми переменными.
Исследователь может обнаружить значимую связь между
оценками студентов в университете и оценками в школе. Но,
возможно, действуют и другие переменные: IQ, количество
часов занятий, влияние родителей, мотивация, возраст,
авторитет преподавателей.
Успеваемость
в школе
IQ
 Иванов О.В. 2005
Преподавател
и
?
Влияние
родителей
Успеваемость в
университете
Часы
занятий
Возраст
34
5. Зависимость случайна
Исследователь может найти значимую зависимость между
увеличением количества людей, которые занимаются спортом и
увеличением
количества
людей,
которые
совершают
преступления.
Но здравый смысл говорит, что любая связь между этими двумя
переменными должна быть случайной.
Число людей,
регулярно
занимающихся
спортом
 Иванов О.В. 2005
?
Число
преступлений
35
8-4. Другие коэффициенты
связи
Коэффициенты
7 мая 2016 г.
Зависимость 2 от объема выборки
Использование 2 в качестве меры связи двух признаков имеет недостатки.
Главный - величина 2 зависит от объема выборки для таблиц с
одинаковыми пропорциями.
24
16
48
32
96
64
16
24
32
48
64
96
 2  3,2
 2  6,4
 2  12,8
Поскольку таблицы имеют одинаковые пропорции, то сила связи между
признаками постоянна для всех трех таблиц, а значения 2 при этом
различны. Рассмотрим других «кандидатов» на роль коэффициента связи
между признаками.
 Иванов О.В. 2005
37
Коэффициент фи


n
2
Свойства:
• Используется для таблиц 2х2
• Равен нулю для независимых переменных
• Равен +1 или -1 для полностью зависимых переменных:
a
0
 Иванов О.В. 2005
0
d
 1
0
c
b
0
  1
38
Вычисление коэффициента фи
Для вычисления коэффициента  используют следующую формулу:
a
c
b
d
ad  bc

(a  b)(c  d )(a  c)(b  d )
Главное, коэффициент для всех трех таблиц, рассмотренных выше,
одинаковый:
24
16
48
32
96
64
16
24
32
48
64
96
 Иванов О.В. 2005

   0,04
n
2
2
39
Коэффициент Крамера

V
n  min( r  1, c  1)
2
где
r – количество строк,
c – количество столбцов
Свойства:
• Используется для таблиц любого размера
• Для таблиц 2х2 совпадает с коэффициентом фи
• Равен нулю для независимых переменных
• Равен 1 для полностью зависимых переменных
 Иванов О.В. 2005
40
Коэффициент сопряженности Пирсона

C
2
 n
2
Свойства:
• Используется для таблиц любого размера
• Равен нулю для независимых переменных
• Максимум коэффициента меньше 1
Чтобы изменялся от 0 до 1 используется корректировка:
2
min( r , c)
Ccorr 

2
  n min( r , c)  1
 Иванов О.В. 2005
41
Коэффициент лямбда
Основан на понятии модального прогноза. Не рассматриваем.
 Иванов О.В. 2005
42
Коэффициент Юла
a
c
ad  bc
Q
ad  bc
b
d
Свойства:
• Используется для таблиц 2 х 2
• Равен нулю для независимых переменных
• Равен +1 или -1 даже когда зависимость неполная (односторонняя)
a
c
 Иванов О.В. 2005
0
d
Q 1
a
0
b
d
Q  1
43
Пример
курит?
да
нет
пол
м
27
93
ж
0
19
Если женщина, то точно не курит, а если мужчина, – то
неизвестно. Такая «односторонняя» связь, хоть и не является
полной, но может представлять некоторый
интерес.
Коэффициент Юла позволяет такие ситуации отследить.
 Иванов О.В. 2005
44
Пример
25 респондентов исследовали
на
связь
между
двумя
признаками: пол и отношение к
курению.
Таблица
сопряженности
и
коэффициенты представлены в
отчете из SPSS.
VAR00001 * VAR00002 Crosstabulation
Count
VAR00001
f
m
Total
VAR00002
no
s moke
9
3
5
8
14
11
Symmetric Measuresc
Chi-Square Tests
Pears on Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
N of Valid Cas es
Value
3,381 b
2,061
3,477
df
1
1
1
Asymp. Sig.
(2-s ided)
,066
,151
,062
Exact Sig.
(2-s ided)
Exact Sig.
(1-s ided)
,075
25
a. Computed only for a 2x2 table
b. 0 cells (,0%) have expected count les s than 5. The minimum expected count is
5,28.
 Иванов О.В. 2005
Nominal by
Nominal
Phi
Cramer's V
Contingency Coefficient
N of Valid Cases
,111
Total
12
13
25
Value
,368
,368
,345
25
Approx. Sig.
,066
,066
,066
a. Not as s uming the null hypothesis.
b. Using the as ymptotic standard error as suming the null
hypothesis .
c. Correlation s tatis tics are available for numeric data only.
45
Какой коэффициент «лучше»?
1. Каждый коэффициент отражает своё понятие силы связи,
степени зависимости.
2. За каждым из них стоит своя модель изучаемого явления. Их
не следует интерпретировать в отрыве от этой модели.
3. В большинстве случаев, если при сравнении степени связи в
2х2 таблицах один из коэффициентов связи для одной из
таблиц больше, тогда то же самое будет верно и для всех
остальных коэффициентов.
 Иванов О.В. 2005
46
Вопрос на 5 минут
Для чего строят таблицы сопряженности? На какие вопросы
можно ответить при помощи этих таблиц?
 Иванов О.В. 2005
47
Скачать