ВАРИАЦИОННЫЙ РЯД И ОСНОВНЫЕ ПАРАМЕТРЫ

реклама
ВАРИАЦИОННЫЙ РЯД И
ОСНОВНЫЕ ПАРАМЕТРЫ
к.э.н., доцент
Золотов Михаил
Михайлович
кафедра Менеджмента
и экономики спорта
им. В.В. Кузина
ОДНА ПЕРЕМЕННАЯ
2
 При проведении маркетинговых исследований часто необходимо получить
информацию об одной переменной. Например:
 Какое количество клиентов спортивного клуба можно считать лояльными ему?
 Каково соотношение между разными группами потребителей услуги «йога»: много
использующими, средне, слабо и не пользователями?
 Какое количество потребителей хорошо осведомлены о предлагаемой новой услуге?
 Сколько потребителей поверхностно знакомы, сколько— что-то слышали, а сколько вообще
ничего не знают о новом тренажерном зале? Какова средняя степень осведомленности о новом
зале? Сильно ли различается степень осведомленность потребителей о новом зале?
 Что представляет собой кривая распределения дохода для приверженцев данной услуги?
Смещено ли данное распределение в сторону группы потребителей с низкими доходами?
 Ответы на подобные вопросы можно получить, изучив распределение частот
значений переменной, или вариационный ряд (frequency distribution). При таком
анализе рассматривается одна переменная.
ВАРИАЦИОННЫЙ РЯД
3
 Вариационный ряд, распределение частот значений переменной (frequency
distribution) – Математическое распределение, цель которого - подсчет ответов,
связанных с различными значениями одной переменной (частот), и дальнейшее
выражение их в процентном виде.
 Целью построения вариационного ряда является подсчет ответов респондентов,
в которых приводятся различные значения переменной. Относительную частоту
различных значений переменной выражают в процентах и называют частостями
(frequency distribution).
ПРИМЕР
4
 В данной таблице приведен пример распределения частот осведомленности о
новом продукте компании Reebok – кроссовок “bubble-fit”.
Плохо осведомлены
Хорошо осведомлены
Значение
N
% от N
С учетом пропуска
Нарастающим итогом, %
1
0
0,0
0,0
0,0
2
2
6,7
6,9
6,9
3
6
20,0
20,7
27,6
4
6
20,0
20,7
48,3
5
3
10,0
10,3
58,6
6
8
26,7
27,6
86,2
7
4
13,3
13,8
100,0
Пропуск
1
3,3
Итого
100,0
100,0
ГРАФИЧЕСКОЕ ОТОБРАЖЕНИЕ
5
 Гистограмма распределения частот
9
8
7
6
N
5
4
3
2
1
0
2
3
4
5
Значение
6
7
СТАТИСТИКИ
6
 Как следует из предыдущего раздела, распределение частот — удобный способ
представления различных значений переменной. Таблица вариационного ряда
легко читается и содержит основную информацию, но иногда такая информация
слишком детализирована, и исследователь вынужден обобщать ее с помощью
описательных статистик
 Чаще всего используют следующие статистики, связанные с распределением
частот:
1. показатели центра распределения (среднее, мода и медиана);
2. показатели вариации (размах, межквартальный размах,
коэффициент вариации);
3. показатели формы распределения (асимметрия и эксцесс).
стандартное
отклонение
и
ПОКАЗАТЕЛИ ЦЕНТРА РАСПРЕДЕЛЕНИЯ
7
 Показатели центра распределения (measures of location) характеризуют
положение центра распределения, вокруг которого концентрируются данные.
 Если всю выборку изменить, добавив фиксированную величину к каждому
наблюдению, то среднее, мода и медиана изменятся на аналогичную величину.
СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ – MEAN
8
 Среднее арифметическое или выборочное среднее (mean) — это наиболее
часто используемый показатель, характеризующий положение центра
распределения.
 Он используется для оценки среднего значения в случае, если данные собраны с
помощью интервальной или относительной шкалы. Его величина должна
отражать некоторое среднее значение, вокруг которого распределена большая
часть ответов.
� = ∑ 𝑋𝑋𝑖𝑖 /𝑛𝑛
 𝑋𝑋
 В нашем примере с кроссовками расчет медианы следующий:
�=
 𝑋𝑋
2∗2+6∗3+6∗4+3∗5+8∗6+4∗7
29
= 4,724
МОДА – MODE
9
 Мода (mode) — значение переменной, встречающееся чаще других.
Представляет наивысшую точку (пик) распределения. Мода хороший показатель
центра распределения, если переменная имеет категорийный характер, или,
иначе говоря, ее можно разбить на категории.
 В нашем примере мода = 6, так как значение переменной в 6 ответов
встречается больше всего.
МЕДИАНА – MEDIAN
10
 Медиана (median) выборки — это значение переменной в середине ряда данных,
расположенных в порядке возрастания или убывания, Положение медианы
определяется ее номером.
ПОКАЗАТЕЛИ ВАРИАЦИИ
11
 Показатели вариации (изменчивости) (measures of variability), вычисляемые на
основании данных, измеряемых с помощью интервальных или относительных
шкал, включают:
1.
2.
3.
4.
5.
размах вариации;
межквартильный размах;
дисперсию;
стандартное отклонение;
коэффициент вариации.
РАЗМАХ ВАРИАЦИИ – RANGE, МЕЖКВАРТИЛЬНЫЙ
12
 Размах вариации (range) отражает разброс данных. Он равен разности между
наибольшим и наименьшим значениями в выборке. Поэтому на него
непосредственно влияют выбросы.
 В нашем примере размах вариации равняется 7-2=5
 Межквартильный размах (interquartile range) — это разность между 75- и 25-м
процентилями.
 Размах вариации распределения, охватывающий центральные 50% всех
наблюдений.
ДИСПЕРСИЯ – VARIANCE
13


Разность между средним
значением переменной и ее
наблюдаемым значением
называют отклонением от
среднего.
Дисперсия (variance) —
среднее из квадратов
отклонений переменной от
ее средней величины. Она
никогда не может быть
отрицательной. Если
значения данных
сгруппированы вокруг
среднего, то дисперсия
невелика. И наоборот, если
данные разбросаны, то мы
имеем дело с большей
дисперсией.
СТАНДАРТНОЕ ОТКЛОНЕНИЕ – STANDARD DEVIATION
14
 Среднеквадратическое (стандартное) отклонение (standard deviation) равно
квадратному корню из дисперсии. Таким образом стандартное отклонение
выражается в тех же единицах, что и сами данные.
 Можно сказать, что стандартное отклонение – это среднее среднего
арифметического.
 Представим себе, что вы как маркетолог исследуете сколько калорий
потребляют в день люди. Если ваша выборка довольна большая, то результаты
исследований будут иметь форму нормального распределения, или иными
словами, большая часть респондентов потребляют схожее количество калорий.
 И лишь немногие потребляют значительно меньше или значительно больше.
 Теперь представьте себе, что вы провели такое исследование с выборкой в 1000
человек, но в разных местах:
1.
2.
3.
В армии
В офисе
В торговом комплексе
ПРИМЕР
15
 Синяя кривая распределения показывает исследование в армии, красная линия
– в офисе, а оранжевая – в универмаге.
Задание:
 Как вы можете
охарактеризовать зеленую
кривую?
 Как правильно отобразить
измерения на оси у?
ПОЯСНЕНИЕ
16
 Таким образом, стандартное отклонение показывает как сильно «кучкуются»
данные вокруг среднего значения.
 Если мы говорим о нормальном распределении, то 1 стандартное отклонение
охватывает 68,2% всех значений.
КАК РАССЧИТЫВАТЬ
17
 Из каждого полученного значения нужно вычесть среднее, потом эту величину
возвести в квадрат. Полученная сумма нужно поделить на количество ответов –
1. Из полученного берем квадратный корень.
 𝑠𝑠𝑥𝑥 =
(𝑋𝑋 𝑖𝑖 −𝑋𝑋) 2
∑
𝑛𝑛−1
 Сейчас все используют Exel для такого рода операций. Используйте оператор:
 STDEV.S – для выборки
 STDEV.P – для всей совокупности.
Скачать