Основы статистики Краткий конспект. 1. Статистика (лат.status – государство, его состояние, определяемое по результатам наблюдения) – наука, изучающая количественную сторону массовых общественных явлений в сферах производства, политической и культурной жизни общества. Существует несколько точек зрения на статистику как на науку: 1.Статистика – это универсальная наука, изучающая массовые явления природы и общества. 2.Статистика – это методологическая наука, разрабатывающая методы исследования для других наук. 3.Статистика – это общественная наука. Математическая основа статистики - теория вероятностей изучает случайные явления или процессы на основе математического моделирования. Статистика изучает массовые процессы и подразделяется : Общая статистика Математическая (аналитическая ) статистика Отраслевая статистика Общая статистика Разрабатывает общие методы сбора,обработки и анализа статистических данных Математическая статистика Разрабатывает математические методы обработки данных Статистические исследования Состоят из 3 частей: 1. Статистических наблюдений 2. Обработки данных 3. Анализа данных и выводы Статистические наблюдения(сбор информации) Осуществляется с использованием имеющейся информации : Отчеты, интернет данные Специально организованные наблюдения можно условно разделить на 3 группы : 1. непосредственные наблюдения 2. документальный метод 3. способ опроса (на основе опроса заполняются таблицы и анкеты) Классификации методов сбора информации 1. 2. 1. 2. 3. По охвату подразделяется на : сплошные выборочные По временной переменной на : периодические единоразовые текущие (которые проводятся все время) 4 основных задачи статистики 1. 2. 3. 4. статистическое описание выборки сравнение параметров двух выборов определение связей между параметрами динамический анализ (временной анализ изменения статистических параметров выборки) Дескриптивная статистика Состоит из : 1. графического представления данных гистограмма, кумулята 2. определение параметров выборки (параметры центральной тенденции, параметры эффективной ширины выборки, параметры формы) Графическое представление выборки(данных) 1. График частот (гистограмма) Гистограмма успеваемости 10 8 6 4 2 0 Троешник и Неуспева ющие Ударники Series1 Отличник и кол- во учеников График успеваемости Отличники 8 Ударники 6 Неуспевающие 3 Троешники 4 Доходы населения Непараметрические характеристики выборки 1. Мода – наиболее часто встречающееся значение 2. Медиана, квартили, децелы, процентили (медиана делит упорядоченные значения выборки на 2 равные части, квартили – на 4, децелы – на 10 и процентили – на 100) Парамерры эффективной ширины выборки дисперсия 3,6 стандартное отклонение 1,9 разность между 3 и 1 квартилью 2,3 Параметры формы Ассиметрия 0,537553 Эксцес -0,30 Индексы В том случае когда изменение со временем происходит достаточно быстро для их характеристики используются индексы Индексы подразделяются на базисные (базисный) и текущие Базовый индекс Базовый индекс – это отношение текущего значения к значению взятому за период принятый за базовый, выраженное в процентах Xt 100% I б Xб Текущий индекс Текущий индекс – отношение текущего значение к предыдущему, выраженное в процентах Xt 100% I t X t 1 Индексы роста Индексы роста используются для характеристики роста и применяются для базовых индексов. I p I Бт I Бт 1 Связь между статистическими параметрами В качестве основного параметра, характеризующего связь между выборками, используется коэффициент корреляции. Коэффициент корреляции - нормированная величина -1≤ρ≤1 Если коэффициент корреляции положителен, то значение выборок изменяется одинаково, если коэффициент корреляции отрицателен, то значение изменяется противоположно. Корреляционная таблица Column 1 Column 1 Column 2 Column 3 Column 4 1 1 0,014611702 0,101681771 Column 2 1 0,014611702 0,101681771 Column 3 Column 4 1 0,150087747 Коэффициент корреляции между 1 и 2 колонкой равен 1 – корреляция очень хорошая, остальные коэффициенты корреляции по модулю меньше 0,4 – корреляция отсутствует. 1 Характеристика коэффициента корреляции 1. Если коэффициент корреляции по модулю больше 0,6, то корреляция хорошая 2. Если коэффициент корреляции изменяется от 0,4-0,6 – корреляция слабая 3. Если коэффициент корреляции меньше 0,4 , то корреляция отсутствует Пример разброса значений двух величин разброс значений значения 4 столбца 60 50 40 30 коэффициент корреляции равен 0,15 20 10 0 -10 -10 0 10 20 значения 3 столбца 30 40 Статистическое описание временных рядов При статистическом описании временных рядов выделяют : 1. Тренд (основная тенденция) 2. Периодическая составляющая 3. Случайная составляющая Тренд 1. Линейный тренд – прямая, сумма квадратов отклонений точек временного ряда минимальна. На основе тренда осуществляется прогноз изменения значений временного ряда. 2. Качество прогноза характеризуется коэффициентом детерминации R2 . При 1>R2 > 0.6 прогноз считается хорошим, при 0.6 >R2 >0 – прогноз недостоверный. Пример построения тренда график временного ряда R2 = 0,1231 Прогноз на основании тренда 14 12 10 8 значение индекса 6 Linear (значение индекса) 4 2 -4 дни 51 56 41 46 31 36 21 26 11 16 -2 6 0 1 значение индекса y = 0,0689x + 3,7798 Прогнозирование на основе сглаживания со сдвигом (moving average) 15 10 значение индекса 5 4 per. Mov. Avg. (значение индекса) -5 дни 49 45 41 37 33 29 25 21 17 13 9 5 0 1 величина индекса график значений индекса