Этапы статистического исследования Собранные в процессе первой стадии статистического исследования – статистического наблюдения – данные о величине какого-либо признака изучаемой совокупности должны быть обработаны так, чтобы получился точный и обстоятельный ответ на все вопросы, поставленные целью исследования. Задача второй стадии статистического исследования – статистической обработки (сводки) – состоит в том, чтобы упорядочить и обобщить первичный материал, свести его в группы и на этой основе дать обобщенную характеристику совокупности. Качество исходного статистического материала предопределяет качество обобщающих показателей, полученных в результате статистической сводки. Различают сводку простую и сложную (статистическую группировку). Сводка Простая Сложная (группировка) Простая сводка – это операция по подсчету общих итогов по совокупности единиц наблюдения. Сложная сводка – это комплекс операций, включающих группировку единиц наблюдения, подсчет итогов по каждой группе и по всей совокупности и представление результатов сводки и группировки в виде статистических таблиц. Статистическая группировка сводится к расчленению совокупности на группы по отобранному существенному для единиц совокупности признаку (группировочному признаку). Выбор группировочного признака, т.е. признака, по которому производится объединение единиц исследуемой совокупности в группы, – один из самых существенных и сложных вопросов теории группировки и статистического исследования. От правильного выбора группировочного признака часто зависят результаты всего статистического исследования. Группировка позволяет получить такие результаты, по которым можно выявить состав совокупности, характерные черты и свойства типичных явлений, обнаружить закономерности и взаимосвязи. Наиболее простым и часто используемым способом обобщения статистических данных являются ряды распределения. Статистическим рядом (законом) распределения называют численное распределение единиц совокупности по изучаемому признаку. Пусть некоторая СВ является дискретной, т.е. может принимать лишь фиксированные (на некоторой шкале) значения Xi. В этом случае ряд значений вероятностей P(Xi) для всех (i=1, 2, …, n) допустимых значений этой величины называют её законом распределения. В зависимости от используемого группировочного признака статистические ряды могут быть атрибутивными и вариационными (количественными). Ряды распределения Атрибутивные Вариационные (количественные) Дискретные Атрибутивные ряды распределения Интервальные отражают качественное состояние единиц совокупности (пол человека, семейное положение, отраслевую принадлежность предприятия, его форму собственности и т.д.), а вариационные – имеют числовое выражение (объем производства, доход семьи, возраст человека, балл успеваемости и т.д.). Примером атрибутивного ряда может служить распределение студентов группы по полу. Группы студентов по полу Женщины Число студентов, чел. 20 Удельный вес в общей численности студентов, % 83.3 Мужчины 4 16.7 Всего 24 100.0 Вариационные (количественные) группированные ряды могут быть дискретными или интервальными. Дискретный вариационный ряд распределения – это ряд, в котором численное распределение единиц совокупности по дискретному признаку выражено целым конечным значением. Примером может служить распределение рабочих по разрядам, распределение семей города по числу детей и т.п. Интервальный ряд распределения – это ряд, в котором значения признака заданы в виде интервала. Построение интервальных вариационных рядов целесообразно прежде всего для случайных величин, характеризующихся непрерывной вариацией признака (т.е. когда величина признака у единиц совокупности может принимать любые значения, хотя бы и в определенных пределах). Итак, закон распределения вероятностей дискретной СВ несет в себе всю информацию о ней. Этот закон (или просто – распределение случайной величины) можно задать тремя способами: в виде таблицы значений величины и соответствующих им вероятностей; в виде диаграммы или, как ее иногда называют, гистограммы распределения; 2 в виде формулы, например, для нормального, биномиального и пр. распределения. Построение интервальных рядов распределения случайной величины Для группировки совокупности непрерывных случайных величин выборка исходных данных ранжируется в порядке убывания или возрастания величин и разбивается на интервалы (или градации, группы). Последовательность операций при построении интервального ряда распределения: 1). Определение объема выборки n (длины ряда), т.е. числа значений случайных величин в исследуемой выборке. 2). Ранжирование данных – расположение всех значений случайных величин ряда в порядке возрастания (или убывания). 3). Определение крайних значений выборки (ряда) – минимального Xmin и максимального Xmax значения случайной величины Хi. 4). Определение амплитуды (размаха) вариации, т.е. величины диапазона изменения значений СВ в исследуемой совокупности А = Хмах – Хmin 5). Определение количества интервалов (градаций). Критерий определения числа градаций k в выборке учитывает объем выборки n: k 5 lg n или k 1 3,322 lg n Число данных (n) 50 100 500 1000 10000 Оптимальное число градаций (k) 8 10 13 15 20 Если число градаций будет отличаться от указанного возможного, то вычисления частоты для отдельных градаций будет ненадежным. Выбор слишком малого числа градаций затушевывает важные детали в распределении частот, использование слишком большого числа градаций не дает возможности достаточно хорошо упорядочить и обобщить данные. Когда определено число градаций, то следует определить интервалы группировки. 6). Определение ширины интервалов. Интервал – это значение группировочного признака, лежащее в определенных границах. Каждый интервал имеет свою ширину (размер), нижнюю и верхнюю границы или хотя бы одну из них. Нижней границей называется наименьшее значение признака в интервале, а верхней границей – наибольшее значение признака в интервале. Верхняя и нижняя границы градаций называются граничными значениями. 3 Интервалы группировок могут быть в зависимости от их величины равными и неравными. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. При выборе равных по величине градаций (мы будем заниматься именно этим типом градаций) нужно руководствоваться следующими соображениями: Ширина (или размер) градации h представляет собой разность между верхней и нижней границами интервала. В случае равных интервалов ширина градации h определяется по следующей формуле h X max X min , n Интервалы группировок могут быть закрытыми и открытыми. Закрытыми называются интервалы, у которых имеются нижняя и верхняя граница. У открытых интервалов указана только одна граница: верхняя – у первого и нижняя – у последнего. 7). Выбор правила формирования градаций ( [… ) или (…] ): градации не должны перекрываться, т.е. каждое значение случайной величины может войти только в одну градацию. Формирование градаций в соответствии с принятым правилом. 8). Определение центральных значений градаций. В интервальном ряду градации значений СВ заменяются центром (серединой) Xi соответствующих градаций. 9). Распределение значений СВ по градациям. После того, как градации выбраны, все данные исходной выборки распределяются по соответствующим градациям. Подсчет количества значений СВ, попавших в каждую градацию с учетом правила формирования градаций, т.е. частот. Частота (абсолютная повторяемость) mi – это число значений СВ, вошедших в данную градацию из общей совокупности n. Объем выборки после разнесения СВ по градациям не должен измениться!! k mi n. i 1 10). Расчет вероятностей появления значений СВ в каждом интервале. Вероятность (относительная повторяемость) Рi – это относительная частота соответствующего интервала (градации) mi 100, %. n Pi k P 1; i 1 i или 100%. 4 Для статистического ряда распределения могут рассчитываться дополнительно следующие показатели: Абсолютная плотность распределения m,i mi . h Относительная плотность распределения p ,i Pi . h k Накопленные частоты mi (накопленные вероятности i 1 k P ) i 1 i получают путем последовательного суммирования частот (вероятностей) для соответствующих градаций. По этим показателям легко определить, в скольких случаях (или в процентах случаев) случайная величина будет меньше какого-то определенного уровня. Графические изображения рядов распределений случайной величины, их назначение и правила построения Статистические графики – это условные изображения статистических данных в виде точек, линий или фигур. В статистике графики используются: во-первых, для обобщения и анализа статистических данных. Графические изображения служат одним из важнейших технических и познавательных средств статистики; во-вторых, в целях широкой популяризации данных и для облегчения их восприятия не специалистами. Несмотря на большое разнообразие статистических графиков, можно указать некоторые общие правила их построения. При построении графика важно найти такие способы изображения, которые наилучшим образом отвечают содержанию и логической природе изображаемых показателей. Необходимо помнить, что никакой график не заменяет собой статистических данных. Поэтому, если на самом графике числа не написаны (это целесообразно делать только при условии, что они чрезмерно не загромоздят изображение), то они должны быть приведены в тексте. График должен быть точным, построенным в соответствии с масштабом и т.п. Должна быть обеспечена полная возможность "чтения графика": наличие масштаба, объяснения смысла расцветок или штриховок, названий показателей, отвечающих тем или иным размерам на графике, и т.д. График не должен быть перегружен материалом. Если, например, линиями на 5 одном графике изображается динамика нескольких показателей и нельзя избежать их переплетения, то изображать совместно динамику больше чем трех-четырех показателей (например, линиями разного цвета) уже нецелесообразно. Дискретные группированные ряды распределений изображаются в виде линейной диаграммы – полигона. При его построении на оси абсцисс наносят значения случайной величины, а на оси ординат – абсолютные или относительные повторяемости (частоты, вероятности). Полученные точки соединяются затем отрезками прямых линий. Полигон 20 15 15 Частота 13 11 10 6 5 5 5 3 2 0 17.5 20.5 23.5 26.5 29.5 32.5 35.5 38.5 Возраст Гистограмма распределения применяется для изображения интервальных рядов. Для ее построения на оси абсцисс откладывают интервалы (градации) случайной величины, а на оси ординат –частоты или вероятности градаций. На интервалах строят прямоугольники, высоты которых равны частотам или вероятностям соответствующих интервалов. Гистограм м а 30,0 25,0 Отн. повт-ть, % 25,0 21,7 18,3 20,0 15,0 8,3 5,0 31-34 28-31 25-28 22-25 19-22 0,0 16-19 5,0 3,3 37-40 10,0 8,3 34-37 10,0 Возраст 6 При использовании по оси абсцисс центральных значений случайной величины, а по оси ординат – величин относительных плотностей распределения получается дифференциальная кривая распределения интервального ряда. Диф ф еренциальнаякриваяраспределения 10,0 Отн. пл-ть 8,0 6,0 4,0 2,0 0,0 17,5 20,5 23,5 26,5 29,5 32,5 35,5 38,5 Возраст Для интервального ряда распределения также используется интегральная кривая распределения (ее еще называют кумулятивной кривой или огивой). Для ее построения на оси абсцисс откладывают все значения границ градаций от первой до последней, а на оси ординат – накопленные вероятности Рi появления значений переменных, меньше соответствующей границы. Накопленные вероятности получают путем последовательного суммирования вероятностей для соответствующих градаций. По этим показателям легко определить, какова вероятность того, что случайная величина будет по величине меньше какого-то определенного уровня. Свойства интегральной кривой распределения: 1). В точке, соответствующей самой нижней границе градаций, значение накопленной вероятности Рi равно нулю, а в точке, соответствующей значению самой верхней границы градаций – Рi = 100%, т.е. область построения кривой четко ограничена. 2). По характеру интегральная кривая является монотонно-неубывающей, т.е. она не может иметь минимумов. И нтегральнаякриваяраспределения(огива) Накопл. вер-ть, % 100 80 60 40 20 0 16 19 22 25 28 31 34 37 40 Возраст 7 Статистические таблицы Табличная форма является рациональной, наглядной и компактной формой представления статистических данных, изложения результатов сводки и группировки материалов, полученных в результате статистического наблюдения. Статистической таблицей называется таблица, которая содержит сводную числовую характеристику исследуемой совокупности по одному или нескольким существенным признакам. Основные элементы статистической таблицы, составляющие ее основу, показаны на схеме: Название таблицы Наименование граф (верхние заголовки) 1 2 … Содержание строк Итоговая графа Наименование строк (боковые заголовки) 1 2 … Итоговая строка Таблицы по структуре подлежащего Простые Монографические Подлежащим Сложные Перечневые статистической таблицы Групповые называется Комбинационные объект, который в ней характеризуется цифрами. Это могут быть совокупность, отдельные единицы совокупности в порядке их перечня или группированнные по одному или нескольким признакам, территориальные единицы, временные периоды и т.д. Подлежащее формирует наименование строк и составляет их содержание. В соответствии с этим в зависимости от структуры подлежащего различают следующие виды статистических таблиц: Монографическая таблица – это таблица, в подлежащем которой только одна какая-либо из единиц, выделенная по определенному признаку; перечневая – в подлежащем которой дается простой перечень единиц совокупности. Подлежащее простой таблицы может быть сформировано по видовому, территориальному или временному признаку. 8 Групповая таблица – это таблица, подлежащее которой содержит группы единиц совокупности по одному признаку; комбинационная – подлежащее которой содержит группы единиц совокупности по нескольким признакам (количественным или атрибутивным). Наряду с подлежащим важным составным элементом статистической таблицы является сказуемое. Сказуемое статистической таблицы образует система показателей, которыми характеризуется объект изучения, т.е. подлежащее таблицы. Сказуемое формирует заголовки граф и составляет их содержание. По структурному строению сказуемого различают статистические таблицы с простой и сложной разработкой. Таблицы по структуре сказуемого С простой разработкой Со сложной разработкой При простой разработке сказуемого показатель, его определяющий, получается путем простого суммирования значений по каждому признаку отдельно независимо друг от друга. Сложная разработка сказуемого предполагает деление признака, его формирующего, на группы. Некоторые правила оформления статистических таблиц: 1. Таблица должна быть компактной и содержать только те исходные данные, которые непосредственно отражают исследуемое явление и необходимы для познания его сущности. 2. Заголовок таблицы, названия граф и строк должны быть четкими, краткими, лаконичными и представлять собой законченное целое. 3. Информация, располагаемая в графах (столбцах) таблицы, завершается итоговой строкой. 9