ПРИКЛАДНОЙ АНАЛИЗ ДАННЫХ

реклама
ПРИКЛАДНОЙ АНАЛИЗ ДАННЫХ
Е. В. Унжакова
ФГОУВПО «Чувашский государственный университет им.
И.Н.УЛЬЯНОВА», г. Чебоксары, ev-ya@mail.ru
Любое компьютерное моделирование, дает возможность проводить
вычислительные эксперименты с еще только проектируемыми системами и
изучать системы, натурные эксперименты с которыми, из-за соображений
безопасности или дороговизны, не целесообразны. В тоже время, благодаря
своей близости по форме к физическому моделированию, это метод
исследования доступен более широкому кругу пользователей.
В настоящее время, когда компьютерная промышленность, предлагает
разнообразнейшие средства моделирования, любой квалифицированный
инженер, технолог или менеджер должен уметь уже не просто моделировать
сложные объекты, а моделировать их с помощью современных технологий,
реализованных в форме графических сред или пакетов визуального
моделирования.
В последние годы наблюдается обширное проникновение современных
информационных технологий во все сферы человеческой деятельности. На
вооружении исследователей оказались многочисленные пакеты прикладных
программ, средствами которых решаются практически все поставленные
задачи.
При планировании и подведении результатов эксперимента
существенную роль играют статистические методы, которые дают
возможность:

компактно и информативно описывать результаты эксперимента;

устанавливать степень достоверности, сходства и различия
исследуемых объектов на основании результатов измерений и показателей;

анализировать наличие или отсутствие зависимости между
различными показателями (явлениями);

количественно описывать эти зависимости;

выявлять информативные показатели;

классифицировать изучаемые объекты и прогнозировать
значения их показателей и характеристик, и др.
Владение методами статистики дает возможность превращать
безликую и разрозненную массу числовых данных в стройную систему
знаний, основываясь на которых можно принимать эффективные
управленческие решения.
Сейчас на рынке имеется большое количество компьютерных
программ, которые позволяют проводить статистический анализ данных.
Обилие систем, создатели которых утверждают, что их программа является
наилучшей для обработки данных, приводит к усложнению процесса выбора.
Вот несколько из них, доступные в России, работающие под управлением ОС
Windows, такие как SAS for Windows (SAS Institute Inc.), SPSS (SPSS Inc.), SPlus (Mathworks), Systat (SPSS Inc.), NCSS (NCSS), STATA (Stata corp.),
Statistica (Statsoft Inc.) и Statgraphics Plus (Ma nguistics, Inc).
Кроме того, распространенные математические пакеты – Excel, MatLab,
Mathematica, MathCad – способны обрабатывать большие массивы данных,
но обладают узким спектром статистических процедур.
Statistica. Данная система задумывалась как полная статистическая
система для пользователей персональных компьютеров. С самого начала эта
программа обладала развитым графическим интерфейсом и опиралась на
поддержку высококачественной графики для анализа данных. Система
состоит из ряда модулей, работающих независимо. Каждый модуль включает
определенный класс процедур. Графики в данной системе строятся как из
общего меню, так и из подменю процедур, что очень облегчает начинающим
выбор адекватного графического представления данных. Почти все
процедуры являются интерактивными. Это очень удобно для начинающего
пользователя, однако резко замедляет деятельность опытного и не позволяет
эффективно повторять одну и ту же процедуру несколько раз.
SPSS является одной из старейших систем статистического анализа
данных. Сейчас SPSS включает большое количество статистических
процедур, возможности по манипуляции данными и создания графиков.
Проработка статистических алгоритмов чрезвычайно тщательная и позволяет
хорошо контролировать процесс обработки данных. Большинство опций
доступна из меню и диалоговых окон, что выгодно отличает SPSS от других
программ.
В целом SPSS может быть рекомендована пользователям, которые
хотят иметь систему с простым, интуитивным интерфейсом, относительно
развитой графикой и периодически использующих язык программирования
для автоматизации более сложных заданий.
Если же речь заходит о начинающих пользователях, то им следует
обратить свое внимание на Statistica или Statgraphics+. Для людей,
относительно ориентирующихся в статистических методиках или
начинающих изучение статистики наиболее адекватной будет использование
системы Statistica. Дружелюбный интерфейс, развитая система подсказки и
полнота представленных статистических процедур позволяют рекомендовать
эту систему начинающим пользователям и непрофессионалам, часто
использующим в своей работе статистические методы анализа.
В настоящее время в прикладной статистике всё большей популярностью
пользуются методы так называемой непараметрической статистики − когда
вопрос о принадлежности распределения вероятностей данной величины к
тому или иному классу вообще не поднимается, но, конечно же, задача
оценки самой случайной величины, получение информации о ней остаётся.
Использование классических распределений случайных величин не всегда
бывает возможно, причин тому чаще всего две:
 некоторые случайные величины просто не имеют количественного
описания, обоснованных единиц измерения (уровень знаний, качество
продукции и т.п.);
 наблюдение над величинами возможно, но их количество слишком
мало для проверки предположения (гипотезы) о типе распределения.
При исследовании зависимостей одной из наиболее простых является
ситуация, когда можно указать только один фактор, влияющий на конечный
результат, и этот фактор может принимать лишь конечное число значений.
Такие задачи ( называемые задачами однофакторного анализа ) весьма часто
встречаются на практике, рассмотрим одну из них.
Для сравнения влияния факторов (возраста) на результат (образование)
исследуем статистический материал, представленный таблицей 1.
Уровень образования населения по возрастным группам (перепись 2002 г.на 1000 человек в
каждой группе)
Имеющие образование
Не
Профессиональное
Общее
имеющие
15-17
18-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
>70
Высшее
(включая
послевузовское)
0
0
122
200
179
175
168
166
161
169
117
89
59
Неполное
высшее
0
71
134
38
22
15
12
10
8
9
6
4
7
Сред
нее
7
129
263
300
350
353
335
322
309
264
191
137
100
Началь
ное
13
117
183
205
218
211
206
199
184
160
119
78
45
Среднее
(полное)
224
566
222
185
181
205
229
220
197
167
128
77
49
Основ
ное
688
106
65
59
38
31
41
70
121
174
275
274
220
Началь
ное
64
6
5
5
5
4
4
8
16
51
157
323
454
начального
общего
образования
3
3
3
4
3
3
2
2
2
2
4
16
64
Данные принадлежат одному и тому же распределению, это
предположение обычно называется нулевой гипотезой H 0 . Если оно
оказывается справедливо, то анализ заканчивается. В противном случае
возникает задача оценки величины эффектов обработки и выяснения
качества полученных оценок.
Если мы ничего не знаем о распределении наблюдений, то
непосредственно
использовать
для
проверки
нулевой
гипотезы
количественные значения наблюдений xij становиться затруднительно. В
этом случае проще опираться в своих выводах только на отношение «больше
– меньше» между наблюдениями, так как они не зависят от распределения
наблюдений. При этом вся информация, которую мы используем из таблицы
1, содержится в тех рангах, что получают числа xij при упорядочении всей их
совокупности. В связи с наличием в таблице 1 совпадений мы вынуждены
воспользоваться средними рангами. В результате ранжирования получим
таблицу (рисунок 1).
Общая методика проверки статистических гипотез рекомендует нам
сконструировать некоторую статистику, т.е в данном случае функцию от
рангов rij , которая бы легла в основу критерия проверки гипотезы,
воспользуемся для её проверки свободным от распределения критерием
Краскела – Уоллиса, хотя при переходе от величины xij к их рангам уже
происходит определённая потеря информации. Однако часто подобная
потеря информации, во-первых, не столь значительна, а во-вторых,
компенсируется тем, что от неизвестного закона распределения величин xij
мы переходим к величинам rij , распределение которых при гипотезе H 0
известно.
Медианный тест – это «грубая» версия критерия Краскела – Уоллиса.
Statistica просто подсчитывает число наблюдений каждой выборки, которые
попадают выше или ниже общей медианы выборок, и вычисляет затем
значение  2 .
Проверим гипотезу об отсутствии влияния возрастного показателя на
уровень образования.
Результаты рангового дисперсионного анализа Краскела – Уоллиса и
медианного теста для группы «Высшее» показаны на рисунке 2:
Как видно из рисунка 2 и критерий Краскела – Уоллиса (р=0,4457) и
медианный тест (р=0,3690) не значимы. Таким образом, мы отвергаем
влияние возраста на уровень образования населения.
График по умолчанию для этих тестов – диаграмма размаха. На
диаграмме размаха для каждой переменной (район) показаны: медиана,
квартильный размах (25%, 75% прцентили), размах (минимум, максимум).
На рисунке 3 представлена диаграмма размаха для уже выполненных
расчётов группы «высшее».
Объемное вычерчивание (Образование.sta 9v*13c)
14
12
10
8
6
4
Средний = 7
25%-75%
= (4, 10)
Non-Outlier Range
= (1,5, 13)
2
0
высшее
Указанные выше моменты приводят к различным постановкам задач
однофакторного анализа, однако общая стратегия анализа во всех случаях
примерно одинакова.
Результатом появления мощных и удобных пакетов для анализа данных на
персональных компьютерах стало резкое расширение и изменение круга
потребителей методов анализа данных. Таким образом, методы анализа
данных и статистические пакеты для компьютеров стали типичным и
общеупотребительным инструментом плановых, аналитических,
маркетинговых отделов производственных и торговых корпораций, банков и
страховых компаний, правительственных и медицинских учреждений.
Скачать