ПРИКЛАДНОЙ АНАЛИЗ ДАННЫХ Е. В. Унжакова ФГОУВПО «Чувашский государственный университет им. И.Н.УЛЬЯНОВА», г. Чебоксары, ev-ya@mail.ru Любое компьютерное моделирование, дает возможность проводить вычислительные эксперименты с еще только проектируемыми системами и изучать системы, натурные эксперименты с которыми, из-за соображений безопасности или дороговизны, не целесообразны. В тоже время, благодаря своей близости по форме к физическому моделированию, это метод исследования доступен более широкому кругу пользователей. В настоящее время, когда компьютерная промышленность, предлагает разнообразнейшие средства моделирования, любой квалифицированный инженер, технолог или менеджер должен уметь уже не просто моделировать сложные объекты, а моделировать их с помощью современных технологий, реализованных в форме графических сред или пакетов визуального моделирования. В последние годы наблюдается обширное проникновение современных информационных технологий во все сферы человеческой деятельности. На вооружении исследователей оказались многочисленные пакеты прикладных программ, средствами которых решаются практически все поставленные задачи. При планировании и подведении результатов эксперимента существенную роль играют статистические методы, которые дают возможность: компактно и информативно описывать результаты эксперимента; устанавливать степень достоверности, сходства и различия исследуемых объектов на основании результатов измерений и показателей; анализировать наличие или отсутствие зависимости между различными показателями (явлениями); количественно описывать эти зависимости; выявлять информативные показатели; классифицировать изучаемые объекты и прогнозировать значения их показателей и характеристик, и др. Владение методами статистики дает возможность превращать безликую и разрозненную массу числовых данных в стройную систему знаний, основываясь на которых можно принимать эффективные управленческие решения. Сейчас на рынке имеется большое количество компьютерных программ, которые позволяют проводить статистический анализ данных. Обилие систем, создатели которых утверждают, что их программа является наилучшей для обработки данных, приводит к усложнению процесса выбора. Вот несколько из них, доступные в России, работающие под управлением ОС Windows, такие как SAS for Windows (SAS Institute Inc.), SPSS (SPSS Inc.), SPlus (Mathworks), Systat (SPSS Inc.), NCSS (NCSS), STATA (Stata corp.), Statistica (Statsoft Inc.) и Statgraphics Plus (Ma nguistics, Inc). Кроме того, распространенные математические пакеты – Excel, MatLab, Mathematica, MathCad – способны обрабатывать большие массивы данных, но обладают узким спектром статистических процедур. Statistica. Данная система задумывалась как полная статистическая система для пользователей персональных компьютеров. С самого начала эта программа обладала развитым графическим интерфейсом и опиралась на поддержку высококачественной графики для анализа данных. Система состоит из ряда модулей, работающих независимо. Каждый модуль включает определенный класс процедур. Графики в данной системе строятся как из общего меню, так и из подменю процедур, что очень облегчает начинающим выбор адекватного графического представления данных. Почти все процедуры являются интерактивными. Это очень удобно для начинающего пользователя, однако резко замедляет деятельность опытного и не позволяет эффективно повторять одну и ту же процедуру несколько раз. SPSS является одной из старейших систем статистического анализа данных. Сейчас SPSS включает большое количество статистических процедур, возможности по манипуляции данными и создания графиков. Проработка статистических алгоритмов чрезвычайно тщательная и позволяет хорошо контролировать процесс обработки данных. Большинство опций доступна из меню и диалоговых окон, что выгодно отличает SPSS от других программ. В целом SPSS может быть рекомендована пользователям, которые хотят иметь систему с простым, интуитивным интерфейсом, относительно развитой графикой и периодически использующих язык программирования для автоматизации более сложных заданий. Если же речь заходит о начинающих пользователях, то им следует обратить свое внимание на Statistica или Statgraphics+. Для людей, относительно ориентирующихся в статистических методиках или начинающих изучение статистики наиболее адекватной будет использование системы Statistica. Дружелюбный интерфейс, развитая система подсказки и полнота представленных статистических процедур позволяют рекомендовать эту систему начинающим пользователям и непрофессионалам, часто использующим в своей работе статистические методы анализа. В настоящее время в прикладной статистике всё большей популярностью пользуются методы так называемой непараметрической статистики − когда вопрос о принадлежности распределения вероятностей данной величины к тому или иному классу вообще не поднимается, но, конечно же, задача оценки самой случайной величины, получение информации о ней остаётся. Использование классических распределений случайных величин не всегда бывает возможно, причин тому чаще всего две: некоторые случайные величины просто не имеют количественного описания, обоснованных единиц измерения (уровень знаний, качество продукции и т.п.); наблюдение над величинами возможно, но их количество слишком мало для проверки предположения (гипотезы) о типе распределения. При исследовании зависимостей одной из наиболее простых является ситуация, когда можно указать только один фактор, влияющий на конечный результат, и этот фактор может принимать лишь конечное число значений. Такие задачи ( называемые задачами однофакторного анализа ) весьма часто встречаются на практике, рассмотрим одну из них. Для сравнения влияния факторов (возраста) на результат (образование) исследуем статистический материал, представленный таблицей 1. Уровень образования населения по возрастным группам (перепись 2002 г.на 1000 человек в каждой группе) Имеющие образование Не Профессиональное Общее имеющие 15-17 18-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 >70 Высшее (включая послевузовское) 0 0 122 200 179 175 168 166 161 169 117 89 59 Неполное высшее 0 71 134 38 22 15 12 10 8 9 6 4 7 Сред нее 7 129 263 300 350 353 335 322 309 264 191 137 100 Началь ное 13 117 183 205 218 211 206 199 184 160 119 78 45 Среднее (полное) 224 566 222 185 181 205 229 220 197 167 128 77 49 Основ ное 688 106 65 59 38 31 41 70 121 174 275 274 220 Началь ное 64 6 5 5 5 4 4 8 16 51 157 323 454 начального общего образования 3 3 3 4 3 3 2 2 2 2 4 16 64 Данные принадлежат одному и тому же распределению, это предположение обычно называется нулевой гипотезой H 0 . Если оно оказывается справедливо, то анализ заканчивается. В противном случае возникает задача оценки величины эффектов обработки и выяснения качества полученных оценок. Если мы ничего не знаем о распределении наблюдений, то непосредственно использовать для проверки нулевой гипотезы количественные значения наблюдений xij становиться затруднительно. В этом случае проще опираться в своих выводах только на отношение «больше – меньше» между наблюдениями, так как они не зависят от распределения наблюдений. При этом вся информация, которую мы используем из таблицы 1, содержится в тех рангах, что получают числа xij при упорядочении всей их совокупности. В связи с наличием в таблице 1 совпадений мы вынуждены воспользоваться средними рангами. В результате ранжирования получим таблицу (рисунок 1). Общая методика проверки статистических гипотез рекомендует нам сконструировать некоторую статистику, т.е в данном случае функцию от рангов rij , которая бы легла в основу критерия проверки гипотезы, воспользуемся для её проверки свободным от распределения критерием Краскела – Уоллиса, хотя при переходе от величины xij к их рангам уже происходит определённая потеря информации. Однако часто подобная потеря информации, во-первых, не столь значительна, а во-вторых, компенсируется тем, что от неизвестного закона распределения величин xij мы переходим к величинам rij , распределение которых при гипотезе H 0 известно. Медианный тест – это «грубая» версия критерия Краскела – Уоллиса. Statistica просто подсчитывает число наблюдений каждой выборки, которые попадают выше или ниже общей медианы выборок, и вычисляет затем значение 2 . Проверим гипотезу об отсутствии влияния возрастного показателя на уровень образования. Результаты рангового дисперсионного анализа Краскела – Уоллиса и медианного теста для группы «Высшее» показаны на рисунке 2: Как видно из рисунка 2 и критерий Краскела – Уоллиса (р=0,4457) и медианный тест (р=0,3690) не значимы. Таким образом, мы отвергаем влияние возраста на уровень образования населения. График по умолчанию для этих тестов – диаграмма размаха. На диаграмме размаха для каждой переменной (район) показаны: медиана, квартильный размах (25%, 75% прцентили), размах (минимум, максимум). На рисунке 3 представлена диаграмма размаха для уже выполненных расчётов группы «высшее». Объемное вычерчивание (Образование.sta 9v*13c) 14 12 10 8 6 4 Средний = 7 25%-75% = (4, 10) Non-Outlier Range = (1,5, 13) 2 0 высшее Указанные выше моменты приводят к различным постановкам задач однофакторного анализа, однако общая стратегия анализа во всех случаях примерно одинакова. Результатом появления мощных и удобных пакетов для анализа данных на персональных компьютерах стало резкое расширение и изменение круга потребителей методов анализа данных. Таким образом, методы анализа данных и статистические пакеты для компьютеров стали типичным и общеупотребительным инструментом плановых, аналитических, маркетинговых отделов производственных и торговых корпораций, банков и страховых компаний, правительственных и медицинских учреждений.