Технология применения инструментальных средств

реклама
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ
БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО
ОБРАЗОВАНИЯ «ФИНАНСОВЫЙ УНИВЕРСИТЕТ ПРИ ПРАВИТЕЛЬСТВЕ
РОССИЙСКОЙ ФЕДЕРАЦИИ»
ИНСТИТУТ ПОВЫШЕНИЯ КВАЛИФИКАЦИИ ПРЕПОДАВАТЕЛЕЙ
УЧЕБНО-МЕТОДИЧЕСКИЙ ЦЕНТР ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
Выпускная работа по программе «Инструменты пакета
«STATISTICA» в образовательном процессе: методические и
практические аспекты»
на тему: «Технология применения инструментальных средств
статистической обработки информации при подготовке социологов»
Выполнили: слушатели ИППК Финансового университета
ЗОЛОТАРЮК Анатолий Васильевич, к.т.н., доцент,
профессор кафедры «Информационные технологии»
ГОБАРЕВА Яна Львовна, к.э.н., доцент,
доцент кафедры «Информационные технологии»
Москва - 2012
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ ............................................................................................................................ 3
1.
2.
ОФИСНЫЕ СРЕДСТВА СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ ................................... 5
1.1.
ОБЩИЕ ВОЗМОЖНОСТИ
ОФИСНЫХ СРЕДСТВ .............................................................................5
1.2.
ОПИСАНИЕ И ФОРМАТЫ СТАТИСТИЧЕСКИХ ФУНКЦИЙ .................................................................6
1.3.
ВЫПОЛНЕНИЕ СТАТИСТИЧЕСКОГО АНАЛИЗА С ПОМОЩЬЮ НАДСТРОЙКИ ПАКЕТ АНАЛИЗА ..............28
АНАЛИЗ И ОБРАБОТКА ДАННЫХ В ПАКЕТЕ STATISTICA .............................................. 41
2.1.
ИНТЕРФЕЙС И СИСТЕМА ОСНОВНОГО МЕНЮ ПАКЕТА.................................................................41
2.2.
ПРИМЕР АНАЛИЗА ДАННЫХ В ПАКЕТЕ STATISTICA ..................................................................48
ЗАКЛЮЧЕНИЕ ..................................................................................................................... 52
ЛИТЕРАТУРА....................................................................................................................... 53
ПРИЛОЖЕНИЕ .................................................................................................................... 54
2
ВВЕДЕНИЕ
В соответствие с рабочими учебными планами университета в 2012 – 2013
учебном году впервые предполагается изучение студентами, обучающимися по
направлению 040100.62 «Социология», дисциплины «Профессиональные компьютерные программы». Данная дисциплина входит в вариативную часть математического цикла дисциплин общеобразовательной программы подготовки бакалавров
социологии и направлена на углубленное изучение информационных технологий
применения профессионально-ориентированных программных комплексов, пакетов
и систем.
Учебная дисциплина должна обеспечить формирование технологических основ компетенций, теоретических знаний, практических навыков и умений работы в
среде специализированных информационных систем сбора, обработки, анализа и
исследования социологической информации с целью получения объективных статистических оценок и достоверных прогнозов, на основе которых планируется принимать научно-обоснованные управленческие решения.
Приобретенные в ходе изучения дисциплины знания, навыки и умения должны всесторонне использоваться и развиваться студентами на завершающем этапе
обучения в вузе, при прохождении производственной практики, выполнении аналитических расчетов, подготовке и защите выпускной квалификационной работы, а
также в ходе дальнейшего обучения в магистратуре и аспирантуре и в процессе последующей профессиональной и научной деятельности.
Общая трудоемкость дисциплины составляет 144 часа, из которых на аудиторные занятия выделено 50 часов и 94 часа – на самостоятельную работу. По итогам дисциплины предусмотрен экзамен.
Теоретическая часть дисциплины предусматривает изучение архитектуры,
основ разработки, применения и перспектив развития профессиональных компьютерных программ, включая методологию построения и обработки информационных
массивов, баз и хранилищ данных. Значительное внимание уделяется описанию и
возможностям специализированных пакетов, ориентированных на социологию, –
SPSS и STATISTICA.
3
Практические занятия направлены на освоение технологических основ применения офисных и специализированных средств в задачах обработки социологической информации. Рассматриваются возможности статистической обработки данных в MS Excel 2010 и пакете STATISTICA, а также в аналитических платформах Contour BI (OLAP-технология) и Deductor Studio (использование нейросетевых технологий для анализа и прогнозирования).
В данной выпускной работе приводятся методические и справочные материалы для поддержки практических занятий и самостоятельной работы студентов в
ходе изучения дисциплины:

по применению статистических функций MS Excel 2010;

по технологии работы в пакете STATISTICA.
В ближайшее время предполагается издание авторского учебного пособия с
рабочим названием «Бизнес-аналитика средствами Excel» объемом до 30 печатных
листов, включающего раздел по статистической обработке данных.
В новом учебном году планируется разместить учебно-методические материалы по дисциплине «Профессиональные компьютерные программы» (презентации
лекций, задания к практическим занятиям, тесты для контроля и самопроверки
знаний и навыков, справочную информацию и другие сведения) на многофункциональном портале кафедры fa-kit.ru, а также на образовательном портале университета.
4
1. ОФИСНЫЕ СРЕДСТВА СТАТИСТИЧЕСКОЙ ОБРАБОТКИ
ДАННЫХ
1.1.
ОБЩИЕ ВОЗМОЖНОСТИ ОФИСНЫХ СРЕДСТВ
Пакет Microsoft Office предоставляет широкие возможности статистической обработки информации. В MS Excel 2010 содержится около
сотни статистических функций, большинство из которых реализованы
по новым, более совершенным алгоритмам обработки по сравнению с
соответствующими функциями предшествующих версий пакета. Кроме
того, MS Excel 2010 включает около сорока статистических функций для
обеспечения совместимости с электронными таблицами, подготовленными в MS Excel 2007 и более ранних; в последующих версиях пакета эти
функции предполагается исключить.
Полный перечень встроенных функций MS Excel 2010, используемых для статистической обработки данных, приведен в приложении 1.
Здесь в алфавитном порядке указаны наименования функций и их английские эквиваленты, а также краткое предназначение.
Статистические функции реализуют анализ и обработку массивов
данных, дискретных и непрерывных случайных величин с применением
математического аппарата теории вероятностей и статистики и используются
в
ходе
бизнес-исследования
и
ведения
финансово-
экономических расчетов. Аргументами функций могут выступать константы и переменные, представляющие собой числа (в некоторых случаях – и текстовые значения), ссылки на адреса ячеек или их диапазоны,
а также выражения, в том числе включающие другие встроенные функции.
5
1.2. ОПИСАНИЕ И ФОРМАТЫ СТАТИСТИЧЕСКИХ ФУНКЦИЙ
Для вычисления среднего арифметического значения используются функции:
=СРЗНАЧ (Число1; Число2;...)
=СРЗНАЧА (Значение1; Значение2;...)
Функция СРЗНАЧ при вычислениях игнорирует ячейки, содержащие тексты, логические значения или пустоты, учитывая только числовые данные.
Функция СРЗНАЧА учитывает все клетки, указанные в качестве аргументов, кроме пустот. Текст и пустой текст (″″) интерпретируются как
0. Значение ИСТИНА воспринимается как 1, значение ЛОЖЬ – как 0.
Функция СРЗНАЧА не допускает непосредственного задания в качестве
аргументов текста. Такая ситуация вызывает ошибку #ЗНАЧ!.
Во избежание неточностей следует учитывать особенности данных функций, связанные с подсчетом количества элементов в массивах,
для которых вычисляется среднее арифметическое.
Пример.
На рис. 1.1 приведены варианты подсчета среднего значения с использованием функций СРЗНАЧ и СРЗНАЧА. Как видно, пустые клетки
при подсчетах ни одной функцией не учитываются.
Следующие функции применяются для вычисления среднего
арифметического по условию:
=СРЗНАЧЕСЛИ (Диапазон; Условие; [Диапазон_усреднения])
=СРЗНАЧЕСЛИМН (Диапазон_усреднения; Диапазон_условий1; Условие1;
[Диапазон_условий2; Условие2], ...)
В функции СРЗНАЧЕСЛИ аргумент Диапазон представляет собой одну или несколько ячеек, которые используются для проверки условия,
заданного вторым аргументом. Если третий аргумент в функции опущен, по параметру Диапазон осуществляется вычисление среднего.
6
Рис. 1.1. Фрагмент листа Excel с иллюстрацией применения функций СРЗНАЧ и
СРЗНАЧА
Аргумент Условие задается в форме числа, выражения, ссылки на
ячейку или текста и определяет ячейки, используемые при вычислении
среднего. Если ячейка в условии пустая, она обрабатывается, как ячейка
со значением 0. При задании условия допускается использование подстановочных символов: * (звездочка) – для кодирования любого количества допустимых символов и ? (вопросительный знак) – для подстановки одиночного символа. При необходимости кодирования символов
подстановки перед ними указывается знак  (тильда).
Необязательный третий аргумент Диапазон_усреднения определяет
фактическое множество ячеек, используемых для вычисления среднего.
По размеру и форме он может не совпадать с диапазоном первого аргумента.
Диапазоны, по которым вычисляется среднее значение, должны
содержать числа. Логические и текстовые значения, а также пустые
ячейки игнорируются. В случае отсутствия в диапазоне числовых данных функция СРЗНАЧЕСЛИ возвращает значение ошибки #ДЕЛ/0!.
Иллюстрация применения функции СРЗНАЧЕСЛИ приведена на рис.
1.2.
7
8
Рис. 1.2. Иллюстрация применения функции СРЗНАЧЕСЛИ
Встроенная функция СРЗНАЧЕСЛИМН обеспечивает задание нескольких условий усреднения, которые проверяются в нескольких (или
одних и тех же) диапазонах условий, вычисляя среднее по аргументу
Диапазон_усреднения. Требования к аргументам
функции аналогичны.
Следует только иметь в виду, что аргумент Диапазон_условий функции
СРЗНАЧЕСЛИМН соответствует аргументу Диапазон функции СРЗНАЧЕСЛИ.
Пример использования функции СРЗНАЧЕСЛИМН приведен на рис.
1.3.
РИС. 1.3. ИЛЛЮСТРАЦИЯ ПРИМЕНЕНИЯ ФУНКЦИИ СРЗНАЧЕСЛИМН
Среднее геометрическое массива положительных чисел можно
найти с использованием следующей функции:
= СРГЕОМ (Число1; [Число2]; …)
9
Вычисления осуществляются по формуле:
√
(1.1)
Максимально в функции СРГЕОМ может использоваться 255 аргументов. Аргументами могут выступать адреса ячеек или их диапазонов
либо имена. Текстовые и логические значения, а также пустые ячейки
игнорируются. Если среди чисел встречаются отрицательные, возвращается значение ошибки #ЧИСЛО!.
Для вычисления среднего гармонического – величины, обратной
среднему арифметическому обратных величин, используется функция:
= СРГАРМ (Число1; [Число2]; …)
Требования к ее аргументам такие же, как и для функции СРГЕОМ.
Для нахождения экстремальных числовых значений массивов
используются функции МАКС, МИН, МАКСА, МИНА.
Форматы функций:
= МАКС (Число1; Число2; ...)
= МИН (Число1, Число2; ...)
= МАКСА (Значение1; Значение2; …)
= МИНА (Значение1; Значение2; …)
Аргументами данных функций могут быть как числовые значения,
так и адреса ячеек, диапазоны или имена диапазонов.
Адресные ссылки и имена могут содержать, кроме числовых данных, текст, логические данные и пустоты. Непосредственное задание в
качестве аргументов текстовых данных вызывает сообщение об ошибке
#ИМЯ?.
Функции МАКС и МИН игнорируют ячейки с текстом, логическими
данными и пустотами. Функции МАКСА и МИНА эти данные учитывают,
как функция СРЗНАЧА.
Аргументы, которые являются значениями ошибки, вызывают
значения ошибок. Если аргументы не содержат чисел, то функции МИН и
МАКС возвращают значение 0.
10
Пример использования функций нахождения экстремальных значений массивов приведен на рис. 1.4.
Ряд функций (СЧЕТ, СЧЕТЗ, СЧИТАТЬ ПУСТОТЫ) позволяет найти,
сколько каких данных находится в диапазоне ячеек.
Форматы функций:
= СЧЁТ (Значение1; Значение2; ...)
= СЧЁТЗ (Значение1; Значение2; ...)
= СЧИТАТЬПУСТОТЫ (Диапазон)
РИС. 1.4. ФРАГМЕНТ ЛИСТА EXCEL С ИЛЛЮСТРАЦИЕЙ ПРИМЕНЕНИЯ ФУНКЦИЙ МИН,
МАКС, МИНА, МАКСА
Функция СЧЁТ вычисляет количество чисел (числовых ячеек), заданных в списке аргументов (в диапазоне клеток).
Функция СЧЁТЗ подсчитывает количество непустых значений в
списке аргументов (количество заполненных ячеек в интервале или
массиве).
Функция СЧИТАТЬ ПУСТОТЫ определяет число пустых ячеек в заданном диапазоне ячеек.
Количество аргументов в функциях СЧЁТ и СЧЁТЗ может быть от 1
до 255. Аргументы могут ссылаться на данные различных типов.
11
При подсчете функция СЧЁТ учитывает только клетки с числовыми данными. Пустые ячейки, логические значения, тексты и значения
ошибок в массиве или ссылке игнорируются.
Функция СЧЁТЗ учитывает все клетки с данными, включая пустые
строки (""), игнорируя только пустые ячейки, в которые данные не вносились или из которых они были удалены.
Функция СЧИТАТЬ ПУСТОТЫ учитывает только пустые ячейки, в
том числе те, в которые в результате вычислений был занесен пустой
текст ("").
Примеры использования функций СЧЁТ, СЧЁТЗ и СЧИТАТЬ ПУСТОТЫ приведены на рис. 1.5.
РИС. 1.5. ФРАГМЕНТ ЛИСТА EXCEL С ИЛЛЮСТРАЦИЕЙ ПРИМЕНЕНИЯ ФУНКЦИЙ СЧЁТ,
СЧЁТЗ, СЧИТАТЬ ПУСТОТЫ
Данные функции выдают сообщения об ошибках лишь в тех в случаях, если только какие-то ячейки, указанные в качестве их аргументов,
сами содержат сообщения об ошибках.
Для подсчета количества значений, удовлетворяющих одному
или нескольким критериям используются соответственно функции
СЧЕТЕСЛИ и СЧЕТЕСЛИМН.
12
Форматы функций:
= СЧЕТЕСЛИ (Диапазон; Критерий)
= СЧЕТЕСЛИМН (Диапазон_условия1; Условие1;
(Диапазон_условия2; Условие2); … )
Аргументы функций:
Диапазон - одна или несколько ячеек, по которым требуется выпол-
нить подсчет.
Критерий - число, выражение, ссылка на ячейку или текстовая стро-
ка, которая определяет, какие ячейки нужно подсчитать.
Диапазон_условия1 - первый диапазон, в котором необходимо про-
верить соответствие заданному условию.
Условие1 - условие в форме числа, выражения, ссылки на ячейку
или текста, которые определяют, какие ячейки требуется учитывать.
Перечисленные аргументы являются обязательными. Аргументы
Диапазон_условия2; Условие2 – являются необязательными. Это дополни-
тельные диапазоны и условия для них. Разрешается использовать до
127 пар диапазонов и условий.
Пример.
Пусть дана таблица кредитных договоров (рис. 1.6).
Задание 1.
Определить количество кредитов, выданных на срок более 12 месяцев.
Для этого используем функцию СЧЕТЕСЛИ с аргументами, значения которых приведены на рис. 1.7.
Результат вычислений – 4.
Задание 2.
Определить количество кредитов, выданных юридическим лицам
(код Ю) под 13% годовых.
Для решения задания применим функцию СЧЕТЕСЛИМН и зададим
аргументы, как показано на рис. 1.8.
13
РИС. 1.6. ФРАГМЕНТ ТАБЛИЦЫ С ИНФОРМАЦИЕЙ О КРЕДИТНЫХ ДОГОВОРАХ
РИС. 1.7. ОКНО АРГУМЕНТЫ ФУНКЦИИ СЧЁТЕСЛИ С ЗАПОЛНЕННЫМИ ЗНАЧЕНИЯМИ
ПАРАМЕТРОВ
Результат вычислений – 3.
Решение найдено следующим образом. Определяются строки, которые в столбце Статус содержат значение Ю. Затем в найденных
строках проверяется содержимое в столбце Ставка в % на предмет зна14
чения, равного 13%. Количество таких значений представляет собой
результат вычислений.
РИС. 1.8. ОКНО АРГУМЕНТЫ ФУНКЦИИ СЧЁТЕСЛИМН С ЗАПОЛНЕННЫМИ
ЗНАЧЕНИЯМИ ПАРАМЕТРОВ
Несколько функций позволяют выполнить анализ данных, заданных массивами, а также находить аппроксимируемые значения. Среди
таких отметим функции ПРЕДСКАЗ, ТЕНДЕНЦИЯ, РОСТ, КОРРЕЛ.
Функция ПРЕДСКАЗ позволяет определить будущее значение y для
требуемого значения x, используя линейную регрессию наименьших
квадратов известных значений массивов Х и Y. Формат функции:
=ПРЕДСКАЗ (х; Известные_значения_Y; Известные_значения_X)
Прогнозное значение y строится на основе линейного уравнения:
где:
y  a  bx ,
(1.2)
a  y  bx ,
(1.3)
 ( x  x )( y  y )
b
,
(x  x)
i
i
i
2
(1.4)
i
i
15
x, y – соответственно средние величины известных значений массивов Х и Y.
Если х не является числом, функция ПРЕДСКАЗ возвращает значение ошибки #ЗНАЧ!. Если известные значения массивов Y и Х имеют разную размерность, возвращается ошибка #Н/Д. Если дисперсия аргумента
Известные_значения_X равна 0, формируется ошибка #ДЕЛ/0!.
Иллюстрация использования функции ПРЕДСКАЗ приведена на рис.
1.9.
Функция ТЕНДЕНЦИЯ позволяет спрогнозировать будущие значения на основании поведения известных данных, находящихся в линейной зависимости. Экстраполяция осуществляется путем аппроксимации
по методу наименьших квадратов. Формат функции:
=ТЕНДЕНЦИЯ (Известные_значения_Y; Известные_значения_X;
Новые_значения_X; Константа)
РИС. 1.9. ФРАГМЕНТ ЛИСТА EXCEL С ИЛЛЮСТРАЦИЕЙ ПРИМЕНЕНИЯ ФУНКЦИИ ПРЕДСКАЗ
Числовые значения, возвращаемые функцией ТЕНДЕНЦИЯ, лежат
на прямой линии y = mx + b и могут быть использованы для построения
линии тренда, помогающей осмыслить характер поведения исходных
данных.
16
Аргумент Известные_значения_y задает массив зависимых значений
y в виде столбца, строки или интервала ячеек.
Аргумент Известные_значения_x задает значения независимых переменных.
Аргумент Новые_значения_x содержит новые значения, для которых
строится прогноз. Если аргумент Новые_значения_x отсутствует, то предполагается, что он совпадает с аргументом Известные_значения_x.
Отметим, что размерность массивов описанных выше аргументов
должна совпадать.
Аргумент Константа является необязательным и может принимать
два значения: ИСТИНА (1) – по умолчанию или ЛОЖЬ (0). Если аргумент
Константа равен 0, новые значения y рассчитываются для соотношения y
= mx.
Функция ТЕНДЕНЦИЯ может быть введена как массив. В этом случае предварительно требуется выделить диапазон ячеек под результат,
а окончание ввода зафиксировать нажатием клавиш [Ctrl + Shift + Enter].
Если функция ТЕНДЕНЦИЯ вводится как скалярная величина, то
при планировании копирования формулы для нахождения нескольких
новых значений y аргументы Известные_значения_x и Известные_значения_y
должны быть заданы абсолютными адресами.
Пример.
Фирма, занимающаяся прокатом автомобилей, желает спрогнозировать свои доходы на следующий год. Предполагается, что доходы от
проката автомобилей, наблюдавшиеся за три последних года, линейно
зависимы.
Пусть известные значения Y - доходы за прошлые годы - содержатся в ячейках В4:В6. Известные значения Х - года - в ячейках С4:С6. Новый
год - С7 - новое значение X.
Тогда прогноз на новый год рассчитывается по формуле:
17
= ТЕНДЕНЦИЯ (В4:В6; С4:С6; С7)
Другой пример, иллюстрирующей применение функции ТЕНДЕНЦИЯ, приведен на рис. 1.10.
Функция ТЕНДЕНЦИЯ выдает сообщения об ошибках в случае несовпадения размерности соответствующих массивов, а также, если исходные данные содержат нечисловые значения.
Функция РОСТ также позволяет делать прогноз на основе известных данных, однако он строится, исходя из экспоненциальной
регрес-
сии, с использованием уравнения:
y  b  mx
(1.5)
Формат функции:
=РОСТ (Известные_значения_Y; Известные_значения_X;
Новое_значение_X; Константа)
Значения аргументов функции и требования по ее применению в
основном такие же, как и для функции ТЕНДЕНЦИЯ.
Если аргумент константа равен 0, то прогноз определяется с учетом
уравнения y = mx.
Если какие-либо числа в массиве Известные_значения_y равны 0 или
отрицательны, то функция РОСТ возвращает значение ошибки #ЧИСЛО!.
Функция КОРРЕЛ возвращает коэффициент корреляции между интервалами ячеек двух массивов, позволяя установить зависимости между ними.
Формат функции:
=КОРРЕЛ (Массив1; Массив2)
Аргументы функции должны иметь одинаковое количество точек
данных, иначе формируется сообщение об ошибке #Н/Д.
Аргументы могут быть как числовыми значениями, так и адресами ячеек или именами.
18
19
Рис. 1.10. Фрагмент листа Excel с иллюстрацией применения функции ТЕНДЕНЦИЯ
Если аргумент, который является массивом или ссылкой, содержит
текст, логические значения или пустые ячейки, то такие значения игнорируются; однако ячейки, которые содержат нулевые значения, учитываются.
Если один из аргументов пуст или если σ (стандартное отклонение) их значений равно нулю, то функция КОРРЕЛ возвращает значение
ошибки #ДЕЛ/0!.
Ряд функций обеспечивают вычисление дисперсии. Разница заключается в том, какие данные из генеральной совокупности учитываются при вычислениях.
Функция ДИСП.Г, допуская до 254 числовых аргументов, представляющих всю генеральную совокупность, обеспечивает, при их непосредственном задании, обработку чисел, логических и текстовых значений
(последних – в случае возможности их преобразования в число, иначе
возникает сообщение об ошибке). При ссылках на ячейки диапазонов
учитываются только числа. Логические и текстовые значения, значения
ошибок, а также пустые ячейки игнорируются.
При вычислении дисперсии функция ДИСП.Г использует формулу:
∑
̅
(1.6
Формат функции:
= ДИСП.Г (Число1; [Число2];...])
Функция ДИСПА оценивает дисперсию по выборке из генеральной
совокупности, используя формулу:
∑
̅
(1.7)
Функция допускает до 255 аргументов, в качестве которых могут
быть числа; имена, массивы или ссылки, содержащие числа, текстовые
представления чисел, логические значения ИСТИНА или ЛОЖЬ (интерпретируются соответственно как 1 или 0). Логические и текстовые зна20
чения, непосредственно введенные в список аргументов, также учитываются. Пустые ячейки и текстовые значения в ссылках на диапазоны
ячеек игнорируются. Не преобразуемый в числа текст вызывает сообщение об ошибке.
Формат функции:
= ДИСПА (Значение1; [Значение2];...)
Функция ДИСП.В оценивает дисперсию по выборке из генеральной
совокупности, игнорируя логические значения или текст. Последние
учитываются только при непосредственном введении в список аргументов и возможности их преобразования в число.
Расчет выполняется по формуле (1.7).
Формат функции:
= ДИСП.В (Число1; [Число2]; ...])
Функция ДИСПРА вычисляет дисперсию для генеральной совокупности. Требования к аргументам функции аналогичны, как для функции
ДИСПА. Для вычислений используется формула (1.6).
Формат функции:
= ДИСПРА(Значение1; [Значение2];...)
Примечание.
В категории совместимости с предшествующими версиями Excel
имеется две функции ДИСПР и ДИСП, вычисляющие дисперсию для всей
генеральной совокупности и по выборке.
Группа функций находит доверительный интервал для среднего
значения в соответствие с различными законами распределения.
Функция ДОВЕРИТ.НОРМ возвращает доверительный интервал для
среднего значения генеральной совокупности, используя нормальное
распределение.
Доверительный интервал представляет собой диапазон значений.
Выборочное среднее ̅ является серединой этого диапазона, следова21
тельно, доверительный интервал определяется как ( ̅ ± ДОВЕРИТ.НОРМ).
Для любого значения математического ожидания генеральной совокупности μ0, находящегося в этом интервале, вероятность того, что выборочное среднее отличается от μ0 более чем на ̅ , превышает значение
уровня значимости Альфа. Для любого математического ожидания μ0, не
относящегося к этому интервалу, вероятность того, что выборочное
среднее отличается от μ0 более чем на ̅ , не превышает значения уровня
значимости Альфа.
Формат функции:
= ДОВЕРИТ.НОРМ(Альфа; Стандартное_откл; Размер)
Аргументы функции:
Альфа - уровень значимости, используемый для вычисления дове-
рительного уровня. Может находиться в пределах от 0 до 1. Часто принимает значение 0,05, что означает 95% доверительный интервал.
Стандартное_откл р – стандартное отклонение генеральной сово-
купности для диапазона данных . Всегда положительное число.
Размер – размер выборки генеральной совокупности.
Пример.
Пусть имеется выборка из 50 пассажиров, для которых среднее
время поездки на работу составляет 30 минут со стандартным отклонением для генеральной совокупности, равным 2,5. Если Альфа = 0,05, то
функция ДОВЕРИТ.НОРМ(0,05; 2,5; 50) возвращает значение 0,692952. Соответствующий доверительный интервал равен 30 ± 0,692952, т. е. приблизительно [29,3; 30,7]. Для любого математического ожидания генеральной совокупности μ0 в этом интервале вероятность того, что выборочное среднее отличается от μ0 более чем на 30, превышает 0,05. Соответственно, для любого математического ожидания генеральной совокупности μ0, не принадлежащего этому интервалу, вероятность того, что
выборочное среднее отличается от μ0 более чем на 30, меньше 0,05.
22
Функция ДОВЕРИТ.СТЬЮДЕНТ возвращает доверительный интервал для среднего значения генеральной совокупности, используя распределение Стьюдента.
Формат функции:
= ДОВЕРИТ.СТЬЮДЕНТ(Альфа; Стандартное_откл; Размер)
Пример.
При решении задачи из предыдущего примера с использованием
функции ДОВЕРИТ.СТЬЮДЕНТ получаем значение 0,710492, что устанавливает несколько большее значение доверительного интервала: 30
±.0,710492.
Ряд статистических функций позволяют рассчитывать вероятность событий.
Функция ВЕРОЯТНОСТЬ возвращает вероятность того, что значение из интервала находится внутри заданных пределов.
Формат функции:
= ВЕРОЯТНОСТЬ (x_интервал; Интервал_вероятностей; [Нижний_предел];
[Верхний_предел])
Аргументы функции:
x_интервал - определяет диапазон числовых значений x, с которы-
ми связаны вероятности.
Интервал_вероятностей – задает множество вероятностей (в преде-
лах от 0 до 1), соответствующих значениям в аргументе x_интервал.
Нижний_предел – нижняя граница значения, для которого вычисля-
ется вероятность.
Верхний_предел – верхняя граница значения, для которого вычис-
ляется вероятность. Если аргумент Верхний_предел не задан, то возвращается вероятность того, что значения в аргументе x_интервал равняются значению аргумента Нижний_предел.
При некорректно заданных аргументах функции формируются сообщения об ошибке: #ЧИСЛО! – когда значение вероятности не находит23
ся в пределах от 0 до 1; #Н/Д – когда размерности первых двух аргументов не совпадают.
Специализированные возможности предоставляют другие функции.
Функция СТЬЮДЕНТ.ТЕСТ позволяет определить вероятность того, что две выборки взяты из генеральных совокупностей, которые
имеют одно и то же среднее.
Формат функции:
= СТЬЮДЕНТ.ТЕСТ(Массив1; Массив2; Хвосты; Тип)
Аргументы Массив1 и Массив2 определяют наборы данных.
Значение аргумента Хвосты равное 1, возвращает одностороннее
распределение, значение 2 – двустороннее распределение.
Аргумент Тип определяет вид выполняемого t-теста: 1 парный, 2 –
двухпарный, 3 – двухпарный с неравным отклонением.
Функция БИНОМ.РАСП возвращает отдельное значение биномиального распределения.
Используется в задачах с фиксированным числом тестов или испытаний, если результатом любого испытания может быть только успех
или неудача, сами испытания независимы, а вероятность успеха остается постоянной в течение всего эксперимента.
Формат функции:
= БИНОМ.РАСП (Число_успехов; Число_испытаний; Вероятность_успеха;
Интегральный_параметр1)
Функция БИНОМ.ОБР возвращает наименьшее значение, для которого интегральное биномиальное распределение больше заданного значения критерия или равно ему.
Формат функции:
= БИНОМ.ОБР(Число_испытаний; Вероятность_успеха; Альфа)
1
Принимает значение ИСТИНА (возвращается интегральная функция распределения)или ЛОЖЬ (возвращается функция плотности распределения).
24
Функция БЕТА.РАСП возвращает функцию бета-распределения.
Используется для изучения вариации в процентах какой-либо величины между выборками, например, времени суток, когда люди проводят у телевизора.
Формат функции:
= БЕТА.РАСП (Х; Альфа; Бета; Интегральный_параметр; [A]; [B])
Функция БЕТА.ОБР возвращает обратную функцию к интегральной функции плотности бета-распределения вероятности. Если вероятность равна БЕТА.РАСП(x;,...;ИСТИНА), то значение функции БЕТА.ОБР(вероятность,...) равно x.
Используется при планировании для определения вероятного
времени завершения работы по ожидаемому времени завершения и его
вариативности.
Формат функции:
= БЕТА.ОБР(Вероятность; Альфа; Бета;[A];[B])
Функция ХИ2.РАСП возвращает распределение χ2 (хи-квадрат).
Используется для изучения вариации в процентах какой-либо величины между выборками.
Формат функции:
= ХИ2.РАСП(Х; Степени_свободы; Интегральный_параметр)
Аргументы функции:
X – значение – положительное число, для которого требуется вы-
числить распределение.
Степени_свободы – число степеней свободы (> 1).
Интегральный_параметр – логическое величина: принимает значение
ИСТИНА
(возвращается интегральная функция распределения) или
ЛОЖЬ (возвращается функция плотности распределения).
Функция ХИ2.РАСП.ПХ возвращает правостороннюю вероятность
распределения χ2. Распределение χ2 связано с критерием χ2. Критерий
χ2 используется для сравнения предполагаемых и наблюдаемых значе25
ний. Например, в генетическом эксперименте выдвигается гипотеза, что
следующее поколение растений будет обладать определенной окраской.
Сравнивая наблюдаемые результаты с предполагаемыми, можно определить, верна ли исходная гипотеза.
Формат функции:
= ХИ2.РАСП.ПХ (Х; Степени_свободы)
Функция ХИ2.ОБР возвращает значение, обратное левосторонней
вероятности распределения хи-квадрат.
Функция распределения хи-квадрат обычно используется для изучения вариации в процентах какой-либо величины между выборками.
Формат функции:
= ХИ2.ОБР(Вероятность;Степени_свободы)
Функция ХИ2.ОБР.ПХ возвращает значение, обратное правосторонней вероятности распределения хи-квадрат.
Если
вероятность
равна
ХИ2.РАСП.ПХ(x;...),
то
ХИ2.ОБР.ПХ(Вероятность;,...) равно x. Функция позволяет сравнить наблю-
даемые результаты с ожидаемыми, чтобы определить, верна ли исходная гипотеза.
Формат функции:
= ХИ2.ОБР.ПХ(Вероятность;Степени_свободы)
Функция ХИ2.ТЕСТ возвращает критерий независимости – значение статистики для распределения χ2 и соответствующее число степеней свободы. Используется для определения, подтверждается ли гипотеза экспериментом.
Формат функции:
= ХИ2.ТЕСТ(Фактический_интервал; Ожидаемый_интервал)
Функция F.РАСП возвращает F-распределение вероятности (распределение Фишера). Позволяет определить, имеют ли два множества
данных различные степени разброса результатов. Можно, например,
26
проанализировать результаты тестирования студентов и определить,
различается ли разброс результатов юношей и девушек.
Формат функции:
= F.РАСП(x; Степени_свободы1; Степени_свободы2;
Интегральный_параметр)
Функция F.РАСП.ПХ возвращает правый хвост F-распределения
вероятности для двух наборов данных.
Формат функции:
= F.РАСП.ПХ(Х; Степени_свободы1; Степени_свободы2)
Функция F.ОБР возвращает значение, обратное F-распределению
вероятности. Если вероятность p = F.РАСП(x;...), то F.ОБР(p;...) = x.
F-распределение может использоваться в F-тесте, который сравнивает степени разброса двух наборов данных. Например, можно проанализировать распределение доходов в Германии и Франции, чтобы
определить, похожи ли эти две страны по степени плотности доходов.
Формат функции:
= F.ОБР(Вероятность; Степени_свободы1; Степени_свободы2)
Функция F.ОБР.ПХ возвращает значение, обратное правостороннему F-распределению вероятностей.
Формат функции:
= F.ОБР.ПХ(Вероятность; Степени_свободы1; Степени_свободы2)
Функция F.ТЕСТ возвращает результат F-теста – двустороннюю
вероятность того, что разница между дисперсиями двух ее аргументов
несущественна. Позволяет определить, имеют ли две выборки различные дисперсии. Например, если даны результаты тестирования для
частных и общественных школ, можно определить, имеют ли эти школы
различные уровни разброса результатов тестирования.
Формат функции:
= F.ТЕСТ(Массив1; Массив2)
27
Функция ФИШЕР возвращает преобразование Фишера для аргумента x. Используется для проверки гипотез с помощью коэффициента
корреляции.
Преобразование Фишера строит функцию по нормальному закону
распределения, используя формулу:
(1.8)
Формат функции:
= ФИШЕР(x)
Функция ФИШЕРОБР возвращает обратное значение для преобразования Фишера. Это преобразование используется при анализе
корреляции между массивами или интервалами данных. Если y = ФИШЕР(x), то ФИШЕРОБР(y) = x.
Формат функции:
= ФИШЕРОБР (y)
MS Excel содержит и множество других статистических функций
(см. Приложение 1). Подробная информация о них, в т.ч. по технологии
применения, может быть найдена в справочной системе:
Функциональная клавиша [F1]  Ссылка Справочник по функциям 
Выбрать категорию функций 
Раскрыть ссылку вызова справки по конкретной функции
1.3. ВЫПОЛНЕНИЕ СТАТИСТИЧЕСКОГО АНАЛИЗА С ПОМОЩЬЮ
НАДСТРОЙКИ ПАКЕТ АНАЛИЗА
При проведении сложного статистического анализа можно упростить процесс и сэкономить время, используя надстройку «Пакет анализа». Для анализа данных с помощью этого пакета следует указать входные данные и выбрать параметры; расчет будет выполнен с помощью
подходящей статистической макрофункции, а результат будет помещен
28
в выходной диапазон. Некоторые инструменты позволяют представить
результаты анализа в графическом виде.
Подключение надстроек Excel, реализующих дополнительные
функции пакета, осуществляется следующим образом:
(Вкладка Файл → Параметры → Надстройки →
В поле Управление выбрать Надстройки Excel → Кнопка Перейти…)2→
Установить флажки подключаемых надстроек:
Поиск решения, Пакет анализа, Пакет анализа – VBA, …3→ Кнопка ОК
После загрузки надстроек в группе Анализ на вкладке Данные становятся доступными команды Поиск решения и Пакет анализа; на вкладке
Формулы появляются команды работы с денежной единицей евро.
Рис. 1.11. Окно подключения надстроек Excel
Выбор кнопки Анализ данных приводит к появлению одноименного
диалогового окна (рис. 1.12), в котором следует выбрать соответствующий инструмент анализа.
2
Группа команд вызывает окно Надстройки (рис. 1.11); данное окно может быть вызвано также командами:
Вкладка Разработчик → Группа Надстройки → Кнопка Надстройки.
3
Если в окне Надстройки отсутствует требуемая надстройка, следует, используя кнопку Обзор, найти ее;
если это не удается сделать, значит, надстройка не установлена на компьютере, необходимо ее доустановить.
29
РИС. 1.12. ОКНО АНАЛИЗ ДАННЫХ
Рассмотрим инструментарий «Пакета анализа»4.
Однофакторный дисперсионный анализ.
Служит для анализа дисперсии по данным двух или нескольких
выборок. При анализе гипотеза о том, что каждый пример извлечен из
одного и того же базового распределения вероятности, сравнивается с
альтернативной гипотезой, предполагающей, что базовые распределения вероятности во всех выборках разные. Если выборок только две,
можно применить функцию ТТЕСТ. Для трех и более выборок не существует более общего варианта функции ТТЕСТ, но вместо этого можно
воспользоваться моделью однофакторного дисперсионного анализа
(рис. 1.13).
Двухфакторный дисперсионный анализ с повторениями
Инструмент применяется (рис. 1.14), если данные можно систематизировать по двум параметрам. Например, в эксперименте по измерению высоты растений растения обрабатывали удобрениями от различных изготовителей (например, A, B, C) и содержали при различной температуре (например, низкой и высокой). Таким образом, для каждой из 6
возможных пар условий {удобрение, температура}, имеется набор
наблюдений за ростом растений. С помощью этого дисперсионного анализа можно проверить ряд гипотез.
4
При описании возможностей инструментария анализа использованы материалы справочной системы MS
Excel.
30
РИС. 1.13. ОКНО ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
РИС. 1.14. ОКНО ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ С ПОВТОРЕНИЯМИ
 Извлечены ли данные о росте растений для различных марок
удобрений из одной генеральной совокупности. Температура в
этом анализе не учитывается.
 Извлечены ли данные о росте растений для различных уровней
температуры из одной генеральной совокупности. Марка удобрения в этом анализе не учитывается.
 Извлечены ли шесть выборок, представляющих все пары значений {удобрение, температура}, используемые для оценки влияния различных марок удобрений и уровней температуры, из
одной генеральной совокупности.
31
 Альтернативная гипотеза предполагает, что влияние конкретных пар {удобрение, температура} превышает влияние отдельно удобрения и отдельно температуры.
Двухфакторный дисперсионный анализ без повторений
Инструмент анализа применяется (рис. 1.15), если данные можно
систематизировать по двум параметрам, как в случае двухфакторного
дисперсионного анализа с повторениями. Однако в таком анализе предполагается, что для каждой пары параметров есть только одно измерение.
"
РИС. 1.15. ОКНО ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ БЕЗ ПОВТОРЕНИЙ
Корреляция
Функции КОРРЕЛ и ПИРСОН вычисляют коэффициент корреляции
между двумя переменными измерений, когда для каждой переменной
измерение наблюдается для каждого из N субъектов (пропуск наблюдения для субъекта приводит к игнорированию субъекта в анализе). Корреляционный анализ особенно полезен, если для каждого из N субъектов существует более двух переменных измерений. В результате выводится таблица (корреляционная матрица), показывающая значение
функции КОРРЕЛ (или ПИРСОН) для каждой возможной пары переменных измерений.
32
Коэффициент корреляции, как и ковариационный анализ, характеризует степень, в которой два измерения "изменяются вместе". В отличие от ковариационного анализа коэффициент корреляции масштабируется таким образом, что его значение не зависит от единиц, в которых выражены переменные двух измерений (например, если вес и высота являются двумя измерениями, значение коэффициента корреляции
не изменится после перевода веса из фунтов в килограммы). Любое значение коэффициента корреляции должно находиться в диапазоне от -1
до +1 включительно.
Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, т. е. большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция) или наоборот, малые значения одного набора
связаны с большими значениями другого (отрицательная корреляция),
или значения двух переменных никак не связаны (нулевая корреляция).
Ковариация
Для каждой пары переменных измерений вычисляется значение
функции КОВАР.
По применению инструмент Ковариация аналогичен инструменту
Корреляция. Отличие: коэффициенты ковариации для каждой пары переменных измерений не масштабируются.
Описательная статистика
Инструмент применяется для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных (рис. 1.16).
Экспоненциальное сглаживание
Инструмент применяется для предсказания значения на основе
прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сгла33
живания a, величина которой определяет степень влияния на прогнозы
погрешностей в предыдущем прогнозе.
РИС. 1.16. ОКНО ОПИСАТЕЛЬНАЯ СТАТИСТИКА
Из опыта для константы сглаживания наиболее подходящими являются значения от 0,2 до 0,3. Эти значения показывают, что ошибка текущего прогноза установлена на уровне от 20 до 30 процентов ошибки
предыдущего прогноза. Более высокие значения константы ускоряют
отклик, но могут привести к непредсказуемым выбросам. Низкие значения константы могут привести к большим промежуткам между предсказанными значениями.
Двухвыборочный F-тест для дисперсии
Применяется для сравнения дисперсий двух генеральных совокупностей. Например, можно использовать F-тест по выборкам результатов заплыва для каждой из двух команд. Это средство предоставляет
результаты сравнения нулевой гипотезы о том, что эти две выборки
взяты из распределения с равными дисперсиями, с гипотезой, предполагающей, что дисперсии различны в базовом распределении.
34
С помощью этого инструмента вычисляется значение f-Fстатистики (или F-коэффициент). Значение f, близкое к 1, показывает,
что дисперсии генеральной совокупности равны.
Анализ Фурье
Применяется для решения задач в линейных системах и анализа
периодических данных на основе метода быстрого преобразования
Фурье (БПФ). Этот инструмент поддерживает также обратные преобразования, при этом инвертирование преобразованных данных возвращает исходные данные.
Гистограмма
Применяется для вычисления выборочных и интегральных частот
попадания данных в указанные интервалы значений (рис. 1.17). При
этом рассчитываются числа попаданий для заданного диапазона ячеек.
Например, можно получить распределение успеваемости по шкале
оценок в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и групп студентов, уровень успеваемости которых
находится между самой нижней границей и текущей границей. Наиболее часто встречающийся уровень является модой диапазона данных.
РИС. 1.17. ОКНО ГИСТОГРАММА
35
Скользящее среднее
Применяется для расчета значений в прогнозируемом периоде на
основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Метод может использоваться для прогноза сбыта, запасов и других
тенденций.
Генерация случайных чисел
Применяется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений (рис. 1.18). Позволяет моделировать объекты, имеющие случайную природу, по известному распределению вероятностей. Например, можно использовать
нормальное распределение для моделирования совокупности данных по
росту людей или использовать распределение Бернулли для двух вероятных исходов, чтобы описать совокупность результатов бросания монеты.
РИС. 1.18. ОКНО ГЕНЕРАЦИЯ СЛУЧАЙНЫХ ЧИСЕЛ С РАСКРЫТЫМ СПИСКОМ
РАСПРЕДЕЛЕНИЕ
36
Ранг и персентиль
Применяется для вывода таблицы, содержащей порядковый и
процентный ранги для каждого значения в наборе данных. Процедура
может быть применена для анализа относительного расположения данных в наборе. В ней используются функции РАНГ.РВ (РАНГ) и ПРОЦЕНТРАНГ.ВКЛ (ПРОЦЕНТРАНГ). Поскольку функция РАНГ.РВ не работает со
связанными значениям, при необходимости, можно воспользоваться
функцией РАНГ.РВ с поправочным коэффициентом:
=(СЧЕТ(ссылка)+1–РАНГ.РВ(число; ссылка; 0) – РАНГ.РВ(число; ссылка;
1))/2
Регрессия
Применяется для подбора графика для набора наблюдений с помощью метода наименьших квадратов (рис. 1.19).
РИС. 1.19. ОКНО РЕГРЕССИЯ
Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или нескольких независимых переменных. Например, на спортивные качества атлета влияют несколько
37
факторов, включая возраст, рост и вес. Можно вычислить степень влияния каждого из этих трех факторов по результатам выступления
спортсмена, а затем использовать полученные данные для предсказания
выступления другого спортсмена. В ходе вычислений используется
функция ЛИНЕЙН.
Выборка
Создает выборку из генеральной совокупности, рассматривая
входной диапазон как генеральную совокупность (рис. 1.20). Если совокупность слишком велика для обработки или построения диаграммы,
можно использовать представительную выборку. Кроме того, если
предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла. Например, если входной диапазон содержит данные для квартальных продаж,
создание выборки с периодом 4 разместит в выходном диапазоне значения продаж из одного и того же квартала.
РИС. 1.20. ОКНО ВЫБОРКА
Парный двухвыборочный t-тест для средних
Используется, когда имеется естественная парность наблюдений в
выборках, например, когда генеральная совокупность тестируется два38
жды – до и после эксперимента. Инструмент применяется для проверки
гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные. Одним из результатов теста является совокупная
дисперсия (совокупная мера распределения данных вокруг среднего
значения).
Двухвыборочный t-тест с одинаковой дисперсией
Инструмент (рис. 1.21) основан на двухвыборочном t-тесте Стьюдента, который используется для проверки гипотезы о равенстве средних для двух выборок. Форма t-теста предполагает совпадение значений
дисперсии генеральных совокупностей и называется гомоскедастическим t-тестом.
РИС. 1.21. ОКНО ДВУХВЫБОРОЧНЫЙ T-ТЕСТ С ОДИНАКОВЫМИ ДИСПЕРСИЯМИ
Двухвыборочный t-тест с различными дисперсиями
Инструмент в некотором смысле похож на предыдущий. Отличие:
форма t-теста предполагает несовпадение дисперсий генеральных совокупностей. При тестировании одной и той же генеральной совокупности, необходимо использовать парный тест.
39
Двухвыборочный Z-тест для средних
Используется для проверки основной гипотезы об отсутствии различий между средними двух генеральных совокупностей относительно
односторонней и двусторонней альтернативных гипотез. При неизвестных значениях дисперсий следует воспользоваться функцией ZТЕСТ.
При использовании инструмента следует внимательно анализировать результаты.
Инструмент можно также применять для гипотезы об определенном ненулевом значении разницы между двумя средними генеральных
совокупностей. Например, тест можно использовать для определения
разницы выступлений на соревнованиях двух автомобилей различных
марок.
При затруднениях работы с инструментариями анализа следует в
окне Пакет анализа, получить доступ к справочной информации, выбрав кнопку Справка.
40
2. АНАЛИЗ И ОБРАБОТКА ДАННЫХ В ПАКЕТЕ
STATISTICA
2.1. ИНТЕРФЕЙС И СИСТЕМА ОСНОВНОГО МЕНЮ ПАКЕТА
После запуска пакета на экране монитора появляется окно Приглашение в
STATISTICA (рис. 2.1). В данном окне перечислены возможности начала работы. Следует выбрать нужный вариант, установив соответствующий переключатель, и подтвердить его, нажав кнопку ОК. Можно также
закрыть данное окно – разово кнопкой Закрыть
либо, установив флажок Закрыть диалог и закрыв окно любым способом, исключить его
появление на все последующие сеансы работы5.
Если после инсталляции пакета не было
создано никаких документов, на экране появляется окно с пустой (незаполненной) таблицей данных (рис. 2.2); в противном случае, если уже осуществлялась работа с пакетом, открывается окно файла с последним открытым
документом (рис. 2.3). Эту возможность также
можно исключить, используя настройки параметров:
Команда Сервис  Команда Параметры 
Вкладка Общие .Группа Стартовые параметры 
Переключатель Пустое окно  Кнопка ОК
6
В зависимости от установленных пара-
Рис. 2.1. Окно Приглашение к работе с
пакетом Statistica
метров настройки, после запуска пакета на экране могут появляться и другие окна,
например, окно добытчика данных Data Miner.
5
Для восстановления появления окна Приглашение в STATISTICA, следует выполнить операции:
Команда Сервис  Команда Параметры  Вкладка Общие  Флажок Отображать диалог
Приглашение в Statistica  Кнопка ОК
6
Для отмены операции – восстановления окна последнего обрабатываемого в пакете Statistica документа,
следует повторить указанные операции, установив переключатель Открыть последний файл.
41
Ситуация определяется состоянием флажков, которые устанавливаются при
выполнении следующих операций:
Команда Сервис  Параметры  Вкладка Добытчик данных .
Флажок Отображать все используемые проекты Добытчика данных на стартовой панели
Statistica  Флажок Отображать в рабочем окне панель Добытчика данных)  Кнопка ОК .
Рис. 2.2. Окно с пустой таблицей данных
Рис. 2.3. Пример окна пакета Statistica с открытым документом
42
Если в параметрах пакета действует переключатель Пустое окно, после загрузки программы Statistica открывается окно, представленное на рис. 2.4. Система меню окна включает команды:
Файл, Вид, Анализ, Графика, Сервис, Справка
Рис. 2.4. Пустое окно пакета Statistica
С командой Файл связано меню, позволяющее создать новый или открыть
существующий документ пакета,
получить
доступ
к
внешним данным, задать параметры
печати,
открыть
файл последнего сохраненного документа или завершить
работу с пакетом (рис. 2.5).
Меню
команды
Вид
обеспечивает задание панелей инструментов, отобража-
Рис. 2.5. Меню команды Файл с раскрытым списком
Внешние данные
емых в окне, наличие строки состояния и возможность захвата (выделения и копирования в буфер обмена) окна или его прямоугольных фрагментов для последующей вставки, например, в текстовый или табличный документ (рис. 2.6).
Меню команды Анализ позволяет реализовать практически все функциональные возможности пакета по статистической обработке и различным видам анализа
данных, включая множественную регрессию, дисперсионный анализ, многомерный
разведочный анализ (факторный, кластерный, канонический, дискриминантный и
др.), а также добычу данных и использование технологии нейросетей (рис. 2.7).
43
Команда Графика открывает меню реализации графических возможностей пакета, обеспечивая построение различных графиков и диаграмм на основе обрабатываемых данных, как типовых, реализованных в MS Excel, так и специализированных,
имеющих место в задачах статистической обработки информации (рис. 2.8).
Рис. 2.6. Меню команды Вид с раскрытым списком команды Панели инструментов
Рис. 2.7. Меню команды Анализ с раскрытым списком команды Многомерный
разведочный анализ
44
Меню команды Сервис открывает доступ к настройкам пакета и заданию параметров его функционирования, возможностям создания и обработки макросов, а
также дополнительным возможностям анализа данных (рис. 2.9).
Команда Справка обеспечивает доступ к электронному руководству Statistica с
основными вкладками Содержание и Указатель (вызов дублируется нажатием
функциональной клавиши [F1]), глоссарию – описанию упорядоченных по алфавиту
терминологических понятий, используемых в статистике, статистическому советнику, электронному учебнику StatSoft и мультимедийному учебнику (возможно представленных на английском языке), а также к другой справочной информации, в
частности ссылке на сайт разработчика пакета – компании StatSoft (рис. 2.10).
Заглавное окно электронного руководства Statistica представлено на рис. 2.11.
Рис. 2.8. Меню команды График с раскрытым списком команды 2М Графики
45
Рис. 2.9. Меню команды Сервис с раскрытым списком команды Макрос
Рис. 2.10. Меню команды Справка с раскрытым списком Мультимедийный учебник
46
47
Рис. 2.11. Окно электронного руководства Statistica
2.2. ПРИМЕР АНАЛИЗА ДАННЫХ В ПАКЕТЕ STATISTICA
Опишем технологию проведения многофакторного анализа в пакете STATISTICA. Воспользуемся постановкой задачи и исходными данными, приведенными в
учебном пособии [1].
Имеются некоторые сведения о населении в 52 странах мира (рис. 2.12).
Рис. 2.12. Демографическая характеристика стран мира
Требуется изучить линейную (в среднем) зависимость результативного признака Y — ожидаемой продолжительности жизни мужчины (в годах) в разных странах от пяти факторных признаков — регрессоров:
x(1) — среднего числа детей в семье;
x(2) — ВВП на душу населения (в долл. США по покупательной способности
валют);
x(3) — плотности населения (в чел. на кв. км);
x(4) — процента грамотных;
x(5) — рождаемости на 1000 чел.
48
Для решения указанной задачи подготовим в MS Excel таблицу, отражающую
исходные данные (рис. 2.13). Сохраним файл7.
Рис. 2.13. Фрагмент листа Excel с исходными данными (стиль R1C1)
Далее последовательно выполним операции.
1. Запустим пакет STATISTICA.
2. Выполним команды импорта данных:
Команда Файл  Открыть  Найти и выделить файл с исходными данными  Кнопка
Открыть  Импортировать выбранный лист в таблицу данныхВыбрать нужный лист  ОК 
Указать диапазон импортируемых данных: столбцы с 2 по 9, строки с 1 по 53. Флажок Имена
переменных из первой строки  ОК
7
При работе с пакетом STATISTICA следует иметь в виду, что ранние версии пакета позволяли обрабатывать
файлы MS Excel с расширением .xls.
49
Результат выполнения импорта представлен на рис. 2.14.
Рис. 2.14. Окно пакета STATISTICA с импортированными данными
3. Выполним многофакторный анализ данных для установления зависимостей:
Команда Анализ  Многомерный разведочный анализ  Факторный анализ 
Задать переменные для анализа: (Y и Х(1) – х(5)) 
Выбрать вариант анализа данных и установить его параметры
Полученные результаты обработки - расчетные значения, таблицы, графики
следует тщательно проанализировать с целью заключения научно-обоснованных
решений. Результаты анализа можно сохранить в виде отдельных файлов пакета.
Примеры аналитических документов пакета STATISTICA приведены на рис.
2.15 – 2.17.
50
Рис. 2.15. Результаты корреляции между факторами
Рис. 2.16. Средние и стандартные отклонения
Рис. 2.17. Итог регрессии для зависимой переменной X(1)
51
ЗАКЛЮЧЕНИЕ
В ходе обучения в ИППК были освоены технология применения встроенных
функций MS Excel для решения статистических задач, а также технология работы в
среде пакета STATISTICA.
Полученные знания и навыки предполагается использовать в учебном процессе – при преподавании дисциплины «Профессиональные компьютерные программы» для студентов бакалавриата, обучающихся по направлению
040100.62
«Социология».
Планируется также издание в текущем году авторского учебного пособия
«Бизнес-аналитика средствами Excel».
52
ЛИТЕРАТУРА
1
Соловьев В.И. Методы оптимальных решений: Учебное пособие.-М.: Финансовый университет, 2012. -155 с.
2
Калинина В. Н., Соловьев В. И. Компьютерный практикум по
прикладной статистике и основам эконометрики. : учебное пособие для студентов вузов – М.: Вега-Инфо, 2010. – 140 с.
3
.Гобарева Я.Л, Городецкая О.Ю., Золотарюк А.В. Технология
экономических расчетов средствами MS Excel. Учебное пособие.–М.: КноРус, 2006.-344 c.
4
Гобарева Я.Л, Городецкая О.Ю., Золотарюк А.В. Решение финансово-экономических задач средствами Excel. Учебное пособие.–
М.: Финансовая академия при Правительстве РФ, 2006.-248 c.
5
Электронный
ресурс
–
сайт
компании
StatSoft:
http://www.statsoft.ru/
6
Электронный ресурс – сайт проф В.И. Соловьева: http://v-is.pro/viewpage.php?page_id=31
53
ПРИЛОЖЕНИЕ
Информация о статистических функциях MS Excel 2010
Статистические функции – Statistical (97 функций).
F.ОБР
F.INV
Возвращает значение, обратное F-распределению вероятности.
F.ОБР .ПХ
F.INV.RT
Возвращает значение, обратное (правостороннему) Fраспределению вероятностей.
F.РАСП
F.DIST
Возвращает F-распределение вероятности (распределение Фишера).
F.РАСП.ПХ
F.DIST.RT
Возвращает правый хвост F-распределения вероятности для
двух наборов данных.
F.ТЕСТ
F.TEST
Возвращает результат F-теста, двустороннюю вероятность того,
что разница между дисперсиями аргументов «массив1» и «массив2» несущественна.
PEARSON
PEARSON
Возвращает коэффициент корреляции Пирсона.
Z.ТЕСТ
Z.TEST
Возвращает одностороннее P-значение z-теста.
БЕТА.ОБР
BETA.INV
Возвращает обратную функцию к интегральной функции плотности бета-распределения вероятности (БЕТА.РАСП).
БЕТА.РАСП
BETA.DIST
Возвращает функцию бета-распределения.
БИНОМ.ОБР
BINOM.INV
Возвращает наименьшее значение, для которого интегральное
биномиальное распределение больше заданного значения критерия или равно ему.
БИНОМ.РАСП
BINOM.DIST
Возвращает отдельное значение биномиального распределения.
ВЕЙБУЛЛ.РАСП WEIBULL.DIST
Выдает распределение Вейбулла.
ВЕРОЯТНОСТЬ
PROB
Возвращает вероятность того, что значение из диапазона находится внутри заданных пределов.
ГАММА.ОБР
GAMMA.INV
Возвращает значение, обратное гамма-распределению.
ГАММА.РАСП
GAMMA.DIST
Возвращает гамма-распределение.
ГАММАНЛОГ
GAMMALN
Возвращает натуральный логарифм гамма функции Г(x).
ГАМВозвращает значение, обратное гамма-распределению.
МАНЛОГ.ТОЧН
ГИПЕРHYPGEOM.DIST Возвращает гипергеометрическое распределение числа успехов
ГЕОМ.РАСП
в выборке.
ДИСП.В
VAR.S
Оценивает дисперсию по выборке. Логические значения и текст
игнорируются.
ДИСП.Г
VAR.P
Вычисляет дисперсию для генеральной совокупности. Логические значения и текст игнорируются.
ДИСПА
VARA
Оценивает дисперсию по выборке, включая числа, текст и логические значения.
ДИСПРА
VARPA
Вычисляет дисперсию для генеральной совокупности, включая
числа, текст и логические значения.
54
ДОВЕРИТ.НОРМ CONFIDENCE.NO Возвращает доверительный интервал для среднего значения по
RM
генеральной совокупности, используя нормальное распределение.
ДОВЕCONFIDENCE.T
Возвращает доверительный интервал для среднего значения по
РИТ.СТЬЮДЕНТ
генеральной совокупности, используя распределение Стьюдента.
КВАДРОТКЛ
DEVSQ
Возвращает сумму квадратов отклонений точек данных от их
среднего.
КВАРТИЛЬ.ВКЛ QUARTILE.INC
Возвращает квартиль набора данных на основе значений процентиля от 0 до 1 (включительно).
КВАРТИЛЬ.ИСКЛ QUARTILE.EXC
Возвращает квартиль набора данных на основе значений процентиля от 0 до 1, исключая эти числа.
КВПИРСОН
RSQ
Возвращает квадрат коэффициента корреляции Пирсона.
КОВАРИАЦИЯ.В COVARIANCE.S
Возвращает ковариацию выборки, т. е. среднее произведений
отклонений для каждой пары точек в двух наборах данных.
КОВАРИАЦИЯ.Г COVARIANCE.P
Возвращает ковариацию совокупности, т. е. среднее произведений отклонений для каждой пары точек в двух наборах данных.
КОРРЕЛ
CORREL
Возвращает коэффициент корреляции между двумя множествами данных.
ЛГРФПРИБЛ
LOGEST
Возвращает параметры экспоненциального тренда
ЛИНЕЙН
LINEST
Возвращает параметры линейного тренда.
ЛОГНОРМ.ОБР LOGNORM.INV
Возвращает обратное логарифмическое нормальное распределение.
ЛОГНОРМ.РАСП LOGNORM.DIST Возвращает интегральное логарифмическое нормальное распределение.
МАКС
MAX
Возвращает максимальное значение из списка аргументов.
МАКСА
MAXA
Возвращает максимальное значение из списка аргументов,
включая числа, текст и логические значения.
МЕДИАНА
MEDIAN
Возвращает медиану заданных чисел.
МИН
MIN
Возвращает минимальное значение из списка аргументов.
МИНА
MINA
Возвращает минимальное значение из списка аргументов,
включая числа, текст и логические значения.
МОДА.НСК
MODE.MULT
Возвращает вертикальный массив из наиболее часто встречающихся (повторяющихся) значений в массиве или диапазоне
данных.
МОДА.ОДН
MODE.SNGL
Возвращает наиболее часто встречающееся или повторяющееся
значение в массиве или интервале данных.
НАИБОЛЬШИЙ LARGE
Возвращает k-ое наибольшее значение из множества данных.
НАИМЕНЬШИЙ SMALL
Возвращает k-ое наименьшее значение в множестве данных.
НАКЛОН
SLOPE
Возвращает наклон линии линейной регрессии.
НОРМ.ОБР
NORM.INV
Возвращает обратное нормальное распределение для указанного среднего и стандартного отклонения.
НОРМ.РАСП
NORM.DIST
Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения.
55
НОРМ.СТ.ОБР
NORM.S.INV
НОРМ.СТ.РАСП
NORM.S.DIST
НОРМАЛИЗАЦИЯ
ОТРБИНОМ.РАСП
ОТРЕЗОК
STANDARDIZE
ПЕРЕСТ
PERMUT
ПРЕДСКАЗ
ПРОЦЕНТИЛЬ.ВКЛ
ПРОЦЕНТИЛЬ.ИСКЛ
ПРОЦЕНТРАНГ.ВКЛ
ПРОЦЕНТРАНГ.ИСКЛ
ПУАССОН.РАСП
РАНГ.РВ
FORECAST
PERCENTILE.INC
РАНГ.СР
RANK.AVG
РОСТ
GROWTH
СКОС
СРГАРМ
СРГЕОМ
СРЗНАЧ
СРЗНАЧА
SKEW
HARMEAN
GEOMEAN
AVERAGE
AVERAGEA
Возвращает обратное значение стандартного нормального распределения.
Возвращает стандартное нормальное интегральное распределение.
Возвращает нормализованное значение.
NEGBINOM.DIST Возвращает отрицательное биномиальное распределение.
INTERCEPT
PERCENTILE.EXC
PERCENTRANK.INC
PERCENTRANK.EXC
POISSON.DIST
RANK.EQ
СРЗНАЧЕСЛИ
СРЗНАЧЕСЛИМН
СРОТКЛ
AVEDEV
СТАНДОТКЛОН.В
STDEV.S
Возвращает отрезок, отсекаемый на оси линией линейной регрессии.
Возвращает количество перестановок для заданного числа объектов.
Возвращает значение линейного тренда.
Возвращает k-ую процентиль для значений диапазона, где k —
число от 0 и 1 (включая эти числа).
Возвращает k-ую процентиль для значений диапазона, где k —
число от 0 и 1 (не включая эти числа).
Возвращает ранг значения в наборе данных как процентное содержание в наборе данных (от 0 до 1, включая эти числа).
Возвращает ранг значения в наборе данных как процентное содержание в наборе данных (от 0 до 1, не включая эти числа).
Возвращает распределение Пуассона.
Возвращает ранг числа в списке чисел, то есть его величину относительно других значений в списке. Если несколько значений
имеют одинаковый ранг, возвращается наивысший ранг этого
набора значений.
Возвращает ранг числа в списке чисел, то есть его величину относительно других значений в списке. Если несколько значений
имеют одинаковый ранг, возвращается среднее.
Возвращает значения в соответствии с экспоненциальным
трендом.
Возвращает асимметрию распределения.
Возвращает среднее гармоническое.
Возвращает среднее геометрическое.
Возвращает среднее арифметическое аргументов.
Возвращает среднее арифметическое аргументов, включая числа, текст и логические значения.
Возвращает среднее значение (среднее арифметическое) всех
ячеек в диапазоне, которые соответствуют данному условию.
Возвращает среднее значение (среднее арифметическое) всех
ячеек, которые соответствуют нескольким условиям.
Возвращает среднее абсолютных значений отклонений точек
данных от среднего.
Оценивает стандартное отклонение по выборке. Логические
значения и текст игнорируются.
56
СТАНДОТSTDEV.P
КЛОН.Г
СТАНДОТКЛОНА STDEVA
T.DIST
Вычисляет стандартное отклонение по генеральной совокупности.
Оценивает стандартное отклонение по выборке, включая числа,
текст и логические значения.
Вычисляет стандартное отклонение по генеральной совокупности, включая числа, текст и логические значения.
Возвращает стандартную ошибку предсказанных значений y
для каждого значения x в регрессии.
Возвращает левостороннее обратное t-распределение Стьюдента.
Возвращает двустороннее обратное t-распределение Стьюдента.
Возвращает t-распределение Стьюдента.
T.DIST.2T
Возвращает двустороннее t-распределение Стьюдента.
T.DIST.RT
Возвращает правостороннее t-распределение Стьюдента.
T.TEST
COUNT
COUNTIF
Возвращает вероятность, соответствующую t-тесту Стьюдента.
Подсчитывает количество чисел в списке аргументов.
Подсчитывает количество непустых ячеек, удовлетворяющих
заданному условию внутри диапазона.
Подсчитывает количество значений в списке аргументов.
Подсчитывает количество пустых ячеек в заданном диапазоне.
СТАНДОТКЛОН- STDEVPA
ПА
СТОШYX
STEYX
СТЬЮДЕНТ.ОБР T.INV
СТЬЮДЕНТ.ОБР.2Х
СТЬЮДЕНТ.РАСП
СТЬЮДЕНТ.РАСП.2Х
СТЬЮДЕНТ.РАСП.ПХ
СТЬЮДЕНТ.ТЕСТ
СЧЁТ
СЧЁТЕСЛИ
T.INV.2T
СЧЁТЗ
СЧИТАТЬПУСТОТЫ
ТЕНДЕНЦИЯ
УРЕЗСРЕДНЕЕ
ФИШЕР
ФИШЕРОБР
ХИ2.ОБР
COUNTA
COUNTBLANK
TREND
TRIMMEAN
FISHER
FISHERINV
CHISQ.INV
Возвращает значения в соответствии с линейным трендом.
Возвращает среднее внутренности множества данных.
Возвращает преобразование Фишера.
Возвращает обратное преобразование Фишера.
Возвращает значение, обратное левосторонней вероятности
распределения хи-квадрат.
ХИ2.ОБР.ПХ
CHISQ.INV.RT
Возвращает значение, обратное правосторонней вероятности
распределения хи-квадрат.
ХИ2.РАСП
CHISQ.DIST
Возвращает левостороннюю вероятность распределения хиквадрат.
ХИ2.РАСП.ПХ
CHISQ.DIST.RT
Возвращает правостороннюю вероятность распределения хиквадрат.
ХИ2.ТЕСТ
CHISQ.TEST
Возвращает тест на независимость.
ЧАСТОТА
FREQUENCY
Возвращает распределение частот в виде вертикального массива.
ЭКСП.РАСП
EXPON.DIST
Возвращает экспоненциальное распределение
ЭКСЦЕСС
KURT
Возвращает эксцесс множества данных.
Статистические функции – категория совместимости с версиями Excel 2007 и более ранними
(39 функций).
FРАСП
FDIST
Возвращает F-распределение вероятности.
57
FРАСПОБР
FINV
ZТЕСТ
БЕТАОБР
ZTEST
BETAINV
БЕТАРАСП
BETADIST
БИНОМРАСП
BINOMDIST
ВЕЙБУЛЛ
ГАММАОБР
ГАММАРАСП
ГИПЕРГЕОМЕТ
ДИСП
ДИСПР
ДОВЕРИТ
WEIBULL
GAMMAINV
GAMMADIST
HYRGEOMDIST
VAR
VARP
CONFIDENCE
КВАРТИЛЬ
КОВАР
QUARTILE
COVAR
КРИТБИНОМ
CRITBINOM
ЛОГНОРМОБР
LOGINV
ЛОГНОРМРАСП LOGNORMDIST
МОДА
НОРМОБР
НОРМРАСП
НОРМСТОБР
MODE
NORMINV
NORMDIST
NORMSINV
НОРМСТРАСП
NORMSDIST
ОТРБИНОМРАСП
ПЕРСЕНТИЛЬ
ПРОЦЕНТРАНГ
ПУАССОН
РАНГ
СТАНДОТКЛОН
СТАНДОТКЛОНП
NEGBINOMDIST
PERCENTILE
PERCENTRANK
POISSON
RANK
STDEV
STDEVP
СТЬЮДРАСП
TDIST
СТЬЮДРАСПОБР TINV
Возвращает обратное значение для F-распределения вероятности.
Выдает двустороннее P-значение z-теста.
Возвращает обратную функцию к интегральной функции плотности бета-вероятности.
Возвращает
интегральную
функцию
плотности
бетавероятности.
Возвращает отдельное значение биномиального распределения.
Выдает распределение Вейбулла.
Возвращает обратное гамма-распределение.
Возвращает гамма-распределение.
Возвращает гипергеометрическое распределение.
Оценивает дисперсию по выборке.
Вычисляет дисперсию для генеральной совокупности.
Возвращает доверительный интервал для среднего значения по
генеральной совокупности.
Возвращает квартиль множества данных.
Возвращает ковариацию, то есть среднее произведений отклонений для каждой пары точек.
Возвращает наименьшее значение, для которого биномиальная
функция распределения меньше или равна заданному значению.
Возвращает обратное логарифмическое нормальное распределение.
Возвращает интегральное логарифмическое нормальное распределение.
Возвращает значение моды множества данных.
Возвращает обратное нормальное распределение.
Возвращает нормальную функцию распределения.
Возвращает обратное значение стандартного нормального распределения.
Возвращает стандартное нормальное интегральное распределение.
Возвращает отрицательное биномиальное распределение.
Возвращает k-ую персентиль для значений из интервала.
Возвращает процентную норму значения в множестве данных.
Возвращает распределение Пуассона.
Возвращает ранг числа в списке чисел.
Оценивает стандартное отклонение по выборке.
Вычисляет стандартное отклонение по генеральной совокупности.
Возвращает t-распределение Стьюдента.
Возвращает обратное t-распределение Стьюдента.
58
ТТЕСТ
TTEST
ФТЕСТ
ХИ2ОБР
FTEST
CHIINV
ХИ2РАСП
CHIDIST
ХИ2ТЕСТ
ЭКСПРАСП
CHITEST
EXPONDIST
Возвращает вероятность, соответствующую критерию Стьюдента.
Возвращает результат F-теста.
Возвращает обратное значение односторонней вероятности
распределения хи-квадрат.
Возвращает одностороннюю вероятность распределения хиквадрат.
Возвращает тест на независимость.
Возвращает экспоненциальное распределение
59
Скачать