1 Лабораторная работа № 5 Дисперсионный анализ 1. Подготовка к работе Изучить способы исследования взаимосвязи данных, разбитых на группы, с помощью дисперсионного анализа. 2. Контрольные вопросы 2.1. Что такое дисперсионный анализ? 2.2. Как вычислить p–значение для F-теста? 2.3. Однофакторный (односторонний) дисперсионный анализ. Требования для проведения данного анализа в Microsoft Excel относительно категориальных данных. 2.4. Что такое сумма квадратов ошибок? 2.5. Дайте определения терминам «внутригрупповая сумма квадратов» и «межгрупповая сумма квадратов». 2.6. Однофакторный дисперсионный анализ и анализ регрессии. Индикаторы. 2.7. Двухфакторный дисперсионный анализ. Модель влияния для двухфакторного дисперсионного анализа. 2.8. Как определить величину достоверности аппроксимации R2? 2.9. Что такое сбалансированные данные? 3. Задания на выполнение лабораторной работы 3.1. Задание 1. Однофакторный дисперсионный анализ Для выполнения данного задания использовать приложение 1 к лабораторной работе, в котором собраны данные о стоимости различного типа оборудования. Для этих данных необходимо: а) Сформулировать нулевую и альтернативную гипотезы. b) Выполнить односторонний дисперсионный анализ, предварительно преобразовав исходную таблицу в таблицу, в которой Стоимость идентифицируется категориальной переменной Тип оборудования. По полученному дисперсионному анализу сделать выводы о принятии или отвержении нулевой гипотезы. Определить величину достоверности аппроксимации R2. c) Произвести дисперсионный анализ с помощью анализа регрессии, исключив индикатор для оборудования «Obsl». Сравнить полученные данные с данными из п. b. 3.2. Задание 2. Двухфакторный дисперсионный анализ 1. С помощью функции Excel вычислите p-значение для F-теста с учетом варианта (таблица 1), где значение F-статистки – F, числитель количества степеней свободы – df1, знаменатель количества степеней свободы – df2. Таблица 1 № вар. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 F 2.5 3.0 3.5 4.0 4.5 2.5 3.0 3.5 4.0 4.5 5.0 5.0 5.5 5.5 df1 10 10 10 10 10 20 20 20 20 20 20 10 20 10 df2 20 20 20 20 20 10 10 10 10 10 10 20 10 20 2. Для выполнения данного задания использовать приложение 2 к лабораторной работе, в котором собраны данные о системе, обрабатывающей заявки на обслуживания пакетов данных в зависимости от количества новых заявок и производительности системы. В данном случае использовалось два фактора: количество новых заявок и производительность системы. 2 Количество новых заявок поступающих в систему обработки либо меньше или равно 30 (код 0), либо больше 30 (код 1). Производительность системы имеет три уровня: 15 заявок в минуту (код 0), 10 заявок в минуту (код 1), 5 заявок в минуту (код 2). Приведено также количество заявок до обработки и поступления новых и после обработки. Для этих данных необходимо: a) Создать двухфакторную таблицу с помощью инструмента модуля StatPlus. Поместите значения производительности системы (т.е. количество обрабатываемых заявок) в столбцах таблицы, значения количества новых заявок – в строках таблицы, а значения количества заявок – на пересечении строк и столбцов. b) Проанализируйте данные в двухфакторной таблице с помощью инструмента Двухфакторный дисперсионный анализ с повторением модуля Анализ данных. Заметно ли значительное взаимодействие между производительностью системы и количеством новых заявок на обслуживание, а также влияние этого взаимодействия на количество заявок? c) Создайте новую переменную Изменение, которая обозначает изменение количества заявок на обслуживание. Повторите действия, выполненные в предыдущих пунктах, для новой переменной и сделайте выводы о взаимодействии факторов и влиянии этого взаимодействия на обслуживание. 4. Методические указания Для выполнения лабораторной работы необходимо загрузить подключаемый модуль StatPlus. Кроме того, для корректного действия данного модуля нужно установить на компьютере региональный стандарт Английский (США). Для этого в системе Windows следует выбрать команду Пуск Панель управления, затем в диалоговом окне Панель управления нужно выбрать элемент Язык и региональные стандарты, после чего во вкладке Региональные параметры диалогового окна Язык и региональные стандарты выбрать в списке элемент Английский (США). Выполнение лабораторной работы целесообразно начинать с изучения приведенных в методических указаниях примеров. 4.1. Пример выполнения задания 1 Для данных, приведенных на рис. 1, в которых отражена стоимость за различные услуги, предоставляемые той или иной телекоммуникационной компанией, необходимо выполнить однофакторный дисперсионный анализ. Рис.1. Рабочая книга «Услуги» Предварительно необходимо привести имеющиеся данные к нужной структуре, т.е. создать отдельные столбцы с числовыми значениями для каждой из категории. Для разбивки данных из разных групп по разным столбцам необходимо выбрать команду меню StatPlus – Manipulate Columns – Unstack Column. 3 Рис.2. Диалоговое окно Unstack Column После разбивки данных по разным столбцам с разными категориями они будут выглядеть так, как на рис.3. Рис. 3. Данные после разбивки по категориям Для проведения дисперсионного анализа необходимо выполнить следующее: Анализ данных – Однофакторный дисперсионный анализ – Указывается входной интервал, по которым производится анализ. Рис.4. Результат дисперсионного анализа Для выполнения дисперсионного анализа с помощью анализа регрессии можно создать переменные-индикаторы для данных. Переменные-индикаторы принимают значения 1 или 0 в зависимости от того, относятся данные к определенной группе или нет. Для создания переменных-индикаторов необходимо: Меню StatPlus – Manipulate Columns – Create Indicator Columns (StatPlus – Операции со столбцами – Создать столбцы с индикаторами). Рис.5. Столбцы с переменными-индикаторами Для подгонки модели влияния с помощью анализа регрессии необходимо: Анализ данных – Регрессия – Входной интервал (анализируемая переменная) и выходной интервалы (переменные-индикаторы). 4 Рис.6. Результат дисперсионного анализа Интерпретация полученных результатов изложена в лекции по данному материалу. 4.2. Пример выполнения задания 2 Для вычисления p-значения F-распределения необходимо воспользоваться функцией FРАСП(F; df1; df2) программы Excel, где F – значение F–статистики, df1 - количество степеней свободы фактора, df2 - количество степеней свободы члена ошибки. Перед выполнением двухфакторного дисперсионного анализа необходимо также привести данные к требуемому виду (пример рис.7). Рис.7. Двухфакторная таблица с данными поставщиков услуг Двухфакторную таблицу можно создать с помощью команды Two-Way Table (Создать двухфакторную таблицу) модуля StatPlus. Чтобы осуществить двухфакторный дисперсионный анализ, необходимо Анализ данных – Двухфакторный дисперсионный анализ/ Двухфакторный дисперсионный анализ с повторениями (в поле Число строк для выборки ввести количество повторов). Рис.8. Результат двухфакторного дисперсионного анализа Интерпретация полученных результатов изложена в лекции по данному материалу.