Лекции по прикладной математике. Часть 2. Статистика ─ Отображение данных эксперимента ─ Числовые характеристики выборки 1. Зачем и почему? • • • • Описать текущее положение дел Предложить модель для получения результатов эксперимента Оценить неопределенность Принимать решения от качества результатов измерений или наблюдений качество выводов Числовые данные получаются в результате измерений или наблюдений. Источник наблюдений или измерений называется популяцией или генеральной совокупностью. Задача статистики - на основе анализа выборки сделать вывод о свойствах всей популяции. 2 1. Зачем и почему? Пример 1. Загрязнение воздуха – серьезная проблема крупных городов и промышленных зон. Принимая решение о том, что измерять, необходимо учитывать временные ограничения, стоимость и точность измерительных систем. Один хороших индикаторов степени загрязнения – концентрация озона (берется проба воздуха и оценивается количество вещества, кг/м3) каждый измерительный процесс ошибки измерений (систематические и случайные) Пример 2. Iphone выходит из строя при температуре воздуха около -500С. Здесь имеет значение то, имеем ли мы дело с -500С ± 1 или -500С ± 10. для уменьшения неопределенности планирование эксперимента 3 1. Зачем и почему? Пример 3. Исследуется влияние температуры и времени на осуществление химической реакции. Экспериментатор предполагает, что время осуществления химической реакции будет одним и тем же при различных температурах. Подход 1: однофакторный анализ. Фиксировать температуру, выбрать 3 интервала времени, определить степень осуществления 3-х химических реакций за каждый интервал. Фиксировать время, определить степень осуществления 3-х химических реакций при 2-х различных температурах. Из 15 наблюдений получается: средняя степень осуществления при фиксированной температуре и при фиксированном времени. Подход 2: двухфакторный анализ. Для каждой пары Время\Температура определить степень осуществления химической реакции. Достаточно 12 наблюдений для получения более точных результатов. 4 2. Способы отображение данных эксперимента. Одномерные данные Одномерные данные содержат только один признак, регистрируемый для каждого наблюдения. Способ 1: Гистограмма 1. Определить объем выборки N, MIN и MAX значение в выборке. 2. Выбрать число (непересекащихся) интервалов группировки (равной длины). 3. Посчитать число наблюдений, попадающих в каждый интервал. 4. Построить гистограмму (высота столбика = число наблюдений / N). Объем выборки Число интервалов до 50 от 50 до 100 от 100 до 200 от 200 до 500 от 500 до 1000 5 6-10 8-12 10-15 12-20 5 2. Способы отображение данных эксперимента. Одномерные данные Пример 4. Компания организует доставку товаров на грузовиках. Эти грузовики либо арендуе т, либо берет в лизинг. Компания заинтересована в минимизации времени, в течение которо го грузовик занят перевозкой груза (а точнее в составлении оптимального расписания). Гистограмма, изображающая данные наблюдений в течение 4 месяцев за тем, сколько дней грузовик был занят перевозкой груза. Какие можно отметить особенности данных наблюдений? 6 2. Способы отображение данных эксперимента. Одномерные данные Пример 5. Имеется диоксид кремния (силика), который используется как наполнитель в производстве резины. Тестируется его удельная поверхность (м2/г). Результаты наблюдени й представлены в виде гистограммы. Какие можно отметить особенности данных наблюдений? 7 2. Способы отображение данных эксперимента. Одномерные данные Одномерные данные содержат только один признак, регистрируемый для каждого наблюдения. Способ 2: Диаграмма (графическое изображение динамики данных наблюдений) 1. Выбрать данные и отобразить их в декартовой системе координат: ось оХ – номер наблюдения, ось оУ – значение наблюдения. 2. Соединить точки линиями. 3. Если по оси оХ откладывать момент (времени) получения наблюдения можно исследовать временные зависимости между данными наблюдений. 8 2. Способы отображение данных эксперимента. Двумерные данные Двумерные данные содержат данные о двух признаках, регистрируемых для каждого наблюдения. Данные о каждом признаке можно рассматривать как отдельный набор одномерных данных. Способ 1: Диаграмма рассеяния (scatter plot) Используется для графического выявления связи между признаками. 1. Выбрать данные X и Y. 2. Каждую пару (i,j) отметить как точку в декартовой системе координат (по оси Ох – значен ие i, по оси Оу – значение j). 9 2. Способы отображение данных эксперимента. Двумерные данные Пример 7. Производители автомобильной краски должны тестировать как цвет краски, так и ее долговечность. Некоторые тесты на долговечность проводятся на тестовых панелях, кото рые помещаются в морозильную камеру. Суть теста: проверить характеристики краски при температуре -10С. Для этого сначала панель помещается в морозильную камеру, затем извл екается из нее. Далее засекается (в сек.) сколько времени уходит на то, чтобы она согрелас ь до температуры -10С. За это время нужно успеть поместить панель в тестировочный компл екс. Для тестирования были выбраны 1 панель от производителя и 1 отремонтированная панель. Данные тестирования изображены на диаграммах рассеяния. Какие можно отметить особенности данных наблюдений? 10 2. Способы отображение данных эксперимента. Задача 1. Получить данные о потреблении горячей\холодной воды за 3-хлетний период. (по месяцам). Построить гистограмму (используя различное число интервалов). Построить диагр амму динамики потребления. Какие можно отметить особенности данных наблюдений? Постр оить диаграмму рассеяния для горячей и холодной воды. 11