Статистика Часть III: Проверка гипотез Задача 20 Пациент утверждает, что он потребляет всего 2000 калорий в день, но диетолог подозревает, что реальная цифра выше. Врач-диетолог планирует проверить, что ест пациент, в течение 30 дней и будет отвергать заявление пациента, если в результате 30-дневного теста среднее потребление пищи превысит 2100 калорий. Если стандартное отклонение (в калориях в день) составляет 350, какова вероятность того, что врач-диетолог будет ошибочно отвергать истинные заявления пациента? Задача 21 Градостроители хотят проверить утверждение, что среднее время парковки в центре города лишь 47 минут. Они составили таблицу продолжительности стоянок для 225 клиентов и, если среднее время не превышает 50 минут, то они согласятся с утверждением. Если утверждение не верно, и истинное среднее составляет 51 минуту, то какова вероятность того, что случайная выборка приведет к ошибочному согласию с утверждением? Предположим, что стандартное отклонение в длительности стоянки 27 минут. Задача 22 Владелец местного ресторана утверждает, что лишь 15% туристов останавливаются более, чем на 2 дня. Представители торгово-промышленной палаты уверены, что реальный процент выше. Они планируют опросить 100 туристов и хотят утверждать, что если хотя бы 18 пребывают больше 2 дней, то владелец ресторана не прав. Какова вероятность ошибочного опровержения утверждения владельца ресторана в этом случае? Доверительный интервал Параметр = Оценка ± C ∙ SE, C = критическое значение SE = стандартная ошибка μ= X̄ ±Z α /2⋅SE , SE= σ √ √n p(1− p ) p= ̂p ±Z α/2⋅SE , SE = n Критическое значение 0.025 0.95 0.025 z=1.96 Задача 20 пересмотренная Пациент утверждает, что он потребляет всего 2000 калорий в день, но диетолог подозревает, что реальная цифра выше. Диетолог проверил прием пациентом пищи в течение 30 дней и обнаружил, что 30-дневное среднее равно 2100 калорий. Чему равен 95% доверительный интервал для среднего количества калорий в рационе пациента? Стандартное отклонение 350 калорий в день. Проверка гипотез H0 – нулевая гипотеза HA – альтернативная гипотеза В суде: H0: Человек не виновен HA: Человек виновен На приеме врача: H0: Пациент болен HA: Пациент здоров Ошибки I/II рода Ошибки I рода (α) Это ошибка отказа от нулевой гипотезы, когда она верна (признать виновным невиновного при презумпции невиновности) Ошибки II рода (β) Это ошибка неотклонения нулевой гипотезы, когда она на самом деле ложная (признать виновного невиновным) Решающее правило Выборка – набор чисел Решающее правило (критерий) отвергает или принимает нулевую гипотезу для каждой мыслимой выборки Иногда мы будем совершать ошибку первого рода Иногда мы будем совершать ошибку второго рода (Конечно, много раз мы будем правы) Ошибки I/II рода Фактическое состояние наркоман не наркоман Тест показывает: "наркоман" True Positive False Positive Type I error Тест показывает: "не наркоман" False Negative Type II error True Negative P-value Если бы то, что мы предполагаем в нулевой гипотезе, было верно, то какова была бы вероятность видеть то, что мы видим в выборке (это, или еще «хуже»)? Решающее правило Решающее правило = функция от n чисел со значениями «принять» или «отвергнуть». В математической статистике выборка – n одинаково распределённых независимых случайных величин. Часто нулевая гипотеза является простой, то есть состоит в том, что эти с.в. распределены по некоторому заранее известному закону. Можно определить вероятность ошибки I рода: принимаем нулевую гипотезу, тогда решающее правило можно рассматривать как случайную величину и определена вероятность ответа «отвергнуть». Решающее правило Обычная формула решающего правила: Определяется статистика, то есть функция от наблюдений (выборки) с числовыми значениями. Задаётся порог, то есть некоторое число. Решающее правило: отвергнуть нулевую гипотезу, если значение статистики больше порога, принять в противном случае. P-value Если бы нулевая гипотеза была верна, то какова была бы вероятность видеть то, что мы видим в выборке (это, или еще «хуже»)? Чтобы определить P-value, нужна только статистика (без порога). Вместо порога на статистику часто задаётся порог на P-value. Малые P-value показывают, что вы видите чтото очень необычное с точки зрения H0 (при условии, что H0 верна) Пример (простой парный критерий) Рассмотрели 769 ортологичных пар белков E.coli и B.subtilis. В 422 парах полипептидная цепь белка из E.coli оказалась длиннее, а в 311 случаях — короче. Каково P-value утверждения, что между бактериями имеется различие в длинах полипептидных цепей ортологичных белков? Пример (простой парный критерий) В 422 парах полипептидная цепь белка из E.coli оказалась длиннее, а в 311 случаях — короче. Каково P-value утверждения, что между бактериями имеется различие в длинах полипептидных цепей ортологичных белков? Нулевая гипотеза — большая и меньшая длины цепи равновероятны, а наблюдаемое различие случайно. Вероятность в 733 испытаниях с двумя равновероятными исходами получить 311 или меньше наблюдений одного из исходов равна примерно 0,0000235. Чтобы получить P-value, надо умножить это число на 2, поскольку мы заранее не знали, какой исход получит преимущество. Ответ: P-value = 0,000047 Проверка гипотез P-value зависит от статистики и выборки α вместе со статистикой порождают решающее правило: H0 отклоняется, если P-value < α α представляет собой вероятность ошибки I рода для такого решающего правила Проверка гипотез P-value зависит от статистики и выборки α вместе со статистикой порождают решающее правило: H0 отклоняется, если P-value < α α представляет собой вероятность ошибки I рода для такого решающего правила (точнее, эта вероятность не превосходит α) Задача 23 Станция технического обслуживания заявляет, что на замену глушителя его механикам требуется в среднем всего 15 минут. Группа потребителей сомневается и проводит тест с использованием 49 автомобилей, которым требуются новые глушители. В этой выборке среднее время составило 16,25 минуты со стандартным отклонением в 3,5 минуты. Это сильное свидетельство против заявления? Двухвыборочное среднее Две независимые выборки, X1,…, Xn and Y1, …,Ym имеют независимые выборочные средние √ 2 2 σ X σY SE( X̄ −Ȳ )= + n m 1 1 ̄ ̄ SE( X −Y )=σ + , если σ X =σ Y n m √ Двухвыборочная пропорция Двухвыборочная пропорция √ p1 (1− p 1 ) p2 (1− p 2 ) SE( ̂p1 − ̂p 2 )= + n m Задача 24 Историк считает, что средний рост солдат Второй мировой войны был больше, чем у солдат Первой мировой войны. Он рассматривает случайную выборку записей из 100 солдат каждой войны и отмечает стандартное отклонение 2,5 и 2,3 дюйма для I-й мировой войны и II-й мировой войны, соответственно. Если средняя высота в выборке солдат II-й мировой войны составляет на 1 дюйм больше, чем в выборке I-й мировой войны, какой вывод оправдан в двухвыборочном тесте, где H0: μ1 = μ2 против HA: μ1 <μ2 ? Доверительный интервал Проверка гипотезы: кофеварка должна давать 227 мл кофе в чашку. В моей выборке 10 чашек, и я получаю в среднем лишь 200 мл. Можно ли утверждать, что среднее количество кофе на чашку меньше, чем надо? Доверительные интервалы: В примере – 10 чашек кофе содержат в среднем по 200 мл жидкости на чашку. Какова вероятная оценка среднего количества кофе в чашке? Проверка гипотез и построение доверительных интервалов – взаимно обратные задачи Задача 22 вариант Торговая палата заинтересована в процентах посещения туристов с проживанием более двух дней в определенном отеле. Опросили 100 туристов и обнаружили, что 18 из них остаются дольше, чем на 2 дня. Чему равен 99% доверительный интервал для процента посещения туристов, которые остаются в течение более 2 дней? Задача 24 В случайной выборке из 300 школьников, 225 сказали, что они управляют своим временем эффективно, тогда как в аналогичной выборке 270 студентов колледжа всего 108 чувствовали, что они эффективно управляют своим времени. Чему равен 99% доверительный интервал оценки для разности долей школьников и студентов, которые думают, что они эффективно управляют временем? Задача 25 Медицинский исследователь считает, что прием 1000 мг витамина С в день приведет к уменьшению числа простуд по сравнению с ежедневным приемом 500 мг. В группе из 50 добровольцев, принимавших 1000 мг в день, количество простуд на человека во время зимнего сезона дало среднее 1,8 с дисперсией 1,5. Аналогичные данные от группы из 60 добровольцев, принимавших 500 мг в день, показали в среднем 2,4 простуды на человека с дисперсией 1,6. Чему равно P-value этого теста? Откуда берется σ? Стандартное отклонение, как правило, неизвестно Если объем выборки велик (n> 40), то можно предположить, что стандартное отклонение выборки аппроксимирует стандартное отклонение (σ) достаточно хорошо Если размер выборки мал, то это предположение уже не действует, то есть ошибка выборки при оценке σ не может быть проигнорирована Известное/неизвестное σ σ неизвестно известно Z Малая выборка Большая выборка t Z t-распределение Стьюдента ̄ −μ X Z= σ /√n ̄ −μ X t= s/√n t-распределение Стьюдента t-распределение Стьюдента – однопараметрическое распределение. Параметр – число степеней свободы Число степеней свободы = размер выборки − 1 Если число степеней свободы велико, то t-распределение близко к N(0;1) Таблица t-распределения Число степеней свободы = размер выборки - 1 Задача 26 В статье «Использование марихуаны и гнев» (Journal of Psychology, 1988, т. 122, стр. 33) Сью Стоунер сообщил, что в выборке из 17 потребителей марихуаны среднее и стандартное отклонение по шкале выражения гнева – 42,72 и 6,05 соответственно. Проверьте, значимо ли отличие от неупотребляющих (среднее 41,6). Какие предположения необходимы, чтобы для указанных условий испытание считалось действительным? T-тест: предположения Случайность выборки (как и для Z-теста) Нормальная генеральная совокупность (в отличие от Zтеста, где выборочное среднее автоматически распределено нормально независимо от распределения генеральной совокупности, когда объем выборки велик). Число степеней свободы = число независимых наблюдений минус один. Задача 27 Отделение физкультуры в больнице зафиксировало пульс пяти бегунов в состоянии покоя 60, 58, 59, 61 и 67, соответственно, в то время как для семи нетренированных людей – 83, 60, 75, 71, 91, 82 , и 84. Установите 99% доверительный интервал для разницы в пульсе между бегунами и нетренированными. (Средние равны 61 и 78, станд. отклонения – 3,54 и 10,23, соответственно) Предположение равных дисперсий Предположим, что обе генеральные совокупности имеют одинаковые стандартные отклонения (например, количество физических упражнений влияет на среднее значение, а не на его стандартное отклонение) SE( X̄ −Ȳ )= √ 2 σX m 1 1 ̄ ̄ SE( X −Y )=σ + если σ X =σ Y n m √ n + 2 σY √ 2 2 (n−1) s x+ ( m−1) s y σ̂ =s p = n+ m−2 Степени свободы = min{n,m}-1 Степени свободы =n+m-2 Задача 27 вариация Отделение физкультуры в больнице зафиксировало пульс пяти бегунов в состоянии покоя 60, 58, 59, 61 и 67, соответственно, в то время как для семи нетренированных людей – 83, 60, 75, 71, 91, 82 , и 84. Установите 99% доверительный интервал для разницы в пульсе между бегунами и нетренированными. Предположите равные дисперсии. Задача 28 Исследователь полагает, что новая диета должна увеличить вес лабораторных мышей. Если десять контрольных мышей на старой диете весили 4 унции со стандартным отклонением в 0,3 унции, в то время как вес десяти мышей на новой диете был 4,8 унции со стандартным отклонением в 0,2 унции, чему равно P-значение для утверждения о приросте веса? FAQs Надо ли делить на корень из n? Надо ли делить на корень из n в одно или двухвыборочном тесте? Да, если Вы ищете P(X>100) Нет, если Вы ищете P(X>100) Нет. Если используется стандартная ошибка, то на корень уже поделили Надо ли делить на корень из n при вычислении стандартного отклонения? Да, если вычисления основаны на выборочном среднем. Нет, если нужно стандартное отклонение самих наблюдений Оценка σ X̄ − μ z= σ / √n X̄ −μ t n−1 = s/√n s χ 2n−1 = 2 ( n−1) σ2 Таблица распределения хи-квадрат Задача 29 Поставщик кремниевых пластин утверждает, что его процесс изготовления может производить пластины с достаточной стабильностью так, что стандартное отклонение сопротивления пластин не превышает 10 Ом/см. Оценка стандартного отклонения по выборке из 10 пластин, взятых из партии, дала значение 13,97 Ом/см. Разумны ли претензии к поставщикам? Оценка необходимого размера выборки Каков минимальный размер выборки, необходимых для оценки совокупности в пределах 2 единиц? Каков минимальный размер выборки, необходимых для оценки совокупности в пределах 2 %? Задача 30 Электрическая фирма, которая производит определенный тип ламп, хочет оценить их среднее время жизни. Если предположить, что жизнь лампочки нормально распределена и известно стандартное отклонение, равное 40 часам, то сколько ламп надо проверить, чтобы быть на 90% уверенными, что оценка не будет отличаться от истинного среднего жизни более чем на 10 часов? Задача 31 Инженер по контролю качества хочет оценить долю дефектных ламп в крупной партии. Из прошлого опыта он знает, что фактическая доля дефектных ламп должна быть где-то около 0,2. Насколько большая выборка должна быть проверена, если он хочет оценить реальную долю с точностью 0,02 и 95% доверительным интервалом? Задача 32 Многие телезрители выражают сомнение по поводу обоснованности определенных рекламных роликов. Пусть истинная доля потребителей, которые верят в рекламу телевидения, равна р. Если рекламщики не имеют предварительной информации относительно истинного значения р, сколько потребителей должны быть включены в опрос, чтобы быть на 85% уверенным, что их оценка находится в пределах 0,03 истинного значения р?