АНАЛИЗ ЗАВИСИМОСТЕЙ 241 Следующим этапом будет построение доверительной области для линии регрессии и значений зависимой переменной. Доверительная область для линии регрессии Обычно мы не знаем истинных величин коэффициентов регрессии α и β. Нам известны только их оценки а и b. Иначе говоря, истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Мы вычислили доверительные интервалы для коэффициентов регрессии. Можно вычислить доверительную область и для самой линии регрессии. На рис. 8.7А показана 95% доверительная область для выборки с рис. 8.3. Как видим, это довольно узкая полоса, которая несколько расширяется при крайних значениях х. Мы знаем, что при любом значении независимой переменной х соответствующие значения зависимой переменной у распределены нормально. Средним является значение уравнения регрессии ŷ . Неопределенность его оценки характеризуется стандартной ошибкой регрессии: 1 (x − X ) . + n ( n − 1) s X2 2 s yˆ = s y| x В отличие от стандартных ошибок, с которыми мы имели дело до сих пор, s ŷ при разных х принимает разные значения: чем дальше х от выборочного среднего X , тем она больше. Теперь можно вычислить 100(1 – α)-процентный доверительный интервал для значения уравнения регрессии в точке х: yˆ − tα s yˆ < y < yˆ + tα s yˆ , где tα — критическое значение с ν = n – 2 степенями свободы, а ŷ — значение уравнения регрессии в точке х: yˆ = a + bx. Итак, мы получили уравнение для кривых, ограничивающих доверительную область линии регрессии (см. рис. 8.3). С заданной вероятностью, обычно 95%, можно утверждать, что истин- 242 ГЛАВА 8 Рис. 8.7. А. 95% доверительная область для линии регрессии (по выборке с рис. 8.3). ная линия находится где-то внутри этой области. Обратите внимание, что три точки из десяти оказались вне доверительной области. Это совершенно естественно, поскольку речь идет о доверительной области линии регресии, а не самих значений (доверительная область для значений гораздо шире). Авторы медицинских публикаций нередко приводят доверительную область линии регрессии и говорят о ней так, как будто это — доверительная область значений. Это примерно то же самое, что выдавать стандартную ошибку среднего за характеристику разброса значений, путая ее со стандартным отклонением. Например, из рис. 8.7А видно, что средний вес марсиан ростом 40 см с вероятностью 95% окажется между 11,0 и 12,5 г — из этого АНАЛИЗ ЗАВИСИМОСТЕЙ 243 Рис. 8.7. Б. 95% доверительная область для значений. Если мы хотим определить вес марсианина по его росту, нам следует воспользоваться именно этой доверительной областью. вовсе не следует, что в этих пределах окажется вес 95% марсиан такого роста. Теперь займемся доверительной областью для значений зависимой переменной. Доверительная область для значений Разброс значений складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии. Характеристикой разброса значений вокруг линии регрессии является остаточное стандартное отклонение sy|x, а неопределен- ГЛАВА 8 244 ности положения линии регрессии — стандартная ошибка регрессии s ŷ . Дисперсия суммы двух величин равна сумме дисперсий, поэтому sY = s y2| x + s y2ˆ . Подставив в эту формулу выражение для s ŷ из предыдущего раздела, получим: 1 (x − X ) 1+ + . n ( n − 1) s X2 2 sY = s y| x Тогда 100(1 – α)-процентный доверительный интервал для зависимой переменной yˆ − tα sY < y < yˆ + tα sY . Заметьте, что входящие в это неравенство величины ŷ и sY зависят от х. На рис. 8.7Б изображена полученная по этой формуле 95% доверительная область для значений зависимой переменной. В эту область попадет 95% всех возможных значений веса марсиан любого роста. Например, с вероятностью 95% можно утверждать, что любой 40-сантиметровый марсианин весит от 9,5 до 14,0г. СРАВНЕНИЕ ДВУХ ЛИНИЙ РЕГРЕССИИ Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно сделать тремя способами. • Сравнить коэффициенты наклона b, • Сравнить коэффициенты сдвига a. • Сравнить линии в целом. В первых двух случаях следует воспользоваться критерием Стьюдента. Если нужно проверить, значимо ли различие в наклоне двух прямых регрессии, критерий Стьюдента t вычисляется по формуле: