Новая математическая модель линейной регрессии между двумя физическими величинами с учетом их случайных погрешностей Щелканов Николай Николаевич г. Томск 1 Введение в проблему Y Y = K0 + K1 X (1) K1 Y XY X (2) K1 Y 1 X XY (3) X Y XY X 1 K1 2 XY 1 K1 Y X 2 XY Y X X Y Y X X Y X Y Y X 2 Y X 4 2XY X Y (4) 2 Y X X Y 2 4 XY X Y Y X Y X K 0 K1 Y X (5) (6) 2 Новый подход Y = K0 + K1 X • (1) где Y=Y0+Y, X=X0+X Y 2Y 2Y0 K 0 K1 (7) X 2X 2X 0 Величины X0 и Y0 находятся из решения системы двух уравнений X0Y0 X0 Y0 X0 X0 2X0 где X0Y0 находится из соотношения 2X0 Y0 Y0 XY X Y =X0Y0 X0 Y0 2Y0 2Y0 (8) (9) (10) 3 Y X K 0 K1 Y B X A где (11) A 1 X 0 Y0 2X 1 2X 2X (1 2 ) 1 XY X 1 2Y 2Y (12) B 1 X 0 Y0 2Y 1 2Y 2Y (1 2 ) 1 XY Y 1 2X 2X (13) Выражение (11) приведем к виду (1) Y B Y K 0 Y B K1 X K 0 K1 X X A (14) Результаты Y B 1 K1 X A 2 XY 2 A B A B 2 4 XY (15) B A B A 4 Анализ 1. X0Y0 = 1 K1 Y 1 X 2 XY Y X X Y X Y Y X 2 Y X X Y 4 2XY (16) X Y Y X 2. X0Y0 = 1, X = 0 и Y 0 3. X0Y0 = 1, Y = 0 и X 0 Y K1 XY X (17) Y 1 K1 X XY (18) 5 4. X0Y0 = 1, X = Y 0 K1 5. 1 2 XY X Y X Y Y X X Y Y X 2 (19) 4 XY X Y Y K1 X 2 (20) Формулу (20) можно рекомендовать к использованию при отсутствии информации о величинах случайных погрешностей X и Y. 6 Границы применимости регрессии Y на X Y K1 XY X 10000 1000 |1/ХУ-ХУ|*100, % Y 1 K1 X XY 100 Y 10 1 0,1 X 0,01 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 При XY>0,99 максимальная погрешность в коэффициенте регрессии не превышает 1%, при XY>0,9 - 22%, при XY<0,6 >100%, а при XY<0,1 - >1000%. 1,0 ХУ 7 Диапазон изменчивости коэффициента регрессии X0Y0 = 1 y x y X0Y0 < 1 x xy K 1 xy y x 1 xy y 1 K1 x xy (21) (22) Решаемые задачи Y0 Y0 X0 Y0 X0 X0 8 Сравнение результатов расчета коэффициента регрессии К1 0,12 0,10 II I+II II+III I+II+III Shch =0.33 =0.71 =0.72 =0.84 0,08 (1.06), км -1 III 0,06 II 0,04 I 0,02 0,00 0,00 0,02 0,04 0,06 (0.48), км Y B 1 K1 X A 2 XY 0,08 0,10 0,12 -1 2 A B A B 2 4 XY B A B A 9 1 K1 Y X 2 XY Y X X Y X Y Y X 0,12 0,12 0,10 0,10 0,08 (1.06), км 0,06 0,02 0,04 II I 0,02 I 0,02 0,06 0,04 II 0,04 III -1 III -1 (1.06), км ORT STR 0,08 0,00 0,00 Y X X Y 4 2XY X Y Y X 2 0,06 (0.48), км 1 K1 2 XY 0,08 0,10 0,12 0,00 0,00 0,02 0,04 0,06 (0.48), км -1 Y X X Y 0,08 0,10 0,12 -1 Y X 4 2XY X Y 2 10 Y K1 X Y K1 XY X 0,12 0,12 YX 0,10 I+II+III II+III I+II 0,08 (1.06), км -1 III 0,06 II 0,04 0,02 0,04 III 0,06 II 0,04 I 0,02 0,00 0,00 II y/x -1 0,08 (1.06), км 0,10 I 0,02 0,06 (0.48), км 0,08 -1 0,10 0,12 0,00 0,00 0,02 0,04 0,06 (0.48), км 0,08 0,10 0,12 -1 11 Выводы • 1. Получена обобщенная формула, позволяющая находить коэффициенты регрессии линейного уравнения для общего случая, когда разброс точек в корреляционной связи двух величин обусловлен как их случайными погрешностями так и неконтролируемыми физическими факторами. • 2. Показано, что все известные выражения для коэффициентов регрессии являются частными случаями полученной формулы. • 3. Определены условия использования известных выражений линейной регрессии. 12 Уровень значимости коэффициента корреляции 1,0 0,9 0,8 0,7 99.9% 0,6 0,5 99% 0,4 95% 0,3 0,2 0,1 0,0 10 100 Размерность массива 1000 Зависимости уровня значимости коэффициента корреляции от размерности массива для трех значений доверительной вероятности – 95, 99 и 99.9%. 13