Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования ИРКУТСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Кафедра нефтегазового дела Контрольная работа по дисциплине «СТАТИСТИЧЕСКИЙ АНАЛИЗ И ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА» Вариант №42 Выполнил: студент группы НДбз-18-2 Носков В.А Проверил преподаватель: Шмаков А. К. Иркутск 2022 г. 1 СТАТИСТИЧЕСКИЙ АНАЛИЗ СЛУЧАЙНЫХ ВЕЛИЧИН 1.1. Статистический анализ одномерной последовательности случайных величин Цель работы: приобрести компетенции статистического анализа одномерной последовательности случайных величин. Задание: 1. Подготовить исходные данные. 2. Построить вариационный, статистический, группированный ряды. 3. Построить гистограмму, полигон, кумуляту, огиву. 4. Определить относительные частоты последовательности. 5. Определить: среднее арифметическое (по вариационному ряду), средневзвешенное (по группированному ряду), моду, медиану, дисперсию (по группированному ряду); среднее квадратическое отклонение, коэффициент вариации. 6. Рассчитать в программе Excel характеристики описательной статистики для заданной последовательности случайных величин. 1. Исходные данные В качестве исходных данных принято количество агрегатов в работе, таблица 1.1. Таблица 1.1- Кпес. - песчанистость, Ккар ~ карбонатность. № п.п. Ккар% Кпес. % 1. 12 81 2. 13,2 66 3. 12 54 4. 7 76 5. 13 52 6. 11 81 7. 11 48 8. 10 74 9. 9 28 10. 10 80 11. 12 51 12. 13 50 13. 13 51 14. 13 54 15. 19 55 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 10 9 10 12 13 13 13 19 13 13 13 12 13,2 12 7 13 74 28 80 51 50 51 54 55 52 82 85 81 66 54 76 52 2 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 13 13 13 12 13,2 12 7 13 11 11 52 82 85 81 66 54 76 52 81 48 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 11 11 10 9 10 12 13 13 13 19 81 48 74 28 80 51 50 51 54 55 Средствами программы Excel рассчитаны характеристики описательной статистики заданной последовательности значений случайной величины, числовые значения которых приведены на рисунке 1.1. Среднее Стандартная ошибка Медиана Мода Стандартное отклонение Дисперсия выборки Эксцесс Асимметричность Интервал Минимум Максимум Сумма Счет 12,01176 0,343747 12 13 2,454844 6,026259 2,661977 0,747956 12 7 19 612,6 51 Рисунок 1.1 – Характеристики описательной статистики случайной величины 2. Вариационный ряд Вариационный ряд – последовательность, записанная в возрастающем порядке Для заданной последовательности случайных величин вариационный ряд показан в таблице 1.2. 3 Таблица 1.2- Карбонатность %. № п/п Ккар% № п/п Ккар% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 12 13,2 12 7 13 11 11 10 9 10 12 13 13 13 19 13 13 13 12 13,2 12 7 13 11 11 10 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 9 10 12 13 13 13 19 13 13 13 12 13,2 12 7 13 11 11 10 9 10 12 13 13 13 19 Характеристики вариационного ряда: максимальное значение ряда Хmax = 19; минимальное значение ряда Xmin = 7; размах ряда определяется по формуле: R = Xmax – Xmin = 19-7=12. 3. Характеристики статистических рядов 4 Статистический ряд – перечень вариант и соответствующих им частот или относительных частот. 3.1. Группированный статистический ряд Группированный статистический ряд - ряд, в который, группируются значения с одинаковыми величинами. Группированный статистический ряд для заданных исходных данных приведен в табл. 1.3. Таблица 1.3 - Группированный статистический ряд Хi ni 7 3 9 3 10 6 11 6 12 9 13 18 13,2 3 19 3 Графическое представление статистических характеристик группированного ряда Гистограмма для группированного ряда. Гистограмма - представляет собой столбиковую диаграмму частот. Гистограмма по заданным значениям группированного ряда показана на рисунке 1.2. 5 4,5 5 5 5 5 5 5 5 5 5 5 62,5 71 78,6 81,4 82,7 86,7 88,2 90,8 92,8 94 4 Частота, n 3,5 3 2,5 2 1,5 1 0,5 0 Значение, Хi Рисунок 1.2 - Гистограмма для группированного ряда Полигон для группированного ряда 5 Полигон – один из способов графического представления плотности вероятности случайной величины. Представляет собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов. Полигон для группированного ряда показан на рисунке 1.3. 5 5 5 5 5 5 5 5 5 5 5 4,5 4 Частота, n 3,5 3 2,5 2 1,5 1 0,5 0 62,5 71 78,6 81,4 82,7 86,7 88,2 90,8 92,8 94 Значение, Хi Рисунок 1.3 – Полигон для группированного ряда Кумулята для группированного ряда. Кумулята – один из способов графического представления плотности вероятности случайной величины. Представляет собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и накопленных частот этих интервалов. Кумулята для группированного показан на рисунке 1.4. 50 Накопленная частота 45 40 35 30 25 20 15 10 5 62,5 67,5 72,5 77,5 82,5 87,5 92,5 значение, Хi Рисунок 1.4 – Кумулята для группированного ряда Огива для группированного ряда. 6 Огива – строится аналогично кумуляте с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака — на оси ординат. Огива для группированного ряда показана на рисунке 1.5. 92,5 87,5 значение, Хi 82,5 77,5 72,5 67,5 62,5 5 10 15 20 25 30 35 40 45 50 Накопленная частота Рисунок 1.5 – Огива для группированного ряда Статистические характеристики группированного ряда Объем выборки группированного ряда. Объем выборки – это количество элементов случайной величины, которые подлежат изучению. Объём выборки определяется по формуле: N=∑𝑛𝑖=1 𝑛𝑖 , где ni – частоты i-го интервала, а n – число значений в ряде. При заданных значениях ряда получим: N= 5+5+5+5+5+5+5+5+5+5=51. Относительная частота. Относительна частота - отношение частоты повторения конкретного значения случайной величины, относительно объема выборки. Относительна частота определяется по формуле: W = ni/n, где ni – частота i-го интервала (всего 8); n – общий объем выборки. 7 Для первого значения ряда получим: W = 3/51 = 0,059. Значения относительных частот приведены в таблице 1.4. Таблица 1.4- Относительные частоты для группированного ряда Частота повторе- Сумма n Относительная Сумма относиний частота W тельной частоты 3 0,059 3 0,059 6 0,118 51 1 6 0,118 9 0,176 18 0,353 3 0,059 3 0,059 Среднее арифметическое группированного ряда. Среднее арифметическое ряда - разновидность среднего значения. Определяется как число, равное сумме всех чисел группированного ряда, делённой на их количество (объем выборки). Среднее арифметическое ряда определяется по формуле: ∑𝑥 Xср= , 𝑛 где х – значение в группированном ряде (всего 51 значение) n – количество значений (объем выборки) Для заданных исходных данных получим: Xср= ∑𝑥 𝑛 = (7 + 7 + 7 + 9 + 9 + 9 + 10 + 10 + 10 + 10 + 10 + 10 + 11 + 11 + 11 + 11 + 11 + 11 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13 + 13,2 + 13,2 + 13,2 + 19 + 19 + 19)/51=12,01 Средневзвешенное группированного ряда. Средневзвешенное значение статистического ряда – разновидность среднего значения. Определяется как число, равное сумме произведений значений случайной величины и частоты ее повторения, делённой на сумму частот повторений. Средневзвешенное значение статистического ряда определяется по формуле: 𝑥1𝑖∗𝑛2+𝑥2𝑖∗𝑛2𝑖+𝑥3𝑖∗𝑛3𝑖+⋯+ 𝑥𝑖∗𝑛𝑖 X= , 𝑛1𝑖+𝑛2+𝑛3𝑖+⋯+ 𝑛𝑖 8 где 𝑥1𝑖- значение варианта, 𝑛2 – частота повторения этого варианта в ряде от первого до i-го значения. Для заданных исходных данных получим: X= 7∗3+9∗3+10∗6+11∗6+12∗9+13∗18+13,2∗3+19∗3 3+3+6+6+9+18+3+3 = 12,01 Мода группированного ряда Мода – значение во множестве наблюдений, которое встречается наиболее часто. Модой для группированного ряда будут является несколько значений с частотой равной четырем: M = 13. Медиана группированного ряда. Медианой называется – элемент выборки, который делит пополам вариационный ряд на две части с одинаковым числом вариантов в каждой. Медиана (m0,5) – это значение СВ, которое делит вариационный ряд ограниченную кривой распределения, на две равные части. Медиана для группированного ряда рассчитывается по формуле: Me = (11+13)/2=12. Дисперсия группированного ряда. Дисперсия – это среднее арифметическое значение квадратов отклонений отдельных вариантов от их среднего арифметического. Дисперсия может быть рассчитана по формуле: D = 𝜎2 = 1 𝑛−1 ∑𝑘𝑖=1{ (𝑥𝑖 − 𝑥ср)2 ∗ 𝑛𝑖}, где xi – i–й элемент группированного ряда; xcp – среднее арифметическое значение ni – частота повторения значения i-го значения в ряде. n – число значений случайной величины (частота). Данные для расчета дисперсии для других групп ряда приведены в таблице 1.5. Таблица 1.5 – Данные для расчета дисперсии ряда 9 Номер группировки ряда Значения СВ, Хi Частоты ni 1 2 3 4 5 6 7 8 7 9 10 11 12 13 13,2 19 3 3 6 6 9 18 3 3 Среднее арифметическое 12,01 (xi-xср)2*nt 1/(n-1) 75,3003 27,1803 24,2406 6,1206 0,0009 17,6418 522,72 1083 1/50 Тогда дисперсия для группированного ряда определится так: D = 𝜎 2 = =(75,3003+27,1803+24,2406+6,1206+0,0009+17,6418+522,72+1083)/50= 1756,205/49 = 35,12. Среднее квадратическое отклонение группированного ряда. Среднее квадратическое отклонение – это значение корня квадратного из дисперсии. Среднее квадратическое отклонение рассчитывается по формуле: σ = √𝐷 , где D – дисперсия группированного ряда Для заданных исходных данных получим: σ = √𝐷 = √35,12 =5,92 Коэффициент вариации группированного ряда Коэффициент вариации – это величина, равная отношению среднеквадратичного отклонения случайной величины к среднему значению (среднему арифметическому) выраженная в процентах. Коэффициент вариации определяется по формуле: δ= 𝜎 хср ∗ 100% где хср − среднее арифметическое значение 𝜎 – среднее квадратичное. Для заданных исходных данных получим: δ= 5,92 12,01 ∗ 100% = 0,493%. 10 Средствами программы Excel рассчитаны характеристики описательной статистики группированного ряда, числовые значения которых приведены на рисунке 1.6. Среднее Стандартная ошибка Медиана Мода Стандартное отклонение Дисперсия выборки Эксцесс Асимметричность Интервал Минимум Максимум Сумма Счет 11,775 1,267978 11,5 #Н/Д 3,586383 12,86214 1,982104 1,014113 12 7 19 94,2 8 Рисунок 1.6 – Характеристики описательной статистики Вывод. Расчеты произведены вручную для группированного ряда сходятся с описательной статистикой, полученной в Exсel по исходным данным, но отличаются от данных рисунка 1.6 по причине не учитывания частот. 3.2. Интервальный статистический ряд Интервальный ряд – ряд, группировка в котором выполняется по количеству попаданий в интервал. Для построения интервального ряда примем количество интервалов t = 8. Ширина интервалов определяется по формуле: rt = R/t + Δt, где - R – размах вариационного ряда; t – количество интервалов; Δ – малая величина, позволяющая исключить повтор границ интервалов. При заданных исходных данных получим: 11 rt = 12/8+0,0001=1,5 В таблице 1.6 показаны значения границ интервалов и средние значения величин каждого интервала. Таблица 1.6 – Значения границ интервалов Номер интервала, t Значение левой границе интервала Значение правой границе интервала Среднее значение случайной величины в интервале 1 2 3 4 5 6 7 8 7 8,5 10 11,5 13 14,5 16 17,5 8,5 10 11,5 13 14,5 16 17,5 19 11,25 13,5 15,75 18 20,25 22,5 24,75 27 Интервальный ряд представлен в таблице 1.7. Таблица 1.7 - Интервальный ряд Номер интервала 1 2 3 4 5 6 7 8 Среднее значение xi Частоты попадания в интервал Накопленная частота 11,25 13,5 15,75 18 20,25 22,5 24,75 27 3 3 12 9 21 0 0 3 3 6 18 27 48 0 0 51 Графическое представление статистических характеристик ряда Гистограмма интервального ряда. 12 Гистограмма по средним значениям интервального ряда показана на рисунке 1.7. Полигон интервального ряда. Полигон для интервального ряда показан на рис. 1.8 Кумулята интервального ряда. Кумулята для интервального ряда показан на рисунке 1.9. Огива интервального ряда. Огива для интервального ряда показана на рисунке 1.10. 25 21 Частота, n 20 15 12 9 10 5 3 3 3 0 0 22,5 24,75 0 11,25 13,5 15,75 18 20,25 27 Среднее значение, Хср Рисунок 1.7 - Гистограмма для интервального ряда 25 ЧАСТОТА, N 20 15 10 5 0 11,25 13,5 15,75 18 20,25 22,5 24,75 27 СРЕДНЕЕ ЗНАЧЕНИЕ, ХСР Рисунок 1.8 – Полигон для интервального ряда 13 50 накопленная частота 40 30 20 10 0 11,25 13,25 15,25 17,25 19,25 21,25 23,25 25,25 Средние значения хср Рисунок 1.9 – Кумулята для группированного ряда 25,25 накопленная частота 23,25 21,25 19,25 17,25 15,25 13,25 11,25 0 10 20 30 40 50 Средние значения хср Рисунок 1.10 – Огива для интервального ряда Статистические характеристики интервального ряда. Объем выборки интервального ряда. При заданных значениях интервального ряда получим объём выборки: N= 3+3+12+9+21+0+0+3= 51 14 Относительная частота интервального ряда. Для первого значения интервального ряда получим: W = 3/51 = 0,058 Значения относительных частот приведены в таблице 1.8. Таблица 1.8- Относительные частоты для группированного ряда Частота Сумма n 3 3 12 9 21 0 0 3 Относительная частота W 0,059 0,059 0,235 0,176 0,412 0 0 0,059 51 Сумма относительной частоты 1 Среднее арифметическое интервального ряда. Для заданных исходных данных получим: Xср = + + 11,25+11,25+13,5+13,5+13,5+15,75+15,75+15,75+15,75+15,75+15,75 51 + +15,75+15,75+15,75+15,75+15,75+15,75+18+18+18+18+18+18+18+18+18+20,25+20,25 51 +20,25+20,25+20,25+20,25+20,25+20,25+20,25+20,25+20,25+20,25+20,25+20,25+20,25 + 51 + + +20,25+20,25+20,25+20,25+20,25+20,25+27+27+27 = 18,26 51 Средневзвешенное интервального ряда. Для заданных исходных данных получим: X= 11,2∗3+13,5∗3+15,75∗12+18∗9+20,25∗21+27∗3 3+3+12+9+21+3 = 18,26 Мода интервального ряда. Мода для интервального ряда и для заданного ряда случайной величины имеет одно значение с частотой 21 M = 20,25 Медиана интервального ряда. 15 Медиана для интервального ряда имеет значение: Me = (18+18)/2 = 18. Дисперсия интервального ряда. Расчетные значения дисперсии для интервального ряда приведены в таблице 1.9. Таблица 1.9 – Расчет дисперсии ряда Номер интерСреднее Частоты ni вала значение xt 1 2 3 4 5 6 7 8 11,25 13,5 15,75 18 20,25 22,5 24,75 27 3 3 12 9 21 0 0 3 Среднее арифметическое 18,26 (xi-xср.ар)2*nt 147,42 67,97 75,60 0,61 83,16 0,00 0,00 229,16 1/(n-1) 1/50 Тогда дисперсия для интервального ряда примет значение: D = 12,07 Среднее квадратическое отклонение интервального ряда Для заданных исходных данных получим: σ = √𝐷 = √5,406 =3,47. Коэффициент вариации интервального ряда Для заданных исходных данных получим: δ= 3,47 18,26 ∗ 100% = 0,19 % Характеристики описательной статистики интервального ряда. Средствами программы Excel рассчитаны характеристики описательной статистики заданного ряда. Для корректного расчета данных характеристик построим полный интервальный ряд для средних значений случайной величины в табл. 1.10. Таблица 1. 10- Полный интервальный ряд 11,25 13,5 15,75 15,75 18 18 20,25 20,25 20,25 20,25 27 11,25 15,75 15,75 15,75 18 18 20,25 20,25 20,25 20,25 11,25 15,75 15,75 15,75 18 20,25 20,25 20,25 20,25 20,25 13,5 15,75 15,75 18 18 20,25 20,25 20,25 20,25 27 13,5 15,75 15,75 18 18 20,25 20,25 20,25 20,25 27 16 Числовые значения, рассчитанные в программе Excel, приведены на рисунке 1.11. Среднее Стандартная ошибка Медиана Мода Стандартное отклонение Дисперсия выборки Эксцесс Асимметричность Интервал Минимум Максимум Сумма Счет 18,26470588 0,486655844 18 20,25 3,475417876 12,07852941 0,997659533 0,303961766 15,75 11,25 27 931,5 51 Рисунок 1.11 – Характеристики описательной статистики Вывод. Сравнив расчеты, полученные вручную и расчеты на ПК, я пришел к выводу, что они выполнены корректно. 17 2.1 Статистический анализ двумерной последовательности случайных величин Цель работы. Освоить компетенции выполнения статистического анализа двумерных данных, выявить зависимость (связь) между случайными величинами. 2.1.1 Исходные данные В качестве исходных данных принято двух последовательных случайных величин: первая – агрегаты в работе, % вторая – коэффициент использования. Исходные данные представлены в таблице 2.1. Таблица 2.1 – Исходные данные № п.п. Ккар% Кпес. % 26. 10 74 1. 12 81 27. 9 28 2. 13,2 66 28. 10 80 3. 12 54 29. 12 51 4. 7 76 30. 13 50 5. 13 52 31. 13 51 6. 11 81 32. 13 54 7. 11 48 33. 19 55 8. 10 74 34. 13 52 9. 9 28 35. 13 82 10. 10 80 36. 13 85 11. 12 51 37. 12 81 12. 13 50 38. 13,2 66 13. 13 51 39. 12 54 14. 13 54 40. 7 76 15. 19 55 41. 13 52 16. 13 52 42. 11 81 17. 13 82 43. 11 48 18. 13 85 44. 10 74 19. 12 81 45. 9 28 20. 13,2 66 46. 10 80 21. 12 54 47. 12 51 22. 7 76 48. 13 50 23. 13 52 49. 13 51 24. 11 81 50. 13 54 25. 11 48 51. 19 55 Примем: в качестве аргумента Xi - карбонатность; 18 в качестве функции Yi – песчанистость. Взаимосвязь между двумя случайными величинами может быть оценена следующими методами: 1) Визуальный метод 2) Корреляционный анализ 3) Регрессионный анализ 2.1.2 Визуальный анализ Визуальный метод – это анализ в основе которого лежит зрительное восприятие человеком данных, изображенных в виде графиков, диаграмм или гистограмм и т.д., позволяющее дать предварительную оценку этим данным, до проведения вычислений. По данным таблицы 2.1 построен точечный график (рис. 2.1). 90 80 70 60 Y 50 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 X Рисунок 2.1 – Точечный график Вывод: визуально определена разрозненность точек, что предварительно означает, что зависимость слаба. 2.1.3. Корреляционный анализ Корреляционная зависимость – статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). Корреляционный анализ выполнен с помощью пакета «Анализ данных» 19 программы Excel, результаты которого показаны в таблице 2.2. Таблица 2.1 - Результаты корреляционного анализа Ккар%, X Ккар%, X 1 Кпес. %, Y -0,149780993 Кпес. %, Y -0,149780993 1 Вывод: Предварительные выводы из визуального анализа подтвердились, связь отрицательная слабая (таблица Чеддока). 2.1.4. Регрессионный анализ Регрессионный анализ – определяет форму (вид) связи между этими переменными. Регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, Y на основании X), или показывает, как можно управлять одной переменной с помощью другой. Регрессионный анализ заданных последовательностей выполнен с помощью режима Регрессия пакета «Анализ данных» программы MS Excel. Сгенерируются результаты по регрессионной статистике, представленные в таблице 2.3. Таблица 2.3- Результаты регрессионного анализа ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0,149781 R-квадрат 0,022434 Нормированный R-квадрат 0,002484 Стандартная ошибка 15,66512 Наблюдения 51 Дисперсионный анализ df SS MS F Значимость F Регрессия 1 275,9503736 275,9503736 1,124510613 0,294148421 Остаток 49 12024,40257 245,3959708 Итого 50 12300,35294 20 Y-пересечение Переменная X 1 Коэффициенты Стандартная ошибка t-статистика 73,083 35 11,05977 217 0,902453 475 0,9569 9 Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0% 6,60803421 2,68632E1 08 50,85790 858 95,3088 50,85791 95,308 8 1,06042944 0,294148 8 421 2,770536 395 0,85656 -2,77054 0,8565 6 P-Значение Рассчитанные в таблицах характеристики представляют собой: Множественный R — коэффициент корреляции R отражающий взаимосвязь двух и более случайных величин; R-квадрат — коэффициент детерминации R 2 — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными; Нормированный R-квадрат – скорректированный R2 с поправкой на число степеней свободы. Стандартная ошибка — остаточное стандартное отклонение реальных значений от прогнозируемых. Наблюдения — число наблюдений n. df — число степеней свободы. 1. Для строки Регрессия число степеней свободы определяется количеством факторных признаков m: kф=m=1. 2. Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регресси: kо = n (m+1). 3. Для строки - Итого число степеней свободы определяется суммой kY = kФ + kо. SS — сумма квадратов отклонений. 1. Для строки Регрессия — это сумма квадратов отклонений теоретических данных от среднего: 2. Для строки Остаток — это сумма квадратов отклонений эмпирических данных от теоретических: 3. Для строки Итого — это сумма квадратов отклонений эмпирических данных от среднего. MS — дисперсии: 1. Для строки Регрессия — это факторная дисперсия. 2. Для строки Остаток — это остаточная дисперсия. Остаточная дисперсия — это общая сумма квадратов отклонений расчетных значений от фактических (объем остаточной вариации), разделенная на число наблюдений. F — расчетное значение F-критерия Фишера (вычисляемое по формуле). 21 Значимость F— значение уровня значимости, соответствующее вычисленному значению. Коэффициенты — значения коэффициентов аi. Стандартная ошибка — стандартные ошибки коэффициентов ai t-статистика — расчетные значения t-критерия Р-значение — значения уровней значимости, соответствующие вычисленным значениям tp. Нижние 95 % и Верхние 95 % — соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии. Построение регрессионных моделей выполнено с помощью команды «Построение линии тренда» программы Excel. На нижеприведенных рисунках (рис. 2.2 - 2.6 показаны различные регрессионные модели, описывающие связь между двумя заданными последовательностями случайных величин. 90 80 70 60 50 Y y = 64,696e-0,007x R² = 0,0039 40 30 20 10 0 0 5 10 15 20 X Рисунок 2.2 – Экспоненциальная модель 22 90 80 70 60 Y 50 y = -0,957x + 73,083 R² = 0,0224 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 X Рисунок 2.3 – Линейная модель 90 80 70 60 50 Y y = -11,54ln(x) + 90,043 R² = 0,023 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 X Рисунок 2.4 – Логарифмическая модель 23 90 80 70 60 Y 50 y = 0,0116x2 - 1,2563x + 74,936 R² = 0,0225 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 X Рисунок 2.5 – Полиномиальная модель 90 80 70 60 Y 50 y = -0,0354x3 + 1,3925x2 - 18,178x + 140,09 R² = 0,0267 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 20 X Рисунок 2.6 – Полиномиальная модель В таблице 2.4 показаны сводные данные по всем построенным моделям. Таблица 2.4 - Сводные данные построенных регрессионных моделей 24 № п/п 1 2 3 4 5 Наименование модели Экспоненциальная Линейная Логарифмическая Полиномиальная второй степени Полиномиальная третьей степени Вид уравнения y=64,696e-0,007x y = -0,957x + 73,083 y = -11,54ln(x) + 90,043 y = 0,0116x2-1,2563x + 74,936 y = -0,0354x3 + 1,3925x2 18,178x + 140,09 Величина достоверности детерминации, R2 0,0039 0,0224 0,023 0,0225 0,0267 Вывод: Полиномиальная третьей степени модель обладает наибольшим значением величины достоверности детерминации 0,0267. Это означает что данная модель описывает все точки случайной величины наиболее точно и должна использоваться как модель. Заключение Мной были освоены компетенции выполнения статистического анализа двумерных данных, выявить практически отсутствующую зависимость между рассмотренными случайными величинами. 25 2 ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТОВ Реалистичное содержание целевой функции В качестве целевой функции (функции отклика, зависимой переменной, реакции системы на воздействие факторов Xi) Y принят износ долота, мм. Y = f(Х1, Х2, Х3). Реалистичное содержание (сущность) факторов В качестве факторов функции отклика Xi принимаются: X1 – количество оборотов ротора, об/мин; X2 – осевая нагрузка на долота, т; Х3 - плотность бурового раствора, кг/м3. Уровни варьирования значений факторов Минимальные и максимальные значения факторов приняты следующие: Х1 min = 70 X1 max = 190 Х2 min= 10 X2 max= 20 Х3 min= 800 X3 max= 1500 Среднее значение фактора Среднее значение фактора определяется по формуле: X i max X i min Xi0 2 Х10=(190+70)/2=130 об/мин. Х20= (20+10)/2=15 тонн. Х30= (1500+800)/2=1150 кг/м3. Интервалы варьирования фактора Интервал варьирования определяется по формуле: dx1 = X10 – X1min = 130-70=60. dx2 = X20 – X2min = 15-10=5. dx3 = X30 – X3min = 1150-800=350. 26 Корректность определения значений факторов Фактор Минимальное значение, Хi min Максимальное значение, Xi max Среднее значение, Xi 0 Интервал варьирования dХi X1 70 190 130 60 X2 10 20 15 5 Х3 800 1500 1150 350 Нормированные значения факторов Нормированные значения определяются формулой: X iн X i X i0 dxi Для заданных исходных данных: 190−130 Хн1 = = 1; Хн2 = Хн3= 60 20−15 = 1; 5 1500−1150 350 = 1; Матрица планирования полного факторного эксперимента Полный двухфакторного эксперимента первый столбец вводится искусственным путем и постоянен, и равен 1. Номер опыта 1 2 3 4 5 6 7 8 Нулевой фактор Х0н 1 1 1 1 1 1 1 1 Нормированные факторы Х1н -1 1 -1 1 -1 1 -1 1 Х2н Взаимодействия нормированных факторов Х3н -1 -1 1 1 -1 -1 1 1 -1 -1 -1 -1 1 1 1 1 Х1н*Х2н 1 -1 -1 1 1 -1 -1 1 Х2нХ3н 1 1 -1 -1 -1 -1 1 1 Х1нХ3н 1 -1 1 -1 -1 1 -1 1 Х1нХ2нХ3н -1 1 1 -1 1 -1 -1 1 27 Экспериментальные значения целевой функции Номер опыта 1 2 3 4 5 6 7 8 Y1 Y2 Y3 Y4 Y5 4,759 4,828 4,243 5,612 5,612 6,612 7,759 7,828 4,709 4,801 4,253 5,613 5,613 6,613 7,709 7,801 4,745 4,845 4,242 5,563 5,563 6,563 7,745 7,845 4,768 4,845 4,3 5,598 5,598 6,598 7,768 7,845 4,05 4,45 4,85 5,25 5,65 6,05 7,85 7,55 Расчет среднего арифметического результатов каждого опыта Номер Y1 Y2 Y3 Y4 Y5 опыта 1 4,759 4,709 4,745 4,768 4,05 2 4,828 4,801 4,845 4,845 4,45 3 4,243 4,253 4,242 4,3 4,85 4 5,612 5,613 5,563 5,598 5,25 5 5,612 5,613 5,563 5,598 5,65 6 6,612 6,613 6,563 6,598 6,05 7 7,759 7,709 7,745 7,768 7,85 8 7,828 7,801 7,845 7,845 7,55 Yср 4,6062 4,7538 4,3776 5,5272 5,6072 6,4872 7,7662 7,7738 Дисперсия среднего арифметического для каждой строки матрицы эксперимента (каждого опыта) Дисперсия среднего арифметического определяется формулой: m S { yj } 2 u 1 y - y j сред 2 ju m -1 где m – количество параллельных опытов в строке матриц. Номер опыта 1 2 3 4 5 6 7 8 Y1 Y2 Y3 Y4 Y5 Yср S2y 4,759 4,828 4,243 5,612 5,612 6,612 7,759 7,828 4,709 4,801 4,253 5,613 5,613 6,613 7,709 7,801 4,745 4,845 4,242 5,563 5,563 6,563 7,745 7,845 4,768 4,845 4,3 5,598 5,598 6,598 7,768 7,845 4,05 4,45 4,85 5,25 5,65 6,05 7,85 7,55 4,6062 4,7538 4,3776 5,5272 5,6072 6,4872 7,7662 7,7738 0,0972 0,0292 0,0703 0,0244 0,0010 0,0601 0,0027 0,0160 28 Расчетное значение критерия Кохрена Критерий Кохрена показывает, какую долю в общей сумме построчных дисперсий занимает максимальная из них, и определяется по формуле: где S2max – наибольшая величина дисперсии результатов опыта; si – дисперсия i-го опыта N – общее число опытов в матрице. Максимальное значение дисперсии результатов опыта: S2ymax= 0,0972. Сумма всех построчных дисперсий: ∑ S2 y = 0,0972+0,0292+0,0703+0,0244+0,0010+0,0601+0,0027+0,0160 = 0,30. Расчетное значение критерия Кохрена: 𝑆𝑦𝑚𝑎𝑥 Gp= ∑ 𝑆𝑌 = 0,0971 0,30 = 0,323. В случае идеальной однородности построчных дисперсий коэффициент Gp стремился бы к значению 1/N, где N – число опытов (количество строк в матрице планирования). Табличное значение критерия Кохрена где где Уровень значимости: = 0,05. Степень числителя (f1): f1= m –1, m – количество параллельных опытов в строке матриц (5), f1= 5 –1=4 Степень свободы знаменателя (f2): f2 = N, N – общее число опытов в матрице. f2 = 8, Табличное значение критерия Кохрена Gт = 0,391. Вывод: Так как расчётное значение Gp, которое равно 0,323 меньше табличного значения Gт, которое равно 0,391, то соблюдается условие: Gт > Gp , 29 следовательно, с достоверностью 1 – , т.е. 0,95 все построчные дисперсии являются однородными. Исходные данные эксперимента могут считаться применимыми. Вид уравнения регрессии, принятого для построения модели функции отклика Рекомендуется полиномиальная модель функции отклика y = b0+b1X1+ b2X2 + b3X3 + b12X1X2 + b23X2X3 + b31X3X1 + b123X1 X2 X3. Коэффициенты регрессии. Значения коэффициентов регрессии определяются по формулам: n 1 n b 0 Yi , b1 1 X1i Yi , n i1 n i1 ; и так далее для всех коэффициентов. Столбцы значений Х перемножается на столбцы Yср и делится на n и так далее для всех коэффициентов bi. Номер Нулевой опыта фактор Х0н 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 Нормированные факторы Х1н Х2н Х3н -1 -1 -1 1 -1 -1 -1 1 -1 1 1 -1 -1 -1 1 1 -1 1 -1 1 1 1 1 1 Взаимодействия нормированных факторов Yср Х1нХ2н 1 -1 -1 1 1 -1 -1 1 Х2нХ3н 1 -1 1 -1 -1 1 -1 1 Х1нХ3н 1 1 -1 -1 -1 -1 1 1 Х1нХ2нХ3н -1 1 1 -1 1 -1 -1 1 Таблица - Значения коэффициентов регрессии. b0 b1 b2 b3 b12 b23 5,86 0,27 0,50 1,05 0,01 -0,36 b13 -0,05 4,6062 4,7538 4,3776 5,5272 5,6072 6,4872 7,7662 7,7738 b123 0,23 Статистическая значимость коэффициентов регрессии Расчетные значения критерия Стьюдента Оценка производится по t-критерию Стьюдента. Проверяется отклонение от нуля найденной оценки. Для каждого коэффициента bk вычисляется расчетное значение критерия Стьюдента: 30 tk bk Sb k ; S{b k } S2 {b k } ; S2 в N*m S2 {b k } ; S 2 y i Sв N , i 1 bk – коэффициент уравнения регрессии; S{bk} – оценку дисперсию коэффициентов, найденных по экспериментальным данным; 2 S {b k } - дисперсия коэффициентов, найденных по экспериментальным данным; 2 2 где N S y i - дисперсия N воспроизводимости. i 1 N Sв 2 S2в = 0,0972+0,0292+0,0703+0,0244+0,0010+0,0601+0,0027+0,0160 S2{bk} = 0,0376 5⋅8 8 = 0,30 8 = 0,0376. = 0,00094 S{bk} = √0,00094 = 0,0306. Расчетные значения критерия Стьюдента t0 t1 t2 t3 t12 t23 t13 t123 191,582 8,925 16,301 34,190 0,529 11,850 1,673 7,657 Табличные значения критерия Стьюдента Уровень статистической значимости. = 0,05. Степень свободы f = N(m-1) = 8*(5-1) = 32 Вывод. Табличное значение критерия Стьюдента tт= 2,04. Элемент b12x1x2; b13x1x2, статистически незначим, может быть исключен. Функция отклика со статистически значимыми коэффициентами. Y = b0+b1X1+ b2X2 + b3X3 - b23X2 X3+b123X1 X2X3 Y = 5,86+0,27X1+0,50X2+1,05X3 -0,036X2 X3 +0,233X1X2X3 31 Значения функции отклика для каждого опыта по новой функции отклика со статистически значимыми коэффициентами. Подставив значения Х из матрицы планирования в функцию отклика и подсчитав, получим средние значения Y’ для каждого опыта. Номер опыта Y’ Yср 1 9,31 4,60 2 10,32 4,75 3 11,50 4,37 4 11,58 5,52 5 12,60 5,60 6 12,67 6,48 7 12,40 7,76 8 13,41 7,77 Проверка адекватности новой функции отклика со статистически значимыми коэффициентами Расчетное значение критерия Фишера. Адекватность модели проверяют по критерию Фишера F- критерию, расчетное значение которого определяется по формуле: где Fp= S2ад/S2в ; 2 𝑚 2 ∑𝑁 𝑆ад = (𝑦𝑖 − 𝑦𝑖′ ) ; 𝑖=1 𝑁−𝐿 N S 2 y i 2 Sв N , i 1 2 S ад - дисперсия адекватности; S2в - дисперсия воспроизводимости, характеризующая точность одного измерения, является средняя из всех построчных дисперсий; L – число значимых коэффициентов Для удобства составим таблицу разности Yср – Y’: Номер опыта Ycp-Y’ 1 -4,704 2 -5,571 3 -7,124 4 -6,052 5 -6,989 6 -6,186 7 -4,634 8 -5,641 5 ⋅ [(4,60-9,31)2 + (4,75-10,32)2 + (4,37-11,50)2 + (5,52-11,58)2 + (5,60-12,60)2 + 8−6 +(6,48-12,67)2 + (7,76-12,40)2 + (7,77-13,41)2 =702,3 2 𝑆АД = 32 S2в = 0,0972+0,0292+0,0703+0,0244+0,0010+0,0601+0,0027+0,0160 8 = 0,30 8 = 0,0375. 702,3 Fp = 0,0375 = 18728. Уровень значимости = 0,05. Степень свободы адекватности: Определяем число степеней свободы fад = N-L= 8-6 = 2 Степень свободы воспроизводимости: fв = N(m-1) = 8*(5-1) = 32. Табличное значение критерия Фишера. Fт = 3,3 Fp > Fт, следовательно полученная математическая модель с принятым уровнем статистической значимости не адекватна экспериментальным данным. Функция отклика со статистически значимыми коэффициентами и натуральными факторами Y = b0+b1X1+ b2X2 + b3X3 - b23X2 X3+b123X1 X2X3 Перейдем к натуральным факторам (𝑋1 − 130) (𝑋2 − 15) 5(𝑋3 − 1150) + 0,50 + 1,05 60 5 350 (𝑋2 − 15) (𝑋3 − 1150) − 0,36 5 350 (𝑋1 − 130) (𝑋2 − 15) (𝑋3 − 1150) + 0,23 60 5 350 𝑌 = 5,86 + 0,27 + Заключение В ходе практической работы была построена целевая функция, характеризующая зависимость износа долота от трёх факторов: количество оборотов ротора, осевая нагрузка на долото и плотность бурового раствора. За основу целевой функции была принята полиноминальная регрессионная модель. В результате проведенной работы, полученная модель позволила получить средние значения Y’ практические равные Y, что означает ее правильность и означает, что работа выполнена верно. 33 Литература 1. Сидняев Н.И. Теория планирования эксперимента и анализ статистических данных: учебн. пособ. / Н.И. Сидняев. – М.: Изд-во Юрайт, 2011.399 с. 2. Гмурман В.Е. Теория вероятностей и математическая статистика: учеб.пособ.-12-е изд., перераб. / В.Е. Гмурман.- М.: Изд-во Юрайт, 2010.- 479 с. 3. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учебн. пособ. -12-е изд., перераб. / В.Е. Гмурман. – М.: Высшобраз.,2006. – 476 с. 4. Боровков, А.А. Математическая статистика: Учебник / А. А. Боровков. – Изд. 4-е, стер. – Санкт-Петербург; М.; Краснодар: Лань, 2010. – 703 с. (электронный ресурс). 5. Адлер Ю.П., Маркова Е.В., Грановский Ю.В. Планирование эксперимента при поиске оптимальных условий. М.: Наука, 1976. 6. Асатурян В.И. Теория планирования эксперимента: Учеб. пособие для втузов. М.: Радио и связь, 1983. 7. Налимов В.В. Теория эксперимента. М.: Наука, 1971. 8. Планирование и организация измерительного эксперимента / Е.Т. Володарский, Б.Н. Малиновский, Ю.М. Туз.-К.: В.ш. Головное изд-во, 1987. 34