ПЕРВОЕ ВЫСШЕЕ ТЕХНИЧЕСКОЕ УЧЕБНОЕ ЗАВДЕНИЕ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования «САНКТ-ПЕТЕРБУРГСКИЙ ГОРНЫЙ УНИВЕРСИТЕТ» КУРСОВАЯ РАБОТА Информатика По дисциплине: (наименование учебной дисциплине согласно учебному плану) ПОЯСНИТЕЛЬНАЯ ЗАПИСКА «Аппроксимация экспериментальных данных в MSExcel и среде MathCad» Автор: студент гр. ___________ (шифр группы) (подпись) (Ф.И.О.) ОЦЕНКА: Дата: ПРОВЕРИЛ: доцент __________ (должность) (подпись) Санкт-Петербург 2018 год (Ф.И.О.) Аннотация Пояснительная записка представляет собой отчет о выполнении курсовой работы. В ней рассматриваются вопросы по нахождению экспериментальных формул методом наименьших квадратов (МНК) посредством табличного процессора MicrosoftExcel, а также рассматривается решение данной задачи средствами математического пакета MathCAD. В работе получены уравнения различных видов с помощью аппроксимации линейной, квадратичной и экспоненциальной зависимостей. Страниц 27,таблиц 1, рисунков 16. Abstract The explanatory note represents the report on execution of a term paper. In it questions on finding of empirical formulas by the least-squares method (LSM) by means of the plate Microsoft Excel processor are considered, and also the solution of this task is considered by means of a mathematical packet of MathCAD. In operation the equations of different types by means of approximation of the linear, square and exponential dependences are received. Pages 27, tables 1, figures 16. 2 Оглавление Аннотация ........................................................................................................ 2 Abstract ............................................................................................................. 2 Введение........................................................................................................... 4 1. Постановка задачи ...................................................................................... 5 2. Определение параметров аппроксимации ................................................ 6 3.Исходные данные ....................................................................................... 10 4. Аппроксимация функции с помощью Excel .......................................... 11 5. Коэффициент корреляции. Коэффициенты детерминированности .... 15 6. Построение графиков аппроксимации в Excel ....................................... 17 7. Аппроксимация функции с помощью MathCAD ................................... 20 7.1 Линейная регрессия ................................................................................ 22 7.2 Полиномиальная регрессия .................................................................... 24 7.3 Экспоненциальная регрессия ................................................................. 25 Заключение .................................................................................................... 27 Список литературы ....................................................................................... 28 ПРИЛОЖЕНИЕ 1 .......................................................................................... 29 3 Введение Аппроксимация (приближение) – замена одних математических объектов другими, в том или ином смысле близкими и сходными. Аппроксимацию удобно применять в случае, когда аппроксимации экспериментальные – найти данные эмпирическую получены формулу, с погрешностью. выражающую Задача приближённую зависимость между точками. Для решения задачи аппроксимации наиболее часто используется метод наименьших квадратов. Метод наименьших квадратов - один из методов теории ошибок для оценки неизвестных величин по результатам измерений, содержащим случайные ошибки. Данный метод применяется также для приближённого представления заданной функции другими (более простыми) функциями и часто оказывается полезным при обработке различного рода измерений. Целью данной курсовой работы является изучение теоретических основ аппроксимации табулированной функции методом наименьших квадратов, решение поставленной задачи различными способами, проведение расчетов с помощью табличного процессора MicrosoftExcel и математического пакета MathCad, сравнение данных. 4 1. Постановка задачи Необходимо посроить: а) линейной аппроксимации 𝑦 = 𝑎1 + 𝑎2 ∙ 𝑥 б) многочленом второй степени 𝑦 = 𝑎1 + 𝑎2 ∙ 𝑥 + 𝑎3 ∙ 𝑥 2 в) экспоненциальной зависимостью y a1 e 1. a2 x Определить коэффициент детерминированности полученных уравнений и вычислить коэффициент корреляции. 2. Построить график табличной функции и в той же системе координат график аппроксимирующей функции (для каждого вида ап проксимации отдельный рисунок) 3. Решение выполнить с помощью табличного процессора MS Excel непосредственно по формулам, а также с использованием статистических функций MS Excel. 4. Выполнить расчеты в программе MathCad, сравнить результаты вычислений с результатами расчетов в MS Excel и добиться их совпадения в пределах используемой точности. 5. Сделать вывод, какая из полученных формул наилучшим образом аппроксимирует функциюy=f(x). 5 2. Определение параметров аппроксимации Часто при анализе эмпирических данных возникает необходимость найти функциональную зависимость между величинами x и y, которые получены в результате опыта или измерений. Хi(независимая величина) задается экспериментатором, а yi , называемая эмпирическими или опытными значениями получается в результате опыта. Аналитический вид функциональной зависимости, существующей между величинами x и y обычно неизвестен, поэтому возникает практически важная задача найти эмпирическую формулу y f ( x; a1 , a2 ,...am ) , (где a1 , a 2 ,...a m - параметры), значения которой при x xi (1) возможно мало отличались бы от опытных значений yi (i 1,2,..., n) . Согласно методу наименьших квадратов наилучшими коэффициентами a1 , a 2 ,...a m считаются те, для которых сумма квадратов отклонений найденной эмпирической функции от заданных значений функции будет минимальной. n S (a1, a2, ..., am ) [ f ( xi ; a1 , a2 ,..., am ) yi ]2 (2) i 1 Используя необходимое условие экстремума функции нескольких переменных – равенство нулю частных производных, находят набор коэффициентов a1 , a 2 ,...a m , которые доставляют минимум функции S , определяемой формулой (2) и получают нормальную систему для определения коэффициентов ai (i 1,2,..., m) : S S S 0; 0;...; 0 a1 a 2 a m (3) Таким образом, нахождение коэффициентов ai сводится к решению системы (3). Вид системы (3) зависит от того, из какого класса эмпирических формул мы ищем зависимость (1). В случае линейной зависимости система (3) примет вид: n n a n a x yi , 2 i 1 i 1 i 1 n n n 2 a i xi a 2 xi xi y i . i 1 i 1 i 1 6 (4) В случае квадратичной зависимости y P2 ( x) a1 a 2 x a3 x 2 система (3) примет вид: n n n 2 a1 n a 2 xi a3 xi y i , i 1 i 1 i 1 n n n n 2 3 a x a x a x xi y i , 1 i 2 i 3 i i 1 i 1 i 1 i 1 n n n n 2 3 4 2 a1 xi a 2 xi a3 xi xi y i . i 1 i 1 i 1 i 1 (5) В ряде случаев в качестве эмпирической формулы берут функцию, в которую неопределенные коэффициенты входят не линейно. При этом иногда задачу удается линеаризовать, т.е. свести к линейной. К числу таких зависимостей относится экспоненциальная зависимость y a1e a2 x (6) где a1и a2 неопределенные коэффициенты. Линеаризация достигается путем логарифмирования равенства (6), после чего получаем соотношение ln y ln a2 a2 x (7) Обозначим ln y и ln a1 соответственно через t и c , тогда зависимость (6) может быть записана в виде t a1 a2 x , что позволяет применить формулы (4) с заменой a1 на c и yi на t i . График восстановленной функциональной зависимости y(x) по результатам измерений (xi, yi), i=1,2,…,n называется кривой регрессии. Для проверки согласия построенной кривой регрессии с результатами эксперимента обычно вводят следующие числовые характеристики: коэффициент корреляции (линейная зависимость), корреляционное отношение и коэффициент детерминированности. Коэффициент корреляции вычисляется по формуле: n P (x i 1 n (x i 1 i i x)( y i y ) x) 2 (8) n (y i 1 i y) 2 где y, x - среднее арифметическое значение соответственно по вычисляются по формулам: 7 x, y, которые n x x i 1 i (9) n n y y i 1 i n (10) Коэффициент корреляции между случайными величинами по абсолютной величине не превосходит 1. Чем ближе P к 1, тем теснее линейная связь между x и y. В случае нелинейной корреляционной связи условные средние значения располагаются около кривой линии. В этом случае в качестве характеристики силы связи рекомендуется использовать корреляционное отношение, интерпретация которого не зависит от вида исследуемой зависимости. Корреляционное отношение вычисляется по формуле: y2 x 1 n ( yi y) 2 i i n 1 n j ( y j y) 2 n j (11) ni j ni j , n j i ni j , а числитель характеризует рассеяние условных где, средних около yi безусловного среднего y . Всегда 0 y2 x 1 . Равенство y2 x =0 соответствует случайным некоррелированным величинам; y2 x = 1 тогда и только тогда, когда имеется точная функциональная связь между xи y. В случае линейной зависимости y от x корреляционное отношение совпадает с квадратом коэффициента корреляции. Величина 2y x 2 используется в качестве индикатора отклонения регрессии от линейной. Коэффициент детерминированности определяется по формуле: r2 1 S ост S полн n (12) где Sост = ( y i y iT ) 2 - остаточная сумма квадратов, характеризующая отклонение i 1 экспериментальных данных от теоретических. n Sполн ( yi y ) 2 - полная сумма квадратов, где y среднее значение yi. i 1 8 n S регр ( y iT y ) 2 - регрессионная сумма квадратов, характеризующая разброс i 1 данных. Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминированности r2, который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y[1]. 9 3.Исходные данные Функция y=f(x) задана таблицей 1: Таблица 1 – Исходные данные xi 1,08 yi 200,45 2,21 149,43 3,87 128,98 4,07 116,56 4,76 87,76 5,14 60,98 5,98 40,98 6,32 29,98 6,99 24,65 7,43 19,99 7,54 15,67 7,84 13,98 8,07 12,09 8,57 14,97 8,94 16,09 9,32 18,65 9,86 22,09 10,05 31,65 10,54 38,56 10,87 57,98 11,23 85,98 11,46 114,43 11,96 130,87 12,54 150,98 13,86 196,77 10 4. Аппроксимация функции с помощью Excel Для проведения расчетов cоставим расчетную таблицу в MS Excel для вычисления сумм, данные целесообразно расположить в виде таблицы (рис.1) Рисунок 1 - Фрагмент рабочего листа MS Excel в режиме отображения данных для аппроксимации Поясним как таблица (рис.1) составляется: Шаг 1. Заносим значения xi. Шаг 2. Заносим значения yi. Шаг 3. Вводим заголовки столбцов: xi^2 , xi*yi , xi^3 , xi^4 , xi^2*yi , ln(yi), xi*ln(yi) Шаг 4. Заполняем ячейки формулами из шага 3 Шаг 5. Формулы в ячейках C2:I2 скопируем в нижележащие ячейки для всех номеров i Шаг 6. Все получившиеся значения суммируем Σ по формуле =СУММ(значение) Аппроксимируем функцию y=f(x) линейной функцией y=a1+a2x. Используя итоговые суммы (рис.1). Решаем систему по формуле (4) с использованием матричных функций, запишем систему в виде: 11 25𝑎1 + 200,50𝑎2 = 1780,52 { 200,50𝑎1 + 1867,12𝑎2 = 13813,30 Решив её методом обратной матрицы: 1) выделяем область результата 2) с помощью функции =МОБР(массив) находим обратную матрицу 3) находим значения a1 и a2 с помощью функции =МУМНОЖ(массив1; массив2) 4)получаем значения, a1 = 85,64234 и a2 = -1,798197 Таким образом, линейная аппроксимация имеет вид y = -1,798197x +85,64234. Система уравнений решена средствами MS Excel. Фрагмент рабочего листа с выполненными расчетами представлен на рис.2. Рисунок 2 - Фрагмент рабочего листа в режиме отображения данных с результатами расчетов коэффициентов линейной аппроксимации Далее аппроксимируем функцию y=f(x) квадратичной функцией y=a1+a2x+a3x2. Составим и решим систему (5) для вычисления параметров квадратичной аппроксимации. Используя итоговые суммы на рис.1 запишем систему в виде: 25𝑎1 + 200,50𝑎2 + 1867,42𝑎3 = 1780,52 { 200,50𝑎1 + 1867,42𝑎2 + 18884,13𝑎3 = 13813,30 1867,42𝑎1 + 18884,13𝑎2 + 201821,99𝑎3 = 142550,82 Данную систему решаем аналогичным образом – методом обратной матрицы: 1) выделяем область результата 2) с помощью функции =МОБР(массив) находим обратную матрицу 3) находим значения a1 и a2 с помощью функции =МУМНОЖ(массив1; массив2) 4)получаем значения, a1 = 305,5813528, a2 = - 73,65137012, a3= 4,770263726 Таким образом, квадратичная аппроксимация имеет вид: y=305,5813528-73,65137012+4,770263726x2. Система уравнений решена средствами MS Excel. Фрагмент рабочего листа с выполненными расчетами представлен на рис.3. 12 Рисунок 3 - Фрагмент рабочего листа в режиме отображения данных с результатами расчетов коэффициентов квадратичной аппроксимации Теперь аппроксимируем y=f(x) функцию экспоненциальной функцией y a1e a2 x Для определения коэффициентов а1 и а2 прологарифмируем значения уi , используя итоговые суммы рис.1. Составим и решим систему: { 25с + 200,50𝑎2 = 69,75 200,50𝑎1 + 1867,42𝑎2 = 769,20 где c=ln(a1). Решаем систему методом обратной матрицы, как показано выше. Из данного неравенства находим коэффициенты с = 4,076851 и а2 = -0,025813. Коэффициент а1 нашли по формуле: 𝑎1 = 𝑒 𝑐 , в таблице запись выглядит =EXP(E81), следовательно а1 = 58,95954. Таким образом, экспоненциальная аппроксимация имеет вид y= 58,95954e−0,025813x . Результаты расчетов представлены на рис.4. Рисунок 4 - Фрагмент рабочего листа в режиме отображения данных с результатами расчетов коэффициентов экспоненциальной аппроксимации 13 Вычислим среднее арифметическое x и y по формулам (9) и (10). Результаты расчета x и y представлены на рис.5. Рисунок 5 - Фрагмент рабочего листа в режиме отображения данных с результатами вычисления средних арифметических x и y 14 5. Коэффициент корреляции. Коэффициенты детерминированности Вычислим качество полученных уравнений, т.е. найдем значение коэффициента корреляции и коэффициентов детерминированности по формулам (8) и (12), используя средства MS Excel. Для того, чтобы рассчитать коэффициент корреляции и коэффициент детерминированности данные целесообразно расположить в виде таблицы 6: Рисунок 6 - Фрагмент рабочего листа в режиме отображения данных с результатами расчета необходимых параметров для вычисления коэффициента корреляции и коэффициентов детерминированности Поясним как таблица (рис.6) составляется: 1. Вводим полученные ранее значения x и y 2. Вводим заголовки столбцов: (x-xср)(y-yср) , (x-xср)^2 , (y-yср)^2 , линейная, квадратичная, экспон. 3. В ячейку С98 вводим формулу =(A98-$B$90)*(B98-$B$91) 4. В ячейку D98 вводим формулу =(A98-$B$90)^2 5. В ячейку E98 вводим формулу =(B98-$B$91)^2 6. В ячейку F98 вводим формулу =($E$40+$E$41*A98-B98)^2 15 7. В ячейку G98 вводим формулу =($K$59+$K$60*A98+$K$61*A98^2-B98)^2 8. В ячейку H98 вводим формулу =($E$83*EXP($E$82*A98)-B98)^2 9. Копируем все значения в столбцах в нижестоящие ячейки 10. Суммируем все значения, полученные в столбцах =СУММ(значение) Теперь проведем расчеты значений коэффициента корреляции и коэффициентов детерминированности по формулам (8) и(12), результат показан на рис.7. Рисунок 7 - Фрагмент рабочего листа в режиме отображения результатов расчета коэффициента корреляции и коэффициентов детерминированности Коэффициент корреляции равен -0,097737, что является нормой, т.к. значение корреляции может находится на промежутке [-1;1].[2] Анализ результатов расчетов показывает, что линейная аппроксимация наилучшим образом описывает экспериментальные данные, так как имеет самый высокий коэффициент детерминированности. 16 6. Построение графиков аппроксимации в Excel Представим графически результаты расчетов, полученные выше. Исследуем характер зависимости x и y в три этапа с помощью «Мастера диаграмм» в MS Excel: 1. Построить график зависимости 2. Построить линию тренда 3. Получить числовые характеристики коэффициентов уравнения. Ход построения прямой линии тренда эмпирической функции: 1) выделяем диапазон 2) строим точечную диаграмму 3) выделяем на диаграмме ряд полученных точек и правой кнопкой мыши вызываем контекстное меню, 4) выбираем команду – «Добавить линию тренда». 5) в диалоговом окне команды выбираем тип: «Линейная» и параметры: «Показывать уравнение на диаграмме» и «Поместить на диаграмме значение достоверности аппроксимации [3]. Построение графика линейной зависимости: Результат показан на рис. 8. Рисунок 8 - График линейной зависимости данных и ее линия тренда 17 Для построения квадратичной аппроксимации на четвертом шаге в диалоговом окне “Линия тренда” выберем на вкладке “Тип” полиномиальный тип степень 2. Результат представлен на рис.9. Рисунок 9 - График квадратичной зависимости данных и ее линия тренда Для построения экспоненциальной аппроксимации на четвертом шаге в диалоговом окне “Линия тренда” выберем на вкладке “Тип” экспоненциальный тип. Результат представлен на рис.10. Рисунок 10 - График экспоненциальной зависимости данных и ее линия тренда 18 Построение линий тренда в MS Excel показало совпадение значений величин, полученных на графиках, с величинами, рассчитанными по формулам для линейной и квадратичной зависимости. 19 7. Аппроксимация функции с помощью MathCAD 1. Введем исходные данные xi и yi в виде матрицы с определенным количеством строк и столбцов с помощью инструмента «Матрица или вектор» на панели инструментов «Матрица»в рабочее поле системы MathCAD (ручной ввод), результат показан на рис.11. Рисунок 11 - Фрагмент листа MathCAD с исходными данными 2. Вычисляем произведение векторов, используя инструмент «Векторизация» на панели инструментов матрица. Получаем произведение xi и yi. 3. Находим значения 𝑥 2 , 𝑥 3 , 𝑥 4 . Для этого используем инструмент возведения в степень, который находится на панели «Калькулятор» 4. Вычисляем натуральный логарифм вектора yi, пользуясь теми же инструментами ln(y) 5. Вычисляем произведения 𝑥𝑖2 ∗ 𝑦𝑖 и 𝑥𝑖 ∗ ln(𝑦𝑖 ) Результат данных вычислений можно просмотреть в приложении 1. 6. Завершающий пункт к составлению аппроксимирующих зависимостей будет вычисление сумм рассчитанных значений. Вычисляем при помощи инструмента 20 «Суммирование вектора» на панели инструментов «Матрица». Результат мы можем увидеть на рис. 12 Рисунок 12 - Фрагмент листа MathCad с суммой рассчитанных значений 21 7.1 Линейная регрессия Для вычисления параметров линейной аппроксимации составим 2 матрицы и условно назовём их A и B. Решение матрицы выполним методом Крамера. Метод Крамера заключается в поочерёдной замене каждого столбца матрицы А столбцом матрицы В и дальнейшем нахождении определителя каждой матрицы. 1. Находим определитель матрицы А с помощью инструмента «Определитель» 2. Далее воспользуемся инструментом «Столбец матрицы»,предварительно создав матрицу А1 и присвоив ей значения матрицы А 3. Аналогично создаём матрицу А2 и находим определитель Результат изображён на рис. 13 Рисунок 13 - Фрагмент листа MathCAD, с найденными коэффициентом корреляции и детерминированности, и графиком линейной зависимости данных и ее линией тренда Уравнение линейной регрессии, полученное в MathCAD: y = -1,798x+85,642. Данные аппроксимации, полученные в MathCad, полностью совпадают с данными в MS Excel. 22 Функция corr(х, у) - вычисляет коэффициент корреляции Пирсона. Чем он ближе к 1, тем точнее обрабатываемые данные соответствуют линейной зависимости [5]. В данном подсчёте оценка корреляции 0,098. 𝑆 Общая формула коэффициента детерминации: 𝑟 2 = 1 − 𝑆 ост , где полн 𝑛 𝑆ост = ∑(𝑦𝑖 − 𝑦𝑖𝑚 )^2 𝑖=1 𝑆полн = 𝑆ост + 𝑆регр 𝑛 𝑆регр = ∑(𝑦𝑖𝑚 − 𝑦̅)^2 𝑖=0 Коэффициент детерминации в MathCad совпадает со значениями в Excel. 23 7.2 Полиномиальная регрессия Вычисляем параметры квадратичной регрессии, строим графики исходной функции y и функции квадратичной регрессии l(x) (рис. 13). Все вычисления и расчёты проводим по вышеуказанному методу Крамера, выполняем проверку через встроенную функцию lsolve. Рисунок 14 - Фрагмент листа MathCAD с найденными коэффициентом детерминированности и графиком квадратичной зависимости данных и ее линией тренда Уравнение полиномиальной регрессии: y= 305,577-73,65x+4,77x2. Все значения совпали со значениями в MS Excel. При проверке встроенной функции lsolve все значения совпали. 24 7.3 Экспоненциальная регрессия Составляем матрицы А и В и находим решение системы с помощью метода Крамера, проверяем встроенной функции lsolve. Решив, получим значения коэффициентов с и а2. Коэффициент а1 вычисляем по формуле: а1=exp(с). Полученные значения коэффициентов используем в уравнении регрессии: y a1 e a2 x Вычислив параметры экспоненциальной регрессии, строим графики исходной функции y и функции экспоненциальной регрессии f(x), результат показан на рис. 15. Рисунок 15 - Фрагмент листа MathCAD с найденными коэффициентом детерминированности и графиком экспоненциальной зависимости данных и ее линией тренда Полученные значения коэффициентов используем в уравнении регрессии: y=58,968е -0,026x. 25 Рисунок 16 - Коэффициент корреляции Коэффициент корреляции, рассчитанный в MathCad и проверенный по встроенной функции corr, совпадают со значениями в MS Excel. 26 Заключение При выполнении курсовой работы в MS Excel и MathCad были получены три вида аппроксимации: линейная, квадратичная и экспоненциальная. Уравнение линейной аппроксимации имеет вид: y=a1+a2x Уравнение квадратичной аппроксимации имеет следующий вид: y=a1+a2x+a3x2 Уравнение экспоненциальной аппроксимации имеет вид: y=a1e^a2x Таким образом, можно сделать вывод, что линейная аппроксимация лучше всего аппроксимирует заданную функцию f(x). Совпадение значений величин, полученных на графиках и рассчитанных по формулам в MS Excel, говорит о правильности вычислений. Результаты, полученные с помощью среды MathCAD, совпадают со значениями, рассчитанными в MS Excel. Это говорит о верности вычислений. На мой взгляд и по ходу работы вычисления в Excel производились быстрей, нежели в среде MathCad. 27 Список литературы 1. Информатика: Методические указания к курсовой работе. Санкт- Петербургский горный институт. Сост. И.И. Пивоварова, Прудинский Г.А.. СПб, 1999, 36 с. 2. Аппроксимация функций, сжатие численной информации, приложения: Учебник / В.И. Бердышев, Л. В. Петрак; Под ред. Ю.Н. Субботина, Изд-во УрО РАН 1999. – 296 с. 3. Основы информатики: Учебник для вузов / М.А. Беляев, В.В. Лысенко, Л.А. Малинина; Под ред. М.А. Беляева, Изд-во «Феникс», 2006. – 352 с. 4. Макаров Е.Г. MathCAD: Учебный курс, Изд-во «Питер», 2009. – 384 5. Шерри Виллиард Кинкоф. Microsoft Excel 2003, M: НТ Пресс, 2004 – с. 416 с. 28 ПРИЛОЖЕНИЕ 1 Данные суммирования в системе MathCad 29