Математическая теория планирования эксперимента

реклама
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
СЕВЕРО-КАВКАЗСКИЙ ГОРНО-МЕТАЛЛУРГИЧЕСКИЙ ИНСТИТУТ
(ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ)
Кафедра Автоматизированной обработки информации
ЛЕКЦИИ
ПО ДИСЦИПЛИНЕ
«Математическая теория планирования эксперимента»
Учебное пособие
Составитель: ст. пр. Астахова Л.Г.
ВЛАДИКАВКАЗ, 2013
1
Содержание.
Лекция 1. Основные понятия и определения…………………………………………...…..3
Лекция 2. Критерии оптимальности и типы планов. Параметр оптимизации………….14
Лекция 3. Градиентные методы оптимизации………………………..……………...……22
Лекция 4. Принятие решений перед планированием эксперимента. Матричный подход
к регрессионному анализу. Метод наименьших квадратов для одного фактора………….29
Лекция 5. Полный факторный эксперимент типа 2к………………..…………………….44
Лекция 6. Дробный факторный эксперимент………………………………..……………52
Лекция 7. Оценки коэффициентов функции отклика в дробном факторном
эксперименте. Выбор оптимальных условий эксперимента………………….……………58
Лекция 8. Ортогональное композиционное планирование второго порядка.
Рототабельный центральный композиционный план…………………………………….....77
2
Лекция 1. Основные понятия и определения
Теория ПЭ охватывает практически все встречающиеся на практике варианты
исследования объектов. В дальнейшем будут рассмотрены следующие типовые задачи
экспериментального исследования:
поиск значений параметров системы, обеспечивающих достижение оптимального
значения показателя качества исследуемого объекта при известных ограничениях на
значения этих параметров. Перебор всех допустимых сочетаний значений параметров
системы с целью поиска оптимального варианта нерационален по затратам ресурсов. Для
решения указанной задачи ТПЭ предлагает такую последовательность проведения
опытов, которая позволяет применить градиентные методы поиска при априорно
неизвестной функции, связывающей показатель качества с параметрами системы;
приближенное аналитическое описание функциональной связи показателей
качества с параметрами системы по результатам проведенного эксперимента.
Традиционные методики проведения экспериментов из-за зависимости компонентов
восстанавливаемого аналитического описания не позволяют определить раздельное
влияние каждого фактора на результирующий показатель, т. е. эти методики
обеспечивают получение аналитических зависимостей, пригодных лишь для решения
интерполяционных задач. В отличие от них ТПЭ дает возможность оценить вклад
каждого параметра в значение показателя, т.е. приближенно восстановить закон
функционирования объекта по экспериментальным данным. Полученное аналитическое
описание объекта можно использовать для предварительного исследования вариантов
построения системы или в интересах построения модели старшей системы, включающей
данный объект на правах элемента;
оценка дифференциального влияния уровней параметров системы на показатель
качества. Такая задача возникает в случае, когда параметры системы являются по своей
природе качественными или когда количественные параметры могут принимать
небольшое число различных значений.
Кроме указанных, существуют и других задачи, решаемые с помощью ТПЭ,
например:
испытания образцов техники. Планирование должно позволить оценить степень
соответствия показателей качества образцов заданным требованиям при минимальном
объеме испытаний;
отсеивающие эксперименты. Предназначены выявить параметры, незначительно
влияющие на показатель качества системы. Соответствующие планы применяют на
начальных этапах исследования, когда нет конкретных сведений о влиянии тех или иных
параметров. Отсеивание несущественных факторов снижает трудоемкость решения задач
оптимизации или приближенного аналитического описания системы;
адаптивное планирование. Применяется в условиях управления технологическим
процессом, когда система управления все время должна приспосабливаться к
конкретным условиям функционирования, а возможно, и предсказывать дальнейшее
развитие процесса.
Решение задач с применением ТПЭ предусматривает использование априорной
информации об изучаемом процессе для выбора общей последовательности управления
экспериментами, которая уточняется после очередного этапа проведения исследований
на основе вновь полученных сведений. Тем самым достигается возможность
рационального управления экспериментами при неполном первоначальном знании
характеристик исследуемого объекта. Целесообразность применения ТПЭ тем выше, чем
сложнее исследуемая система.
В ТПЭ исследуемый объект (реальный объект, модель объекта) рассматривается
как "черный ящик", имеющий входы v (управляемые независимые параметры) и выходы
y [3, 6].
3
Переменные v принято называть факторами. Теория ПЭ изучает только активный
тип экспериментов, когда имеется возможность независимо и целенаправленно менять
значения факторов v во всем требуемом диапазоне. Факторы в эксперименте бывают
качественными и количественными. Качественные факторы можно квантифицировать
или приписать им числовые обозначения, тем самым перейти к количественным
значениям. В дальнейшем будем считать, что все факторы являются количественными и
представлены непрерывными величинами (если другое не оговорено особо).
Переменным v можно сопоставить геометрическое понятие факторного пространства –
пространства, координатные оси которого соответствуют значениям факторов.
Совокупность конкретных значений всех факторов образует точку в многомерном
факторном пространстве. Примерами факторов являются: интенсивность потока
запросов к базе данных, скорость передачи данных по каналу, объем запоминающего
устройств. Кроме того, на объект воздействуют возмущающие факторы, они являются
случайными и не поддаются управлению.
Область планирования задается интервалами возможного изменения факторов
vi,min< vi < vi,max для i =1, 2, …, k, где k – количество факторов. В теории ПЭ часто
используют нормализацию факторов, т.е. преобразование натуральных значений
факторов в безразмерные (кодированные) величины. Переход к безразмерным значениям
xi задается преобразованием
xi = (vi – vi0)/vi,
(1.1)
где vi – натуральное значение фактора, vi0 – натуральное значение основного уровня
фактора, соответствующее нулю в безразмерной шкале, Dvi – интервал варьирования.
Совокупность основных уровней всех факторов представляет собой точку в пространстве
параметров, называемую центральной точкой плана или центром эксперимента. С
геометрической точки зрения нормализация факторов равноценна линейному
преобразованию пространства факторов, при котором проводятся две операции: перенос
начала координат в точку, соответствующую значениям основных уровней факторов;
сжатие – растяжение пространства в направлении координатных осей.
Активный эксперимент включает: систему воздействий, при которых
воспроизводится функционирование объекта; регистрацию отклика объекта. План
эксперимента задает совокупность данных, определяющих количество, условия и
порядок реализации опытов. Опыт составляет элементарную часть эксперимента и
предусматривает воспроизведение исследуемого явления в конкретных условиях с
последующей регистрацией результата. В условиях случайности в одних и тех же
условиях проводятся параллельные (повторные) опыты в интересах получения
статистически устойчивых результатов. Опыт u предполагает задание конкретных
значений факторам v u = v1u, v2u, …, vku, а совокупность значений факторов во всех N
точках плана эксперимента образует матрицу плана
v11, v21, …, vk1
v12, v22, …, vk2
(1.2)
.
.
.
.
.
v1N, v2N, …, vkN .
Строки матрицы соответствуют опытам, столбцы – факторам, элемент матрицы viz
задает значение z-го фактора в i-м опыте.
Вектор y называется откликом. В ТПЭ обычно изучается ситуация, в которой
вектор отклика y состоит из одного элемента y. При наличии нескольких составляющих
вектора y, каждую из них можно исследовать отдельно. Зависимость отклика от
факторов носит название функции отклика, а геометрическое представление функции
отклика – поверхности отклика. Функция отклика рассматривается как показатель
качества или эффективности объекта. Этот показатель является функцией от параметров
– факторов. На практике широкое распространение получили простые функции вида
М{y'} = bf(v), где b=(b0, b1, …, bh) – вектор неизвестных параметров модели размерности
4
h+1, f(v)=(f0(v), f1(v), …, fh(v)) – вектор заданных базисных функций, М{y'} –
математическое ожидание функции отклика. Такое представление функции отклика
соответствует линейной по параметрам модели регрессионного анализа, т.е. функция
отклика есть линейная комбинация базисных функций от факторов.
Вследствие влияния на результаты экспериментов случайных воздействий
истинные значения коэффициентов можно определить только приближенно. Оценку  =
(0, 1, …, h) вектора неизвестных параметров b находят по результатам
экспериментов, в ходе которых получают значения yu при заданных значениях факторов
vu. Эти оценки обычно рассчитываются с помощью метода наименьших квадратов
(МНК) на основе выборок значений факторов и откликов системы на воздействия [8]. В
качестве оценки вектора b выбирается такое значение, которое минимизирует
,
где y u – вычисленное на модели значение функции отклика в u-й точке факторного
пространства. Приравнивая нулю частные производные от данной квадратичной формы,
взятые по переменным b0, b1, …, bh, можно получить систему уравнений вида
'
,
где i= 0, 1, 2, …, h. Значение b находят путем решения этой системы уравнений.
Решение системы возможно при линейной независимости базисных функций.
Если не принимать специальных мер, то оценки коэффициентов станут
взаимозависимыми, и полученное выражение для функции отклика можно рассматривать
только как интерполяционную формулу, что затрудняет ее физическую интерпретацию и
последующие расчеты. Однако, формируя специальным образом матрицу плана, можно
получить независимые значения . И эти величины будут характеризовать вклад
каждого фактора в значение функции отклика.
Итак, задача заключается в определении общей формы записи функции отклика y'.
В большинстве случаев вид этой функции, получаемый из теоретических соображений,
является сложным для практического применения, а при неполном знании объекта
вообще неизвестен. По данным причинам функцию целесообразно представить в
универсальном, удобном для практического применения виде, чему соответствует
представление в виде полинома. Тогда системой базисных функций является
совокупность степенных функций с целыми неотрицательными значениями показателей
степени. Полиномиальная форма представления функции отклика примет вид
y' = 0 + 1x1 + …+ kxk + 12x1x2 + 13x1x3+…
(1.3)
+k–1,k xk–1xk + +11x21 + …+kkx2k + … + ,
где– случайная величина, характеризующая ошибку опыта.
Такая функция отклика линейна относительно неизвестных коэффициентов и будет
полностью определена, если заданы степень полинома и коэффициенты. Степень
полинома обычно задается исследователем априорно и уточняется в ходе исследования.
На практике наибольшее распространение получили полиномы первого и второго
порядка, соответственно линейные и квадратичные модели. Коэффициенты полинома
принято называть эффектами факторов.
Иногда функцию отклика целесообразно представить в другом виде, например, в
виде степенной функции, так как достижение заданной точности требует применения
полинома высокого порядка. Однако использование функций, нелинейных относительно
неизвестных параметров, усложняет вычисления, затрудняет оценку их свойств. В
некоторых случаях задачу можно упростить путем искусственного преобразования
нелинейной функции в линейную. При этом требуется соответствующее преобразование
и результатов экспериментов.
5
Применение ТПЭ основано на ряде допущений, а именно [2, 6]:
функция отклика содержит в своем составе неслучайную и случайную
составляющую. Многие показатели качества автоматизированных систем обработки
информации носят случайный характер. Это требует многократного повторения опытов в
одних и тех же условиях в целях получения статистически устойчивых результатов, а
получаемые оценки показателей должны обладать свойствами состоятельности,
эффективности, несмещенности и достаточности. Оценки типовых показателей
формируются путем усреднения результатов наблюдений. Поэтому при достаточно
большом количестве наблюдений можно считать, что случайная составляющая e
распределена по нормальному закону с нулевым математическим ожиданием, что
позволяет получить несмещенную оценку математического ожидания функции отклика в
конкретной точке плана. Будем также считать, что величина e имеет дисперсию, не
зависящую от значений факторов. Иначе говоря, результаты, полученные путем
усреднения повторных опытов в каждой точке плана, представляют собой независимые,
нормально распределенные случайные величины;
факторы v1, v2, …, vk измеряются с пренебрежимо малой ошибкой по сравнению с
ошибкой в определении величины y (учет помех в задании факторов приводит к трудно
разрешимым проблемам в оценке коэффициентов функции отклика). Ошибка в
определении значения функции отклика объясняется не столько погрешностью
измерений, сколько влиянием на результат работы системы неучтенных или случайных
факторов, например различиями в формируемой последовательности случайных чисел
при статистическом моделировании;
дисперсии среднего значения функции отклика в различных точках равны друг
другу (выборочные оценки дисперсии однородны). Это означает, что при многократных
повторных наблюдениях над величиной yu при некотором наборе значений v1u, v2u, …,
vku, получаемая оценка дисперсии среднего значения не будет отличаться от оценки
дисперсии, полученной при многократных наблюдениях для любого другого набора
значений независимых переменных v1s, v2s, …, vks.
Указанные допущения позволяют использовать для расчетов коэффициентов
полинома МНК, который дает эффективные и несмещенные оценки коэффициентов и
обеспечивает простоту проведения самих расчетов. Применение МНК, вообще говоря, не
требует соблюдения нормального распределения результатов наблюдения. Этот метод в
любом случае дает решение, минимизирующее сумму квадратов отклонений результатов
наблюдения от значений функции отклика. Допущение о нормальном распределении
используется при проведении различного рода проверок, например, при проверке
адекватности функции отклика и экспериментальных данных. Естественно, что точность
оценок коэффициентов функции отклика повышается с увеличением числа опытов, по
которым вычисляются коэффициенты.
Мысль о том, что эксперимент можно планировать, восходит к глубокой древности.
Наш далекий предок, убедившийся, что острым камнем можно убить даже мамонта,
несомненно выдвигал гипотезы, которые после целенаправленной экспериментальной
проверки привели к созданию копья, дротика, а затем и лука со стрелами.
Он, однако, не пользовался статистическими методами, поэтому остается
непонятным, как он вообще выжил и обеспечил тем самым наше существование.
Только в начале нашего века люди, наконец, поняли, что дальше дело так не
пойдет, и придумали статистические методы планирования эксперимента. Честь
открытия этой идеи принадлежит английскому статистику Рональду Фишеру (конец
двадцатых годов), который впервые показал целесообразность одновременного
варьирования всеми факторами в противовес широко распространенному
однофакторному эксперименту. Понадобилось еще несколько десятилетий, чтобы в
начале пятидесятых годов появилось новое направление в планировании эксперимента,
связанное с оптимизацией процессов, – планирование экстремального эксперимента.
6
Первая работа в этой области была опубликована в 1951 г. Боксом и Уилсоном в Англии.
Идея метода Бокса–Уилсона крайне проста. Экспериментатору предлагается ставить
последовательные небольшие серии опытов, в каждой из которых одновременно
варьируются по определенным правилам все факторы. Серии организуются таким
образом, чтобы после математической обработки предыдущей можно было выбрать
условия проведения (т.е. спланировать) следующую серию. Так последовательно, шаг за
шагом, достигается область оптимума.
Применение планирования эксперимента делает поведение экспериментатора
целенаправленным и организованным, существенно способствует повышению
производительности его труда и надежности полученных результатов. Важным
достоинствомметода является его универсальность, пригодность в огромном
большинстве областей исследования, интересующих современного человека. В нашей
стране планирование эксперимента развивается с 1960 г. под руководством В. В.
Налимова.
Интерес исследователей к планированию эксперимента вполне понятен:
перспектива сократить число опытов, найти оптимум, получить количественные оценки
влияния факторов п определить ошибки – крайне привлекательна.
Но, когда экспериментатор делает попытку познакомиться с планированием
эксперимента, он часто сталкивается с серьезными трудностями. Больше того, иногда он
просто неверно применяет методы планирования или выбирает не самый оптимальный
для данной ситуации путь исследования, или допускает еще какие–нибудь досадные
ошибки. При этом снижается эффективность его работы и появляется опасность
дискредитации важного и полезного направления.
Большинство научных исследований связано с экспериментом. Он проводится в
лабораториях, на производстве, на опытных полях и участках, в клиниках и т.д.
Эксперимент может быть физическим, психологическим или модельным. Он может
непосредственно проводиться на объекте или на его модели. Модель обычно отличается
от объекта масштабом, а иногда природой.
Как вы считаете, можно ли поставить эксперимент на абстрактной математической
модели?
Если модель достаточно точно описывает объект, то эксперимент на объекте может
быть заменен экспериментом на модели. В последнее время наряду с физическими
моделями все большее распространение получают абстрактные математические модели.
Можно получать новые сведения об объекте, экспериментируя на модели, если она
достаточно точно описывает объект.
Эксперимент занимает центральное место в науке. Однако возникает вопрос,
насколько эффективно он используется. Джон Бернал, например, отмечал, что научные
исследования организуются и проводятся настолько хаотично, что их коэффициент
полезного действия может быть оценен величиной порядка 2%. Для того чтобы повысить
эффективность исследований, требуется нечто совершенно новое. Одним из возможных
путей является применение математических методов, построение математической теории
планирования эксперимента.
Планирование эксперимента – это процедура выбора числа и условий проведения
опытов, необходимых и достаточных для решения поставленной задачи с требуемой
точностью. При этом существенно следующее:
−стремление к минимизации общего числа опытов;
−одновременное варьирование всеми переменными, определяющими процесс, по
специальным правилам – алгоритмам;
−использование математического аппарата, формализующего многие действия
экспериментатора;
−выбор четкой стратегии, позволяющей принимать обоснованные решения после
каждой серии экспериментов.
7
Задачи, для решения которых может использоваться планирование эксперимента,
чрезвычайно разнообразны.
Поиск оптимальных условий, построение интерполяционных формул, выбор
существенных факторов, оценка и уточнение констант теоретических моделей
(например, кинетических), выбор наиболее приемлемых из некоторого множества
гипотез о механизме явлений, исследование диаграмм состав–свойство – вот примеры
задач, при решении которых применяется планирование эксперимента. Можно сказать,
что там, где есть эксперимент, имеет место и наука о его проведении – планирование
эксперимента.
Поиск оптимальных условий является одной из наиболее распространенных
научно–технических задач. Они возникают в тот момент, когда установлена возможность
проведения процесса и необходимо найти наилучшие (оптимальные в некотором смысле)
условия его реализации.
Пусть, например, ухимика возникла гипотеза о том, что при взаимодействии двух
веществ должен получаться некоторый интересующий его продукт. Чтобы убедиться в
правильности своей гипотезы, он начинает проводить эксперимент. Возможно, что ему
повезло и он получил требуемый продукт. Однако выход продукта весьма низок, скажем,
2%. Вот тут–то и возникает задача выбора оптимальных условий. Требуется так
подобрать концентрации реагирующих веществ, температуру, давление, время реакции и
другие факторы, чтобы сделать выход возможно более близким к 100%. В данном
примере находятся условия проведения процесса, оптимальные в смысле максимизации
выхода требуемого продукта. Но это далеко не единственно возможная постановка
задачи. Найденные условия оказались бы другими, если бы ставилась, например, цель
минимизации себестоимости продукта или минимизации количества вредных примесей.
Следует подчеркнуть, что всегда необходимо четко формулировать, в каком смысле
условия должны быть оптимальными. Этим определяется выбор цели исследования.
Точная формулировка цели в значительной мере определяет успех исследования.
Задачи, сформулированные аналогичным образом, называются задачами
оптимизации. Процесс их решения называется процессом оптимизации или просто
оптимизацией. Выбор оптимального состава многокомпонентных смесей или сплавов,
повышение производительности действующих установок, повышение качества
продукции, снижение затрат на ее получение – вот примеры задач оптимизации.
Эксперимент, который ставится для решения задач оптимизации, называется
экстремальным. Это наввание связано с глубокой аналогией между оптимизацией и
поиском экстремума некоторой функции. Давайте рассмотрим следующие две задачи.
1. Прочность бетона в значительной степени определяется маркой цемента,
количеством наполнителя и количеством воды. Требуется установить связь между
прочностью бетона и названными факторами.
2. Надежность некоторого полупроводникового прибора зависит от ряда
технологических факторов. Требуется так подобрать значения этих факторов, чтобы
надежность прибора повысилась.
Как вы думаете, какая из этих задач является экстремальной?
Чтобы облегчить вам выбор, укажем на признак, отличающий экстремальные
задачи. Задача является экстремальной, если цель ее состоит в поиске экстремума
некоторой функции. Чтобы установить, какая из двух задач является экстремальной,
надо обратиться к их формулировкам и выяснить, где удовлетворяются требования
экстремальности. В задаче 1 требуется установить связь между прочностью бетона и
тремя факторами. Здесь не определено, какая прочность является оптимальной, и не
требуется ее оптимизировать. В задаче 2 необходимо повысить надежность прибора.
Сама постановка задачи указывает на то, что существующая надежность не
удовлетворяет экспериментатора и требуется поиск таких условий, при которых ее
значения повысятся. Задачи назывеминтерполяционными, а типа 2 – экстремальными.
8
Чтобы продвинуться дальше, нам придется определить еще ряд важных понятий,
первое из которых – «объект исследования». Для описания объекта исследования удобно
пользоваться представлением о кибернетической системе, которая схематически
изображена на рисунке. Иногда такую кибернетическую систему называют «черным
ящиком». Стрелки справа изображают численные характеристики целей исследования.
Мы обозначаем их буквой игрек и называем параметрами оптимизации В литературе вы
можете встретить другие названия: критерий оптимизации, целевая функция, выход
«черного ящика» и т.д.
Для проведения эксперимента необходимо иметь возможность воздействовать на
поведение «черного ящика». Все способы такого воздействия мы обозначаем буквой икс
и называем факторами. Их называют также входами «черного ящика».
При решении задачи будем использовать математические модели объекта
исследования. Под математической моделью мыпонимаем уравнение, связывающее
параметр оптимизации с факторами. Это уравнение в общем виде можно записать так:
y=ϕ(x1, x2, x3,…,xn)
где символ ϕ ( ), как обычно в математике, заменяет слова: «функция от». Такая
функция называется функцией отклика.
Каждый фактор может принимать в опыте одно из нескольких значений. Такие
значения будем называть уровнями. Может оказаться, что фактор способен принимать
бесконечно много значений (непрерывный ряд). Однако на практике точность, с которой
устанавливается некоторое значение, не беспредельна. Поэтому мы вправе считать, что
всякий фактор имеет определенное число дискретных уровней. Это соглашение
существенно облегчает построение «черного ящика» и эксперимента, а также упрощает
оценку их сложности.
Фиксированный набор уровней факторов (т.е. установление каждого фактора на
некоторый уровень) определяет одно из возможных состояний «черного ящика».
Одновременно это есть условия проведения одного из возможных опытов. Если
перебрать все возможные наборы состояний, то мы получим полное множество
различных состояний данного «ящика». Одновременно это будет число возможных
различных опытов.
Чтобы узнать число различных состояний, достаточно число уровней факторов
(если оно для всех факторов одинаково) возвести в степень числа факторов k: pk, где р–
число уровней.
Yа первый взгляд простая система с пятью факторами на пяти уровнях имеет 3125
состояний, а для десяти факторов на четырех уровнях их уже свыше миллиона!
В этих условиях мы просто вынуждены отказаться от таких экспериментов,
которые включают все возможные опыты: перебор слишком велик. Тогда возникает
вопрос: сколько и каких опытов надо включить в эксперимент, чтобы решить
поставленную задачу? Здесь–то и приходит на помощь планирование эксперимента.
Однако нужно иметь в виду, что при планировании эксперимента не безразлично,
какими свойствами обладает объект исследования. Укажем два основных требования, с
которыми приходится считаться. Прежде всего существенно, воспроизводятся ли на
объекте результаты эксперимента. Выберем некоторые уровни для всех факторов и в
этих условиях проведем эксперимент. Затем повторим его несколько раз через неравные
промежутки времени и сравним значения параметра оптимизации. Разброс этих значений
характеризует воспроизводимость результатов. Если он не превышает некоторой заранее
заданной величины (наших требований к точности эксперимента), то объект
удовлетворяет требованию воспроизводимости результатов, а если превышает, то не
удовлетворяет этому требованию. Мы будем рассматривать только такие объекты, для
которых требование воспроизводимости выполняется.
Планирование эксперимента предполагает активное вмешательство в процесс и
возможность выбора в каждом опыте тех уровней факторов, которые представляют
9
интерес. Поэтому такой эксперимент называется активным. Объект, на котором
возможен активный эксперимент, называется управляемым. Это и есть второе
требование к объекту исследования.
На практике нет абсолютно управляемых объектов. На реальный объект обычно
действуют как управляемые, так и неуправляемые факторы. Неуправляемые факторы
влияют на воспроизводимость эксперимента и являются причиной ее нарушения. Если
требования воспроизводимости не выполняются, приходится обращаться к активно–
пассивному эксперименту.
Возможно, плохаявоспроизводимость объясняется действием фактора,
систематически изменяющегося (дрейфующего) во времени. Тогда нужно обращаться к
специальным методам планирования. Наконец, возможно, что все факторы
неуправляемы. В этом случае возникает задача установления связи между параметром
оптимизации и факторами по результатам наблюдений за поведением объекта, или, как
говорят, по результатам пассивного эксперимента.
Планирование экстремального эксперимента – это метод выбора количества и
условий проведения опытов, минимально необходимых для отыскания оптимальных
условий, т. е. для решения поставленной задачи.
Понятие «объект исследования» требует точного формального определения. Для
такого определения удалось приспособить кибернетическое понятие «черный ящик» –
модель объекта. Экспериментатор, вставший на путь применения методов планирования
эксперимента, должен уметь формулировать свою задачу в терминах «черного ящика».
Входы «черного ящика» называются факторами. Каждый фактор может принимать
некоторое определенное число различных значений, называемых уровнями. Сочетание
определенных уровней всех факторов определяет возможное состояние «черного ящика»
и условия одного из возможных опытов.
Совокупность всех различных возможных состояний определяет сложность
«черного ящика» и общее число возможных опытов.
Результаты эксперимента используются для получения математической модели
объект исследования, которая представляет собой уравнение, связывающее параметр
оптимизации и факторы. Такое уравнение называется функцией отклика.
Использование для получения модели всех возможных опытов приводит к
абсурдно, большим экспериментам. Задача выбора необходимых для эксперимента
опытов, методов математической обработки их результатов и принятия решений – это и
есть задача планирования эксперимента. Частный случай этой задачи –планирование
экстремального эксперимента, т. е. эксперимента, поставленного с целью поиска
оптимальных условий функционирования объекта. Планирование экстремального
эксперимента – метод выбора минимального количества опытов, необходимых для
отыскания оптимальных условий.
Под экспериментом будем понимать метод научного исследования, когда
исследователь активно и целенаправленно воздействует на объект исследования путем
создания искусственных условий или использования естественных с целью получения
информации о его свойствах.
Важнейшей задачей методов обработки полученной в ходе эксперимента
информации является задача построения математической модели изучаемого явления,
процесса, объекта. Ее можно использовать и при анализе процессов и при
проектировании объектов. Другой задачей обработки полученной в ходе эксперимента
информации является задача оптимизации, т.е. нахождения такой комбинации влияющих
независимых переменных, при которой выбранный показатель оптимальности принимает
экстремальное значение.
Планирование эксперимента – выбор плана эксперимента, удовлетворяющего
заданным требованиям, совокупность действий направленных на разработку стратегии
экспериментирования (от получения априорной информации до получения
10
работоспособной математической модели или определения оптимальных условий). Это
целенаправленное управление экспериментом, реализуемое в условиях неполного знания
механизма изучаемого явления.
Под планом эксперимента– понимается совокупность данных, определяющих
число, условия и порядок реализации опытов. Под словом опыт в данном случае имеется
в виду отдельная, элементарная часть эксперимента. Соответственно, понятие
планирование эксперимента, определяемое как процесс разработки плана эксперимента,
включает в себя все, что делается по разработке стратегии экспериментирования от
начальных до заключительных этапов изучения объекта исследования, т.е. от получения
априорной информации до создания работоспособной математической модели объекта
исследования или определения оптимальных условий. Планирование способствует
значительной интенсификации труда исследователя и сокращению затрат на
эксперимент, повышению достоверности полученных результатов исследования.
Основным математическим аппаратом теории планирования эксперимента
является теория вероятностей и математическая статистика.
Многомерное факторное пространство– это множество точек, каждая из которых
соответствует определенной комбинации факторов. Область возможных комбинаций
факторов называется областью возможных (допустимых) планов эксперимента.
Вектор, образуемый выходными параметрами–характеристиками свойств или
качеств объекта, называют откликом, а зависимость отклика от рассматриваемых
факторов – функцией отклика. Геометрическое представление функции отклика в
факторном пространстве называют поверхностью отклика. Функцию отклика называют
также целевой функцией, имея в виду, что при планировании эксперимента с целью
нахождения оптимальных условий она является критерием оптимальности.
Планирование эксперимента проводится в несколько этапов :
−постановка задачи (определение цели эксперимента, выяснение исходной
ситуации, оценка допустимых затрат времени и средств, установление типа задачи);
−сбор априорной информации (получение литературы, опрос специалистов и т.п.);
−выбор способа решения и стратегии его реализации (установление типа модели,
выявление возможных влияющих факторов, выявление выходных параметров, выбор
целевых функций, создание необходимых нестандартных технических средств,
формулировка статистических задач, выбор или разработка алгоритмов программ
обработки экспериментальных данных).
Основными концепциями современного подхода к организации эксперимента
являются рандомизация, многофакторность и автоматизация.
Сущность рандомизации состоит в следующем. Любое экспериментальное
исследование проводится, как правило, в условиях действия систематических ошибок и
факторов, которые трудно поддаются учету и контролю. При традиционном подходе к
эксперименту исследователи нередко пытаются отделить изучаемое явление от
мешающих факторов, как это можно сделать в детерминированных объектах с хорошо
изученной структурой. Очевидно, что в недетерминированных объектах с огромным
количеством случайных факторов ценность эксперимента, проведенного в особых
условиях, не может быть высокой.
Концепция рандомизации предлагает принципиально новый подход к организации
выборочных данных эксперимента. План эксперимента составляется таким образом,
чтобы рандомизировать, то есть сделать случайными в пространстве и во времени,
систематически действующие мешающие факторы. Тогда эти факторы можно
рассматривать как случайные величины и, следовательно, учесть статистически их
влияние в значении ошибки эксперимента. Иными словами, в противоположность
традиционному подходу к эксперименту со стремлением стабилизировать мешающие
факторы рандомизация внесла концепцию случая в эксперимент.
11
Принцип многофакторности отражает новый подход к эксперименту в задачах с
многими факторами. При изучении объектов с несколькими факторами согласно этому
принципу исследователю предлагается ставить опыты так, чтобы варьировать все
факторы сразу в отличие от традиционного подхода, когда исследователь пытается
изучать действие каждого фактора при поочередном варьировании. Организация
эксперимента с применением многофакторных схем варьирования позволяет повысить
точностью оценок параметров подбираемых моделей для недетерминированных
объектов, точнее оценить чувствительность выходной зависимой переменной объекта к
вариации изучаемых входных независимых переменных.
Развитие технических программных средств вычислительной техники дает
возможность говорить о новой концепции в организации научных исследований –
автоматизации эксперимента. Технические средства вычислительных комплексов
позволяют на качественно новом уровне по точности, быстродействию и наглядности
решать задачи сбора, переработки и отображения информации. Программные средства
предоставляют исследователю новые возможности организации процесса анализа
данных, создания автоматически управляемой последовательности процедур анализа,
использования интерактивного режима работы с пакетами прикладных программ.
Среди основных методов планирования, применяемых на разных этапах
исследования, используют:
−
планирование отсеивающего эксперимента, основное значение которого
выделение из всей совокупности факторов группы существенных факторов, подлежащих
дальнейшему детальному изучению;
планирование эксперимента для дисперсионного анализа, т.е. составление
−
планов для объектов с качественными факторами;
−
планирование регрессионного эксперимента, позволяющего получать
регрессионные модели (полиномиальные и иные);
планирование экстремального эксперимента, в котором главная задача –
−
экспериментальная оптимизация объекта исследования;
−
планирование при изучении динамических процессов и т.д.
При пассивном эксперименте существуют только факторы в виде входных
контролируемых, но неуправляемых переменных, и экспериментатор находится в
положении пассивного наблюдателя. Задача планирования в этом случае сводится к
оптимальной организации сбора информации и решению таких вопросов, как выбор
количества и частоты измерений, выбор метода обработки результатов измерений.
Наиболее часто целью пассивного эксперимента является построение
математической модели объекта, которая может рассматриваться либо как хорошо, либо
как плохо организованный объект. В хорошо организованном объекте имеют место
определенные процессы, в которых взаимосвязи входных и выходных параметров
устанавливаются в виде детерминированных функций. Поэтому такие объекты называют
детерминированными. Плохо организованные или диффузные объекты представляют
собой статистические модели. Методы исследования с использованием таких моделей не
требуют детального изучения механизма процессов и явлений, протекающих в объекте.
Рис 9.1. График регрессионной зависимости y от х
Множество всех точек проведения экспериментов
xi=(xi1, xi2, … , xin), i=1, 2, …, N
12
представляется с помощью матрицы
x11 . . x1k
x21 . . x2 k
t= . . . . .
. . . . .
xn1 . . xnk
и называется планом эксперимента
Однофакторный пассивный эксперимент проводится путем выполнения n пар
измерений в дискретные моменты времени единственного входного параметра х и
соответствующих значений выходного параметра y. Аналитическая зависимость между
этими параметрами вследствие случайного характера возмущающих воздействий
рассматривается в виде зависимости математического ожидания y от значения х,
носящей название регрессионной. Соответствующая линия А В показана на графике
(рис.9.1).
Целью однофакторного пассивного эксперимента является построение
регрессионной модели. Следует отметить, что регрессионная модель является
приближенной оценкой истинной регрессионной зависимости. Для построения модели
следует провести обоснованный выбор аппроксимирующей функции. Критериями
выбора являются простота, удобство пользования, обеспечение требуемой точности
аппроксимации, адекватность. Адекватная регрессионная модель позволяет
предсказывать с требуемой точностью значения выходной величины в некоторой
области значений входной.
Нередко для выбора аппроксимирующей функции пользуются кривой
регрессионной зависимости, проведенной "на глаз".
Чаще всего регрессионная модель представляется с помощью аппроксимирующей
функцией в виде полинома
.
(9.2)
Приняв такую модель, следует определиться в порядке полинома, после чего
вычислить параметры а1, а2 ,…,аm.
В общем случае результаты измерения li значения выходной величины и ее
значения yi определяемые регрессионной зависимостью от входного фактора xi, не
совпадают, т.е. отлична от нуля разность ∆i=li–yi, что связано с наличием погрешности
измерения и возмущающих воздействий. Обычно считают, что ∆i не зависит от значения
y (т.е. аддитивна) и подчиняется нормальному закону распределения с нулевым
математическим ожиданием.
Если выполнено n измерений, то их результаты можно записать в виде:
(9.3)
13
Система уравнений (9.3) линейна относительно aj. Для нахождения оценок aj из
условия минимума ∆j необходимо добиться равенства нулю всех частных производных
функций
по aj. Получим систему нормальных уравнений:
(j=1,2,…,m).
(9.4)
Сгруппировав все коэффициенты при неизвестных aj и записав уравнения системы
(9.4) в стандартном виде можно вычислить искомые параметры aj методом
определителей.
Многофакторный пассивный эксперимент дает n значений выходного параметра y
объекта, соответствующих измерениям n совокупностей значений выходных параметров:
x11, x12 ,…, x1k;
x21, x22 ,…, x2k;
.……...............
xn1, xn2 ,…, xnk.,
где xij – значение j входного параметра в i–м измерении (j=1,2,...,n).
В качестве регрессионной модели примем линейный многочлен вида
у = а0 + а1х1 +a2x2+ …+ аkхk.
(9.5)
Заменим переменные их центрированными значениями:
Тогда модель принимает вид
.
(9.6)
На основе (9.6) составляется система нормальных уравнений вида (9.4) (с заменой
m на k) и вычисляются оценки параметров
. Затем вычисляется оценка
и осуществляется переход к исходной модели (9.5).
Лекция 2. Критерии оптимальности и типы планов. Параметр оптимизации.
В настоящее время используется свыше 20 различных критериев оптимальности
планов, которые подразделяются на две основные группы. К первой группе относят
критерии, связанные с ошибками оценок коэффициентов, а ко второй – с ошибкой
оценки поверхности отклика [2, 3, 6]. Далее будут охарактеризованы только те критерии,
которые наиболее часто применяются при решении задач оптимизации, описания
поверхности отклика и оценки влияния факторов.
Критерии первой группы представляют интерес для задач оптимизации, выделения
доминирующих (наиболее значимых) параметров на начальных этапах решения
оптимизационных задач или для выявления несущественных параметров в задачах
восстановления закономерности функционирования объекта. Геометрическое
истолкование свойств ошибок коэффициентов связано со свойствами эллипсоида их
рассеяния, определяемого математическим ожиданием и дисперсией значений ошибок.
Пространственное расположение, форма, и размер эллипсоида полностью зависят от
плана эксперимента.
14
Критерию D-оптимальности соответствует минимальный объем эллипсоида
рассеяния ошибок (минимум произведения всех дисперсий коэффициентов полинома). В
соответствующем плане эффекты факторов максимально независимы друг от друга. Этот
план минимизируют ожидаемую ошибку предсказания функции отклика. Критерию Aоптимальности соответствует план с минимальной суммарной дисперсией всех
коэффициентов. Критерию E-оптимальности – план, в котором максимальная дисперсия
коэффициентов будет минимальна.
Выбор критерия зависит от задачи исследования, так при изучении влияния
отдельных факторов на поведение объекта применяют критерий Е -оптимальности, а при
поиске оптимума функции отклика – D-оптимальности. Если построение Dоптимального плана вызывает затруднения, то можно перейти к А-оптимальному плану,
построение которого осуществляется проще.
Критерии второй группы используются при решении задач описания поверхности
отклика, определения ограничений на значения параметров. Основным здесь является
критерий G-оптимальности, который позволяет построить план с минимальным
значением наибольшей ошибки в описании функции отклика. Применение Gоптимального плана дает уверенность в том, что в области планирования нет точек с
чрезмерно большой ошибкой описания функции.
Среди всех классов планов основное внимание в практической работе уделяется
ортогональным и ротатабельным планам.
Ортогональным называется план, для которого выполняется условие парной
ортогональности столбцов матрицы планирования, в частности, для независимых
переменных, где N – количество точек плана эксперимента, k – количество независимых
факторов. При ортогональном планировании коэффициенты полинома
определяются независимо друг от друга – вычеркивание или добавление слагаемых в
функции отклика не изменяет значения остальных коэффициентов полинома. Для
ортогональных планов эллипсоид рассеяния ориентирован в пространстве так, что
направления его осей совпадают с направлениями координат пространства параметров.
Использование ротатабельных планов обеспечивает для любого направления от
центра эксперимента равнозначность точности оценки функции отклика (постоянство
дисперсии предсказания) на равных расстояниях от центра эксперимента. Это особенно
важно при решении задач поиска оптимальных значений параметров на основе
градиентного метода, так как исследователь до начала экспериментов не знает
направление градиента и поэтому стремится принять план, точность которого одинакова
во всех направлениях. В ряде случаев при исследовании поверхности отклика требуется
униморфность модели, а именно, соблюдение постоянства значений дисперсии ошибки в
некоторой области вокруг центра эксперимента. Выполнение такого требования
целесообразно в тех случаях, когда исследователь не знает точно расположение области
поверхности отклика с оптимальными значениями параметров. Указанная область будет
определена на основе упрощенной модели, полученной по результатам экспериментов.
По соотношению между количеством оцениваемых неизвестных параметров
модели и количеством точек плана эксперимента все планы подразделяются на три
класса: ненасыщенные – количество параметров меньше числа точек плана; насыщенные
– обе величины одинаковы; сверхнасыщенные – количество параметров больше числа
точек плана. Метод наименьших квадратов применяют только при ненасыщенном и
насыщенном планировании, и он не применим для сверхнасыщенного планирования.
Для некоторых планов важную роль играет свойство композиционности . Так,
композиционные планы для построения полиномов второго порядка получают
добавлением некоторых точек к планам формирования линейных функций. Это дает
возможность в задачах исследования сначала попытаться построить линейную модель, а
затем при необходимости, добавив наблюдения, перейти к моделям второго порядка,
15
использую ранее полученные результаты и сохраняя при этом некоторое заданное
свойство плана, например его ортогональность.
Между критериями оптимальности и методами построения оптимальных планов
экспериментов существует жесткая связь. Построение планов производится или с
использованием каталогов планов или с использованием непосредственно методов
планирования экспериментов, что является непростой задачей и требует достаточно
высокой квалификации исследователя в области ТПЭ.
Кроме рассмотренных критериев в планировании экспериментов вполне
естественно применяется критерий минимума числа экспериментов, т.е. среди всех
планов желательно выбирать такой, который требует минимального числа опытов при
соблюдении требований к качеству оценки функции или ее параметров.
Как было отмечено выше, одной из областей применения ТПЭ является решение
задач оптимизации, причем непосредственно для поиска оптимальных решений
используются градиентные методы. Вычисление оценки градиента осуществляется на
основе обработки экспериментальных данных. Хотя градиентный метод оптимизации не
является составной частью ТПЭ, в целях удобства освоения материала далее приведено
его краткое изложение.
ПАРАМЕТР ОПТИМИЗАЦИИ
При планировании экстремального эксперимента очень важно определить
параметр, который нужно оптимизировать. Сделать это совсем не так просто, как
кажется на первый взгляд. Цель исследования должна быть сформулирована очень четко
и допускать количественную оценку. Будем называть характеристику цели, заданную
количественно, параметром оптимизации. Параметр оптимизации является реакцией
(откликом) на воздействие факторов, которые определяют поведение выбранной вами
системы. Реакция объекта многогранна, многоаспектна. Выбор того аспекта, который
представляет наибольший интерес, как раз и задается целью исследования.
При традиционном нематематическом подходе исследователь стремится как–то
учесть разные аспекты, взвесить их и принять согласованное решение о том, какой опыт
лучше. Однако разные экспериментаторы проведут сравнение опытов неодинаково.
Прежде чем сформулировать требования к параметрам оптимизации и
рекомендации по их выбору, познакомимся с различными видами параметров.
Виды параметров оптимизации
В зависимости от объекта и цели исследования параметры оптимизации могут быть
весьма разнообразными. Чтобы ориентироваться в этом многообразии, введем
некоторую классификацию. Реальные ситуации, как правило, сложны. Они часто
требуют одновременного учета нескольких, иногда очень многих, параметров. В
принципе каждый объект может характеризоваться сразу всей совокупностью
параметров. Движение к оптимуму возможно, если выбран один–единственный параметр
оптимизации. Тогда прочие характеристики процесса уже не выступают в качестве
параметров оптимизации, а служат ограничениями. Другой путь – построение
обобщенного параметра оптимизации как некоторой функции от множества исходных.
16
Экономические параметры оптимизации, такие, как прибыль, себестоимость и
рентабельность, обычно используются при исследовании действующих промышленных
объектов, тогда как затраты на эксперимент имеет смысл оценивать в любых
исследованиях, в том числе и лабораторных. Если цена опытов одинакова, затраты на
эксперимент пропорциональны числу опытов, которые необходимо поставить для
решения данной задачи. Это в значительной мере определяет выбор плана эксперимента.
Среди технико–экономических параметров наибольшее распространение имеет
производительность. Такие параметры, как долговечность, надежность и стабильность,
связаны с длительными наблюдениями. Имеется некоторый опыт их использования при
изучении дорогостоящих ответственных объектов, например радиоэлектронной
аппаратуры.
Почти во всех исследованиях приходится учитывать количество и качество
получаемого продукта. Как меру количества продукта используют выход, например,
процент выхода химической реакции, выход годных изделий.
Показатели качества чрезвычайно разнообразны. Характеристики количества и
качества продукта образуют группу технико–технологических параметров.
Под рубрикой «прочие» сгруппированы различные параметры, которые реже
встречаются, но не являются менее важными. Сюда попали статистические параметры,
используемые для улучшения характеристик случайных величин или случайных
функций. В качестве примеров назовем задачи на минимизацию дисперсии случайной
величины, на уменьшение числа выбросов случайного процесса за фиксированный
уровень и т.д. Последняя задача возникает, в частности, при выборе оптимальных
настроек автоматических регуляторов или при улучшении свойств нитей (проволока,
пряжа, искусственное волокно и др.).
С ростом сложности объекта возрастает роль психологических аспектов
взаимодействия человека или животного с объектом. Так, при выборе оптимальной
организации рабочего места оператора параметром оптимизации может служить число
ошибочных действий в различных возможных ситуациях. Сюда относятся задачи
выработки условных рефлексов типа задачи «крысы в лабиринте».
17
При решении задачи технической эстетики или сравнении произведений искусства
возникает потребность в эстетических параметрах. Они основаны на ранговом подходе.
Давайте рассмотрим следующий пример.
Пример 1. Во время второй мировой войны несколько сот английских торговых
судов на Средиземном море были вооружены зенитными орудиями для защиты от
вражеских бомбардировщиков. Поскольку это мероприятие было достаточно дорогим
(требовалось иметь на каждом судне боевую команду), через несколько месяцев решили
оценить его эффективность. Какой из параметров оптимизации более подходит для этой
цели?
Число сбитых самолетов.
Потери в судах, оснащенных орудиями, по сравнению с судами без орудий.
Если Вы считаете, что эффективность установления орудий на торговые суда
можно оценить числом сбитых самолетов, то Вы вряд ли смогли бы занять пост
командующего английским флотом на Средиземном море. Выбранный Вами параметр
оптимизации оценивает эффективность уничтожения самолетов. В то же время ясно, что
значения параметра оптимизации в этом случав будут низкими, так как существуют куда
более эффективные средства для этой цели (авиация, боевой флот), чем зенитные орудия
на торговых судах.
Если же Вы полагаете, что эффективность установки орудий на торговые суда
можно оценить сопоставлением потерь в судах, оснащенных орудиями, с потерями в
судах без орудий, то это разумный выбор параметра оптимизации, потому что основной
задачей при установке орудий была защита судов. Самолеты вынуждены были теперь
использовать противозенитные маневры и бомбометание с большой высоты, что
уменьшало потери. Из числа атакованных самолетами торговых судов с зенитными
орудиями было потоплено 10% судов, а потери в судах без орудий составили 25%.
Затраты на установку орудий и содержание боевых расчетов окупились очень быстро.
Требования к параметру оптимизации
Параметр оптимизации – это признак, по которому мы хотим оптимизировать
процесс. Он должен быть количественным, задаваться числом. Мы должны уметь его
измерять при любой возможной комбинации выбранных уровней факторов. Множество
значений, которые может принимать параметр оптимизации, будем называть областью
его определения. Области определения могут быть непрерывными и дискретными,
ограниченными и неограниченными. Например, выход реакции – это параметр
оптимизации с непрерывной ограниченной областью определения. Он может изменяться
в интервале от 0 до 100%. Число бракованных изделий, число зерен на шлифе сплава,
число кровяных телец в пробе крови – вот примеры параметров с дискретной областью
определения, ограниченной снизу.
Уметь измерять параметр оптимизации – это значит располагать подходящим
прибором. В ряде случаев такого прибора может не существовать или он слишком дорог.
Если нет способа количественного измерения результата, то приходится воспользоваться
приемом, называемым ранжированием (ранговым подходом). При этом параметрам
оптимизации присваиваются оценки – ранги по заранее выбранной шкале: двухбалльной,
пятибалльной и т. д. Ранговый параметр имеет дискретную ограниченную область
определения. В простейшем случае область содержит два значения (да, нет; хорошо,
плохо). Это может соответствовать, например, годной продукции и браку.
Ранг – это количественная оценка параметра оптимизации, но она носит условный
(субъективный) характер. Мы ставим в соответствие качественному признаку некоторое
число – ранг.
Для каждого физически измеряемого параметра оптимизации можно построить
ранговый аналог. Потребность в построении такого аналога возникает, если имеющиеся
в распоряжении исследователя численные характеристики неточны или неизвестен
способ построения удовлетворительных численных оценок. При прочих равных
18
условиях всегда нужно отдавать предпочтение физическому измерению, так как
ранговый подход менее чувствителен и с его помощью трудно изучать тонкие эффекты.
Пример 2. Ваша жена решила испечь яблочный пирог по новому рецепту. Вам,
конечно, трудно остаться в стороне, и вы предлагаете ей свои услуги по оптимизации
этого процесса. Цель процесса – получение вкусного пирога, но такая формулировка
цели еще не дает возможности приступить к оптимизации: необходимо выбрать
количественный критерий, характеризующий степень достижения цели. Можно принять
следующее решение: очень вкусный пирог получает отметку 5, просто вкусный пирог –
отметку 4 и т.д.
Как вы полагаете, можно ли после такого решения переходить к оптимизации
процесса?
Давайте разберемся. Нам важно количественно оценить результат оптимизации.
Решает ли отметка эту задачу? Конечно, потому что, как мы договорились, отметка 5
соответствует очень вкусному пирогу и т.д. Другое дело, что этот подход, называемый
ранговым, часто оказывается грубым, нечувствительным. Но возможности такой
количественной оценки результатов не должна вызывать сомнений.
Другие примеры рангового подхода: определение чемпиона мира по фигурному
катанию или гимнастике, дегустация вин, сравнение произведений искусства и т. д. Или,
если хотите, из области химии: сравнение продуктов по цвету, прозрачности, форме
кристаллов.
Следующее требование: параметр оптимизации должен выражаться одним числом.
Иногда это получается естественно, как регистрация показания прибора. Например,
скорость движения машины определяется числом на спидометре. Чаще приходится
производить некоторые вычисления. Так бывает при расчете выхода реакции. В химии
часто требуется получать продукт с заданным отношением компонентов, например,
А:В=3:2. Один из возможных вариантов решения подобных задач состоит в том, чтобы
выразить отношение одним числом (1,5) и в качестве параметра оптимизации
пользоваться значениями отклонений (или квадратов отклонений) от этого числа.
Еще одно требование, связанное с количественной природой параметра
оптимизации, – однозначность в статистическом смысле. Заданному набору значений
факторов должно соответствовать одно с точностью до ошибки эксперимента значение
параметра оптимизации. (Однако обратное неверно: одному и тому же значению
параметра могут соответствовать разные наборы значений факторов.)
Для успешного достижения цели исследования необходимо, чтобы параметр
оптимизации действительно оценивал эффективность функционирования системы в
заранее выбранном смысле. Это требование является главным, определяющим
корректность постановки задачи.
Представление об эффективности не остается постоянным в ходе исследования.
Оно меняется по мере накопления информации и в зависимости от достигнутых
результатов. Это приводит к последовательному подходу при выборе параметра
оптимизации. Так, например, на первых стадиях исследования технологических
процессов в качестве параметра оптимизации часто используется выход продукта.
Однако в дальнейшем, когда– возможность повышения выхода исчерпана, нас начинают
интересовать такие параметры, как себестоимость, чистота продукта и т.д.
Говоря об оценке эффективности функционирования системы, важно помнить, что
речь идет о системе в целом. Часто система состоит из ряда подсистем, каждая из
которых может оцениваться своим локальным параметром оптимизации. При этом
оптимальность каждой из подсистем по своему параметру оптимизации «не исключает
возможности гибели системы в целом».
Мало иметь эффективный параметр оптимизации. Надо еще, чтобы он был
эффективный в статистическом смысле. Понятие статистической эффективности
достаточно сложное, и мы не будем здесь заниматься точными формулировками.
19
Фактически это требование сводится к выбору параметра оптимизации, который
определяется с наибольшей возможной точностью. (Если и эта точность недостаточна,
тогда приходится обращаться к увеличению числа повторных опытов.)
Пусть, например, нас интересует исследование прочностных характеристик
некоторого сплава. В качестве меры прочности можно использовать как прочность на
разрыв, так и макротвердость. Поскольку эти характеристики функционально связаны, то
с точки зрения эффективности они эквивалентны. Однако точность измерения первой
характеристики существенно выше, чем второй. Требование статистической
эффективности заставляет отдать предпочтение прочности на разрыв.
Следующее требование к параметру оптимизации – требование универсальности
или полноты. Под универсальностью параметра оптимизации понимается его
способность всесторонне характеризовать объект. В частности, технологические
параметры оптимизации недостаточно универсальны: они не учитывают экономику.
Универсальностью обладают, например, обобщенные параметры оптимизации, которые
строятся как функции от нескольких частных параметров.
Желательно, чтобы параметр оптимизации имел физический смысл, был простым и
легко вычисляемым.
Требование физического смысла связано с последующей интерпретацией
результатов эксперимента. Не представляет труда объяснить, что значит максимум
извлечения, максимум содержания ценного компонента. Эти и подобные им
технологические параметры оптимизации имеют ясный физический смысл, но иногда
для них может не выполняться, например, требование статистической эффективности.
Тогда рекомендуется переходить к преобразованию параметра оптимизации.
Преобразование, например типа arcsin√y, может сделать параметр оптимизации
статистически эффективным (например, дисперсии становятся однородными), но
остается неясным: что же значит достигнуть экстремума этой величины?
Второе требование часто также оказывается весьма существенным. Для процессов
разделения термодинамические параметры оптимизации более универсальны. Однако на
практике ими пользуются мало: их расчет довольно труден.
Пожалуй, из этих двух требований первое является более существенным, потому
что часто удается найти идеальную характеристику системы и сравнить ее с реальной
характеристикой. Иногда при этом целесообразно нормировать параметр с тем, чтобы он
принимал значения от нуля до единицы.
Кроме высказанных требований и пожеланий при выборе параметра оптимизации
нужно еще иметь в виду, что параметр оптимизации в некоторой степени оказывает
влияние на вид математической модели исследуемого объекта. Экономические
параметры, в силу их аддитивной природы, легче представляются простыми функциями,
чем физико–химические показатели. Не случайно методы линейного программирования,
основанные на простых моделях, получили широкое распространение именно в
экономике. Температура плавления сплава является, как известно, сложной,
многоэкстремальной характеристикой состава, тогда как стоимость сплава зависит от
состава линейно.
О задачах с несколькими выходными параметрами
Задачи с одним выходным параметром имеют очевидные преимущества. Но на
практике чаще всего приходится учитывать несколько выходных параметров. Иногда их
число довольно велико. Так, например, при производстве резиновых и пластмассовых
изделий приходится учитывать физико–механические, технологические, экономические,
художественно–эстетические и другие параметры (прочность, эластичность,
относительное удлинение, способность смеси прилипать к форме и т. д.).
Математические модели можно построить для каждого из параметров, но одновременно
оптимизировать несколько функций невозможно.
20
Обычно оптимизируется одна функция, наиболее важная с точки зрения цели
исследования, при ограничениях, налагаемых другими функциями. Поэтому из многих
выходных параметров выбирается один в качестве параметра оптимизации, а остальные
служат ограничениями. Всегда полезно исследовать возможность уменьшения числа
выходных параметров. Для этого можно воспользоваться корреляционным анализом.
При этом между всевозможными парами параметров необходимо вычислить
коэффициент парной корреляции, который является общепринятой в математической
статистике характеристикой связи между двумя случайными величинами. Если
обозначить один параметр через y1 а другой – через у2, и число опытов, в которых они
будут измеряться, – через N, так, что u=1, 2, . . ., N, где u – текущий номер опыта, то
коэффициент парной корреляции г вычисляется по формуле
Значения коэффициента парной корреляции могут лежать в пределах от –1 до +1.
Если с ростом значения одного параметра возрастает значение другого, у коэффициента
будет знак плюс, а если уменьшается, то минус. Чем ближе найденное значение
корреляции к единице, тем сильнее значение одного параметра зависит от того, какое
значение принимает другой, т.е. между такими параметрами существует линейная связь,
и при изучении процесса можно рассматривать только один из них. Необходимо
помнить, что коэффициент парной корреляции как мера тесноты связи имеет четкий
математический смысл только при линейной зависимости между параметрами и в случае
нормального их распределения.
Для проверки значимости коэффициента парной корреляции нужно сравнить его
значение с табличным (критическим) значением. Для пользования таблицей нужно знать
число степеней свободы f=N – 2 и выбрать определенный уровень значимости, например,
равный 0,05. Такое значение уровня значимости называют еще 5%–ным уровнем риска,
что соответствует вероятности верного ответа при проверке нашей гипотезы H=1 –
а=0,95, или 95%. Это значит, что в среднем только в 5% случаев возможна ошибка при
проверке гипотезы.
В практических исследованиях 5%–ный уровень риска применяется наиболее часто.
Но экспериментатор всегда свободен в выборе уровня значимости, и возможны
ситуации, в которых, например, требуется 1 %–ный уровень риска. При этом возрастает
надежность ответа. Проверка гипотезы сводится к сравнению абсолютной величины
коэффициента парной корреляции с критическим значением. Если экспериментально
найденное значение меньше критического, то нет оснований считать, что имеется тесная
линейная связь между параметрами, а если больше или равно, то гипотеза о
корреляционной линейной связи не отвергается.
При высокой значимости коэффициента корреляции любой из двух анализируемых
параметров можно исключить из рассмотрения как не содержащий дополнительной
информации об объекте исследования. Исключить можно тот параметр, который
технически труднее измерять, или тот, физический смысл которого менее ясен. При
планировании эксперимента целесообразно измерять все параметры, затем оценить
корреляцию между ними и строить модели для их минимально возможного числа или же
21
воспользоваться обобщенным параметром. Но бывают случаи, когда приходится
рассматривать и коррелированные параметры.
Лекция 3. ГРАДИЕНТНЫЕ МЕТОДЫ ОПТИМИЗАЦИИ
Любую совокупность вещественных чисел (v1, v2, … , vk), взятых в определенном
порядке, можно рассматривать как точку или вектор с теми же координатами в
пространстве k измерений (k-мерном пространстве). Запись вида v = (v1, v2, … , vk)
обозначает точку или вектор v с указанными в скобках координатами [4]. Если для kмерных векторов v и w справедливы основные алгебраические операции:
сложение и вычитание
v ± w = (v1 ± w1, v2 ± w2 , … , vk ± wk),
умножение на действительное число 
u × v = (u × v1, u × v2, … , u × vk),
скалярное произведение
v × w = (v1 × w1, v2 × w2, … , vk × wk),
то совокупность всех таких векторов называют k-мерным евклидовым
пространством и обозначают Ek.
Длиной вектора v называют число, определяемое по формуле
(
.
2.1)
Длину вектора можно вычислить только тогда, когда компоненты вектора
представлены в одной шкале измерений или они являются безразмерными величинами,
полученными, например, в результате преобразования (1.1) – кодированные переменные
безразмерны.
Если произведение v × w = 0 при |v| ≠ 0 и |w| ≠ 0, то векторы v и w являются
ортогональными.
Единичным называют вектор, определяемый по формуле
(2.2)
.
Пусть в Ek заданы некоторая точка v = (v1, v2, … , vk), единичный вектор t и
непрерывно дифференцируемая по всем аргументам функция f(V) = f(v1, v2, … , vk).
Производной в точке V от функции f(V) по направлению луча, определяемому вектором t,
называется предел
или
.
Градиентом функции f(V) называют вектор f(V) с координатами, равными
частным производным по соответствующим аргументам
(
2.3)
.
Градиент указывает направление наибольшего возрастания функции.
Противоположное направление –f(V) называется антиградиентом, оно показывает
направление наискорейшего убывания функции. В точке экстремума V* градиент равен
22
нулю f(V*)= 0. Если аналитически производные определить невозможно, их вычисляют
приближенно
f(V) / vi = f(V) / vi,
где f(V) – приращение функции f(V) при изменении аргумента на величину vi.
Двигаясь по градиенту (антиградиенту) можно достичь максимума (минимума) функции.
В этом и состоит сущность градиентного метода оптимизации.
Постановка задачи оптимизации
Поиск оптимальных значений параметров является одной из важных задач,
решаемых при создании новых технических систем, управлении производством или
технологическими процессами. В соответствии с теорией эффективности необходимо
[1]:
сформировать критерий эффективности (функцию отклика в терминах ТПЭ). В
большинстве случаев эффективность определяется совокупностью показателей,
характеризующих частные свойства исследуемой системы и выполняемой ею операции.
Критерий эффективности строится на множестве значений частных показателей с
использованием теории полезности или методов векторной оптимизации. В некоторых
случаях критерий эффективности удается построить на множестве значений одного
показателя, переведя все остальные показатели в разряд ограничений;
выделить управляемые и неуправляемые параметры (факторы) системы и среды,
оказывающие существенное влияние на критерий эффективности;
определить ограничения на значения параметров.
Задача оптимизации заключается в нахождение экстремума функции отклика в
области допустимых значений параметров. Чтобы найти экстремум, необходимо иметь
описание поверхности отклика в интервалах варьирования параметров, что далеко не
всегда удается получить исходя из теоретических соображений, так как функция отклика
в аналитическом виде может быть априори неизвестна.
Реализация задачи оптимизации, основанная на применении ТПЭ, как и любой
задачи экспериментального исследования, начинается с определения объекта анализа,
цели исследования, изучении сущности исследуемого процесса, анализе имеющихся
ресурсов, возможности проведения экспериментов с изучаемым объектом в
необходимом диапазоне изменения факторов.
Объектом анализа выступает заданный критерий эффективности исследуемой
системы, рассматриваемый как функция от существенных параметров системы и
внешней среды. Система может представлять собой реальный физический объект или его
модель – физическую или математическую (имитационную, сложную аналитическую).
Изучение процесса функционирования объекта позволяет выявить факторы,
оказывающие существенное влияние на функцию отклика. Выбор существенных
переменных потенциально определяет степень достижения адекватности получаемой
модели: отсутствие в исходном перечне существенных параметров, да еще и
произвольно меняющихся в ходе эксперимента, не позволяет правильно решить задачу
оптимизации; включение несущественных параметров усложняет модель, вызывает
значительное увеличение объема экспериментов, хотя по результатам исследования
несущественность соответствующих параметров будет выявлена.
Для каждой переменной следует определить диапазон и характер изменения
(непрерывность или дискретность). Ограничения на диапазон изменений могут носить
принципиальный или технический характер. Принципиальные ограничения факторов не
могут быть нарушены при любых обстоятельствах. Эти ограничения задаются исходя из
физических представлений (например, емкость устройств памяти всегда имеет
положительное значение). Второй тип ограничений связан с технико-экономическими
соображениями, например, с наличием соответствующего аппаратно-программного
комплекса, принятой технологией обработки информации.
23
Выделение области изменения факторов является не формальной задачей, а
основывается на опыте исследователя. В рамках области допустимых значений факторов
необходимо выделить начальную область планирования эксперимента. Этот выбор
включает определение основного (нулевого) уровня как исходной точки построения
плана и интервалов варьирования. Интервал варьирования задает относительно
основного уровня значения фактора, при которых будут производиться эксперименты.
Обычно интервалы являются симметричными относительно центрального значения.
Интервал варьирования должен отвечать двум ограничениям: его применение не должно
приводить к выходу фактора за пределы области допустимых значений; он должен быть
больше погрешности задания значений фактора (в противном случае уровни фактора
станут не различимыми). В пределах этих ограничений выбор конкретного значения
является неформальной процедурой, учитывающей ориентировочную информацию о
кривизне поверхности функции отклика.
Фактор должен быть управляемым, т.е. экспериментатор может поддерживать его
постоянное значение в течение всего опыта. Для фактора необходимо указать его
конкретные значения и средства контроля. Сам фактор должен быть первичным, ибо
сложно управлять фактором, который в свою очередь является функцией других
факторов. Для каждого фактора следует указать точность его задания и поддержания в
ходе эксперимента.
Одновременное изменение факторов предполагает их совместимость, что означает
осуществимость и безопасность всех их сочетаний. Необходимо также обеспечить
независимость изменения каждого фактора, что означает возможность установления
любого значения фактора вне связи со значениями других факторов.
Цель исследования, требуемая точность получаемых результатов, имеющиеся
ресурсы ограничивают множество допустимых моделей функции отклика (с
усложнением модели и повышением точности оценки показателей резко возрастает
объем необходимых опытов) и соответственно предопределяют план проведения
экспериментов.
Факторы
После того как выбран объект исследованияи функция отклика, нужно включить в
рассмотрение все существенные факторы, которые могут влиять на процесс. Если какой–
либо существенный фактор окажется неучтенным, то это может привести к неприятным
последствиям. Так, если неучтенный фактор произвольно флуктуировал – принимал
случайные значения, которые экспериментатор не контролировал, – это значительно
увеличит ошибку опыта. При поддержании фактора на некотором фиксированном уровне
может быть получено ложное представление об оптимуме, так как нет гарантии, что
фиксированный уровень является оптимальным.
«Ну, а как же преодолеть большое число опытов? Чем больше факторов, тем
больше опытов». Действительно, число опытов растет по показательной функции.
Размерность факторного пространства увеличивается, и математики в таких случаях
говорят о «проклятии размерности».
Если число факторов больше пятнадцати, нужно обратиться к методам отсеивания
несущественных факторов. Здесь можно воспользоваться формализацией априорной
информации, методом случайного баланса, планами Плаккета–Бермана и др. Иногда эти
планы применяются и при меньшем числе факторов.
Определение фактора
Фактором называется измеряемая переменная величина, принимающая в
некоторый момент времени определенное значение. Факторы соответствуют способам
воздействия на объект исследования.
Каждый фактор имеет область определения. Мы будем считать фактор заданным,
если вместе с его названием указана область его определения. Под областью определения
понимается совокупность всех значений, которые в принципе может принимать данный
24
фактор. Ясно, что совокупность значений фактора, которая используется в эксперименте,
является подмножеством из множества значений, образующих область определения.
Область определения может быть непрерывной и дискретной. Однако в тех задачах
планирования эксперимента, которые мы собираемся рассматривать, всегда
используются дискретные области определения. Так, для факторов с непрерывной
областью определения, таких, как температура, время, количество вещества и т.п., всегда
выбираются дискретные множества уровней. В практических задачах области
определения факторов, как правило, ограничены. Ограничения могут носить
принципиальный либо технический характер.
Произведем классификацию факторов в зависимости от того, является ли фактор
переменной величиной, которую можно оценивать количественно: измерять, взвешивать,
титровать и т.п., или же он – некоторая переменная, характеризующаяся качественными
свойствами.
Вы уже знаете, что факторы разделяются на количественные и качественные.
Качественные факторы – это разные вещества, разные технологические способы,
аппараты, исполнители и т.д.
Хотя качественным факторам не соответствует числовая шкала в том смысле, как
это понимается для количественных факторов, однако можно построить условную
порядковую шкалу, которая ставит в соответствие уровням качественного фактора числа
натурального ряда, т. е. производит кодирование. Порядок уровней может быть
произволен, но после кодирования он фиксируется.
В ряде случаев граница между понятием качественного и количественного фактора
весьма условна.
Требования, предъявляемые к факторам при планировании эксперимента
При планировании эксперимента факторы должны быть управляемыми. Это значит,
что экспериментатор, выбрав нужное значение фактора, может его поддерживать
постоянным в течение всего опыта, т.е. может управлять фактором. В этом состоит
особенность «активного» эксперимента. Планировать эксперимент можно только в том
случае, если уровни факторов подчиняются воле экспериментатора.
Представьте себе, что вы изучаете процесс синтеза аммиака. Колонна синтеза
установлена на открытой площадке. Является ли температура воздуха фактором,
который можно включить в планирование эксперимента?
Температура воздуха – фактор неуправляемый. Мы еще не научились делать погоду
по заказу. А в планировании могут участвовать только те факторы, которыми можно
управлять, – устанавливать и поддерживать на выбранном уровне в течение опыта или
менять по заданной программе. Температурой окружающей среды в данном случае
управлять невозможно. Ее можно только контролировать.
Чтобы точно определить фактор, нужно указать последовательность действий
(операций), с помощью которых устанавливаются его конкретные значения (уровни).
Такое определение фактора будем называть операциональным. Так, если фактором
является давление в некотором аппарате, то совершенно необходимо указать, в какой
точке и с помощью какого прибора оно измеряется и как оно устанавливается. Введение
операционального определения обеспечивает однозначное понимание фактора.
С операциональным определением связаны выбор размерности фактора и точность
его фиксирования. Мы привыкли считать, что выбор размерности фактора не
представляет особой трудности. Экспериментатор хорошо ориентируется в том, какую
размерность нужно использовать. Это действительно так в тех случаях, когда существует
устоявшаяся традиция, построены измерительные шкалы, приборы, созданы эталоны и
т.д. Так обстоит дело при измерении температуры, времени, давления и т.д. Но бывает,
что выбор размерности превращается в весьма трудную проблему выбора измерительных
шкал.
25
Замена одной измерительной шкалы другой называется преобразованием шкал.
Оно может быть использовано для упрощения модели объекта.
Точность замера факторов должна быть возможно более высокой. Степень
точности определяется диапазоном изменения факторов. При изучении процесса,
который длится десятки часов, нет необходимости учитывать доли минуты, а в быстрых
процессах необходимо учитывать, быть может, доли секунды.
Факторы должны быть непосредственными воздействиями на объект. Факторы
должны быть однозначны. Трудно управлять фактором, который, является функцией
других факторов. Но в планировании могут участвовать сложные факторы, такие, как
соотношения между компонентами, их логарифмы и т.п.
Необходимость введения сложных факторов возникает при желании представить
динамические особенности объекта в статической форме. Пусть, например, требуется
найти оптимальный режим подъема температуры в реакторе. Если относительно
температуры известно, что она должна нарастать линейно, то в качестве фактора вместо
функции (в данном случае линейной) можно использовать тангенс угла наклона, т.е.
градиент. Положение усложняется, когда исходная температура не зафиксирована. Тогда
ее приходится вводить в качестве еще одного фактора.
Требования к совокупности факторов
При планировании эксперимента обычно одновременно изменяется несколько
факторов. Поэтому очень важно сформулировать требования, которые предъявляются к
совокупности факторов.
Прежде всего выдвигается требование совместимости. Совместимость факторов
означает, что все их комбинации осуществимы и безопасны. Это очень важное
требование. Представьте себе, что вы поступили легкомысленно, не обратили внимания
на требование совместимости факторов и запланировали такие условия опыта, которые
могут привести к взрыву установки. Согласитесь, что такой результат очень далек от
целей оптимизации.
Несовместимость факторов может наблюдаться на границах областей их
определения. Избавиться от нее можно сокращением областей. Положение усложняется,
если несовместимость проявляется внутри областей определения. Одно из возможных
решений – разбиение на подобласти и решение двух отдельных задач.
При планировании эксперимента важна независимость факторов, т.е. возможность
установления фактора на любом уровне вне зависимости от уровней других факторов.
Если это условие невыполнимо, то невозможно планировать эксперимент. Итак, мы
подошли ко второму требованию – отсутствию корреляции между факторами.
Требование некоррелированности не означает, что между значениями факторов нет
никакой связи. Достаточно, чтобы связь не была линейной.
Выбор модели
Под моделью будем понимать вид функции отклика у =ϕ(х1, х2, ..., хk).
Выбрать модель – значит выбрать вид этой функции, записать ее уравнение. Тогда
останется спланировать и провести эксперимент для оценки численных значений
констант (коэффициентов) этого уравнения. Но как выбрать модель?
Чтобы постепенно продвигаться к ответу на этот вопрос, давайте сначала построим
геометрический аналог функции отклика – поверхность отклика. Будем для наглядности
рассматривать случай с двумя факторами.
Заметим, что в случае многих факторов геометрическая наглядность теряется. Мы
попадаем в абстрактное многомерное пространство, где у
нас нет навыка ориентирования. Приходится переходить на
язык алгебры.
Мы хотим изобразить геометрически возможные
состояния «черного ящика» с двумя входами. Для этого
достаточно располагать плоскостью с обычной декартовой
26
системой координат. По одной оси координат будем откладывать в некотором масштабе
значения (уровни) одного фактора, а по другой оси – второго. Тогда каждому состоянию
«ящика» будет соответствовать точка на плоскости.
Но, как вы помните, для факторов существуют области определения. Это значит,
что у каждого фактора есть минимальное и максимальное возможные значения, между
которыми он может изменяться либо непрерывно, либо дискретно. Если факторы
совместимы, то границы образуют на плоскости некоторый прямоугольник, внутри
которого лежат точки, соответствующие Состояниям «черного ящика». Пунктирными
линиями обозначены границы областей определения каждого из факторов, а сплошными
– границы их совместной области определения. Чтобы указать значение параметра
оптимизации, требуется еще одна ось координат. Если ее
построить, то поверхность отклика будет выглядеть так, как
на рис. 12. Просранство, в котором строится поверхность
отклика, мы будем называть факторным пространством. Оно
задается координатными осями, по которым откладываются
значения факторов и параметра оптимизации (Иногда под
факторным пространством понимается пространство,
образованное только осями факторов).
Размерность факторного пространства зависит от числа
факторов. При многих факторах поверхность отклика уже
нельзя изобразить наглядно и приходится ограничиваться
только алгебраическим языком.
Но для двух факторов можно даже не переходить к
трехмерному пространству, а ограничиться плоскостью. Для
этого достаточно произвести сечение поверхности отклика
плоскостями, параллельными плоскости X1ОX2, и
полученные в сечениях линии спроектировать на эту
плоскость. Так строят, например, изображения гор и морских
впадин на географических картах.
Точка М на рисунке – это и есть та оптимальная точка,
которую мы ищем. Каждая линия соответствует постоянному значению параметра
оптимизации. Такая линия называется линией равного отклика. Существует соответствие
между состоянием «ящика» и значением параметра оптимизации: каждому возможному
состоянию «ящика» соответствует одно значение параметра оптимизации. Однако
обратное неверно: одному возможному значению параметра оптимизации может
соответствовать и одно, и несколько; и сколько угодно состояний «ящиков».
Теперь, когда мы можем представить себе поверхность отклика, пора вернуться к
основному вопросу: как ставить эксперимент, чтобы найти оптимум при минимуме
затрат? Это прежде всего вопрос стратегии.
Если бы мы располагали таблицей, в которой содержались бы все возможные
состояния объекта и соответствующие им отклики, то особой необходимости в
построении математической модели не было бы. Просто мы бы выбрали то (или те)
состояние, которое соответствует наилучшему отклику. Но мы уже знаем, сколь велик
перебор возможных состояний, и должны отказаться от практической реализации этой
возможности.
Другая возможность – случайный выбор некоторого числа состояний и
определение откликов в них, в надежде, что среди этих состояний попадутся
оптимальное или по крайней мере близкие к нему состояния.
Наконец, третья возможность – строить математическую модель, чтобы с ее
помощью предсказывать значения откликов в тех состояниях, которые не изучались
экспериментально. Если не можем измерить отклик в каждом состоянии, то сумеем хоть
27
предсказывать результат. Причем даже не в каждом состоянии, а только в наиболее
интересных, в тех, которые приближают нас к оптимуму.
Как выбрать модель?
Модели бывают разные. Моделей бывает много. Чтобы выбрать одну из них, надо
понять, что мы хотим от модели, какие требования мы к ней предъявляем.
Очевидно, что главное требование к модели – это способность предсказывать
направление дальнейших опытов, причем предсказывать с требуемой точностью. Так как
до получения модели мы не знаем, какое направление нам понадобится, то естественно
требовать, чтобы точность предсказания во всех возможных направлениях была
одинакова.
Это значит, что в некоторой подобласти, в которую входят и координаты
выполненных опытов, предсказанное с помощью модели значение отклика не должно
отличаться от фактического больше чем на некоторую заранее заданную величину.
Модель, которая удовлетворяет такому или какому–либо аналогичному требованию,
называется адекватной. Проверка выполнимости этого требования называется проверкой
адекватности модели. Разработаны специальные статистические методы, с помощью
которых проверяется адекватность.
Если несколько различных моделей отвечают нужным
требованиям, то следует предпочесть ту из них, которая
является самой простой.
Если рассмотреть логарифмическую функцую. На
некотором отрезке [хmin, xmax] она с удовлетворительной
точностью описывается двумя уравнениями:
y=logbx,
у=bх.
Во втором уравнении b – коэффициент, который мы
можем оценить, например, по результатам эксперимента.
Какое из уравнений, по вашему мнению, проще?
Простота – вещь относительная. Если вы заранее не сформулируете точно, что
называется простым, а что сложным, то невозможно произвести выбор. Вот почему на
наш вопрос не было никакого другого ответа, кроме «не знаю».
На будущее мы договоримся, что при прочих равных условиях мы всегда будем
предпочитать степенные ряды. Точнее, отрезки степенных рядов – алгебраические
полиномы. При таком соглашении можно сказать, что второе уравнение проще.
Фактически мы произвели выбор класса моделей. Мы сказали, что всегда, когда это
возможно, будем искать модель среди полиномов. Построение полинома возможно в
окрестностях любой точки факторного пространства, поскольку мы предположили, что
функция является аналитической.
Выбрать – значит сравнить. А как сравнить между собой классы моделей, если
свойства объекта заранее неизвестны? Остается предполагать, что нам будут редко
встречаться задачи, в которых исходные постулаты окажутся существенно неверными.
Если это так, то мы действительно выбрали наиболее простой, удобный и
математически разработанный класс моделей. Возможно, что кто-то заранее выбрал для
нашей задачи конкретную модель. Тогда тоже возникает необходимость в планировании
эксперимента для оценки ее коэффициентов. Но мы не будем рассматривать задачи этого
типа.
Давайте выпишем полиномы для случая двух факторов. Они будут различаться по
максимальным степеням входящих в них переменных.
Полином нулевой степени: у = b0.
Полином первой степени: у = b0+ b1x1 + b2x2.
Полином второй степени: у = b0+ b1x1 + b2x2 + b12x1x2 + b11x12 + b22x22.
Полиномиальные модели
28
Итак, мы представили неизвестную нам функцию отклика полиномом. Операция
замены одной функции другой, в каком-то смысле эквивалентной функцией называется
аппроксимацией. Значит, мы аппроксимировали неизвестную функцию полиномом.
Но полиномы бывают разных степеней. Какой взять на первом шаге?
Эксперимент нужен только для того, чтобы найти численные значения
коэффициентов полинома. Поэтому чем больше коэффициентов, тем больше опытов
окажется необходимым. А мы стремимся сократить их число. Значит, надо найти такой
полином, который содержит как можно меньше коэффициентов, но удовлетворяет
требованиям, предъявленным к модели. Чем ниже степень полинома при заданном числе
факторов, тем меньше в нем коэффициентов.
Мы хотим, чтобы модель хорошо предсказывала направление наискорейшего
улучшения параметра оптимизации. Такое направление называется направлением
градиента. Ясно, что движений в этом направлении приведет к успеху быстрее, чем
движение в любом другом направлении (это значит, что будет достигнута экономия
числа опытов).
Как вы думаете, можно ли в этой связи всегда использовать полином первой
степени?
С одной стороны, он содержит информацию о направлении градиента, с другой – в
нем минимально возможное число коэффициентов при данном числе факторов.
Единственное опасение в том, что неясно, будет ли линейная модель всегда адекватной.
Вопрос в том, как выбрать подобласть в факторном пространстве, чтобы линейная
модель оказалась адекватной. Условие аналитичности функции отклика гарантирует нам
эту возможность. Всегда существует такая окрестность любой точки (точнее, почти
любой точки), в которой линейная модель адекватна. Размер такой области заранее не
известен, но адекватность, как вы помните, можно проверять по результатам
эксперимента. Значит, выбрав сначала произвольную подобласть, мы, рано или поздно,
найдем ее требуемые размеры. И как только это случится, воспользуемся движением по
градиенту.
На следующем этапе мы будем искать линейную модель уже в другой подобласти.
Цикл повторяется до тех пор, пока движение по градиенту не перестанет давать эффект.
Это значит, что мы попали в область, близкую к оптимуму. Такая область называется
«почти стационарной». Здесь линейная модель уже не нужна. Либо попаданием в почти
стационарную область задача решена, либо надо переходить к полиномам более высоких
степеней, например второй степени, чтобы подробнее описать область оптимума.
Удачный выбор подобласти имеет, как вы видите, большое значение для успеха
всей работы. Он связан с интуитивными решениями, которые принимает
экспериментатор на каждом этапе.
Кроме задачи оптимизации, иногда возникает задача построения интерполяционной
модели. В этом случае нас не интересует оптимум. Просто мы хотим предсказывать
результат с требуемой точностью во всех точках некоторой заранее заданной области.
Тут не приходится выбирать подобласть. Необходимо последовательно
увеличивать степень полинома до тех пор, пока модель не окажется адекватной. Если
адекватной оказывается линейная, или неполная квадратная модель (без членов,
содержащих квадраты факторов), то ее построение аналогично тому, что требуется для
оптимизации.
Лекция 4. Принятие решений перед планированием эксперимента
Матричный подход к регрессионному анализу
Метод наименьших квадратов для одного фактора
Рассмотрим численный пример линейного уравнения для одного фактора. Опишем
его на матричном языке.
29
Таблица 1
Условия и результаты опытов
Номер
x0
y
x1
опыта
1
+1
–2
0
2
+1
–1
1
3
+1
0
2
4
+1
+1
3
5
+1
+2
4
Пусть известно, что у связан с х1 линейным уравнением у= b0+b1x1.Или y=b0x0+b1x1.
В нашем примере участвуют три множества элементов: элементы, задающие
условия проведения опытов, элементы, характеризующие их результаты, и неизвестные
коэффициенты, которые нужно определить.
Общие формулы для вычисления коэффициентов
b0 =
N
N
N
i =1
i =1
i =1
i =1
2


N ∑ x12i −  ∑ x1i 
i =1
 i =1 
N
N
b1 =
N
∑ yi ∑ x1i − ∑ x1i yi ∑ x1i
N
N
= 2,
N
N ∑ x1i y i − ∑ y i ∑ x1i
= 1.
2


N ∑ x12i −  ∑ x1i 
i =1
 i =1 
Теперь элементы, характеризующие результаты опытов, представим в виде вектор 0
1 
 
b 
столбца Y = 2 , неизвестным коэффициентам соответствует вектор-столбец B =  0  , а
 
 b1 
 3
4
+ 1 − 2
+ 1 − 1 


элементы, задающие условия опытов, удобно представить в виде матрицы X = + 1 0 


+ 1 + 1
+ 1 + 2
.
Столбец х0, состоящий из +1 введен для удобства вычислений всех коэффициентов,
включая свободный член b0.
Вернемся к нашему примеру. На основании исходных данных можно записать
систему из пяти уравнений по одному уравнению для каждого опыта yi=b0x0i+b1x1i, i=1,
2, …5 или в развернутом виде
0 = b0*1+b1*(–2),
1 = b0*1+b1*(–1),
2 = b0*1+b1*0,
3 = b0*1+b1*(+1),
4 = b0*1+b1*(+2).
i =1
i =1
N
i =1
N
30
0  + 1 − 2 
1   + 1 − 1 
  
 b0 
Или в матричном виде Y=BX. 2 = + 1 0   
  
  b1 
 3  + 1 + 1 
4 + 1 + 2
Перейдем теперь к системе нормальных уравнений МНК, которую можно получить
приравнивая нулю частные производные функции невязки
N
N
N
i =1
i =1
b0 ∑ x02 + b1 ∑ x 0 x1 = ∑ x 0 y i ,
i =1
N
N
N
i =1
i =1
i =1
b1 ∑ x0 x1 + b1 ∑ x12 = ∑ x1 y i .
В нашем случае 5b0+b1*0=10, 0*b0+b1*10=10.
Можно показать, что в матричном виде эта система запишется следующим
образом: ХТХВ=ХТY.
Матрица ХТХ называется матрицей системы нормальных уравнений. Она обладает
рядом важных свойств. Прежде всего заметим, что в этой матрице два элемента,
расположенных симметрично относительно главной диагонали, равны между собой. В
нашем случае ото нули. Такое свойство характерно для матриц систем нормальных
уравнений МНК, так как векторы, входящие в скалярные произведения, коммутативны.
Решить систему нормальных уравнений это значит записать в явном виде элементы
вектора В (b0 и b1). Воспользуется операцией умножения на обратную матрицу. (Эта
операция превратит матрицу, стоящую перед матрицей неизвестных коэффициентов, в
единичную). Чтобы равенство не нарушилось, и правую часть придется домножить на
соответствующую матрицу.
(ХТХ)–1ХТХВ=(ХТХ)–1ХТY.
В этом равенстве участвуют три матрицы. Матрица системы нормальных
уравнений ХТХ, которую называют прямой матрицей, (ХТХ)–1– обратная матрица.
Продолжим вычисление для примера. Подставим известные матрицы в уравнение
для вектора коэффициентов B==(ХТХ)–1ХТY.
Имеем
0  10 b0  2
b0   1 5

 ⋅   ,   =  .
b  =
1
10
b
1
0

 1 
10    1   
Матрица, определитель которой равен нулю, не имеет обратной. Такую матрицу
называют особенной, вырожденной или сингулярной. Если же определитель матрицы не
равен нулю, то матрица называется неособенной, невырожденной или несингулярной.
Обобщение метода наименьших квадратов на многофакторный линейный
случай
Пусть имеется k факторов и известно, что отклик и факторы связаны линейно:
y=b0x0+b1x1+b2x2+…+bkxk. Выпишем для этого случая матрицы X, Y и В
 x01 x11 K x k 1 
 y1 
b0 
x



b 
x12 K x k 2 
y2 
02


=
; Y =
; B =  1 .
X
 M
M K M  ( N ×1 )  M  ((k +1)×1)  M 
( N ×k )


 
 
 x0 N x1N K x kN 
 yN 
bk 
Запишем исходную систему линейных уравнений:
Y = XB,
31
 y1   x01 x11 K x k 1  b0 
y  x
  
 2  =  02 x12 K x k 2  ⋅  b1  .
 M   M
M K M  M
  
  
 y N   x0 N x1N K x kN  bk 
После преобразований, аналогичных рассмотренным в предыдущем параграфе,
придем к следующей формуле:
−1
b0    x01 x02 K x0 N   x01 x11 K x k 1    x01 x 02 K x 0 N   y1 
b    x
 x
 x
  
x
K
x
x
K
x

N
k
1
11
12
1
02
12
2
 = 
⋅
  ⋅  11 x12 K x1N  ⋅  y 2  .
 M   M
M K M   M
M K M   M
M K M   M 

  
 
  
  
bk    x k 1 x k 2 K x kN   x0 N x1N K x kN    x k1 x k 2 K x kN   y N 
Скалярные произведения удобно представлять в виде сумм, т.е. матрицу системы
нормальных уравнений можно записать в следующем виде:
 ∑ x02
∑ x0 x1 K ∑ x0 xk 

x0 x1 ∑ x12 K ∑ x1 x k 
∑
T

.
X X =
 M
M
K
M 

2 
∑ x0 x k ∑ x1 x k K ∑ x k 
Так как суммирование ведется от 1 до N по всему множеству опытов, индекс
суммирования опустим.
 ∑ x0 y 


xy
Аналогично XTY есть вектор сумм произведений: X T Y =  ∑ 1  .
 M 


∑ x k y 
Чтобы получить ответ, т.е. вектор В, остается обратить матрицу ХTХ и умножить
обратную матрицу на XTY.
Рассмотренная процедура MНK в матричной форме показывает, как получаются
формулы для коэффициентов регрессии, которые использовались ранее.
Аналогичным путем можно оценить эффекты взаимодействия, входящие в модель
Для этого надо расширить матрицу X, включив в нее столбцы взаимодействий Все
остальные операции производятся совершенно аналогично В векторе В появляются при
этом элементы, соответствующие эффектам взаимодействий. Расширение матрицы X
подобным образом называют линеаризацией. Это эквивалентно замене эффектов
взаимодействия новыми линейными членами Подобная процедура возможна только
тогда, когда все коэффициенты входят в уравнение линейно. В некоторых случаях
приходится использовать уравнения, нелинейные по параметрам. Например, функция
экспоненты или степенная функция.
Статистический анализ
Перейдем к статистическому анализу в матричной форме.
Будем предполагать, что постулаты регрессионного анализа выполняются.
Первый постулат. Параметр оптимизации y есть случайная величина с
нормальным законом распределения. Дисперсия воспроизводимости – одна из
характеристик этого закона распределения.
В данном случае, как и по отношению к любым другим постулатам, нас интересуют
два вопроса: как проверить его выполнимость и к чему приводят его нарушения?
При наличии большого экспериментального материала (десятки параллельных
опытов) гипотезу о нормальном распределении можно проверить стандартными
статистическими тестами (например, χ2– критерием). К сожалению, экспериментатор
32
редко располагает такими данными, поэтому приходится принимать этот постулат на
веру.
Второй постулат. Дисперсия y не зависит от абсолютной величины y.
Выполнимость этого постулата проверяется с помощью критериев однородности
дисперсий в разных точках факторного пространства. Нарушение этого постулата
недопустимо.
Всегда существует такое преобразование y, которое делает дисперсии
однородными. Увы, его не всегда легко найти. Довольно часто помогает
логарифмическое преобразование, с которого обычно начинают поиски.
Третий постулат. Значения факторов суть неслучайные величины. Это несколько
неожиданное утверждение практически означает, что установление каждого фактора на
заданный уровень и его поддержание существенно точнее, чем сшибка
воспроизводимости.
Нарушение этого постулата приводит к трудностям при реализации матрицы
планирования. Поэтому оно обычно легко обнаруживается экспериментатором.
Существует еще четвертый постулат, налагающий ограничения на взаимосвязь
между значениями факторов. У нас он выполняется автоматически в силу
ортогональности матрицы планирования.
Что значит провести статистический анализ? Это значит проверить ряд
статистических гипотез: гипотезу об адекватности заданной модели, гипотезу о
значимости отдельных коэффициентов регрессии и др. Фундаментальную роль в анализе
уравнения регрессии играет матрица
M–1=(XTX s{2y} )–1,
которая называется матрицей дисперсий ковариаций. Прямая матрица М
называется информационной матрицей Фишера.
В структуре матрицы дисперсий-ковариаций содержится вся информация о
статистических свойствах модели. Провести статистический анализ значит извлечь эту
информацию. Для этого прежде всего перейдем от матрицы, обратной к матрице системы
нормальных уравнений, к матрице М–1. Оценка дисперсии воспроизводимости s{2y} –
скаляр; ХТХ – квадратная матрица.
На главной диагонали матрицы-произведения стоят оценки дисперсий
коэффициентов регрессии, вне главной диагонали расположены оценки ковариаций.
Чтобы познакомиться с понятием ковариация, рассмотрим два произвольных
вектор-столбца матрицы X. Во многих случаях важно знать, сколь сильна линейная связь
между этими векторами. Ковариация является одной из мер такой связи. Чтобы найти
ковариацию, сначала центрируют оба вектора, а затем вычисляют их скалярное
произведение. Центрирование используется для устранения неопределенности,
связанной с выбором начала координат. Пусть, например, изучается ковариация между
температурой и каким-нибудь другим фактором Если значения температуры
записываются в шкале Цельсия, то без центрирования значение ковариаций получится
иное, чем для шкалы Кельвина. При центрировании же это не произойдет.
Ковариация определяется по формуле
N
cov( x1 x 2 ) = ∑ ( x1i − x1 )( x 2 i − x 2 ) .
i =1
Давайте построим матрицу М–1 для однофакторной линейной модели.
Информационная матрица М равна:
 N
∑ x1i  ⋅ s 2 .
M=(XTX s{2y } )= 
{y }
2
∑ x1i ∑ x1i 
Матрица дисперсий-ковариаций М–1 равна:
33

x12i
∑
s2

2 {y }
2
 N ∑ x1i − (∑ x1i )
M–1=(XTX s{2y} )–1= 
∑ x1i
−
s {2y }
2
 N ∑ x12i − (∑ x1i )

−
∑x
N ∑ x − (∑ x )
1i
2
2
1i
1i
N
N ∑ x12i − (∑ x1i )
2

s {2y } 

=
2
s {y } 


 s 2 {b0 } cov(b0 b1 )
=
.
s 2 {b1 } 
cov(b0 b1 )
Ортогональные планы обладают тем свойством, что ковариации между всеми
парами коэффициентов регрессии равны нулю.
(так принято сокращенно записывать квадратные матрицы, когда
Рассмотрим теперь проверку адекватности линейного уравнения регрессии.
Дисперсия адекватности равна
N
S ад2 =
∑ (y
i =1
i
− yi )
2
.
N − (k + 1)
Числитель этого выражения – остаточная сумма квадратов – в матричной форме
имеет вид
N
∑ (y
i =1
(
− y i ) = Y − Ŷ
2
i
) (Y − Ŷ ) = Y
T
T
Y − BT X T Y .
Введем еще одну оценку – оценку дисперсии предсказанного значения отклика.
Если имеется адекватное уравнение регрессии, то его можно использовать для
предсказания результата какого-нибудь нового опыта в некоторой точке факторного
пространства. Для этого достаточно подставить в уравнение координаты этой точки и
произвести алгебраические операции. Очевидно точность такого предсказания будет
неодинакова в разных точках факторного пространства. Чтобы учесть это различие и
вводится дисперсия предсказанного значения отклика.
Пусть известное уравнение имеет вид y=b0+b1x1. Координаты предсказываемой
b 
точки задаются вектором XТ=[l xi]. Отсюда следует, что ŷ i = [1 xi ] ⋅  0  .
 b1 
В рамках предпосылок регрессионного анализа х – неслучайная величина, а b0 и b1
– случайные величины, так как они являются функциями результатов эксперимента.
Следовательно, у – тоже случайная величина, связанная с некоторой суммой двух
величин b0 и b1. Дисперсии и ковариация b0 и b1 уже известны. Они являются элементами
матрицы дисперсий-ковариаций. Для определения дисперсии предсказанного значения
отклика s{2y } можно воспользоваться законом сложения ошибок.
 ∂y
s{2ŷi } ≈ 
 ∂b0
или
2
2
2
 2
 ∂ y 
 ∂y  2
 s{b0 } + 
 cov(b0 b1 )
 s{bi } + 
 ∂b1  i
i
 ∂b0 ∂b1  i
2
s{2ŷi } ≈ s{2b0 } + xi2 s{2b1 } + 2 xi cov(b0b1 ) .
Последнее соотношение можно записать также в матричной форме:
−1 2
2
T
T
(
s{ŷi } = X i X X
)
s{y} X i .
Xi – точка в которой проверяем дисперсию предсказанного значения отклика.
34
Описывая статистический анализ, мы до сих пор не принимали во внимание
повторных наблюдений. Перейдем теперь к рассмотрению этого вопроса.
Каждый опыт несет некоторую информацию об объекте. Опыты, различающиеся
условиями проведения, несут информацию об эффектах факторов, а параллельные опыты
позволяют оценить дисперсию воспроизводимости. С ростом числа параллельных
опытов растет точность эксперимента и оцениваемые эффекты можно определить с
большей надежностью. На практике встречаются различные случаи дублирования
опытов. Может оказаться, что к моменту- начала эксперимента воспроизводимость
опытов известна по предыдущим исследованиям. Так бывает иногда в задачах анализа
вещества, когда используется методика с заранее известной ошибкой
воспроизводимости. Если предполагать, что в намечаемой серии опытов ошибка не
изменится и нет опасности появления грубых наблюдений, то параллельные опыты
можно не ставить. Если же мы не располагаем такой информацией по предыдущим
исследованиям или считаем наше предположение слишком жестким, тогда приходится
дублировать опыты. Сделать это можно по-разному: в одной точке, в нескольких точках
и во всех. В качестве одной точки выбирается центр плана или некоторая строка
матрицы. В других случаях бывает равное число параллельных (равномерное
дублирование) или различное (неравномерное дублирование). Последнее часто имеет
место потому, что часть опытов может оказаться потерянной: не удался анализ,
сломалась установка и т.д. Различные варианты дублирования опытов приводят к
различным вариантам обработки данных.
Начнем с наиболее распространенного случая – равномерное дублирование. Если
при записи матрицы X не делать различия между параллельными и различными
опытами, то число строк в матрице будет равно Nm, где N – число различных опытов; m
– число параллельных опытов. Это приведет к некоторым изменениям в системе
нормальных уравнений.
Один способ, когда в матрице Х приводятся дублирующие строки. В этом варианте
расчета различные и параллельные опыты не дифференцируются. Можно поступить
иначе, рассматривая матрицу X как матрицу различных опытов. Тогда для учета
информации о параллельных опытах будем использовать так называемую матрицу весов.
Она представляет собой квадратную диагональную матрицу Р размера N×N. Элементы
главной диагонали равны числу повторных опытов соответствующих строк матрицы X.
Нумерация строк матрицы X должна совпадать с нумерацией строк матрицы Р.
Тогда система нормальных уравнений МНК имеет вид (ХТРХ)В=XTPY, где Y –
вектор-столбец средних значений по соответствующему числу параллельных опытов.
Это усреднение необходимо, чтобы привести в соответствие размеры матриц, входящих
в систему нормальных уравнений.
Хотелось бы обратить ваше внимание на то, что при равномерном дублировании
сохраняется ортогональность плана, и матрица нормальных уравнений остается
диагональной. При отсутствии параллельных опытов матрица весов становится
единичной.
А как теперь будет выглядеть статистический анализ результатов такого
эксперимента? Рассмотрим проверку адекватности модели. При наличии числа
повторных опытов m, равного для всех строк плана, дисперсия адекватности равна
N
S ад2 =
m∑ ( y i − y i )
2
i =1
.
N − (k + 1)
Числитель этого выражения в матричной форме имеет вид
N
∑ (y
i =1
(
− y i ) = Y − Ŷ
2
i
) (Y − Ŷ ) = Y
T
T
PY − B T X T PY .
35
Повторные опыты накладывают более жесткие условия на проверку адекватности,
так как рассчитанный F-критерий увеличивается в n раз и для принятия гипотезы
адекватности требуется большее соответствие экспериментальных и расчетных точек.
Осталось проверить значимость b-коэффициентов. Дисперсия оценки b2
коэффициентов равна s {b j } =
s 2 воспр
2
. Дисперсия воспроизводимости s {bj}деленная
N⋅m
на число параллельных опытов m, называется дисперсией среднего и обозначается
s{2y} .
2
Если при проверке адекватности используется s{y } то числитель F-критерия не
нужно умножать на m, поскольку на это число уже поделен знаменатель.
Критерии оптимальности планов
Построение плана эксперимента можно интерпретировать как выбор строк
матрицы X, их числа и последовательности проведения. Этот выбор осуществляется
разными способами и соответственно приводит к разным результатам. Это значит, что bкоэффициенты могут быть оценены с разной точностью, что они будут иметь разные
ковариации, что предсказанное значение отклика получится с разными дисперсиями и т.
д. В зависимости от того, какие требования экспериментатор предъявляет к модели, он
может придти к той или иной формулировке требований к матрице X. Формализация
этих требований связана с критериями оптимальности. Критерии оптимальности удобно
формулировать в терминах свойств матрицы М=ХTХ или матрицы М–1. Именно эти
матрицы непосредственно связаны с оценками модели и функционально зависят от
матрицы X. Так, например, при диагональной матрице М план оказывается
ортогональным, т.е. все столбцы матрицы X взаимноортогональны и коэффициенты
модели независимы: cov(bibj)=0.
Таким образом, мы пришли к первому критерию. Он относится к группе критериев,
связанных с оценками свойств коэффициентов. Кроме этой группы критериев будем
различать критерии, определяющие предсказательные свойства модели, и критерии,
сформулированные без использования матрицы М, такие, как композиционность,
возможность разбиения плана на ортогональные блоки, насыщенность и т.д..
Начнем рассмотрение с критериев первой группы. В их основе лежит концепция
совместных эффективных оценок, которая берет свое начало с работ Р. Фишера,
рассматривавшего проблему получения наилучших оценок при обработке
экспериментальных данных.
Критерий D-оптимальности, с названием которого часто связывается вся концепция
оптимального построения планов. Смысл его – минимизация дисперсии всех
коэффициентов регрессии, рассматриваемых как нечто единое, как вектор. Дисперсию
вектора коэффициентов принято называть обобщенной дисперсией, которая задается
известной нам функцией от матрицы дисперсий-ковариаций – определителем.
Чем меньше определитель, тем меньше обобщенная дисперсия. Как всегда в
математике наряду с алгебраическим представлением можно использовать и
геометрическое. Однако в этом случае вместо уже знакомого нам факторного
пространства приходится вводить пространство параметров, в котором координатные
оси задаются значениями коэффициентов регрессии.
Между размерностями факторного пространства и пространства параметров не
существует однозначной связи. В случае одного фактора и линейного уравнения
регрессии пространство параметров будет двумерным (так как в уравнение входит два
коэффициента). Но можно представить себе вариант перехода в одномерное
пространство, если, например, незначим один из коэффициентов, или в трехмерное
пространство, когда от уравнения прямой приходится переходить к параболе.
Аналогичное рассуждение имеет место и для большего числа факторов.
36
Если число факторов и вид уравнения заданы, тогда размерность пространства
параметров определяется однозначно. Так, для линейного уравнения с k факторами
пространство параметров имеет размерность k+1. Каждой точке в таком пространстве
соответствует вектор оценок коэффициентов, а определитель матрицы дисперсийковариаций пропорционален объему эллипсоида рассеяния оценок параметров. Причем
центр эллипсоида совмещен с МНК оценкой. Эллипсоид является многомерным
аналогом обычного доверительного интервала. Для одномерного пространства
параметров он вырождается в отрезок, который и есть доверительный интервал. На
плоскости (когда имеется два параметра) получится эллипс. Эллиптическая форма
доверительного интервала связана с предпосылкой регрессионного анализа о
нормальном распределении.
Геометрическая интерпретация в пространстве параметров характерна для
критериев этой группы.
Для критерия A-оптимальности матрица X выбирается так, чтобы достигнуть
минимума суммы квадратов длин главных осей эллипсоида рассеяния. Алгебраически
это соответствует минимуму еще одной функции матрицы дисперсий-ковариаций.
которая называется следом и обозначается tr M–1 (от trace фр.) или spM-1 (от Spur нем.).
Следом квадратной матрицы называется сумма ее диагональных элементов. Вспомним,
что на диагонали матрицы М–1 находятся дисперсии b-коэффициентов. Значит Aоптимальность обеспечивает минимум суммы дисперсий b-коэффициентов без учета их
ковариаций и, следовательно, минимум средней дисперсии.
Кроме таких функций от матрицы М–1 как определитель и след для критериев
оптимальности можно использовать и другие ее функции. Примером может служить
критерий E–оптимальности, минимизирующий максимальное собственное значение этой
матрицы. Собственное значение принадлежит к характеристикам структуры матрицы.
Всегда существует опасность, что эллипсоид рассеяния может получить слишком
вытянутую, бананоподобную форму. При этом некоторые b-коэффициенты попадут
в неблагоприятные условия. Критерий E-оптимальность позволяет уменьшить эту
опасность, поскольку он минимизирует самую длинную ось эллипсоида рассеяния.
Перейдем к рассмотрению критериев второй группы. Описание этих критериев
проводится не на языке пространства параметров, а в более привычных терминах
факторного пространства и функции отклика. G- и Q-критерии связаны с дисперсией
предсказания значений отклика. G-критерий минимизирует максимальную дисперсию
предсказания, Q-критерий– среднюю дисперсию. Если план G-оптимален, то
экспериментатор имеет гарантию, что в области планирования не окажется точек, в
которых точность оценки поверхности отклика будет слишком низкая.
Критерии ротатабельности и униформности связаны с требованием постоянства
дисперсии предсказания на некоторых фиксированных расстояниях от центра
эксперимента. Ротатабельность плана означает, что оценки дисперсии предсказания
инвариантны (независимы) относительно вращения координатных осей факторного
пространства. Иными словами, дисперсия предсказания не будет зависеть от того, в
каком направлении осуществляется движение из начала координат, а зависит только от
расстояния между интересующей нас точкой и началом. Униформность в дополнение к
этому требует, чтобы в некоторой окрестности начала координат, обычно внутри сферы
единичного радиуса, дисперсия предсказания оставалась приблизительно постоянной.
Кроме этих двух групп критериев существует еще большое число требований,
принимаемых во внимание. Укажем некоторые из них.
Наиболее естественное желание экспериментатора – уменьшение числа опытов.
Минимальное число опытов задается числом коэффициентов модели, а приближение к
нему служит мерой насыщенности плана. Таким образом, насыщенность плана
оказывается одним из возможных критериев оптимальности. Именно стремление
удовлетворить этому критерию привело к созданию дробных реплик. Заметим, что
37
дробные реплики одновременно удовлетворяют по крайней мере двум критериям: они
ортогональны и насыщены.
Большое значение имеет требование композиционности, позволяющее разделить
эксперимент на части и в случае необходимости последовательно реализовывать одну
часть за другой без потери информации. Примером может служить переход от
1/4-реплики к полуреплике, а затем к полному факторному эксперименту, если
система смешивания оказалась сложной и не позволила выделить интересующие
эффекты. Это соответствует последовательному переходу от простой линейной модели к
модели с взаимодействиями. То же самое возможно и при переходе от линейных моделей
к модели второго порядка и т. д.
Близким к требованию композициенности является требование разбиения плана на
ортогональные блоки. Композиционность требуется из-за того, что мы не знаем заранее,
какой окажется адекватная модель, а разбивать на блоки приходится из-за того, что
возможно изменение внешних условий и важно защититься от их влияния.
Ортогональность обеспечивает независимость оценок коэффициентов, что очень
существенно при интерпретации силы влияния факторов и их взаимодействий, а также
для оценки направления градиента при движении к оптимуму. Поскольку заранее трудно
предполагать, в какую сторону будет направлен градиент, то полезно стремиться и к
ротатабельности, обеспечивающей одинаковую точность предсказания в разных
направлениях.
Рассмотрим D-оптимальность. Этот критерий связан с оценкой уравнения
регрессии в целом и смысл его становится более понятным, когда речь идет об
интерполяционных (описательных) задачах. Здесь уже экспериментатор не стремится
изучать влияние каждого фактора в отдельности. Для него важно получить минимальную
обобщенную дисперсию коэффициентов, что обеспечивает достаточные
предсказательные свойства модели внутри области эксперимента. Такие же свойства
обеспечиваются и G-критерием. Это происходит не случайно, так как D- и G-критерии во
многих случаях эквивалентны.
Иногда критерии могут оказываться противоречивыми. Тогда выбор наиболее
подходящего из них требует большого искусства. Именно искусства, потому что общей
теории выбора критериев оптимальности не существует.
При выборе области эксперимента прежде всего надо оценить границы областей
определения факторов. При этом должны учитываться ограничения нескольких типов.
Первый тип – принципиальные ограничения для значений факторов, которые не могут
быть нарушены ни при каких обстоятельствах. Например, если фактор – температура, то
нижним пределом будет абсолютный нуль. Второй тип – ограничения, связанные с
технико-экономическими соображениями, например, со стоимостью сырья,
дефицитностью отдельных компонентов, временем ведения процесса. Третий тип
ограничений, с которым чаще всего приходится иметь дело, определяется конкретными
условиями проведения процесса, Например, существующей аппаратурой, технологией,
организацией. В реакторе, изготовленном из некоторого материала, температуру нельзя
поднять выше температуры плавления этого материала или выше рабочей температуры
данного катализатора.
Оптимизация обычно начинается в условиях, когда объект уже подвергался
некоторым исследованиям. Информацию, содержащуюся в результатах предыдущих
исследований, будем называть априорной (т.е. полученной до начала эксперимента). Мы
можем использовать априорную информацию для получения представления о параметре
оптимизации, о факторах, о наилучших условиях ведения процесса и характере
поверхности отклика, т.е. о том, как сильно меняется параметр оптимизации при
небольших изменениях значений факторов, а также о кривизне поверхности. Для этого
можно использовать графики (или таблицы) однофакторных экспериментов,
38
осуществлявшихся в предыдущих исследованиях или описанных в литературе. Если
однофакторную зависимость нельзя представить линейным уравнением (в
рассматриваемой области), то в многомерном случае, несомненно, будет существенная
кривизна. Обратное утверждение, к сожалению, не очевидно.
Итак, выбор экспериментальной области факторного пространства связан с
тщательным анализом априорной информации.
Далее в области определения надо найти локальную подобласть для планирования
эксперимента. Процедура выбора этой подобласти включает два этапа: выбор основного
уровня и выбор интервалов варьирования.
Выбор основного уровня. Наилучшим условиям, определенным из анализа
априорной информации, соответствует комбинация (или несколько комбинаций) уровней
факторов. Каждая комбинация является многомерной точкой в факторном пространстве.
Ее можно рассматривать как исходную точку для построения плана эксперимента.
Назовем ее основным (нулевым) уровнем. Построение плана эксперимента сводится к
выбору экспериментальных точек, симметричных относительно нулевого уровня.
В разных случаях мы располагаем различными сведениями об области наилучших
условий. Если имеются сведения о координатах одной наилучшей точки и нет
информации о границах определения факторов, то остается рассматривать эту точку в
качестве основного уровня. Аналогичное решение принимается, если границы известны
и наилучшие условия лежат внутри области.
Положение, усложняется, если эта точка лежит на границе (или весьма близко к
границе) области. Тогда приходится основной уровень выбирать с некоторым сдвигом от
наилучших условий.
Может случиться, что координаты наилучшей точки неизвестны, но есть сведения о
некоторой подобласти, в которой процесс идет достаточно хорошо. Тогда основной
уровень выбирается либо в центре, либо в случайной точке этой подобласти. Сведения о
подобласти можно получить, анализируя изученные ранее подобные процессы, из
теоретических соображений или из предыдущего эксперимента.
Наконец, возможен случай с несколькими эквивалентными точками, координаты
которых различны. Когда отсутствуют дополнительные данные (технологического,
экономического характера и т. д.), выбор произволен. Конечно, если эксперимент
недорог и требует немного времени, можно приступить к построению планов
экспериментов вокруг нескольких точек.
Пример 2. На рис. 18 изображена область определения для
двух факторов. Кружком отмечены наилучшие условия, известные
из априорной информации. Известно также, что имеется
возможность дальнейшего улучшения параметра оптимизации, а
данное значение нас не удовлетворяет. Эту точку нельзя
рассматривать в качестве основного уровня. Дело в том, что она
расположена на границе области определения. Требование
симметрии экспериментальных точек относительно нулевого
уровня привело бы в этом случае к выходу за границы области
определения, чего делать также нельзя.
Резюмируем наши рассуждения о принятии решений при
выборе основного уровня.
После того как нулевой уровень выбран, переходим к следующему шагу – выбору
интервалов варьирования.
Выбор интервалов варьирования. Теперь наша цель состоит в том, чтобы для
каждого фактора выбрать два уровня, на которых он будет варьироваться в
эксперименте.
Представьте себе координатную ось, на которой откладываются значения данного
фактора, для определенности – температуры. Пусть основной уровень уже выбран и
39
равен 100° С. Это значение изображается точкой. Тогда два интересующих нас уровня
можно изобразить двумя точками, симметричными относительно первой. Будем
называть один из этих уровней верхним, а второй – нижним. Обычно за верхний уровень
принимается тот, который соответствует большему значению фактора, хотя это не
обязательно, а для качественных факторов вообще безразлично.
Интервалом варьирования факторов называется некоторое число (свое для каждого
фактора), прибавление которого к основному уровню дает верхний, а вычитание –
нижний уровни фактора. Другими словами, интервал варьирования – это расстояние на
координатной оси между основным и верхним (или нижним) уровнем. Таким образом,
задача выбора уровней сводится к более простой задаче выбора интервала варьирования.
Заметим еще, что для упрощения записи условий эксперимента и обработки
экспериментальных данных масштабы по осям выбираются так, чтобы верхний уровень
соответствовал +1, нижний –1, а основной – нулю. Для факторов с непрерывной
областью определения это всегда можно сделать с помощью преобразования
X − X0
, где X н нормированное значение фактора, Х – натуральное значение
Xн =
dx
фактора; Х0 – натуральное значение основного уровня фактора; dx – интервал
варьирования фактора.
Для качественных факторов, имеющих два уровня, один уровень обозначается +1, а
другой – 1; порядок уровней не имеет значения.
Пусть процесс определяется четырьмя факторами. Основной уровень и интервалы
варьирования выбраны следующим образом.
Основной уровень
3
30
1,5
15
Интервал варьирования 2
10
1
10
Остановимся на первом факторе. Отметим на координатной оси три уровня:
нижний, основной и верхний.
Натуральные значения 12 3
5
Кодированные значения –1
×
0
+1
Нужно найти кодированное значение для х1 = 2,0. Это значение лежит между 1,0 и
3,0, т.е. между – 1 и 0 в кодированном масштабе. Так как в натуральном масштабе 2,0
лежит посередине между 1,0 и 3,0; то ему соответствует – 0,5 в кодированном масштабе.
На выбор интервалов варьирования накладываются естественные ограничения
сверху и снизу. Интервал варьирования не может быть меньше той ошибки, с которой
экспериментатор фиксирует уровень фактора. Иначе верхний и нижний уровни окажутся
неразличимыми. С другой стороны, интервал не может быть настолько большим, чтобы
верхний или нижний уровни оказались за пределами области определения. Внутри этих
ограничений обычно еще остается значительная неопределенность выбора, которая
устраняется с помощью интуитивных решений.
Обратите внимание, что при решении задачи оптимизации мы стремимся выбрать
для первой серии экспериментов такую подобласть, которая давала бы возможность для
шагового движения к оптимуму. В задачах же интерполяции интервал варьирования
охватывает всю описываемую область.
Выбор интервалов варьирования – задача трудная, так как она связана с
неформализованным этапом планирования эксперимента. Возникает вопрос, какая
априорная информация может быть полезна на данном этапе? Это – сведения о точности,
с которой экспериментатор фиксирует значения факторов, о кривизне поверхности
отклика и о диапазоне изменения параметра оптимизации. Обычно эта информация
является ориентировочной (в некоторых случаях она может оказаться просто
ошибочной), но это единственная разумная основа, на которой можно начинать
планировать эксперимент. В ходе эксперимента ее часто приходится корректировать.
Точность фиксирования факторов определяется точностью приборов и
стабильностью уровня в ходе опыта. Для упрощения схемы принятия решений мы
40
введем приближенную классификацию, полагая, что есть низкая, средняя и высокая
точности. Можно, например, считать, что поддержание температуры в реакторе с
погрешностью не более 1% соответствует высокой, ее более 5% – средней, а более 16% –
низкой точности.
Источником сведений о кривизне поверхности отклика могут служить уже
упоминавшиеся графики однофакторных зависимостей, а также теоретические
соображения. Из графиков сведения о кривизне можно получить визуально. Некоторое
представление о кривизне дает анализ табличных данных, так как наличию кривизны
соответствует непропорциональное изменение параметра оптимизации при равномерном
изменении фактора. Мы будем различать три случая: функция отклика линейна, функция
отклика существенно нелинейна и информация о кривизне отсутствует.
Наконец, полезно знать, в каких диапазонах меняются значения параметра
оптимизации в разных точках факторного пространства. Если имеются результаты
некоторого множества опытов, то всегда можно найти наибольшее или наименьшее
значения параметра оптимизации. Разность между этими значениями будем называть
диапазоном изменения параметра оптимизации для данного множества опытов.
Условимся различать широкий и узкий диапазоны. Диапазон будет узким, если он
несущественно отличается от разброса значений параметра оптимизации в повторных
опытах. (Этот разброс определяет ошибку опыта.) В противном случае будем считать
диапазон широким. Учтем также случай, когда информация отсутствует. Итак, для
принятия решений используется априорная информация о точности фиксирования
факторов, кривизне поверхности отклика и диапазоне изменения параметра
оптимизации. Каждое сочетание градаций перечисленных признаков определяет
ситуацию, в которой нужно принимать решение.
Теперь мы приблизились к принятию решения о выборе интервалов варьирования
Для интервалов также введем градацию. Будем рассматривать широкий, средний и узкий
интервалы варьирования, а также случай, когда трудно принять однозначное решение.
Размер интервала варьирования составляет некоторую долю от области определения
фактора. Можно, например, условиться о следующем: если интервал составляет не более
10% от области определения, считать его узким, не более 30% – средним и в остальных
случаях – широким. Это, конечно, весьма условно, и в каждой конкретной задаче
приходится специально определять эти понятия, которые зависят не только от размера
области определения, но и от характера поверхности отклика, и от точности
фиксирования факторов.
41
Перейдем к рассмотрению блок-схем принятия решений. На первой схеме (рис. 19)
представлены девять ситуаций, имеющих место при низкой точности фиксирования
факторов. При выборе решений учитываются информация о кривизне поверхности
отклика и о диапазоне изменения параметра оптимизации. Типичное решение – широкий
интервал варьирования. Узкий интервал варьирования совершенно не используется, что
вполне понятно при низкой точности.
Пусть ситуация определяется следующими признаками: поверхность отклика
линейна, а диапазон изменения параметра оптимизации узок. Какое решение вы бы
предпочли? Эта ситуация обозначена на нашей схеме номером 2. Признаки ситуации
определяются стрелками, направленными к данному кружочку. Стрелка, выходящая из
кружочка, указывает решение. Низкая точность фиксирования факторов приводит к
отказу от выбора узкого интервала варьирования, иначе результаты могут оказаться
неразличимыми. Нам известно, что поверхность линейна. Это не налагает ограничений
на расширение интервалов. Кроме того, надо учитывать сведения о диапазоне изменения
параметра оптимизации. Он узок, а мы стремимся получить в эксперименте
различающиеся значения параметра оптимизации. Поэтому интервал следует
увеличивать.
Вернемся снова к блок-схеме. Вы видите, что средний интервал варьирования в
этой схеме выбирается дважды, причем в девятой ситуации как редко применяемая
альтернатива. Здесь отсутствует информация об обоих признаках, и выбор широкого
интервала представляется более естественным.
Наибольшие трудности возникают, когда поверхность отклика нелинейна.
Появляется противоречие между низкой точностью фиксирования факторов и кривизной.
Первая требует расширения интервала, а вторая – сужения. Решение оказывается
неоднозначным. Как поступить? Приходится рассматривать дополнительные
рекомендации (см. блок-схему). Прежде всего нужно выяснить, нельзя ли увеличить
точность эксперимента либо за счет инженерных решений, либо за счет увеличения
числа повторных опытов. Если это возможно, то решения принимаются на основе блоксхемы (рис. 20) для средней точности фиксирования факторов. Если это невозможно, то
для принятия решения нет достаточных оснований и оно становится интуитивным.
Это блок-схема, как и последующие, служит весьма грубым приближением к
действительности. На практике учитывается еще масса обстоятельств. Например,
42
решения, принимаемые по каждому фактору в отдельности, корректируются при
рассмотрении совокупности факторов.
На рис. 20 изображена блок-схема для случая средней точности фиксирования
факторов.
Характерен выбор среднего интервала варьирования. Лишь в случае нелинейной
поверхности и широкого диапазона рекомендуется узкий интервал варьирования. При
сочетаниях линейной поверхности с узким диапазоном и отсутствием информации о
диапазоне выбирается широкий интервал варьирования. Пунктиром, как и выше,
показаны редко применяемые альтернативы.
Наконец, на рис. 21 построена блок-схема для случая высокой точности
фиксирования фактора. Сочетание высокой точности с нелинейностью поверхности
всегда приводит к выбору узкого интервала. Довольно часто выбирается средний
интервал и лишь в двух случаях широкий. В обеих последних блок-схемах отсутствуют
неоднозначные решения.
Итак, вооружившись умением выбирать основной уровень и интервалы
варьирования факторов, мы готовы приступить к построению плана проведения
эксперимента.
43
Лекция 5. Полный факторный эксперимент типа 2к
Первый этап планирования эксперимента для получения линейной модели основан
на варьировании факторов на двух уровнях. В этом случае, если число факторов
известно, можно сразу найти число опытов, необходимое для реализации всех
возможных сочетаний уровней факторов.
Простая формула, которая для этого используется, N = 2к, где N– число опытов, к–
число факторов, 2 – число уровней. В общем случае эксперимент, в котором
реализуются все возможные сочетания уровней факторов, называется полным
факторным экспериментом.
Если выбранная модель включает только линейные члены полинома и их
произведения, то для оценки всех параметров модели используется план эксперимента с
варьированием всех факторов на двух уровнях. Такие планы принято называть планами
типа 2n, где 2n=N – число всех возможных опытов, n – количество варьируемых
факторов.
Полный факторный эксперимент может быть предложен исследователю как один
из способов построения математической модели (идентификации)
недетерминированного объекта. Этот способ оказывается наиболее предпочтительным в
тех случаях, когда отсутствует априорная информация для обоснования структуры
модели с позиций физико-химических представлений процессов, происходящих в
объекте, отсутствует количественная оценка степени влияния изучаемых факторов на
выходную переменную объекта, его выходной показатель.
Нетрудно написать все сочетания уровней в эксперименте с двумя факторами.
Напомним, что в планировании эксперимента используются кодированные значения
факторов: +1 и –1 (часто для простоты записи единицы опускают). Условия
эксперимента можно записать в виде таблицы, где строки соответствуют различным
опытам, а столбцы – значениям факторов. Будем называть такие таблицы
матрицами(репликами) планирования эксперимента.
Матрица планирования 22 для двух факторов показана в табл.
Матрица планирования
В
Номер
ыход
опыта
x1
x2
у
y
1
–1
–1
y
2
+1
–1
y
3
–1
+1
4
+1
+1
3
y
4
Каждый столбец в матрице планирования называют вектор-столбцом, а каждую
строку –вектор-строкой.
Таким образом, мы имеем два вектора-столбца независимых переменных и один
вектор-столбец параметра оптимизаций. То, что записано в этой таблице в
алгебраической форме, можно изобразить геометрически. Найдем в области определения
факторов точку, соответствующую основному уровню, и проведем через нее новые оси
координат, параллельные осям натуральных значений факторов. Далее, выберем
масштабы по новым осям так, чтобы интервал варьирования для каждого фактора
равнялся единице. Тогда условия проведения опытов будут соответствовать вершинам
квадрата, центром которого является основной уровень, а каждая сторона параллельна
одной из осей координат и равна двум интервалам (рис.). Номера вершин квадрата
соответствуют номерам опытов в матрице планирования. Площадь, ограниченная
квадратом, называется областью эксперимента. Иногда удобнее считать областью
44
эксперимента площадь, ограниченную окружностью, описывающей квадрат. В задачах
интерполяции область эксперимента есть область предсказываемых значений у.
На рис.9.2 показан в факторном пространстве симметричный двухуровневый план
для двухфакторной функции отклика y=f(x1x2) при нейтральном (рис.9.2,а) и
нормированном (рис.9.2,б) представлении уровней факторов. Здесь
,
натуральные уровни факторов,
– верхние уровни,
,
– нижние,
– искомые
– интервалы варьирования.
Запись матрицы планирования, особенно для многих факторов, громоздка. Для ее
сокращения удобно ввести условные буквенные обозначения строк.
Это делается следующим образом. Порядковый номер фактора ставится в
соответствие строчной букве латинского алфавита: х1– а, х2– b, ... и т.д. Если теперь для
строки матрицы планирования выписать латинские буквы только для факторов,
находящихся на верхних уровнях, то условия опыта будут заданы однозначно. Опыт со
всеми факторами на нижних уровнях условимся обозначать (1). Матрица планирования
вместе с принятыми буквенными обозначениями приведена в табл. 2.
Матрица планирования
Буквенн
В
Номер
ые
ыход
опыта
x1
x2
обозначения
у
(1)
y
1
–1
–1
a
y
2
+1
–1
b
y
3
–1
+1
3
ab
y
4
+1
+1
4
Теперь вместо полной записи матрицы планирования можно пользоваться только
буквенными обозначениями, Ниже приведена буквенная запись еще одного плана: с, b, a,
abc, (1), bc, aс,ab. Матрица планирования приведена в табл. 3.
Номер
х1
х2
х3
Букве
у
опыта
нные
обозначения
строк
1
–
–
+
c
у1
1
1
1
2
–
+
–
b
у2
1
1
1
3
+
–
–
a
у3
1
1
1
4
+
+
+
abc
у4
1
1
1
45
5
–
1
6
–
1
–
1
7
+
1
+
1
(1)
у5
+
bc
у6
+
ac
у7
1
–
1
–
1
1
+
+
–
ab
у8
1
1
1
Таким образом вы построили полный факторный эксперимент 23. Он имеет восемь
опытов и включает все возможные комбинации уровней трех факторов.
Если для двух факторов все возможные комбинации уровней легко найти прямым
перебором (или просто запомнить), то с ростом числа факторов возникает необходимость
в некотором приеме построения матриц. Из многих возможных обычно используется три
приема, основанных на переходе от матриц меньшей размерности к матрицам большей
размерности. Рассмотрим первый. При добавлении нового фактора каждая комбинация
уровней исходного плана встречается дважды: в сочетании с нижним и верхним
уровнями нового фактора. Отсюда естественно появляется прием: записать исходный
план для одного уровня нового фактора, а затем повторить его для другого уровня. Вот
как это выглядит при переходе от эксперимента. Этот прием распространяется на
построение матриц любой размерности.
Рассмотрим второй прием. Для этого введем правило перемножения столбцов
матрицы. При построчном перемножении двух столбцов матрицы произведение единиц с
одноименными знаками дает +1, а с разноименными –1. Воспользовавшись этим
правилом, получим для случая, который мы рассматриваем, вектор-столбец
произведения х1х2 в исходном плане. Далее повторим еще раз исходный план, а у
столбца произведений знаки поменяем на обратные Этот прием тоже можно перенести
на построение матриц любой размерности, однако он сложнее, чем первый.
Третий прием основан на правиле чередования знаков. В первом столбце знаки
меняются поочередно, во втором столбце они чередуются через два, в третьем – через 4,
в четвертом – через 8 и т.д. по степеням двойки.
По аналогии с полным факторным экспериментом 22 можно дать геометрическую
интерпретацию полного факторного эксперимента 23. Геометрической интерпретацией
полного факторного эксперимента 23 служит куб, координаты
вершин которого задают условия опытов.
Если поместить центр куба в точку основного уровня
факторов, а масштабы по осям выбрать так, чтобы интервал
варьирования равнялся единице, то получится куб,
изображенный на рис. Куб задает область эксперимента, а центр
куба является ее центром.
Фигура, задающая область эксперимента в многомерном
пространстве, является некоторым аналогом куба. Будем
называть эту фигуру гиперкубом.
Свойства полного факторного эксперимента типа 2k
Мы научились строить матрицы планирования полных
факторных экспериментов с факторами на двух уровнях. Теперь
выясним, какими общими свойствами эти матрицы обладают независимо от числа
факторов. Говоря о свойствах матриц, мы имеем в виду те из них, которые определяют
качество модели. Ведь эксперимент и планируется для того, чтобы получить модель,
обладающую некоторыми оптимальными свойствами. Это значит, что оценки
коэффициентов модели должны быть наилучшими и что точность предсказания
параметра оптимизации не должна зависеть от направления в факторном пространстве,
ибо заранее неясно, куда предстоит двигаться в поисках оптимума.
46
8
Два свойства следуют непосредственно из построения матрицы. Первое из них –
симметричность относительно центра эксперимента – формулируется следующим,
образом: алгебраическая сумма элементов вектор-столбца каждого фактора равна нулю,
или
, где j – номер фактора, i – номер опыта, N – число опытов.
Второе свойство – так называемое условие нормировки – формулируется
следующим образом: сумма квадратов элементов каждого столбца равна числу опытов,
или
. Это следствие того, что значения факторов в матрице задаются +1 и –1.
Мы рассмотрели свойства отдельных столбцов матрицы планирования. Теперь
остановимся на свойстве совокупности столбцов.
Сумма почленных произведений любых двух вектор-столбцов матрицы равна
нулю, или.
, j≠n.
Это важное свойство называется ортогональностью матрицы планирования.
Последнее, четвертое свойство называется ротатабельностью, т.е. точки в матрице
планирования подбираются так, что точность предсказания значений параметра
оптимизации одинакова на равных расстояниях от центра эксперимента и не зависит от
направления.
Даны две матрицы планирования:
x1x2x1x2
–
–
–
+
+
–
+
–
–
+
–
+
+
+
+
–
Давайте проверим, как выполняются все три свойства для каждой из матриц.
Первое свойство выполняется для всех столбцов обеих матриц. Действительно, для
первого столбца матрицы а) имеем
(– 1) + (+1) + (- 1) + (+ 1) = 0.
Аналогичный результат получается для всех других столбцов.
Второе свойство– также выполняется для обеих матриц.
С третьим свойством, однако, дело обстоит иначе. Если для матрицы а) формула
ортогональности выполняется, то в случае б) это не так. Действительно (–1) (+ 1) + (+ 1)
(– 1) + (– 1) (+ 1) + (+1)(–1) = –4≠0.
Полный факторный эксперимент и математическая модель
Давайте еще раз вернемся к матрице 23. Для движения к точке оптимума нам нужна
линейная модель у = b0 + b1x1+ b2х2. Наша цель – найти по результатам эксперимента
значения неизвестных коэффициентов модели. До сих пор, говоря о линейной модели,
мы не останавливались на важном вопросе о статистической оценке ее коэффициентов.
Теперь необходимо сделать ряд замечаний по этому поводу. Можно утверждать, что
эксперимент проводится для проверки гипотезы о том, что линейная модель η = β0 +
β1x1+ β2х2 адекватна. Греческие буквы использованы для обозначения «истинных»
генеральных значений соответствующих неизвестных. Эксперимент, содержащий
конечное число опытов, позволяет только получить выборочные оценки для
коэффициентов уравнения у = b0 + b1x1+ … + bkхk. Их точность и надежность зависят от
свойств выборки и нуждаются в статистической проверке.
После проведения опытов во всех точках факторного пространства необходимо
найти коэффициенты уравнения регрессии. Для этого воспользуемся методом
наименьших квадратов.
47
n
Λ
Φ = ∑ (Y i − Yi ) 2 → min ;
i =1
 ∂Φ
 ∂b = 0
Y i = ϕ(X1 ,..., X k , b 0 ,..., b k )
 0
, поскольку ...
,
n
Φ = ∑ (ϕ(X1 ,..., X k , b 0 ,..., b k ) − Yi ) 2
 ∂Φ
i =1

=0
 ∂b k
то после дифференцирования получим
n
∂ϕ
 ∂Φ
=
2
(ϕ(X1 ,..., X k , b 0 ,..., b k ) − Yi )
= 0,
∑
 ∂b
∂
b
i
=
1
0
 0
...

 ∂Φ
n
∂ϕ

= 2∑ (ϕ(X1 ,..., X k , b 0 ,..., b k ) − Yi )
= 0.
 ∂b k
∂b k
i =1
Для линейной регрессии при k=2:
Yi = ϕ(X1i , X 2i , b 0 , b1 , b 2 ), Yi = b 0 + b1X1i + b 2 X 2i . ;
продифференцировав по коэффициентам, получим:
∂ϕ
∂ϕ
∂ϕ
= 1,
= X1i ,
= X 2i .
∂b 0
∂b1
∂b 2
Запишем уравнения в полной форме:
n
∑ (b 0 + b1X1i + b 2 X 2i − Yi ) ∗ 1 = 0,
 i =1
n
∑ (b 0 + b1X1i + b 2 X 2i − Yi ) ∗ X1i = 0, ⇔
 i =1
n
∑ (b 0 + b1X1i + b 2 X 2i − Yi ) ∗ X 2i = 0.
 i =1
Λ
n
n
n
 n
(
1)b
(
X
)b
(
X
)b
+
+
=
 ∑ 0 ∑ 1i 1 ∑ 2i 2 ∑ Yi ,
i =1
i =1
i =1
 i =1
n
n
n
n

2
(∑ X1i )b 0 + (∑ X1i )b1 + (∑ X 2i X1i )b 2 = ∑ X1i Yi ,
i =1
i =1
i =1
 i =1
n
n
n
 n
2
(∑ X 2i )b 0 + (∑ X1i X 2i )b1 + (∑ X 2i )b 2 = ∑ X 2i Yi .
i =1
i =1
i =1
 i =1
n
∑1 = n ,
разделим каждое уравнение на
n
i =1
1 n
1 n
1 n

+
+
=
b
(
X
)b
(
X
)b
 0 n ∑ 1i 1 n ∑ 2i 2 n ∑ Yi ,
i =1
i =1
i =1

n
n
n
 1
1
1
1 n
2
(
X
)b
+
(
X
)b
+
(
X
X
)b
=
X1i Yi ,
 ∑ 1i 0
∑
∑
∑
1i
1
2i 1i
2
n
n
n
n
=
=
=
=
i
1
i
1
i
1
i
1

 1 n
1 n
1 n
1 n
2
( ∑ X 2i )b 0 + ( ∑ X1i X 2i )b1 + ( ∑ X 2i )b 2 = ∑ X 2i Yi .
n i =1
n i =1
n i =1
 n i =1
48
Отсюда, принимая в расчет свойства матрицы планирования, получим следующие
формулы для вычисления коэффициентов
1 n
∑ Yi ,
n i =1
1 n
b1 = ∑ X1i Yi ,
n i =1
1 n
b 2 = ∑ X 2i Yi .
n i =1
b0 =
1 n
∑ X ji Yi , j = 0, k.
n i =1
Вы видите, что благодаря кодированию факторов расчет коэффициентов
превратился в простую арифметическую процедуру.
Для подсчета коэффициента b1 используется вектор-столбец х1 а для b2 – столбец
х2. Остается неясным, как найти b0. Если наше уравнение у = b0 + b1x1+ b2х2 справедливо,
то оно верно и для средних арифметических значений переменных: y = b0 + b1 x 1+ b2 x 2.
Но в силу свойства симметрии x 1 = x 2 = 0. Следовательно, y = b0. Мы показали, что b0
есть среднее арифметическое значение параметра оптимизации. Чтобы его получить,
необходимо сложить все у и разделить на число опытов. Чтобы привести эту процедуру в
соответствие с формулой для вычисления коэффициентов, в матрицу планирования
удобно ввести вектор-столбец фиктивной переменной x0, которая принимает во всех
опытах значение +1. Это было уже учтено в записи формулы, где j принимало значения
от 0 до к.
Теперь у нас есть все необходимое, чтобы найти неизвестные коэффициенты
линейной модели
у = b0 + b1x1+ b2х2
Коэффициенты при независимых переменных указывают на силу влияния
факторов. Чем больше численная величина коэффициента, тем большее влияние
оказывает фактор. Если коэффициент имеет знак плюс, то с увеличением значения
фактора параметр оптимизации увеличивается, а если минус, то уменьшается. Величина
коэффициента соответствует вкладу данного фактора в величину параметра оптимизации
при переходе фактора с нулевого уровня на верхний или нижний.
Иногда удобно оценивать вклад фактора при переходе от нижнего к верхнему
уровню. Вклад, определенный таким образом, называется эффектом фактора (иногда его
называют основным или главным эффектом). Он численно равен удвоенному
коэффициенту. Для качественных факторов, варьируемых на двух уровнях, основной
уровень не имеет физического смысла. Поэтому понятие «эффект фактора» является
здесь естественным.
Планируя эксперимент, на первом этапе мы стремимся получить линейную модель.
Однако у нас нет гарантии, что в выбранных интервалах варьирования процесс
описывается линейной моделью. Существуют способы проверки пригодности линейной
модели. А если модель нелинейна, как количественно оценить нелинейность, пользуясь
полным факторным экспериментом?
Один из часто встречающихся видов нелинейности связан с тем, что эффект одного
фактора зависит от уровня, на котором находится другой фактор. В этом случае говорят,
что имеет место эффект взаимодействия двух факторов. Полный факторный эксперимент
позволяет количественно оценивать эффекты взаимодействия. Для этого надо, пользуясь
правилом перемножения столбцов, получить столбец произведения двух факторов. При
вычислении коэффициента, соответствующего эффекту взаимодействия, с новым векторстолбцом можно обращаться так же, как с вектор-столбцом любого фактора. Для полного
49
или в общем виде b j =
факторного эксперимента 22 матрица планирования с учетом эффекта взаимодействия
представлена в табл. Очень важно, что при добавлении столбцов эффектов
взаимодействий все рассмотренные свойства матриц планирования сохраняются.
Матрица планирования эксперимента 22
с учетом взаимодействия факторов
Номер
опыта
1
2
3
х
0
х
1
+
1
1
1
–
1
+
1
+
1
1
у
1
у
–
1
+
1
у
+
–
–
1
х
1х2
2
–
+
1
х
2
у
–
1
3
+
+
+
+
у
1
1
1
1
4
Теперь модель выглядит следующим образом:
у= b0 х0 + b1x1 + b2x2 + b12х1х2.
Коэффициент b12 вычисляется обычным путем.
Столбцы x1 и х2 задают планирование – по ним непосредственно определяются
условия опытов, а столбцы х0 и х1х2 служат только для расчета.
Обращаем ваше внимание на то, что при оптимизации мы стремимся сделать
эффекты взаимодействия возможно меньшими.
В задачах интерполяции, напротив, их выявление часто важно и интересно.
Покажем на примере еще один способ расчета коэффициентов, известный под
названием метода Йетса. Все операции по расчету приведены в табл.
1
2
3
у1 + у2 +
у1
у1 + у2
у3 + у4
у2 – у1 +
у2
у3 + у4
у4 – у3
у3 + у4 –
у3
у2 – у1
у1 – у2
у4 – у3 –
у4
у4 – у3
у2 + у1
Слева в этой таблице выписан вектор-столбец значений параметра оптимизации.
Первая операция (2-й столбец) состоит в попарном сложении и вычитании этих
значений, причем верхнее число вычитается из нижнего. Вторая операция (3-й столбец)
состоит в том же действии, но уже с числами второго столбца.
Если теперь числа, оказавшиеся в третьем столбце, разделить на число опытов, то
получим значения коэффициентов. Операции сложения и вычитания повторяются
столько раз, сколько имеется факторов.
Оценки коэффициентов функции отклика
С помощью матрицы планирования, описанной в табл. 3.1, можно вычислить
оценки коэффициентов неполного полинома третьей степени
y' = 0 + 1x1 + 2x2 +х3 +12x1x2 +13x1x3 + 23x2x3 + 123x1x2х3
или линейной функции
y' = 0 + 1x1 + 2x2 +3х3.
Первый вид полинома позволяет оценить не только влияние отдельных факторов,
но и один из часто встречающихся видов нелинейности, когда эффект одного фактора
зависит от уровня других факторов, т.е. присутствует эффект взаимодействия факторов.
4
50
Эффект взаимодействия вида xi xj называют парным, xi xj xk – тройным и т. д. С ростом
количества факторов число возможных взаимодействий быстро увеличивается.
Суммарно количество всех коэффициентов функции отклика такого типа равно числу
опытов полного факторного эксперимента.
Оценки коэффициентов полинома определяются на основе метода наименьших
квадратов и для рассматриваемого типа ПФЭ вычисляются по простым соотношениям [8,
стр. 29]
;
(3.
1)
.
Здесь величина y соответствует значению отклика в указанной точке факторного
пространства при отсутствии повторных опытов или является оценкой математического
ожидания
значений функции отклика по всем ru повторным опытам в данной точке.
Повторные опыты проводятся в тех случаях, когда на функционирование системы
оказывают влияние случайные воздействия. Количество повторных опытов в разных
точках плана может различаться.
Допустима следующая интерпретация оценок коэффициентов:
0 соответствует значению функции отклика в центре проводимого эксперимента;
i равен приращению функции при переходе значения фактора i с нулевого уровня
на верхний (это вклад соответствующего фактора в значение функции);
ij равен нелинейной части приращения функции при одновременном переходе
факторов i и j с нулевого уровня на верхний и т.п.
Ошибки в определении коэффициентов полинома можно охарактеризовать
соответствующей дисперсией. С учетом того, что кодированные значения факторов
принимают значения +1 и – 1, оценка дисперсии коэффициента определяется
соотношением
(
3.2)
.
Следовательно, оценка дисперсии всех коэффициентов одинакова и определяется
только дисперсией средних значений функции отклика и числом опытов. Эту формулу
можно применять, если количество опытов во всех точках плана одинаково. При
факторном эксперименте, в отличие от классического, одновременно варьируются все
факторы, поэтому каждый коэффициент полинома определяется по результатам всех
экспериментов, тем самым оценка дисперсии коэффициентов получается в N раз меньше
средней дисперсии всех опытов. Оценка дисперсии среднего значения в конкретной
точке плана
,
где u – оценка дисперсии функции отклика в точке u, ru – число повторных
опытов в этой точке плана [7, стр. 50]. Дисперсия оценок всех коэффициентов одинакова,
поэтому ПФЭ рассмотренного типа являются ротатабельным.
При использовании неполных полиномов k-го порядка количество точек плана
равно количеству оцениваемых параметров (насыщенное планирование). Поэтому не
остается степеней свободы для проверки гипотезы об адекватности представления
2
51
результатов эксперимента заданной математической моделью. Если применять
полиномы первой степени, то тогда остаются степени свободы для проверки гипотезы об
адекватности модели.
Лекция 6. Дробный факторный эксперимент
Начнем с самого простого – полного факторного эксперимента 22. Напишем еще
раз эту хорошо нам известную матрицу
Номер
х
х
х
х
у
опыта
0
1
2
1х2
+
–
–
+
у
1
1
1
1
1
1
+
+
–
–
у
2
1
1
1
1
2
+
–
+
–
у
3
1
1
1
1
3
+
+
+
+
у
4
1
1
1
1
4
Пользуясь таким планированием, можно вычислить четыре коэффициента и
представить результаты эксперимента в виде неполного квадратного уравнения
у= b0 х0 + b1x1 + b2x2 + b12х1х2.
Если имеются основания считать, что в выбранных интервалах варьирования
процесс может быть описан линейной моделью, то достаточно определить три
коэффициента: b0, b1, b2. Остается одна степень свободы. Употребим ее для минимизации
числа опытов. При линейном приближении b12→0 и вектор-столбец х1х2 можно
использовать для нового фактора х3. Поставим этот фактор в скобках над
взаимодействием х1х2 и посмотрим, каковы будут оценки коэффициентов. Здесь уже не
будет тех раздельных оценок, которые мы имели в полном факторном эксперименте 2к.
Оценки смешаются следующим образом:
b1→β1+β23; b2→β2+β13; b3→β3+β12.
Но нас это не должно огорчать. Ведь мы постулируем линейную модель, и,
следовательно, все парные взаимодействия незначимы. Главное, мы нашли средство
минимизировать число опытов: вместо восьми опытов для изучения трех факторов
оказывается можно поставить четыре. При этом матрица планирования не теряет своих
оптимальных свойств (ортогональность, ротатабельность и т.п.), в чем вы можете
самостоятельно убедиться. Найденное правило можно сформулировать так: чтобы
сократить число опытов, нужно новому фактору присвоить вектор-столбец матрицы,
принадлежащий взаимодействию, которым можно пренебречь. Тогда значение нового
фактора в условиях опытов определяется знаками этого столбца.
Посмотрите, пожалуйста, на три матрицы, приведенные ниже. Эти матрицы
предлагаются взамен полного факторного эксперимента 23, требующего, как вы знаете,
восьми опытов.
Каким бы из них вы воспользовались?
Номер
х
х
х
х
у
опыта
0
1
2
3
+
–
–
+
у
1
1
1
1
1
1
+
+
+
–
у
2
1
1
1
1
2
+
–
+
–
у
3
1
1
1
1
3
52
4
Номер
опыта
1
2
3
Номер
опыта
1
2
3
4
+
+
1
1
х
–
1
х
0
1
+
х
2
–
1
1
+
1
1
1
х
+
1
+
1
1
1
у
2
у
–
1
–
1
1
1
1
у
+
+
+
1
1
1
1
+
у
+
+
–
3
3
1
1
+
у
х
–
+
2
1
2
у
–
х
–
1
1
1
1
1
+
+
х
0
1
1
у
+
+
–
у
3
1
1
+
4
х
–
+
у
+
1
3
у
–
1
4
Проверим свойства матрицы № 1. Каждый вектор-столбец матрицы, кроме первого,
содержитравное число +1 и –1. Это означает, что выполняется условиенормировки
.
Теперь перемножим каждую пару вектор-столбцов и посмотрим, будет ли сумма
произведений равна 0. К сожалению
4
∑x
2i
x 3i = −4 , т.е. совершена какая-то ошибка в
1
выборе матрицы. Постараемся ее найти. Вектор-столбцы для х1 и х2 не вызывают
сомнения. Ведь эта часть матрицы – полный факторный эксперимент 22. А как построен
вектор-столбец для х3? Элементы этого столбца обратны по знаку элементам соседнего
столбца х2. Два этих столбца оказались взаимосвязанными: х3 = –х2. При этом b3→β3–β2 и
b2→β2–β3. В таком планировании не могут быть раздельно оценены основные эффекты.
Значит, мы потеряли информацию о двух линейных коэффициентах нашей модели.
Таким планированием воспользоваться невозможно.
Матрица № 2 содержит всего три опыта. Три опыта недостаточны для оценки
четырех коэффициентов: b0, b1, b2 и b3. Кроме того, ни одно из свойств, присущих
полному факторному эксперименту, здесь не выполняется, за исключением нормировки.
Матрица № 3 сохраняет все свойства полного факторного эксперимента. Она дает
возможность оценить свободный член b0 и три коэффициента при линейных членах,
потому что для х3 использован вектор-столбец х1х2 полного факторного эксперимента 22.
Если мы в дополнение к столбцам матрицы № 3 вычислим еще столбцы для
произведений х1х3 и х2х3, то увидим, что элементы столбца х1х3 совпадут с элементами
столбца х2 а элементы столбца х2х3 – с элементами столбца x1. Найденные нами
коэффициенты будут оценками для совместных эффектов
b1→β1+β23; b2→β2+β13; b3→β3+β12.
Такое планирование нас вполне устраивает. Мы смешали эффекты взаимодействия
с основными эффектами. (Но все основные эффекты оцениваются раздельно друг от
53
друга) Так как постулируется линейная модель, то предполагается, что эффекты
взаимодействия близки к нулю, и поэтому b1≈β1; b2≈β2; b3≈β3.
Мы рассмотрели самый простой случай: матрицу из четырех опытов для
трехфакторного планирования. С увеличением числа факторов вопрос о минимизации
числа опытов превращается в довольно сложную задачу. Рассмотрим ее детально. При
этом нам не обойтись без новых определений и понятий.
Поставив четыре опыта для оценки влияния трех факторов, мы воспользовались
половиной полного факторного эксперимента 23, или «полурепликой». Если бы мы х3
приравняли к –х1х2, то получили бы вторую половину матрицы 23. В этом случае: b1→β1–
β23; b2→β2–β13; b3→β3–β12. При реализации обеих полуреплик можно получить
раздельные оценки для линейных эффектов и эффектов взаимодействия, как и в полном
факторном эксперименте 23.
Объединение этих двух полуреплик и есть полный факторный эксперимент 23.
Матрица из восьми опытов для четырехфакторного планирования будет
полурепликой от полного факторного эксперимента 24, а для пятифакторного
планирования – четверть-репликой от 25. В последнем случае два линейных эффекта
приравниваются к эффектам взаимодействия. Для обозначения дробных реплик, в
которых р линейных эффектов приравнены к эффектам взаимодействия, удобно
пользоваться условным обозначением
2k–p. Так, полуреплика от 26 запишется в виде 26–1, а четверть-реплика от 25 – в виде 25–2.
Генерирующие соотношений и определяющие контрасты
При построении полуреплики 23 существует всего две возможности: приравнять х3
к +х1х2 или к –х1х2. Поэтому есть только две полуреплики 23–1.
Н
I: x3=x1x2
омер
x
оп
ыта
1
1
II: x3=–x1x2
2
3
1x2x3
–
1
+
2
3
x1x2x3
–
1
–
1
1
1
1
1
1
+ 1
2
1
1
1
1
1
1
+ 1
–
3 1
1
1
1
1
1
1
1
1
+
–
4
1
1
1
1
1
1
1
1
Для произведения трех столбцов матрицы I выполняется соотношение: +l=x1x2x3, а
матрицы II: –1=x1x2x3. Вы видите, что все знаки столбцов произведений одинаковы и в
первом случае равны плюс единице, а во втором – минус единице.
Символическое обозначение произведения столбцов, равного +1 или –1, называется
определяющим контрастом. Контраст помогает определять смешанные эффекты. Чтобы
определить, какой эффект смешан сданным, нужно помножить обе части определяющего
контраста на столбец, соответствующий данному эффекту. Так, для первой полуреплики
определяющий контраст 1=x1x2x3, помогает вычислить генерирующие соотношения:
x1=x12x2x3, так какxj2=1, получим x1=x2x3, аналогично x2= x1x22x3=x1x3 и x3= x1x2x32=x1x2.
Для второй полуреплики с помощью определяющего контраста –1=x1x2x3 будем
иметь другие генерирующие соотношения: x1=–x12x2x3=–x2x3; x2=–x1x22x3=–x1x3; x3=–
x1x2x32=–x1x2.
Соотношение, показывающее, с каким из эффектов смешан данный эффект,
называется генерирующим соотношением.
Полуреплики, в которых основные эффекты смешаны с двухфакторными
взаимодействиями, носят название планов с разрешающей способностью III (по
наибольшему числу факторов в определяющем контрасте). Такие планы принято
обозначать: 23III−1 .
54
При выборе полуреплики 24–1 возможно восемь решений:
1. x4= x1x2
2. x4= –x1x2
3. x4= x2x3
4. x4= –x2x3
5. x4= x1x3
6. x4= –x1x3
7. x4= x1x2x3
8. x4= –x1x2x3
Разрешающая способность этих полуреплик различна. Так, реплики 1–6 имеют по
три фактора в определяющем контрасте, а 7–8 по четыре. Реплики 7 и 8 имеют
максимальную разрешающую способность и называются главными. Разрешающая
способность задается системой смешивания данной реплики. Она будет максимальной,
если линейные эффекты смешаны с эффектами взаимодействия наибольшего
возможного порядка.
При отсутствии априорной информации об эффектах взаимодействия
экспериментатор стремится выбрать реплику с наибольшей разрешающей способностью,
так как тройные взаимодействия обычно менее важны, чем парные. Если существует
информация об эффектах взаимодействия, то она должна использоваться при выборе
реплики.
Реплики, в которых нет ни одного главного эффекта, смешанного с другим главным
эффектом или парным взаимодействием, а все парные взаимодействия смешаны друг с
другом, носят название планов с разрешающей способностью IV (по наибольшему числу
факторов в определяющем контрасте). Они имеют обозначение 2 4VI−1 . Полуреплика,
заданная определяющим контрастом l=+x1x2x3x4, имеет только четные комбинации букв
в каждой строке. Ее можно записать следующим образом, считая строку (1) четной:
(1), ad, bd, ab, ас, cd, bс, abсd.
А полуреплика, заданная 1 = – x1x2x3x4имеет только нечетные комбинации а, b, с, d,
abd, acd, abc, bcd.
Такие полуреплики называют главными полурепликами, так как они обладают
наибольшей разрешающей способностью.
Пусть выбраны полуреплики, заданные определяющими контрастами l=+x1x2x3x4 и
1 = – x1x2x3x4. Совместные оценки здесь определяются соотношениями:
1. x1= x2x3x4
x1= –x2x3x4
2. x2= x1x3x4
x2= –x1x3x4
3. x3= x1x2x4
x3= –x1x2x4
4. x4= x1x2x3
x4= –x1x2x3
5. x1x2= x3x4
x1x2= –x3x4
6. x1x3= x2x4
x1x3= –x2x4
7. x1x4= x2x3
x1x4= –x2x3
Такой тип смешивания даст возможность оценивать линейные эффекты совместно
с эффектами взаимодействий второго порядка, а взаимодействия первого порядка –
совместно друг с другом.
Если полуреплики заданы генерирующими соотношениями x4= x1x2и x4= –x1x2, то в
этом случае определяющими контрастами являются 1=x1x2x4 и 1 = –x1x2x4,
следовательно, мы получаем планы с разрешающей способностью III и некоторые
основные эффекты смешиваем с парными взаимодействиями:
1. x1= x2x4
x1= –x2x4
2. x2= x1x4
x2= –x1x4
x3= –x1x2x3x4
3. x3= x1x2x3x4
4. x4= x1x2
x4= –x1x2
55
5. x2x3= x1x3x4
x2x3= –x1x3x4
6. x1x3= x2x3x4
x1x3= –x2x3x4
7. x3x4= x1x2x3
x3x4= –x1x2x3
Разрешающая способность этих полуреплик ниже, чем у планов с разрешающей
способностью IV, с помощью которых линейные эффекты определяются независимо от
парных взаимодействий.
Эти полуреплики имеют в каждой строке как четные, так и нечетные комбинации
букв. Такиеполуреплики не являются главными. Разумен выбор такой полуреплики, если
имеется априорная информация о большей значимости тройных взаимодействий по
сравнению с парными или о незначимости трех парных взаимодействий x2x4, x1x4, х1х2.
Как видите, выбор дробной реплики требует много терпенья и труда. Но другого
пути нет. Применяя дробное планирование, нужно точно знать систему смешивания,
четко представлять, какую информацию приходится терять.
Поговорим теперь о полурепляке 25–1.
При выборе полуреплики 25–1 в распоряжении экспериментатора имеется
множество вариантов. Так, х5 можно приравнять к одному из шести парных
взаимодействий. В этом случае получим полуреплику с разрешающей способностью III.
Очевидно, это будет не лучший выбор полуреплики. Далее, х5 можно приравнять к
одному из четырех тройных взаимодействий. Тогда получим план с разрешающей
способностью IV, и все линейные эффекты будут смешаны с тройными
взаимодействиями. И, наконец, полуреплика может быть задана генерирующими
соотношениями x5=+x1x2x3x4 или x5=–x1x2x3x4. Определяющими контрастами в этом
случае будут 1=+x1x2x3x4x5и 1=–x1x2x3x4x5. Такие реплики носят название планов с
разрешающей способностью V и обозначаются 25V−1 . В таких планах линейные эффекты
смешаны со взаимодействиями третьего порядка, а взаимодействия первого порядка – с
взаимодействиями второго порядка
Выбор 1/4-реплик.
При исследовании влияния пяти факторов можно поставить не 16 опытов, как в
предыдущем примере, а только 8, т.е. воспользоваться репликой 25–2. Здесь возможны
двенадцать решений, если x4 приравнять парному взаимодействию, а х5 – тройному:
x5= x1x2x3
1. x4= x1x2
2. x4= x1x2
x5= –x1x2x3
3. x4= –x1x2
x5= x1x2x3
4. x4= –x1x2
x5= –x1x2x3
5. x4= x1x3
x5= x1x2x3
6. x4= x1x3
x5= –x1x2x3
7. x4= –x1x3
x5= x1x2x3
8. x4= –x1x3
x5= –x1x2x3
9. x4= x2x3
x5= x1x2x3
10. x4= x2x3
x5= –x1x2x3
11. x4= –x2x3
x5= x1x2x3
12. –x4= x2x3
x5= –x1x2x3
Допустим, выбран пятый вариант: x4= x1x3 и x5= x1x2x3. Тогда определяющими
контрастами являются: l=x1x3x4 и 1=x1x2x3x5.
Если перемножить эти определяющие контрасты, то получится третье
соотношение, задающее элементы столбца 1=x2x4x5. Чтобы полностью охарактеризовать
разрешающую способность реплики, необходимо записать обобщающий определяющий
контраст 1 = x1x3x4=x2x4x5=x1x2x3x5
Система смешивания определяется умножением обобщающего определяющего
контраста последовательно на х1, х2, х3 и т. д.
x1= x3x4= x1x2x4x5= x2x3x5
56
x2 = x1x2x3x4= x4x5= x1x3x5
x3= x1x4= x2x3x4x5= x1x2x5
x4= x1x3= x2x5= x1x2x3x4x5
x5= x1x3x4x5= x2x4= x1x2x3
x1x2= x2x3x4= x1x4x5= x3x5
x1x5= x3x4x5= x1x2x4= x2x3
Получается довольно сложная система смешивания линейных эффектов с
эффектами взаимодействия первого, второго, третьего и четвертого порядков. Если,
например, коэффициенты b12 и b15отличны от нуля, то возникают сомнения, можно ли
пренебрегать другими парными взаимодействиями, с которыми смешаны линейные
эффекты. Тогда следует поставить вторую серию опытов, выбрав нужным образом
другую 1/4-реплику.
При этом можно воспользоваться методом «перевала». Смысл этого метода
заключается в том, что вторая четверть-реплика получается из первой путем изменения
всех знаков матрицы на обратные. Тогда в обобщающем определяющем контрасте
тройные произведения имеют знак, противоположный их знаку в первой четвертьреплике. Тройные произведения определяют парные взаимодействия в совместных
оценках для линейных эффектов. Усредняя результаты обеих четверть-реплик, можно
получить линейные эффекты, не смешанные с парными взаимодействиями.
Для дополнения 1/4-реплики до 1/2-реплики, если есть подозрения, что эффекты
взаимодействия первого порядка отличаются от нуля, нужно взять вторую четвертьреплику с обобщающим контрастом, в котором два тройных произведения имеют
отрицательный знак, так как тройные произведения определяют парные взаимодействия
в совместных оценках для линейных эффектов.
Однако можно представить себе и такой случай, когда целесообразно освободить
линейные эффекты от эффектов взаимодействия второго порядка и только часть из
линейных эффектов от парных взаимодействий. Тогда нужно выбрать 1/4-реплику таким
образом, чтобы в обобщающем определяющем контрасте произведение четырех членов
имело отрицательный знак, так как это произведение определяет тройные
взаимодействия в совместных оценках для линейных эффектов.
Достоинство принципа насыщения становится более ощутимым с ростом факторов.
Например, при изучении 15 факторов имеется возможность проведения 16
экспериментов, вместе 32768 (215).
Характеристика дробных реплик
Услов
Число
факторов
Дробная
реплика
ное
обозна
ч.
1/2 – реплика
3
от 2
3
4
от 2
4
5
от 2
3
1/2 – реплика
1/4 – реплика
Число опытов
для
дробных
реплик
для
полного
факторного
эксперим.
23–1
4
8
24–1
8
16
25–2
8
32
57
1/8 – реплика
6
от 25
7
от 26
5
от 25
6
от 26
7
от 27
8
от 28
9
10
11
12
13
14
1/16 – реплика
1/2 – реплика
1/4 – реплика
1/8 – реплика
1/16– реплика
2
9
2
10
от 2
от 2
от 2
26–3
8
64
27–4
8
128
25–1
16
26–2
16
27–3
16
28–4
16
1/32-реплика от
29–5
1/64-реплика от
210–6
1/128-реплика
211–7
1/256-реплика
212–8
1/512-реплика
213–9
1/1024-реплика
214–10
1/2048-реплика
215–11
11
12
13
от 214
16
16
16
16
16
16
32
64
128
256
512
1024
2048
4096
8192
16384
32768
16
от 215
Способ сокращения числа экспериментов можно сформулировать в виде общего
правила.
Чтобы сократить число опытов, нужно дополнительно вводимый в эксперимент
фактор варьировать как вектор–столбец матрицы, соответствующий взаимодействию,
которым можно пренебречь. Тогда изменение уровней нового фактора определится
знаками этого вектор–столбца.
При выборе дробных реплик необходимо определить и проанализировать с учетом
априорной информации схему замещения оценок коэффициентов модели. С этой целью
вычисляют генерирующие соотношения, которые показывают, с каким изэффектов
смешан данный эффект.
В задачах с большим числом факторов выбор взаимодействия для насыщения плана
решает относительно непросто. Следует помнить, что основное положение при выборе
взаимодействий в общем случае состоит в следующем. При введении в эксперимент
новых факторов следует выделять им столбцы матрицы, принадлежащие
взаимодействиям с более высоким порядком. Так, вводя 4–й фактор в план 23, следует
варьировать х4 как столбец матрицы с взаимодействием третьего порядка х1x2x3, т. е.
х4=х1x2x3, так как предположение об отсутствии взаимодействия х1x2x3более реально, по
сравнению, например, с взаимодействием x1x2.
15
Лекция 7. Оценки коэффициентов функции отклика в дробном факторном
эксперименте. Выбор оптимальных условий эксперимента.
Применение дробных реплик ведет к смешиванию оценок параметров модели, а их
построение предполагает исключение из рассмотрения некоторых взаимодействий
58
факторов. Оценки смешиваются в связи с тем, что каждый из р столбцов дробного
факторного плана совпадает с некоторым произведением основных факторов.
Запись плана в виде 2k–p не дает полной характеристики регулярной дробной
реплики, так как основные эффекты можно приравнять к различным эффектам
взаимодействия. Правило смешивания, определяющее коррелированные основные
эффекты и эффекты взаимодействия, удобно описывать с помощью определяющего
контраста реплики. Определяющий контраст полуреплики получается путем умножения
генерирующего соотношения на его же левую часть, а так как для любой кодированной
переменной xi2=1, то левая часть формулы определяющего контраста всегда равна
единице и обозначается I. В частности, для ДФП типа 23–1 и генераторе x3 = x1x2 имеет
место определяющий контраст I = x1x2x3 (генератор умножается на переменную x3,
следовательно, x3 x3 = I = x1 x2 x3).
Чтобы определить, с какими параметрами смешана оценка коэффициента данного
фактора, следует умножить обе части определяющего контраста на этот фактор.
Учитывая равенство xi2=1, получим порядок смешивания оценок коэффициентов при
использовании конкретного плана. В рассматриваемом примере для плана 23–1 и
определяющего контраста I = x1x2x3 порядок смешивания факторов следующий:
x1 = x12 x2 x3 = x2 x3; x2 = x1 x22 x3 = x1 x3; x3 = x1 x2 x32 = x1 x2 .
Оценки коэффициентов линейной модели для этого плана эксперимента не могут
быть получены раздельно и будут смешанными:
1*= 1 + 23 ; 2*= 2 + 13 ; 3*= 3 + 12 .
Планы типа 2k–р являются ортогональными для моделей с взаимодействиями.
Поэтому для вычисления оценок коэффициентов получаются простые формулы, как и
для случая ПФЭ
.
Планы дробных реплик строят различным образом, но так, чтобы соблюдались
основные свойства матрицы планирования. Например, ДФП 23–1 можно представить
одной из двух полуреплик, генераторами которых являются x3 = x1x2 и x3 = – x1x2
соответственно. Определяющие контрасты этих полуреплик: x32 = I = x1x2x3 и x32 = I = –
x1x2x3 .
В этих полурепликах смешивание факторов задается соотношениями:
а) x1 = x2x3 , x2 = x1x3 , x3 = x1x2 ;
б) x1 = – x2x3 , x2 = – x1x3 , x3 = – x1x2 .
Коэффициенты линейного полинома в каждой полуреплике:
а) 1* = 1 + 23 ; 2* = 2 + 13 ; 3* = 3 + 23 ;
б) 1* = 1 – 23 ; 2* = 2 – 13 ; 3* = 3 – 23 .
Реализовав обе полуреплики путем совместной обработки результатов
экспериментов можно получить раздельные оценки для линейных эффектов и эффектов
взаимодействия (такой вариант плана соответствует ПФЭ).
Разрешающая способность полуреплик (возможность раздельного определения
коэффициентов уравнения) зависит от генерирующих соотношений. Так, если для плана
24–1 выбрать генерирующее соотношение x4 = x1x2, то получим реплику с контрастом I =
x1x2x4 и разрешающей способностью x1 = x2x4 и т.д. Здесь линейные эффекты
определяются совместно с парными взаимодействиями. Очевидно, что в первую очередь
следует пренебречь взаимодействием более высоких порядков из-за их более низкой
вероятности существования по сравнению с парными. У полуреплики с контрастом I =
x1x2х3x4 или равноценным I = – x1x2х3x4 линейные эффекты будут определяться совместно
уже только с тройными взаимодействиями, что повышает точность оценок параметров
модели (потенциально величина смещения в оценке коэффициента уменьшается). С
ростом количества независимых переменных растет разрешающая способность
59
полуреплик, позволяя оценивать раздельно сначала линейные эффекты, затем парные,
тройные взаимодействия и т. д. Но при этом растет и избыточность экспериментов.
Реплики можно строить высокой степени дробности, сокращая тем самым
количество экспериментов. Пусть необходимо изучить влияние пяти переменных и
известно, что все эффекты взаимодействия пренебрежимо малы. Для линейного
приближения следует определить шесть коэффициентов, что потребует применения
плана с количеством точек не менее шести. Ближайшее большее число, соответствующее
целой степени 2, равно восьми, это дает возможность получить дробную реплику,
эквивалентную ПФЭ 23, т. е. реплику 25 – 2 или четвертьреплику. Для построения
четвертьреплики необходимы два генерирующих соотношения. В целях построения
такой реплики целесообразно пожертвовать тройным и одним из двойных
взаимодействий. Пусть этим двойным взаимодействием будет x1x2. Тогда можно
построить четыре различные четвертьреплики, каждая из которых задается двумя
генерирующими соотношениями:
а) x4 = x1x2 , x5 = х1x2x3 ;
б) x4 = x1x2 , x5 = – х1x2x3 ;
в) x4 = – x1x2 , x5 = х1x2x3 ;
г) x4 = – x1x2 , x5 = – х1x2x3 .
Определяющие контрасты каждой четвертьреплики задаются двумя
соотношениями:
а) I = х1x2x4 , I = х1x2x3x5 ;
б) I = х1x2x4 , I = – х1x2x3x5 ;
в) I = – х1x2x4 , I = х1x2x3x5 ;
г) I = – х1x2x4 , I = – х1x2x3x5 .
Из этой совокупности четвертьреплик следует выбрать только одну, например,
выберем реплику, задаваемую первой парой генерирующих соотношений. Матрица
планирования ДФП получается из матрицы ПФЭ 2k–p для k–p основных факторов
добавлением р столбцов, элементы которых вычисляются по соответствующим
генерирующим соотношениям, табл. 3.2.
Таблица 3.2
Матрица планирования
Вектор
результ
х0
х1
х2
х3
х4
х5
атов
+
–
–
–
+
–
y1
+
+
–
–
–
+
y2
+
–
+
–
–
+
y3
+
+
+
–
+
–
y4
+
–
–
+
+
+
y5
+
+
–
+
–
–
y6
+
–
+
+
–
–
y7
+
+
+
+
+
+
y8
Для полной характеристики разрешающей способности четвертьреплик вводят
обобщающие определяющие контрасты, третий компонент которых получается путем
перемножения попарно первых двух контрастов. Для выбранной четвертьреплики
обобщающий определяющий контраст I = х1x2x4 = х1x2x3x5 = x3x4x5 .
Все совместные оценки находятся путем умножения обобщающего определяющего
контраста последовательно на х1, х2 и т.д. В рассматриваемом случае совместные оценки
задаются соотношениями:
x1 = x2x4 = x2x3х5 = x1x3x4х5,
x2 = x1x4 = x1x3х5 = x2x3x4х5,
. . . . . . .
60
x5 = х1x2x4х5= x1x2х3 = x3x4 .
Оценки коэффициентов линейного полинома задаются соотношениями:
1* = 1 + 24 + 235 + 1345 ,
2* = 2 + 14 + 135 + 2345 ,
и т. д.
Разрешающая способность выбранной четвертьреплики невысокая – все линейные
эффекты определяются совместно с парными взаимодействиями. Этой репликой можно
пользоваться для оценки линейных эффектов при условии равенства нулю
соответствующих парных взаимодействий. Если такой уверенности нет, то следует
применить полуреплику (что требует в два раза большего количества точек плана
эксперимента по сравнению с четвертьрепликой) с генерирующим соотношением x5 =
х1x2x3x4, пользуясь которым, можно разделить все линейные эффекты и парные
взаимодействия.
Построение обобщающего определяющего контраста для реплик более высокой
степени дробности производится аналогично четвертьреплике: исходные контрасты
сначала перемножаются попарно, получаются контрасты первого уровня; затем
контрасты первого уровня снова перемножаются попарно, получаются контрасты
второго уровня и так далее, пока не будет исчерпана возможность перемножения. Если
получается два и более одинаковых контрастов, то из них оставляется только один.
Обобщающий определяющий контраст составляется путем перечисления выражений для
всех сформированных контрастов.
Взаимодействие факторов, выбранных в качестве генераторов плана, может быть
значимым или незначимым. Для построения дробных реплик следует выбирать
незначимые взаимодействия, которые выбираются по физическим соображениям на
основе априорных сведений. Следует учитывать, что ДФЭ позволяет получить
несмещенную оценку градиента функции отклика тогда и только тогда, когда ее
обобщающий определяющий контраст больше трех. Наличие смещения в оценке
градиента увеличивает количество шагов оптимизации, вносит систематическую ошибку
в описание функции отклика.
Проведение обработки результатов эксперимента
Любой эксперимент, связанный с измерением величин, сопровождается
погрешностями измерений, вносящими элемент неопределенности в результат
эксперимента. В связи с этим порядок проведения опытов должен быть выбран таким,
чтобы имелась возможность оценить случайную ошибку эксперимента и избежать
влияния возможных систематических ошибок. Постановка повторных или параллельных
опытов полностью не исключает неопределенность, так как они проводятся также с
погрешностью воспроизводимости. Выделить ошибку эксперимента, оцениваемую с
помощью дисперсии ошибки, возможно только при дублировании опытов повторением
mраз каждой строки матрицы планирования.
Сделать случайными мешающие факторы, действие которых может иметь
систематический характер, позволяет принцип рандомизации, применяемый при
реализации матрицы планирования эксперимента.
Перед проведением опытов на объекте следует определить возможные факторы,
мешающие исследованию, и провести рандомизацию порядка проведения опытов с тем,
чтобы эти факторы влияли на результаты эксперимента случайным образом.
Рандомизацию следует проводить следующим образом: в таблице равномерно
распределенных случайных чисел выбирается некоторый столбец, из которого в порядке
их следования берутся числа от 1 до 4m и записываются в столбцы, определяющие
порядок следования опытов kim матрицы планирования. Пусть, например, при i=2 k21=4.
Это значит, что вторая строка варьирования реализуется четвертой по порядку. При этом
61
мешающий фактор при случайном порядке проведения опытов не будет вызывать
систематической ошибки.
Например, для двухфакторного эксперимента
Н
омер
опыта
i
1
2
3
4
Матрица
планирования
Порядок проведения
Результаты проведения
1
i1
i2
il
im
0
1
2
x2
i1
i2
il
im
11
12
1l
1m
1
1
1
1
11
12
1l
1m
21
22
2l
2m
1
1
1
1
21
22
2l
2m
31
32
3l
3m
1
1
1
1
31
32
3l
3m
1
1
1
1
41
42
4l
4m
Почему рандомизация опытов важна, мы попытаемся показать на следующем
примере.
Рассмотрим матрицу 23, полученную из матрицы 22 обычным способом: два раза
повторен план 22, причем в первых четырех опытах x3 имеет верхнее значение, а в
последних четырех опытах – нижнее значение. Допустим, что экспериментатор может
поставить в первый день четыре опыта и во второй день также четыре опыта.
Можно ли опыты ставить подряд и в первый день реализовать опыты № 1, 2, 3 и 4,
а во второй – 5, 6, 7 и 8? Ставя опыты подряд, вы разбиваете матрицу на две части или на
два блока: в первый блок – входят опыты № 1, 2, 3 и 4, во второй – № 5, 6, 7 и 8. Если
внешние условия первого дня каким-то образом отличались от внешних условий второго
дня, то это способствовало возникновению некоторой систематической ошибки.
Обозначимэту ошибку ε. Тогда четыре значения параметра оптимизации сдвинуты на
величину ε по сравнению с истинными значениями. Пусть это будут параметры,
входящие в первый блок: y1+ε, y2+ε, y3+ε, y4+ε. Однако матрица построена так, что в
первом блоке значения х3 находятся на верхнем уровне, а во втором – на нижнем уровне.
Тогда при подсчете b3 получится следующая картина:
1
ε
b3= [(y1+ε)+(y2+ε)+(y3+ε)+(y4+ε)–y5–y6–y7–y8]→β3+ .
8
2
где β3 – истинное значение коэффициента при х3. Таким образом, возможное
различие во внешних условиях смешалось с величиной линейного коэффициента b3 и
исказило это значение. В такой последовательности опыты ставить нельзя. Опыты нужно
рандомизировать во времени, т.е. придать последовательности опытов случайный
характер.
Приведем простой пример рандомизации условий эксперимента. В полном
факторном эксперименте 23 предполагается каждое значение параметра оптимизации
определять по двум параллельным опытам. Нужно случайно расположить всего 16
опытов. Присвоим параллельным опытам номера с 9 по 16, и тогда опыт № 9 будет
повторным по отношению к первому опыту, десятый – ко второму и т. д. Следующий
этап рандомизации – использование таблицы случайных чисел. Обычно таблица
случайных чисел приводится в руководствах по математической статистике. В
случайном месте таблицы выписываются числа с 1 по 16 с отбрасыванием чисел больше
16 и уже выписанных. В нашем случае, начиная с четвертого столбца, можно получить
такую последовательность:
41
42
4l
4m
62
2; 15; 9; 5; 12; 14; 8; 13; 16; 1; 3; 7; 4;6; 11; 10.
Это значит, что первым реализуется опыт № 2, вторым – опыт № 7 и т.д.
Выбранную случайным образом последовательность опытов не рекомендуется нарушать.
Если экспериментатор располагает сведениями о предстоящих изменениях внешней
среды, сырья, аппаратуры и т. п., то целесообразно планировать эксперимент таким
образом, чтобы эффект влияния внешних условий был смешан с определенным
взаимодействием, которое не жалко потерять. Так, при наличии двух партий сырья
матрицу 23 можно разбить на два блока таким образом, чтобы эффект сырья сказался на
величине трехфакторного взаимодействия. Тогда все линейные коэффициенты и парные
взаимодействия будут освобождены от влияния неоднородности сырья (табл.).
В этой матрице при составлении блока 1 отобраны все строки, для которых
х1х2х3=+1, а при составлении блока 2 – все строки, для которых х1х2х3=–1. Различие в
сырье можно рассматривать как новый фактор x4. Тогда матрица 23, разбитая на два
блока, представляет собой полуреплику 24–1 с определяющимконтрастом 1=х1х2х3x4.
№
x
x
х
х
х
х
х
х
y
х
х
х
х
х
0
1
2
3
1 2
1 3
2 3
1 2 3
+
–
–
+
+
–
–
+
y
+ε
1
+
+
–
–
–
–
+
+
y
+ε
2
1
+
–
+
–
–
+
–
+
y
+ε
3
+
+
+
+
+
+
+
+
y
+ε
4
+
–
–
–
+
+
+
–
y
5
2
+
+
–
+
–
+
–
–
+
–
+
+
–
–
+
–
+
+
+
–
+
–
–
–
y
6
y
7
y
8
Эффект сырья отразился на подсчете свободного члена b0 и эффекта
взаимодействия второго порядка b123. Аналогично можно разбить на два блока любой
эксперимент типа 2k. Главное – правильно выбрать взаимодействие, которым можно
безболезненно пожертвовать. При отсутствии априорных сведений выбирают
взаимодействие самого высокого порядка.
При необходимости разбиения матрицы на большее количество блоков применяют
блочное планирование, например планирование по типу латинского квадрата и пр.
Результаты эксперимента для каждой строки опытов записываются в столбцы
yimтаблицы и производится их осреднение
1 m
yi = ∑l =1 yil .
m
То есть, среднее арифметическое у равно сумме всех m отдельных результатов,
деленной на количество параллельных опытов m
Отклонение результата любого опыта от среднего арифметического можно
представить как разность yq– y , где yq– результат отдельного опыта. Наличие отклонения
свидетельствует об изменчивости, вариации значений повторных опытов. Для измерения
этой изменчивости чаще всего используют дисперсию.
Дисперсией называется среднее значение квадрата отклонений величины от ее
среднего значения. Дисперсия обозначается s2 и выражается формулой
63
1
m
(yik − yi )2 .
∑
k =1
m −1
где (m–1) – число степеней свободы, равное количеству опытов минус единица.
Одна степень свободы использована для вычисления среднего.
Корень квадратный из дисперсии, взятый с положительным знаком, называется
средним квадратическим отклонением, стандартом или квадратичной ошибкойю
Дисперсия и с.к.о.– это меры рассеяния, изменчивости. Чем больше дисперсия и
стандарт, тем больше рассеяны значения параллельных опытов около среднего значения.
Ошибка опыта является суммарной величиной, результатом многих ошибок:
ошибок измерений факторов, ошибок измерений параметра оптимизации и др. Каждую
из этих ошибок можно, в свою очередь, разделить на составляющие.
Все ошибки принято разделять на два класса: систематические и случайные.
Систематические ошибки порождаются причинами, действующими регулярно, в
определенном направлении. Чаще всего эти ошибки можно изучить и определить
количественно. Систематические ошибки находят, калибруя измерительные приборы и
сопоставляя опытные данные с изменяющимися внешними условиями. Если
систематические ошибки вызываются внешними условиями (переменной температуры,
сырья и т.д.), следует компенсировать их влияние с помощью рандомизации.
Случайными ошибками называются те, которые появляются нерегулярно, причины
возникновения которых неизвестны и которые невозможно учесть заранее.
Систематические и случайные ошибки состоят из множества элементарных
ошибок. Для того чтобы исключать инструментальные ошибки, следует проверять
приборы перед опытом, иногда в течение опыта и обязательно после опыта.
Очень важно исключить изэкспериментальных данных грубые ошибки, так
называемый брак при повторных опытах. Ни в коем случае, конечно, нельзя вносить
поправки самовольно, Для отброса ошибочных опытов .существуют правила (критерий
Стьюдента, трехсигмовый критерий и др.).
Мы нашли, как подсчитывается дисперсия в каждом опыте, т.е. в каждой
горизонтальной строке матрицы планирования.
Матрица планирования состоит из серии опытов, и дисперсия всего эксперимента
получается в результате усреднения дисперсий всех опытов. По терминологии, принятой
в планировании эксперимента, речь идет о подсчете дисперсии параметра оптимизации
или, что то же самое, дисперсии воспроизводимости эксперимента (или дисперсии
ошибки эксперимента).
N
1 N
1
m
2
2
S ош
=
S i2 , или Sвоспр
(yik − yi )2
=
∑∑
k =1
N i =1
N(m − 1) i =1
Дисперсию воспроизводимости проще всего рассчитывать, когда соблюдается
равенство числа повторных опытов во всех экспериментальных точках. На практике
часто приходится сталкиваться со случаями, когда число повторных опытов различно.
Это происходит вследствие отброса грубых наблюдений, неуверенности
экспериментатора в правильности некоторых результатов (в таких случаях возникает
желание еще и еще раз повторить опыт) и т.п.
Тогда при усреднении дисперсий приходится пользоваться средним взвешенным
значением дисперсий, взятым с учетом числастепеней свободы. Число степеней свободы
средней дисперсии в таком случае принимается равным сумме чисел степеней свободы
дисперсий, из которых она вычислена.
Формулами для расчета дисперсии воспроизводимостиможно пользоваться только
в том случае, если дисперсии однородны. Последнее означает, что среди всех
суммируемых дисперсий нет таких, которые бы значительно превышали все остальные.
Одним из требований регрессионного анализа является однородность дисперсий.
si2 =
∑
64
Проверка однородности дисперсий производится с помощью различных
статистических критериев. Простейшим из них является критерий Фишера,
предназначенный для сравнения двух дисперсий.Критерий Фишера (F-критерий)
представляет собою отношение большей дисперсии к меньшей. Полученная величина
сравнивается с табличной величиной F-критерия.
Если сравниваемое количество дисперсий больше двух и одна дисперсия
значительно превышает остальные, можно воспользоваться критерием Кохрена. Этот
критерий пригоден для случаев, когда во всех точках имеется одинаковое число
повторных опытов.
В терминах дисперсионного анализа задача заключается в проверке нулевой
гипотезы о равенстве дисперсий s12 = s 22 = s32 = s 24 = s 2 во всех вариантах эксперимента.
Критерий Кохрена– это отношение максимальной дисперсии к сумме всех
дисперсий
s2
G = Ni max .
∑ si2
i =1
С этим критерием связаны числа степеней свободы f1=m–1 и f2=N.
Гипотеза об однородности дисперсий подтверждается, если вычисленное значение
G окажется меньше значения Gкрит, найденного по таблице для выбранного уровня
значимостиα. Тогда говорят, что данные эксперимента не противоречат проверяемой
гипотезе об однородности дисперсий. Тогда можно усреднять дисперсии и пользоваться
формулой для определения дисперсии воспроизводимости
1 N
2
Sвоспр
= ∑ Si2
N i =1
с N(m–1) степенями свободы.
Если проверка воспроизводимости дала отрицательный результат, то остается
признать невоспроизводимость эксперимента вследствие наличия в объекте источников
неоднородности, для выделения которых следует обратиться к приемам дисперсионного
анализа.
После проверки воспроизводимости эксперимента можно перейти к определению
модели эксперимента в виде уравнений регрессии.
Статистики разработали много разнообразных методов обработки результатов
эксперимента. Но, пожалуй, ни один из них не может конкурировать по популярности,
по широте приложений с методом наименьших квадратов (МНК), который был развит
усилиями Лежандра и Гаусса более 150 лет назад.
Давайте попробуем разобраться в этом методе. Начнем с протого случая: один
фактор, линейная модель. Интересующая нас функция отклика (которую мы будем также
называть уравнением регрессии) имеет вид
y=b0+b1x1.
Это хорошо известное вам уравнение прямой линии. Наша цель – вычисление
неизвестных коэффициентов b0 и b1. Мы провели эксперимент, чтобы использовать при
вычислениях его результаты.
Если бы все экспериментальные точки лежали строго на прямой линии, то для
каждой из них было бы справедливо равенство
yi–b0–b1x1i=0,
где i=1, 2, . . . , N – номер опыта. Тогда не было бы никакой проблемы. На практике
это равенство нарушается и вместо него приходится писать
yi–b0–b1x1i=εi.
65
где εi– разность между экспериментальным и вычисленным по уравнению
регрессии значениями у в i-й экспериментальной точке. Эту величину иногда называют
невязкой.
Действительно, невязка возникает по двум причинам: из-за ошибки эксперимента и
из-за непригодности модели. Причем эти причины смешаны и мы не можем, не получив
дополнительной информации, сказать, какая из них преобладает. Можно постулировать,
что модель пригодна. Тогда невязка будет порождаться только ошибкой опыта. (Еще
можно, конечно, постулировать, что ошибка опыта равна нулю.Тогда невязка будет
связана только с пригодностью модели, и пригодной будет такая модель, для которой все
невязки равны нулю.)
Конечно, мы хотим найти такие коэффициенты регрессии, при которых невязки
будут минимальны. Это требование можно записать по-разному. В зависимости от этого
мы будем получать разные оценки коэффициентов. Вот одна из возможных записей
N
∑ε
i =1
2
i
= min ,
которая приводит к методу наименьших квадратов.
Когда мы ставим эксперимент, то обычно стремимся провести больше (во всяком
случае не меньше) опытов, чем число неизвестных коэффициентов. Поэтому система
линейных уравнений оказывается переопределенной и часто противоречивой (т.е. она
может иметь бесконечно много решений или может не иметь решений).
Переопределенность возникает, когда число уравнений больше числа неизвестных;
противоречивость – когда некоторые из уравнений несовместимы друг с другом.
Только если все экспериментальные точки лежат напрямой, система становится
определенной и имеет единственное решение.
МНК обладает тем замечательным свойством, что он делает определенной любую
произвольную систему уравнений. Он делает число уравнений равным числу
неизвестных коэффициентов.
Наше уравнение регрессии имеет вид y=b0+b1x1.
В нем два неизвестных коэффициента. Значит, применяя МНК, мы получим два
уравнения.
Давайте попробуем их получить. Мы записали
N
∑ε
i =1
Это соотношение можно записать иначе
N
∑ (y
i =1
2
i
= min .
− b0 − b1x1i ) = min .
2
i
Вы, конечно, помните из курса математики, что минимум некоторой функции, если
он существует, достигается при одновременном равенстве нулю частных производных по
всем неизвестным.
Вот откуда берутся наши уравнения для определения коэффициентов.
Проверка значимости каждого коэффициента проводится независимо.
Ее можно осуществлять двумя равноценными способами: проверкой по t-критерию
Стьюдента или построением доверительного интервала. При использовании полного
факторного эксперимента или регулярных дробных реплик доверительные интервалы
для всех коэффициентов (в том числе и эффектов взаимодействия) равны друг другу.
Прежде всего надо, конечно, найти дисперсию коэффициента регрессии s2{bj}. Она
2
определяется в нашем случае по формуле s 2 {b j } = s воспр
N ⋅m
По сути при проверке значимости оценок коэффициентов уравнения регрессии
требуется проверить нулевую гипотезу H0: βj=0 относительно конкурирующей H1: βj≠0.
Проверка гипотезы проводится с помощью t–статистики Стьюдента, которая
вычисляется по формуле:
66
tj =
bj
βj
=
bj
,
s {b j }
s{b j }
где s{bj} – среднеквадратичное отклонение оценки коэффициентов bj.
Если найденная величинаtj превышает критическое значение, определяемое по
таблице для числа степеней свободыf=N(m–1) и заданной значимости α, то нулевая
гипотеза H0 отвергается и коэффициент bj считается значимым. В противном случае (при
tj≤tкрит) нуль–гипотеза принимается и коэффициент bj считают статистически
незначимым.
Незначимость некоторого коэффициента показывает, что в выбранном диапазоне
варьирования переменных xj отсутствует статистически значимое влияние данного
фактора на выходную переменную y. Поскольку вычисленные оценки коэффициентов
являются независимыми, то фактор с незначимым коэффициентом может быть
выброшен из уравнения регрессии без пересчета остальных значимых коэффициентов.
После исключения факторов с незначимыми коэффициентами производится
проверка адекватности полученной модели.
Для характеристики среднего разброса относительно линии регрессии вполне
подходит остаточная сумма квадратов. Неудобство состоит в том, что она зависит от
числа коэффициентов в уравнении: введите столько коэффициентов, сколько вы провели
независимых опытов, и получите остаточную сумму, равную нулю.
Числом степеней свободы в статистике называется разность между числом опытов
и числом коэффициентов (констант), которые вычислены по результатам этих опытов
независимо друг от друга.
Если, например, вы провели полный факторный эксперимент 23 и нашли линейное
уравнение регрессии, то число степеней свободы f=N–(k+1)=8–(3+1)=4.
Остаточная сумма квадратов, деленная на число степеней свободы, называется
2
остаточной дисперсией s ост
, или дисперсией адекватности и характеризует рассеяние
результатов эксперимента относительно подобранного уравнения регрессии. Дисперсия
адекватности находится следующим образом:
m N
2
2
Sост
=
∑ (y i − y i )
N − L i =1
где т –число параллельных опытов; L– число оцениваемых коэффициентов в
уравнении регрессии. Остаточная дисперсия оценивается с числом степеней свободы
f=N–L.
2
Рассмотрим пример. Требуется найти число степеней свободы для s ост
в следующем
3–1
случае: план 2 и четыре параллельных опыта в нулевой точке для вычисления ошибки
опыта; модель линейная.
Один из возможных ответов – семь степеней свободы – осован на следующих
предположениях. Вероятно, вы рассуждали так. Проделано 12 опытов: 24–1=8 плюс 4
нулевых. В уравнение входит 5 коэффициентов. Следовательно, f=12–5=7. Здесь не
учтено, что параллельные опыты нельзя считать самостоятельными, так как они
дублируют друг друга. Поэтомуони все дают одну степень свободы. Другой
неправильный ответ – 4 степени свободы. Этот неправильный ответ получился, вероятно,
из следующего рассуждения. Проделано 12 опытов: восемь по матрице планирования и
четыре нулевых. Так как все нулевые опыты тождественны, то они дают одну степень
свободы. Число коэффициентов в модели равно пяти. Следовательно, f=9–5=4. Вы не
обратили внимание на то, что опыты в нулевой точке не используются при вычислении
коэффициентов и- не могут поэтому входить в число степеней свободы.
Правильный ответ – три степени свободы. Действительно, мы провели 12 опытов,
но четыре опыта в нулевой точке были проведены для других целей и в вычислении
коэффициентов не участвовали, поэтому они не входят в число степеней свободы. (А
67
если бы входили – такие случаи возможны, то давали бы не четыре, а только одну
степень свободы.) Число коэффициентов модели – пять. Следовательно, f= 8 – 5 = 3.
Запомните правило: в планировании эксперимента число степеней свободы для
дисперсии адекватности равно числу различных опытов, результаты которых
используются при подсчете коэффициентов регрессии, минус число определяемых
коэффициентов.
Для проверки гипотезы об адекватности можно использовать F-критерий (Фишера).
Тогда для проверки адекватности выясняется соотношение между остаточной
дисперсией и дисперсией ошибки эксперимента.
Если остаточная дисперсия (или дисперсия адекватности) не превышает ошибки
эксперимента, то считается, что модель адекватно представляет результаты
эксперимента: если остаточная дисперсия больше дисперсии ошибки эксперимента, то
модель нельзя признать пригодной. Следовательно, проверяется нулевая гипотеза Н0:
2
2
2
2
2
2
противН1: σ ост
с помощью F–отношения: F= s ост
. Если вычисленное
σ ост
= σ ош
> σ ош
/ s ош
отношение меньше Fкрит, найденного по таблице для соответствующих степеней свободы
числителя fост=N–L, знаменателя fош=N(m–1) и выбранной вероятности 1–α, то нуль–
гипотеза принимается. В противном случае гипотеза отвергается и модель признается не
пригодной для представления выборочных данных эксперимента.
Таблица критерия Фишера построена следующим образом. Столбцы связаны с
определенным числом степеней свободы для числителя f1, а строки – для знаменателя f2.
На пересечении соответствующих строки и столбца стоят критические значения Fкритерия. Как правило, в технических задачах используется уровень значимости 0,05.
Планирование эксперимента при функционировании интеллектуальных
систем
Содержательный анализ проблем моделирования, определяемых соотношением
между реальным экспериментом, модельным экспериментом и теорией, свидетельствует
о постоянном внимании исследователей к поиску возможных стратегий моделирования с
учетом особенностей исходной информации. Развитие этих подходов связано с
применением ИС и стремительно растущей производительности вычислительных
средств.
Формальные процедуры, лежащие в основе функционирования ИС, предполагают
широкое использование измерительной информации и методов математического
моделирования. Решение прикладных задач анализа и прогноза поведения
динамического объекта в ИС ведется статистическими методами с привлечением теории
планирования эксперимента. Информация, получаемая от датчиков динамических
измерений в процессе нормальной эксплуатации объекта представляет собой данные
пассивного эксперимента. Активный эксперимент используется только на этапе
тестирования и адаптации ИС. При использовании данных активного эксперимента
проблема выбора наилучшего математического описания может быть решена
классическими методами планирования. В случае пассивного эксперимента эта проблема
требует специальных подходов, учитывающих адекватность описания, дисперсию
оценок и вычислительные трудности из-за вырождения информационной матрицы
[Интеллектуальные системы, 2001]. Для обратных задач математической физики в ИС
типичными являются ситуации, когда наблюдение реализуется не "в точке", а "на
функционале", что приводит к задачам с бесконечной областью планирования.
Рассмотрим анализ подходов к планированию эксперимента и поиску эффективных
процедур обработки информации на основе разработки сложных ИС, функционирующих
в реальном масштабе времени [Интеллектуальные системы, 2001], [Кастнер С. и др.,
2000].
Возникающие при практическом использовании ИС задачи планирования
эксперимента часто выходят за рамки классического подхода и требуют специального
68
обобщения с учетом особенностей рассматриваемых проблем. В реальных измерениях
ресурсы могут быть существенно ограничены, а априорная информация недостаточна
для несмещенной оценки функции регрессии. В этих условиях приходится считаться не
только со случайной ошибкой приближения, но и с систематической ошибкой,
вызванной неадекватностью принятой модели. Выбор пространства, в котором ищется
оценка, приходится осуществлять совместно с планом эксперимента и методом
оценивания.
Понимая под планом эксперимента  вероятностную меру на области
планирования U с конечным носителем sup  = {hU, (h)0} и обозначая через H1
конечномерное подпространство некоторого пространства H (H1H), которому
принадлежит функция регрессии, будем считать, что по условиям реального
эксперимента могут быть использованы только планы из допустимого множества
JN := { JN : card(sup )  n},
где n - число, характеризующее ограниченность ресурсов.
Выбор пространства оценивания H1=H и оператора оценивания S=S обеспечивает
при фиксированном плане JN нахождение наилучшего в метрике пространства H
приближения
к произвольному элементу  из H. При этом пространство
оценивания H должно обеспечивать построение оценки неизвестного элемента H.
Задача выбора процедуры =(, H1, S) восстановления  из H на множестве
допустимых процедур  является двухкритериальной. В этих условиях поиск
оптимальной процедуры * удобно вести на основе решения задачи оптимизации с
приоритетом, учитывающим систематическую ошибку.
* = Arg inf B(),
(3.1)
где  - вероятностная мера, используемая для осреднения систематической ошибки
B(, H1, S)
S - оператор, с помощью которого производится оценка
неизвестного
элемента H.
Для характеристики случайной ошибки используют функционал (,H1,S) от
корреляционного оператора оценки
критерии), и тогда
(определитель
, след tr
или другие
(3.2)
где
- множество процедур *, являющихся решением задачи (3.1).
Задача (3.2) на множестве процедур
рассматривается в предположении, что носитель плана sup  определен однозначно
из решения задачи (1), но имеется свобода в выборе весов наблюдений Pj (j = 1, m). Это
позволяет минимизировать случайную ошибку при следующих условиях
*(P):=(h ,..., h ,P1,...,Pm);
P*=Arg inf [D*(P)],
где P := {PRm; Pj > 0, j=1,m,  };
D*(P)- корреляционный оператор, определяемый как D =
информационный оператор).
(M 69
В прикладных задачах планирования эксперимента важное значение приобретает
интерпретация таких свойств как ортогональность и ротатабельность. При равноточных
измерениях эти свойства приводят к независимости коэффициентов регрессии (их
одинаковой точности), что принципиально в поисковых процедурах Бокса-Уилсона при
экстремальном планировании.
Выбор оптимальных условий эксперимента
Задача выбора оптимальных условий эксперимента в ИС определяет надежную
оценку характеристик динамического объекта и параметров внешней среды и связана с
построением нормированного дискретного плана для динамического объекта,
развивающегося во времени и пространстве. Пассивная стратегия планирования такого
эксперимента характеризуется тем, что объект функционирует в режиме нормальной
эксплуатации. ИС на основе анализа ситуации выбирает моменты времени и координаты
точек, в которых следует производить измерения. Выполнив серию опытов при
некоторых фиксированных значениях исследуемого фактора в различные моменты
времени и имея модель системы, можно подсчитать нормированную информационную
матрицу [Горский В.Г., 1978]
(3.3)
для дискретного плана эксперимента
(3.4)
где P - веса наблюдений.
Синтез D-оптимальных планов измерений осуществляется на основе итерационной
процедуры с использованием функции
(,)=sup[M-1()M()]
(3.5)
Особым случаем идентификации динамических систем является планирование
измерений в частотной области. Управление процессом измерений на основании методов
планирования эксперимента позволяет свести задачу к поиску дискретного оптимального
плана
(3.6)
с нормированной информационной матрицей
(3.7)
где  - частота спектрального разложения стационарной случайной функции
(входного процесса); P+ - ординаты непрерывного спектра этой функции; звездочкой (*)
помечены комплексно сопряженные частотные характеристики.
При однократных наблюдениях вместо (3.7) имеем
M()=1/2 [*(i)T(i)+(i)*T(i)]
(3.8)
Выражения (3.6)-(3.8) позволяют построить функцию
(,)=sup[M-1()M()],
(3.9)
лежащую в основе алгоритмов синтеза D-оптимальных планов эксперимента.
Интервал, на котором определена вероятностная мера, порожденная
нормированной спектральной плотностью, характеризуется выражением
 = [-k, +k]
(3.10)
70
где [-k, +k] - диапазон частот, определяющий полосу пропускания исследуемого
динамического объекта.
Спектр плана в этом случае представляет собой совокупность значений частот, а
дисперсии гармоник являются весами.
Оптимальная структура моделей
В условиях эксплуатации ИС функционируют в реальном масштабе времени, и
значительное усложнение используемых математических моделей приводит к
громоздким алгоритмам преобразования измерительной информации, затрудняющим
процедуру адаптации на выделенном временном интервале.
Рассмотрим в качестве исходной математической модели зависимость
Y = X + + (3.11)
E() = 0, cov() = 2 I
где X - (Nk) - матрица наблюдений регрессоров xj;  - вектор-столбец значений
неизвестных коэффициентов размерности (k+1);  - вектор-столбец значений
регрессионной ошибки размерности (k+1); Y - вектор-столбец выходной переменной; E оператор математического ожидания; I - единичная матрица; N - объем выборки; k число регрессоров; 2 - дисперсия воспроизводимости.
Точность прогноза модели (3.11) определяется дисперсией ошибки предсказания.
Для (N+1) наблюдения по адекватной модели эта дисперсия равна
(3.12)
где XN+1,k - вектор-строка размерности (1k).
Для сопоставления дисперсий моделей с <недобором> и <перебором>
регрессионных переменных относительно истинной зависимости выражение (3.12)
преобразуется к виду:
(3.13)
где k - параметр нецентральности t-распределения с N-k степенями свободы
- выборочная дисперсия переменной xk;
- выборочный коэффициент
множественной корреляции переменной xk с остальными независимыми переменными x1,
... , xk-1, вычисленный по данным матрицы наблюдений X.
Дисперсия ошибки прогноза с "недобором" и "перебором" будет равна
(3.14)
(3.15)
Здесь k - значение коэффициента при k-ой неучтенной переменной xk; xN+1,k значение (N+1)-го наблюдения k-ой переменной;
переменной
на остальные переменные
вектор-столбец коэффициентов размерности (k-1)1.
- регрессия
;
71
На практике приходится избегать переусложнения модели за счет включения
дополнительных регрессоров, так как
что следует из сопоставления (3.12) и (3.15). При этом равенство дисперсий
достигается только при
.
Процедура построения оптимальной регрессионной структуры была
протестирована при обработке данных физического эксперимента, проведенного во
время натурных испытаний ИС на морских судах различного назначения (табл.3.1)
Выбор наилучшего уравнения поверхности отклика может быть произведен также с
использованием базисных функций [Интеллектуальные системы, 2001]. В этом случае
используют модель вида
где k - k-й коэффициент регрессии; fk(u) - k-ая базисная функция (f1(u)1); u = (u1,
..., uM)T - вектор факторов пассивного эксперимента; M - число факторов; K - общее
число слагаемых. При этом факторы кодированы, а модель наблюдения имеет вид Y = 
+ .
Системный анализ задачи выбора наилучшей полиномиальной регрессии позволяет
сформулировать подход к определению степени mopt алгебраического многочлена Pm(c,x),
наиболее точно аппроксимирующего заданную экспериментальную зависимость {yn, xn}.
Суть его состоит в дополнении классического метода (выбор в качестве mopt величины m,
доставляющей минимальное значение сумме квадратов отклонений) описанием способа
измерения экспериментального массива {yn}
yn = g(G(xn) + n)
где G(xn) - некоторая функция; n - случайные ошибки (n=1,N).
Особенности вычислительной технологии
Вычислительные трудности при реализации алгоритмов обработки измерительной
информации пассивного эксперимента связаны с процедурой обращения матрицы XTX
системы нормальных уравнений
(3.16)
(XTX)-1 = XTy
Как показывают результаты вычислений, обусловленность информационной
матрицы XTX существенно хуже, чем матрицы X. Если max и min - наибольшее и
наименьшее сингулярные числа матрицы X, а
и
- матрицы XTX, то при
небольшом N число
может иметь порядок, сравнимый с порядком погрешностей. В
результате матрица XTX становится почти вырожденной, тогда как матрица X таким
свойством не обладает.
При решении плохообусловленных задач МНК используют методы
псевдообращения, обеспечивающие работу вычислительных процедур в условиях
вырожденности. Псевдообратная матрица X* существует для любой матрицы X, и для
любого вектора
является вектором с минимальной нормой среди всех векторов, минимизирующих
сумму квадратов отклонений
.
Сравнительный анализ экспериментальных данных с помощью различных
подходов обращения матриц позволяет выделить прямой метод Гревилла, позволяющий
72
работать непосредственно с матрицей X. Эта матрица лучше обусловлена, чем матрица
XTX. В результате существенно повышается устойчивость к погрешностям округления.
В случае использования нелинейных по параметрам моделей возникает проблема
оценок коэффициентов регрессии. При некомпактности априорного множества
параметров такая оценка может вообще не существовать (не достигается минимум
суммы квадратов отклонений).
Алгоритмы минимизации суммы квадратов, основанные на методе НьютонаГаусса, сводятся к линейной аппроксимации функции регрессии
Планирование измерительного эксперимента в ИС реального времени связано с
выбором оптимальных условий измерений, обеспечивающих надежную оценку
характеристик динамического объекта и параметров внешней среды и с организацией
процедурной компоненты базы знаний ИС и соответствующего алгоритмического и
программного обеспечения. Для эффективной реализации измерительного процесса
необходима разработка информационной технологии, обеспечивающей оперативный
контроль состояния динамического объекта и прогноз его поведения в различных
условиях эксплуатации, в том числе и в экстремальных ситуациях. Конкретное
наполнение знаниями прикладной области экспертизы определяется структурой
измерительного процесса и номенклатурой решаемых задач с учетом поставленных
целей и наложенных ограничений.
Организация эксперимента для поиска оптимальных условий
ПФЭ и ДФЭ представляют возможностьисследователю подбирать полиномиальные
модели для описания локальных областей поверхности отклика, отражающей
функциональную структуру объекта. Изменяя координаты базовой точки (основного
уровня факторов), можно изучить весь рельеф поверхности отклика в области
определения входных переменных объекта. Цели такого изучения могут быть
различными. Так, например, может быть поставлена цель определения состояний
объекта при различных значениях входных переменных. Однако в подавляющем
большинстве цель исследования в той или иной мере связывается с поиском таких
значений входных переменных, при которых достигается экстремальное значение
выходной переменной, показателя оптимизации.
Рассматривая задачу оптимизации с позиций экспериментального изучения
поверхности отклика, можно говорить об организации некоторой целенаправленной
стратегии эксперимента, позволяющей выйти по поверхности отклика в область
экстремума, например ymax(X).
Весь класс подобных задач характеризуется тем, что экспериментатора интересует
уже не модель изучаемого объекта, а сама процедура поиска области пространства
входных переменных, где достигается наилучший выход с объекта.
Далеко не всегда можно построить математическую модель для стратегии поиска.
Во многих случаях приходится просто ограничиваться описанием логических действий в
эксперименте, чтобы лучше вести поиск.
Так, например, обстоит дело с пошаговой процедурой метода крутого восхождения.
Логика организации эксперимента с использованием этого метода заключается в
следующем. Сначала выбирается некая область в пространстве независимых
переменных, где ставится эксперимент, по результатам которого делается линейное
приближение этой локальной окрестности поверхности отклика. Далее осуществляется
движение по поверхности отклика в направлении градиента линейного приближения.
Если необходимо, делается еще одно линейное приближение, и так продолжается до тех
пор, пока исследователь не попадет в область, где линейной приближение поверхности
отклика оказывается непригодным. В этой области независимых переменных ставится
73
эксперимент для описания локальной области, близкой к экстремуму, как правило,
оценивается квадратичная модель поверхности отклика второго порядка.
Рассмотрим подробнее процедуру крутого восхождения.
Известно, что наиболее коротких путь к экстремуму – в направлении градиента
функции отклика y=η(x1, x2, …, xk). Градиент непрерывной функции есть вектор
∇η =
∂y
∂y
∂y
I+
J +K+
K,
∂x1
∂x2
∂xk
где ∇η – обозначение градиента,
∂y
∂x j
– частная производная по j-тому фактору, I, J,
…, K – единичные векторы в направлении координатных осей
факторного пространства.
Оценками частных производных функции отклика
являются соответствующие коэффициенты bj полиномиальной
модели.
Направление градиента определяется единственным
способом, и движение должно начинаться из нулевой точки. На
рисунке приведена простая геометрическая иллюстрация этого факта.
Хорошо видно, что движение из наилучшей точки плана проходит в стороне от
оптимальных условий.
Можно рассуждать иначе. Функция отклика, вид которой нам неизвестен,
разлагалась в ряд Тейлора в окрестности нулевой точки. Именно к этой точке и
относится оценка градиента.
Следовательно, если изменять факторы пропорционально величинам
коэффициентов bj, то возможно движение в направлении градиента функции отклика по
самому крутому пути. Шаговая процедура крутого восхождения практически
выполняется в несколько циклов. Последовательно проведения циклов такова:
r
1. С центром в исходной точке X1 X11 , X 21 ,K, X j1 ,K, X k1 проводится ПФЭ 2k для
r
определения составляющих вектора градиента ∇y X1 в виде оценок коэффициентов
полиномиальной модели y=b0+b1x1+b2x2+…+bjxj+…+bkxk.
Построение линейной модели включает в себя этапы ПФЭ: проверку однородности
дисперсий, вычисление и проверку значимости оценок коэффициентов bj, проверку
пригодности линейного приближения в окрестности исходной точки
Прежде чем использовать линейную модель для задания направления градиента,
следует учесть тот факт, что движение по градиенту будет эффективным, если значения
коэффициентов bj примерно одного порядка. Линейная модель должна быть
симметричной относительно коэффициентов.
Если полученные коэффициенты bj различаются на порядок, то выгоднее вновь
поставить эксперимент, изменив интервалы варьирования, а не начинать движение по
градиенту. Возможность такого пути симметрирования коэффициентов обоснована тем,
что составляющие градиента не инвариантны к метрике пространства независимых
переменных. Изменяя масштаб единичного интервала варьирования по одной из
координатных осей, можно увеличить или уменьшить крутизну поверхности в
направлении этой оси, иными словами можно увеличить или уменьшить
соответствующий коэффициент bj.
2. Траектория крутого восхождения представляется в натуральных значениях
переменных. Координаты точек в направлении градиента рассчитываются по каждой
входной переменной последовательным прибавлением к основным уровнямXj1 величин,
равных шагам движенияλj. Выбор шагов движения целесообразно сделать сначала для
некоторой базовой переменной, создающей максимальное приращение в направлении
градиента, т.н.max(bj∆Xj)=bб∆Xб, где ∆Xб – интервал варьирования для выбранной
(
( )
)
74
базовой переменной. Для базовой переменной при крутом восхождении выбирается шаг
движения λб.
Размер и знак шагов движения λj для всех входных переменных могут быть
вычислены по общей формуле
b ∆X
λ j = j j ⋅ λб ,
b б ∆X б
Где λб и ∆Xj подставляются всегда положительными, а bj берется со своим знаком.
3. С выбранными размерами и знаками шагов рассчитываются координаты точек
r
X h факторного пространства.
Очевидно, что j-я координата h-й точки траектории равна Xjh=Xj1+hλj, j=1, 2, 3,…
r
r
Для некоторых точек X h вычисляются предсказываемые значения ŷ h X h по
линейной модели. Вычисляя значения, следует помнить, что в линейную модель можно
подставлять только кодированные значения xjh. Поэтому натуральные значения Xjh
должны быть переведены в кодированные согласно преобразованию примененному в
ПФЭ
( )
X jh =
X jh − X j0
∆X j
.
4. Координаты некоторых точек (например, через каждые 2-3 шага) на траектории
r
реализуются на объекте для экспериментальной проверки изменений y h (X h )в выбранном
направлении градиента.
r
Возникновение ситуации (например, в (⋅)X h + 2 , при которой дальнейшему
r
увеличению предсказываемого значения ŷ h X h +1 соответствует уменьшение значения
r
выходной переменной y h (X h+1 ) на объекте, будет указывать на прекращение движения в
r
этом направлении градиента. Координаты точки X h с наилучшим значением выходной
r
переменной y h (X h )принимаются за новые нулевые уровни входных переменных. Вновь
проводится ПФЭ и определяется новое линейное приближение в направлении градиента
и цикл крутого восхождения повторяется.
r
В связи с тем, что каждый цикл крутого восхождения приближает значения y X к
области экстремума с существенной кривизной поверхности отклика, то для каждого
последующего циклаλб выбирается равным или меньшим предыдущего.
При достижении области, близкой к экстремуму, линейное приближение
становится непригодным, и исследование на этом может быть окончено, если ставилась
задача достижения области экстремума. Исследование может быть расширено с целью
описания области, близкой к экстремуму. Решение такой задачи проводится с
реализацией планов 2-го порядка.
Об эффективности движения по градиенту можно судить по величине параметра
оптимизации. Движение по градиенту считается эффективным, если реализация
мысленных опытов, рассчитанных на стадии крутого восхождения, приводит к
улучшению значения параметра оптимизации по сравнению с самым хорошим
результатом в матрице.
При эффективном крутом восхождении возможны два исхода: область оптимума
достигнута или область оптимума не достигнута.
Область оптимума достигнута. Этот случай является самым легким в смысле
принятия решений. Экспериментатор может окончить исследование, если задача
заключалась в достижении области оптимума, или продолжить исследование, если
задача заключалась не только в достижении области оптимума, но и в детальном ее
изучении. При этом необходимо достроить линейный план до плана второго порядка и
результаты эксперимента представить в виде полинома второй степени.
(
)
( )
75
Область оптимума не достигнута. В этом случае ставится линейный план
следующего цикла и исследование продолжается.
Неопределенная ситуация. Когда у не имеет ограничения и экспериментатор не
может определить степень близости оптимума, возможны два решения: построение
линейного плана следующего цикла или, если достигнут требуемый результат,
окончание работы.
Принимать решения при неэффективном движении по градиенту гораздо сложнее.
Принятие решений во многом зависит от определенности ситуации (далеко от оптимума,
близко, неопределенно) и от адекватности линейной модели.
Область оптимума близка. Если при реализации матрицы планирования удалось
получить достаточно высокие значения параметра оптимизации и при крутом
восхождении улучшить их не удалось, то наиболее типичными являются решения: 1)
окончание исследования (выбирается лучший опыт); 2) построение плана второго
порядка для описания области оптимума.
Если линейная модель была неадекватна, то возможно третье решение – выяснение
причины неадекватности линейной модели.
Например, имеется следующая ситуация: исходный план—полуреплика, линейная
модель неадекватна, крутое восхождение оказалось неэффективно, область оптимума
близка. Параметром оптимизации является выход полезного продукта. Максимально
возможный выход — 100%. При реализации полуреплики получен наибольший выход —
80%. Ошибка опыта — 1 %.
Какому из трех решений можно отдать предпочтение?
Предлагается три варианта: 1) окончить исследование; 2) перейти к нелинейному
планированию второго порядка; 3) достроить полуреплику до полного факторного
эксперимента.
Первое решение – окончить исследование. Давайте проанализируем ситуацию.
Разница в 20% между максимальным и наилучшим выходом весьма ощутима. Видимо,
целесообразно продолжить исследование и постараться улучшить значение параметра
оптимизации.
Окончить исследование можно в том случае, если бы ставилась цель только
приблизиться к области высокого выхода.
Второе решение — достроить линейный план до плана второго порядка. Это одно
из возможных решений. Если бы исходным планом был полный факторный эксперимент,
то такое решение было бы наиболее целесообразным. Но вы имели дело с дробным
факторным экспериментом. В этом случае линейные оценки смешаны с эффектами
взаимодействий. Поэтому имеет смысл подумать также и о другом решении.
Третье решение — достроить полуреплику до полного факторного эксперимента.
Это решение представляется разумным. Наряду с этим можно также рассматривать
переход к нелинейному планированию.
Область оптимума далека. Линейная модель адекватна. Если область оптимума
далека и линейная модель адекватна, казалось бы, имеются все предпосылки, чтобы
крутое восхождение оказалось эффективным. Тем не менее на
практике крутое восхождение нередко оказывается неэффективным.
Возможное объяснение — в характере поверхности отклика. Мы
исходим из предпосылки, что поверхность отклика гладкая и
одноэкстремальная. В действительности она может иметь, например,
вид, показанный на рис. В таких случаях целесообразно
передвинуться в другую область факторного пространства и
построить линейный план второго цикла крутого восхождения.
Область оптимума далека. Линейная модель неадекватна. Здесь возможно
единственное решение: выяснить причины неадекватности линейной модели.
76
Перечислим некоторые причины, вследствие которых крутое восхождение могло
оказаться неэффективным.
1. Интервалы варьирования выбраны неудачно.
2. Исходная модель строилась по полуреплике. Нужно достроить полуреплику до
полного факторного эксперимента, получить раздельные оценки для всех коэффициентов
регрессии и совершить новое крутое восхождение.
3. Исходная модель строилась по дробной реплике 2к–р, где p>1. Целесообразно
использовать метод «перевала», т.е. построить матрицу второй серии опытов, изменив
все знаки на обратные. Это даст возможность освободить линейные эффекты от
совместных оценок с парными взаимодействиями. Положение не улучшится, если
значимыми являются взаимодействия более высокого порядка.
В случае нелинейности исходной модели можно попытаться преобразовать
параметр оптимизации. Это обычный прием для снижения степени полинома.
Крутое восхождение неэффективно. Положение оптимума неопределенное. Если
нет информации о положении оптимума и на стадии крутого восхождения не удалось
улучшить значение параметра оптимизации, то можно рекомендовать поставить опыты в
центре эксперимента с тем, чтобы оценить вклад квадратичных членов. При значимой
сумме можно приступать к достройке линейного плана до плана второго порядка, так как
наличие квадратичных членов свидетельствует о близости к почти стационарной
области.
Обратим еще раз ваше внимание на то, что при незначимой сумме обратного
вывода делать нельзя.
Лекция 8. Ортогональное композиционное планирование второго порядка.
РОТОТАБЕЛЬНЫЙ ЦЕНТРАЛЬНЫЙ КОМПОЗИЦИОННЫЙ ПЛАН
Для детального изучения области оптимума и участков поверхности отклика со
значительной кривизной линейная модель становится неадекватной. В таких случаях для
математического описания может быть достаточно полинома второго порядка, реже
третьего порядка, полученного используя планы соответственно второго и третьего
порядков.
Планы 2-го порядка позволяют получить математическое описание в виде полной
квадратичной модели, содержащей кроме основных эффектов bi все парные
взаимодействия bij и квадратичныеэффекты bii.
n
n −1
n
n
y(x1 , x 2 ,..., x n ) = b0 + ∑ bi x i + ∑ ∑ bijx i x j + ∑ bii x i2
i =1
i =1 j= i +1
i =1
Подобные планы применяют, как правило, либо в том случае, когда использование
планирования первого порядка не позволило получить адекватную регрессионную
модель, и выяснилась необходимость ее усложнения, либо если заранее известно, что
объект исследования обладает существенными нелинейными свойствами.
Планы 2k не могут обеспечить получение раздельных оценок коэффициентов bjj при
квадратичных функциях и коэффициента b0.
Применение полного факторного эксперимента типа 3k для получения раздельных
оценок коэффициентов полинома второго порядкане является рациональным, так как
планирование на трех уровнях характеризуется резким увеличением объема
эксперимента.
Целесообразнее для этой цели использовать композиционный план, образованный
путем добавления некоторого количества специальных точек к «ядру», состоящему из
планов 2k или 2k–p. Если к «ядру» добавить точку в центре плана с координатами (0, 0...0)
и 2k так называемых «звездных» точек с координатами (±α, 0...0), (0, ±α, ..0), …, (0, 0...
77
±α), то получим центральный композиционный план, предложенный Боксом. В качестве
ядра используются точки ПФЭ – вершины квадрата и куба соответственно.
Используют эти планы обычно на заключительном этапе исследования: при
описании экспериментальной области в ситуациях, когда отсутствует априорная
информация об объекте и его полиномиальную модель приходится подбирать
последовательно, начиная с простейшего линейного уравнения, которое затем
достраивается до полной квадратичной модели. В таких случаях применение
композиционных планов оказывается наиболее выгодным по числу опытов.
В зависимости от применяемого критерия оптимальности различают ортогональное
и рототабельное композиционное планирование. Рассмотрим ортогональное
композиционное планирование, в котором в силу ортогональности матрицы плана все
коэффициенты квадратичной моделиоцениваются независимо друг от друга.
Центрально–композиционные планы (ЦКП) любой модификации состоят из трех
частей. Первая часть – основа или ядро плана – это ПФЭ 2k или ДФЭ 2k–p, где k –
количество неизвестных коэффициентов регрессии, p = 0,1,2. При этом требуется, чтобы
ядро плана обеспечивало раздельную оценку коэффициентов регрессии и всех парных
взаимодействий. Данное условие накладывает весьма жесткое ограничение на
возможную степень дробности используемого ДФЭ. В частности, при k≤ 4, как
показывают расчеты, может применяться лишь ПФЭ 2k; если 5 ≤k≤ 7, то кроме ПФЭ
2kможно использовать и ДФЭ 2k–1, а для k> 7 допустим также и ДФЭ 2k–2. Вторая часть
ЦКП – так называемые «звездные» точки, расположенные на координатных осях на
расстоянии ±α от центра эксперимента. Общее число таких точек равно 2k. Третья часть
ЦКП – опыты в центре плана; число таких опытов N0≥ 1. Произвольный симметричный
ЦКП приведен в таблице:
Составные
части ЦКП
G
Фак
торы
x1
Число
точек
x2
k
Ядро плана
(ПФЭ 2k или ДФЭ 2k–
p)
1
–1
–1
2
+1
–1
1
2k
1
3
–1
+1
4
+1
+1
1
–p
p
=0;1;2;
78
1
…
…
…
2k–p
+1
+1
1
«Звездные»
точки
k–
–α
0
2k–
+α
0
2
p
p
+1
2k
+2
k–
0
–α
2k–
0
+α
2
p
p
+3
+4
…
…
…
2k–
0
0
p
+2k–1
α
k–
2
0
0
p
+2k
α
k–
2
0
0
Центральные
p
+2k+1
N0
точки
…
…
…
2k–
0
0
p
+2k+N0
Общее число опытовN=2k+2k+1
Конкретные значения α и N0 выбираются исходя из тех или иных критериев
оптимальности регрессионных экспериментов (α–звездное плечо, N0–количество
экспериментов в центре плана). В связи с этим принято выделять ортогональные (ОЦКП)
и рототабельные (РЦКП) центрально–композиционные планы.
В ОЦКП, как правило, N0 = 1, а план целиком строится с учетом критерия
ортогональности (сумма по парных произведений значений уровней двух любых
факторов (столбцов) равна нулю). Для обеспечения по парной ортогональности
столбцов, отвечающих свободному члену β0 и квадратичным коэффициентам βi2 , i = 1, 2,
…, k, а также столбцов, отвечающих квадратичным членам между собой, необходимо
принять специальные меры.
С этой целью, прежде всего, несколько видоизменяют систему базисных функций, а
именно – ищут регрессионную модель в виде:
k −1 k
k
′ k
y(x) = b0 + ∑ bi x i + ∑∑ bij x i x j + ∑ bii x i2 − x'i2 ,
i =1
где x'i2 =
i =1 j=1
i =1
(
)
1 N 2 2k − p + 2α 2
x ig =
; N – общее число точек плана: N = 2 k − p + 2k + 1;
∑
N
N g =1
k
′
β 0 = β 0 + ∑ βii x'i2 (где p–число, определяющее дробность эксперимента, а β i –
i =1
коэффициенты уравнения регрессии). Как видно, в этой модели при квадратичных
коэффициентах используются центрированные переменные. Переход к таким
переменным обеспечивает ортогональность столбца свободного члена уравнения
регрессии (базисная функция f0≡ 1), и любого из столбцов центрированных квадратов
(базисная функция вида ~
x i2 = x i2 − x' i2 ). Действительно, для указанных столбцов имеет
место следующее равенство:
79
∑ f (x
2
ig
∑ (x
− x' i2 )(x 2jg − x 2j ) = 0,
N
− x'i2 ) = ∑ x ig2 − Nx'i2 = ∑ x ig2 − N
1 N 2
∑ x ig = 0.
N g=1
g =1
g =1
g =1
Это равенство справедливо независимо от конкретного значения α. Однако, при
произвольномα, остаются неортогональными столбцы матрицы планирования,
отвечающие различным центрированным квадратичным переменным. Поэтому, в ОЦКП
числовое значение α и выбирается как раз из условия ортогональности именно этих
столбцов, т.е. исходя из условия:
0
N
g =1
i≠ j
2
ig
N
N
или, в развернутом виде:
2
2
 2k − p + 2α 2 
 2 2k − p + 2α 2   2k − p + 2α 2   2k − p + 2α 2 


2 1 −
 −
 + −
 (2k − 3) = 0
 + 4 α −
N
N
N
N




 

После несложных преобразований получаем уравнение для требуемого значения α:
k −p
α=
(
)
2k − p − 2 2 k − p + 2k + 1 − 2k − p −1 =
( N⋅2
k −p
)
− 2k − p /2
С помощью этой формулы найдены конкретные числовые значения α при л = 2 ÷ 8:
N
2
3
4
5
6
7
8
П
П
П
П
Д
П
Д
П
Д
П
Д
Д
Я
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
дро
22
23
24
25
25–1
26
26–1
27
27–1
28
28–1
28–2
ЦПК
9
1
2
4
2
7
4
1
7
2
1
8
N
5
5
3
7
7
5
43
9
73
45
1
1
1
1
1
1
1
1
1
1
2
2
2
α
,000 ,215 ,414 ,596 ,547 ,761 ,724 ,909 ,885 ,045 ,029 ,000
Общее количество опытов N в ОЦКП равно N = 2k–p+2k+ N0. Таким образом,
переходя к квадратичной модели с центрированными квадратичными переменными и
используя указанные значения α, можно добиться полной ортогонализации столбцов
матрицыпланирования.
x
x
x2 2 –
x
2
2
2
2
2
x'2
0
1
2
k
1 x2
k–1xk
1 –x'1
k – x'k
+
1
1–x'22
1
2
1
1
1
1
1
1
–x'1
–x'k2
+
1
1–x'22
1
2
1
1
1
1
1
1
–x'1
–x'k2
1–x'22
…
1
1
2
1
1
1
1
1
–x'1
–x'k2
…
1
1–x'22
1
2
1
1
1
1
1
–x'1
–x'k2
…
…
…
…
+
1
1–x'22
1
1
1
1
1
1
1
–x'12
–x'k2
2
0
–x'2
–
α
2
2
2
1
x'k
–x'1
α
2
0
–x'2
–
α
2
1
x'k2
–x'12
α
0
–
–
α2–
2
2
2
1
x'
x'
x'2
1
k
α
80
0
1
α
α2–
–
x'12
…
0
α
1
…
–
…
–x'22
–
–x'22
x'12
0
α
1
–
x'k2
x'22
x'12
…
0
2
–x'k2
α
–
x'12
1
–x'k2
–x'22
–
0
2
…
α
x'k2
…
–
…
–x'22
…
–
x'12
x'k2
Следовательно, оценки коэффициентов регрессии, полученные с помощью ОЦКП,
некоррелированы между собой, что, впрочем, характерно для любого ортогонального
плана.
Реализация эксперимента по выбранной матрице планирования проводится также с
дублированием опытов в каждой точке плана аналогично ПФЭ 2k.
Оценки коэффициентов регрессии для соответствующих групп равны:
1
N
′
Для свободного члена
β0 =
∑x
i =1
0i
y' i
N
;
N
Для линейных слагаемых β u =
∑x
2
i =1
k −p
ui
y'i
+ 2α 2
, u = 1,2,…,k;
N
Для попарных взаимодействий β ju =
∑x
i =1
jui
2k − p
y'i
, j, u = 1,2…k; j≠u;
N
∑x
2
ki
y' i
β =
2α 4 .
Для центрированных квадратичных переменных
Приведем теперь уравнение регрессии к более привычному для нас виду:
2
k
k −1 k
k
i =1
k
y(x) = β 0 + ∑ βi x i + ∑∑ βij x i x j + ∑ βi2 x i2 ,
i =1
i =1 j=1
i =1
N
′
где β 0 = β0 − x'
2
i
k
∑β =
i =1
2
i
∑x
i =1
0i
N
y'i
−
2k − p + 2α 2 k 2
βi
∑
N
i =1
Условие нормировки в случае ортогонального ЦКП не соблюдается, т.к.
N
∑x
i =1
2
iu
≠N
(u – номер любого столбца, кроме нулевого). Это значит, что точность оценки
коэффициентов регрессии для разных групп неодинакова.
Оценки дисперсий для каждой из четырех однородных групп для m параллельных
опытов подсчитываются по следующим формулам:
81
S2 {βi } =
Sв2
m 2k − p + 2α 2
(
)
S2 {β ij } =
Sв2
m ⋅ 2k − p
Sв2
S2 βi2 =
m ⋅ 2α 4
Sв2
S2 {β 0 } =
m N + 2α 4
;
{ }
(
)
где Sв2 – дисперсия воспроизводимости.
Таким образом, дисперсия оценки Y' функции отклика в некоторой точке
факторного пространства зависит не только от расстояния этой точки до центра плана ρ,
но и от ее положения на гиперсфере. Значит, ОЦКП не удовлетворяет условию
рототабельности. Поэтому, если не предъявляются особые требования к точности
предсказания выходной величины по уравнению регрессии в любом направлении
факторного пространства от базовой точки, предпочтительно применение
ортогонального ЦКП ввиду его простоты.
РОТОТАБЕЛЬНЫЙ ЦЕНТРАЛЬНЫЙ КОМПОЗИЦИОННЫЙ ПЛАН
При исследовании экстремальной области часто интерес представляет оценка не
коэффициентов полученной регрессионной модели, а самой функции отклика. Кроме
того, на практике часто можно значительно упростить регрессионную модель путем
поворота координатных осей, т.е. преобразованием координат. Рототабельное
планирование, обеспечивающее погрешность предсказания выходной величины по
уравнению регрессии, зависящую лишь от расстояния точки факторного пространства до
центра эксперимента, позволяет предсказывать с одинаковой точностью значение
функции отклика, а, следовательно, преобразовывать систему координат с целью
упрощения уравнения регрессии.
Основным условием рототабельности планов является инвариантность
нормированной информационной матрицы Ф и корреляционной матрицы Ф–1 к
вращению прямоугольных осей относительно начала координат, помещенного в базовую
точку. Исходя из условия инвариантности матриц к вращению системы координат,
точность оценок коэффициентов регрессии при вращении также не будет изменяться.
Следует при этом отметить, что изменение момента масштаба входных переменных
приводит к потере свойства рототабельности. Таким образом, необходимо поддерживать
постоянство масштаба задания независимых переменных при проведении всего
эксперимента.
Нормированная матрица Ф должна обладать некоторыми свойствами, чтобы быть
инвариантной к ортогональному преобразованию (вращению).
Будем называть моментами плана элементы нормированной информационной
матрицы:
1 N p1 p2 p j pn
∑ x i 1 x i 2 ...x i j ...x i n
N i=1
а порядком момента величину:
n
Pku = ∑ p j
j=1
Момент будет четным, если все степени pj четные, и нечетные, если хотя бы одна
степень pj элемента нормированной информационной матрицы нечетна.
82
Для рототабельного плана второго порядка все нечетные моменты вплоть до
четвертого порядка включительно должны быть равны нулю. К таковым относятся
следующие моменты:
Первого порядка
N
∑x
i =1
ij
= 0, j = 1, n
Второго порядка
N
∑x
i =1
ij
x i u = 0, j ≠ u, j = 1, n
Третьего порядка
N
N
N
i =1
i =1
i =1
∑ x i jx i u x i k = ∑ x i2 jx i k = ∑ x i3 j = 0, j ≠ u ≠ k; j, u, k = 1, n
Четвертого порядка
N
N
N
i =1
i =1
i =1
∑ x 3i jx i u = ∑ x i2jx i u x i k = ∑ x i jx iu x i k x i g = 0;j ≠ u ≠ k ≠ g; j, u, k, g = 1, n
Все четные моменты такого плана должны удовлетворять таким соотношениям:
Второго порядка
N
∑x
i =1
2
ij
= NΛ 2 , j = 1, n
Четвертого порядка
N
∑x
2
ij
x i2u = NΛ 22 , j ≠ u; j = 1, n
i =1
N
∑x
i =1
4
ij
= 3NΛ 4 , j = 1, n
Нормированная информационная матрица Фишера рототабельного плана второго
порядка имеет вид:
0
1
2
i
n
12
13
ij
0
1
2
2
2
2
2
n
2
2
i
||0||
2
2
n
2
12
4
||0||
ii
2
2
i
13
1
2
||0||
2
n–1,n
||0||
4
4
83
n–1,n
1
2
4
Λ4
4
4
4
2
4
Λ4
4
4
2
4
4
Λ4
4
2
4
4
4
Λ4
2
||0||
2
i
2
2
2
n
||0||
Решение задачи возможно в том случае, когда информационная матрица Фишера
невырожденная. Определитель этой матрицы в качестве сомножителя содержит число
((n+2)Λ4–nΛ22). Поэтому условием невырожденности матрицы будет выполнение
неравенства:
Λ4
n
≠
2
Λ2 n + 2
Константа Λ2 выбирается из условия выбора масштаба плана, а константа Λ4
выбирается из условия невырожденности информационной матрицы.
Если все точки плана расположить на поверхности сферы с радиусом ρ и с центром
в начале координат нормированного факторного пространства, то дли любой I–ой точки
данного плана можно записать:
n
ρ 2 = ∑ x i2 j , i = 1, n
j=1
В соответствии с матрицей Фишера (подматрица с линейными членами):
n
N
ρ 2 = ∑∑ x i2 j = nλ 2
j=1 i =1
Можно выразить радиус сферы и через моменты четвертого порядка:
n N
 n N

2
ρ 2 =  ∑∑ x i2 j x i2u + ∑∑ x i4 j  = (n (n − 1)λ 4 + 3nλ 4 )
j=1 i =1
 j,u =1 i=1

(выражение получено из подматриц с парными взаимодействиями и
квадратичными членами).
Следовательно, из последних двух выражений: n 2 λ 22 = (n(n − 1)λ 4 + 3nλ 4 )
λ
n
Окончательно получим 42 =
т.е. условие невырожденности информационной
λ2 n + 2
матрицы Ф этого плана не выполняется.
Таким образом, точки рототабельного плана, в которых реализуются опыты,
должны быть расположены на концентрических гиперсферах с общим центром.
( )
Рототабельные планы – это планы, у которых точки плана располагаются на
окружностях (сферах, гиперсферах). У рототабельного плана первого порядка точки
плана располагаются на одной окружности (сфере, гиперсфере) с радиусом R
n
∑ x iV2 =const=R,
i =1
84
где V=1,…, N – номер точки плана, i =1,…, n – номер фактора.
В таком случае точность оценивания функции отклика по любому направлению
факторного пространства (для всех точек плана) одинаковая.
Рототабельный план может быть симметричным, когда точки плана располагаются
симметрично друг друга. Рассмотренный ранее план ПФЭ 2n – рототабельный
симметричный план первого порядка.
У рототабельных планов второго порядка точки плана располагаются на двух
концентрических гиперсферах с радиусами R1 и R2 . В таких планах
n
∑ x iV2 =const1=R1,
i =1
,
для V =1,…, N0и
n
2
=const2=R2,
∑ x iW
i =1
для W=1,…, n0,
где V и W – текущие номера точек плана в двух подмножествах опытов N0 и n0 из
их общего количества N, относящихся к двум разным концентрическим сферам. Одна из
сфер может быть вырожденной, когда R2=0. Рассмотренный ранее ортогональный
центрально–композиционный план второго порядка (ОЦКП) не является рототабельным
планом, так как его точки лежат на трех концентрических окружностях (сферах,
гиперсферах).
Рототабельный план может быть ортогональным, если выполняется условие
N
∑ x iU ⋅ x jU = 0,
U =1
где i=1,…,m; j=1,…,m; m>n; i≠j – номера столбцов плана.
Рототабельный ортогональный центрально–композиционный план (РОЦКП)
строится аналогично рассмотренному ранее ОЦКП. К использованному в качестве ядра
плану ПФЭ 2n добавляются “звездные” точки – по две на каждый фактор и несколько
точек в центре плана. “Звездные” точки должны располагаться на поверхности
гиперсферы с радиусом R, на которой лежат и точки плана ПФЭ 2n, то есть величина
плеча “звездных” точек должна равняться радиусу R. Это может быть обеспечено, при
выполнении условия ортогональности, только при соответствующем выборе числа
наблюдений в центральной (нулевой) точке плана n0. Для РОЦКП n0 зависит от числа
факторов n. Напомним, что в ОЦКП n0 = 1 для любого числа n.
Запишем общие выражения для всех четных моментов
N
1.
Нулевого порядка
∑x
i =1
N
2.
Второго порядка
∑x
i =1
2
ij
i0
=N
= 2n + 2α 2 , i = 1, n
N
∑x
3.
2
ij
Четвертого порядка iN=1
∑x
i =1
4
ij
x i2u = 2 n ; j, u = 1, n; j ≠ u;
= 2 n + 2α 4 , j = 1, n
Таким образом, NΛ2 = 2n+2α2, NΛ4 = 2n, 3NΛ4 = 2n+2α4.
3 ⋅ 2 n 2 n + 2α 4
=
, или α4 = 2n.
Отсюда находим условие рототабельности:
N
N
85
Следовательно, чтобы ЦКП второго порядка обладал свойствами рототабельности,
значение «звездного» плеча должно составлять:
n
α=2 4
Как и в случае ортогональных ЦКП, α зависит от числа n входных величин. Для
определения числа опытов в центре плана («нулевой» точке) необходимо исходить из
условия невырожденности информационной матрицы Фишера для рототабельных
планов:
λ 4 2 n (2 n + 2n + N 0 ) 2 n + 2n + N 0
n
=
=
≠
2
2
2
n
2
λ2
n+2
(2 + 2α )
 2 n 2 + 2 


Из последнего соотношения видно, что для построения рототабельного ЦКП с
невырожденной информационной матрицей Фишера достаточно в центре плана
проводить один опыт. Увеличение числа N0 опытов в центре плана приводит к
увеличению числителя и позволяет усилить неравенство до требуемой степени.
Часто исследователя интересует информация о функции отклика в некоторой
окрестности центра плана, т.е. требуется, чтобы информация о выходной величине,
полученная на основании уравнения регрессии, была практически одинаковой
(постоянной) внутри гипершара радиуса ρ = 1 для ρ∈[0,1]. Такое планирование
называется униформ–рототабельным. Для его получения достаточно обеспечить
равенство дисперсии в центре плана (ρ = 0) и на поверхности гиперсферы радиуса ρ = 1.
Этого добиваются подбором числа наблюдений N0 в центре плана.
В случае, когда число факторов велико, то в качестве «ядра» рототабельного ЦКП
выбирается матрица ДФЭ. Оптимальное значение «звездного» плеча при этом
определяется так:
( n −p )
α=2 4
В таблице приведены значения α и N0 для РЦКП, причем значения N0 приведены
для униформ–рототабельного плана.
n
2
3
4
5
6
7
П
П
П
П
Д
П
Д
П
Д
Я
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
ФЭ
дро
22
23
24
25
25–1
26
26–1
27
27–1
ЦПК
5
6
7
1
6
1
9
2
1
N
0
5
1
4
0
1
2
3
5
3
9
5
1
9
N
3
0
1
2
2
1
3
63
2
1
1
2
2
2
2
2
3
2
α
,414 ,682 ,000 ,378 ,000 ,828 ,378 ,364 ,828
Для нахождения методом наименьших квадратов оценки коэффициентов регрессии
будем исходить из известного соотношения: СВ = FTY
откуда B = С–1FTY
1 –1 T
Это равенство может быть переписано в виде B =
Ф F Y
N
где Ф–1 – матрица, обратная нормированной информационной матрице Ф любого
рототабельного плана.
Ввиду того, что подматрицы с линейными факторами, а также с их линейными
взаимодействиями диагональные, то они легко обращаются (аналогично ортогональным
планам).
Запишем формулы для определения оценок коэффициентов:
86
b̂ 0 =
N
n N

B  2

2
(
)
2Λ
n
+
2
y
−
2Λ
Λ
 4
∑
i
2
4 ∑∑ x i j y i ;
N 
i =1
j=1 i =1


N
b̂ j =
∑x
i =1
ij
yi
NΛ 2
;
N
b̂ ju =
b̂ 2j =
∑x
i =1
ij
x i u yi
NΛ 4
;
[
B
2
 (n + 2 )Λ 4 − nΛ 2
N
]∑ x
N
i =1
2
ij
n N
N



y i + (Λ 22 − Λ 4 )∑∑ x i2u y i  − 2Λ 2 Λ 4 ∑ y i ;
u =1 i =1
i =1



j, u = 1, n; j < u.
Точность вычисленных оценок определяется их дисперсиями. Для определения
дисперсий оценок коэффициентов воспользуемся таблицей, в которой представлена
матрица Ф–1,рассмотрев ее диагональные и недиагональные элементы. Поскольку в
матрице недиагональные элементы не нулевые, то оценки коэффициентов регрессии
квадратичных членов и оценка свободного члена остаются взаимозависимыми.
Исходя из системы оценок коэффициентов с учетом кратности m проведения
опытов, получим:
2BΛ 24 (n + 2 ) S 2в
2
S b̂ 0 =
;
Nm
S 2в
S 2 b̂ j =
;
NmΛ 2
{ } [
]
{ }
{ }
S 2 b̂ ju =
S 2в
;
NmΛ 4
{ } [(n + 1)Λ
]
− (n − 1)Λ 22 BS 2в
.
Nm
Вторые слагаемые в выражениях оценок b̂ 0 и b̂ 2j обусловлены наличием
корреляционной связи между ними. Найдем эту зависимость:
(− 2BΛ 2 Λ 4 )S в2 ;
r b̂ 0 , b̂ 2j =
Nm
2
B(Λ 2 − Λ 4 )S 2в
2
2
r b̂ j , b̂ u =
; j, u = 1, n; j < u.
Nm
Поскольку остальные подматрицы нормированной матрицы Фишера Ф и обратной
матрицы Ф–1 диагональные или нулевые, то все остальные корреляционные моменты
равны нулю. Из этого следует, что оценки коэффициентов b̂ j и b̂ ju при факторах и их
линейных взаимодействиях независимы. Поэтому их можно проверять независимо от
полученных оценок других групп коэффициентов на статистическую значимость на
основании t–критерия Стьюдента, как и при ортогональном планировании. Если какой–
либо из коэффициентов b̂ j или b̂ ju окажется статистически незначимым, то его можно
исключить из уравнения регрессии, не пересчитывая оценки других коэффициентов.
Значимость оценки b̂ 0 свободного члена или оценки b̂ 2j квадратичных коэффициентов
регрессии должна проверяться при фиксированных значениях всех остальных
коэффициентов из этой группы с помощью F–критерия. Если какая–либо из оценок
S 2 b̂ 2j =
{
}
{
}
4
87
коэффициентов b̂ 0 или b̂ 2j окажется статистически незначимой, то для ее исключения из
уравнения регрессии требуется пересчет остающихся оценок данной группы.
Рассмотрим задачу проверки гипотезы адекватности полученной регрессионной
модели, содержащей значимые коэффициенты. Вначале будем предполагать, что
параллельные опыты не ставятся, т.е. m = 1. Тогда остаточная сумма квадратов может
быть записана:
2
N
S R = ∑ (y i − y' i ) =
i =1
2
N − N0
∑ (y
i =1
i
− y' i ) +
2
N
∑ (y
i = N − N 0 +1
i
− y' i ) ,
т.е. остаточная сумма разбита на сумму отклонений в точках ПФЭ (или ДФЭ), в
«звездных» точках и на сумму отклонений опытных yi и расчетных y ' i значений
выходной величины в центре плана. Y'i
Перепишем последнее выражение в виде:
SR =
2
N − N0
∑ (y
i =1
i
− y' i ) +
2
N
∑ (y
i = N − N 0 +1
i
− y 0 + y 0 − y' i ) =
2
N − N0
∑ (y
i =1
i
− y' i ) +
2
N
∑ (y
i = N − N 0 +1
0
− y' i ) +
2
N
∑ (y
i = N − N 0 +1
i
В данном выражении первые два слагаемых связаны с общим рассеянием результатов
наблюдений отклика относительно оценки регрессионной модели. Общее рассеяние
связано со случайными погрешностями наблюдений, возникающими в результате
влияния неконтролируемых факторов и систематическими погрешностями в случае
неадекватности регрессионной модели и функции отклика. Третий член остаточной
суммы связан с дисперсией, характеризующейся только случайной погрешностью опыта.
Следовательно, с дисперсией адекватности (остаточной дисперсией) связана сумма:
S ост = S R −
N
N
i = N − N 0 +1
i =1
2
∑ (y i − y' 0 )2 = ∑ (y i − y'i )
−
2
N
∑ (y i − y'0 ) .
i = N − N 0 +1
Подставим уравнение регрессии в это выражение:
2



2
n
n
n
N

2 2 

S ост = ∑ y i −  b̂ 0 + ∑ b̂ j x j + ∑ b̂ ju x j x u + ∑ b̂ j x j  − ∑ (y i − y' 0 ) .


i =1
j=1
j,u =1
j=1

 i = N − N 0 +1

j≠ u


и получим остаточную сумму квадратов, связанную с дисперсией адекватности и
имеющую число степеней свободы:
(n + 2)(n + 1) − (N − 1).
f ад = N −
0
2
Если в каждой точке рототабельного центрального композиционного плана
проводилось m параллельных опытов, то, проделав аналогичные выкладки, можно
получить выражение для остаточной суммы, связанной с дисперсией адекватности. Оно
будет отличаться заменой результатов y ' i единичных наблюдений в точках плана на
N
m
y ik
единичных наблюдений, а среднего
k =1 m
арифметического y0 из N0 параллельных наблюдений в центре плана на общее среднее
арифметическое y 0 из mN0 таких наблюдений, т.е.:
средние арифметические y i = ∑
2
 




2
n
n
n
N
N 



S ост = m ⋅ ∑ y i −  b̂ 0 + ∑ b̂ j x j + ∑ b̂ ju x j x u + ∑ b̂ 2j x 2j  − ∑ (y i − y 0 ) .


j=1
j,u =1
j=1

 i = N − N 0 +1
 i=1 

j
≠
u


 

Данная остаточная сумма имеет то же число степеней свободы fад, что и
предыдущая.
88
− y' o ) .
Далее для проверки адекватности модели необходимо для отношения дисперсии
S
2
= ост и дисперсии воспроизводимости применить F–критерий Фишера,
адекватности Sад
f ад
как и в общем случае регрессионного анализа. Полученная адекватная модель позволяет
не только предсказать с равной точностью независимо от направления значение
величины отклика, но и оценить ординаты точки экстремума. Ввиду свойства
рототабельности плана эта задача облегчается – можно от полинома второго порядка,
полученного в результате эксперимента, преобразованием системы координат
(поворотом координатных осей) перейти к стандартному каноническому уравнению.
В таблице приведена матрица рототабельногоn–мерного плана второго порядка, в
которой используется обозначение:
[
]
B = (2λ 24 (n + 2)λ 4 − nλ 22 )
Нормированная обратная информационная матрица Фишера рототабельного плана
второго порядка имеет вид:
−1
X0
x
1
2
n
12
13
n–1,n
2B
Λ42(n+2)
0
x
1
x2 2
xn2
2
0
–
2BΛ2
Λ4
–
2BΛ2Λ4
–
2BΛ2Λ4
0
1
0
2
…
||0||
–1
||0||
0
n
–
0
12
0
4
0
–1
||0||
13
4
…
0
n–1,n
1
2
4
–
2BΛ2Λ4
||0||
2
2
2
n
–
2BΛ2Λ4
…
–
2BΛ2Λ4
||0||
0
–1
||0||
–1
…
Λ
B
[(n+1)
Λ4––
(n–
1)Λ22]
B
2
(Λ2 –
Λ4)
B(
B(
Λ22–Λ4)
Λ22–Λ4)
B[(
n+1)Λ4–
–
(n–
1)Λ22]
…
…
B
B(
2
2
(Λ2 –
Λ2 –Λ4)
Λ4)
B(
Λ22–Λ4)
…
B[(
n+1)Λ4–
–
(n–
1)Λ22]
89
Параметры РОЦКП в зависимости от числа факторов
В [1] без вывода для РОЦКП рекомендуется принимать
.
Тогда
.
Параметры РОЦКП по [1]
Пример рототабельного ортогонального центрально-композиционного плана для n
= 2.
Параметры плана:
Нет необходимости проводить восемь раз (точки с 9 по 16) опыты в центре плана.
Достаточно провести этот опыт один раз и записать результат во все восемь строк.
Строки сокращать нельзя, так как нарушается свойство ортогональности, и
коэффициенты полинома будут определены неверно.
Коэффициенты квадратичного полинома рассчитаются, как и ранее.
Использован рассмотренный ранее план ПФЭ 22 с добавленными опытами 5-16.
90
,
,
,
,
,
.
Полином принимает вид
.
Рассчитанные значения функции и расхождения с опытными данными
представлены в предпоследнем и последнем столбцах плана.
Ранее для ОЦКП, при несколько отличающейся поверхности функции, был получен
близкий полином в виде
.
91
Для n=2 число членов квадратичного полинома составляет шесть. В ОЦКП и
РОЦКП необходимо провести девять отличающихся опытов при пяти уровнях
варьирования факторов. Поэтому ОЦКП и РОЦКП - ненасыщенные планы. Такое число
экспериментальных точек может быть использовано для построения, например,
кубичных полиномов.
Эксперименты с симплекс–планированием
Для задания экспериментальной области могут использоваться геометрические
фигуры, отличные от квадрата, куба и гиперкуба, применяемых в ортогональных планах
2k. В симплекс–планировании размещение опытов
эксперимента осуществляется в вершинах регулярного
(правильного) симплекса.
Симплекс – это множество k+1 независимых точек,
образующих выпуклую фигуру в k–мерном пространстве.
Симплекс называется регулярным, если расстояния между
вершинами фигуры равны между собой. Для двух
независимых переменных регулярный симплекс –
равносторонний треугольник, для трех переменных – тетраэдр
и т. д. Насыщенные ортогональные планы 23–1, 27–4, 215–11 ...
образуют регулярные симплексы.
Процедура построения матрицы симплекс–плана может быть пояснена на примере
двух независимых переменных. Равносторонний треугольник в плоскости кодированных
переменных x1 и x2 можно расположить так, чтобы для вектор–столбцов, элементами
которых являются координаты вершин, выполнялись условия симметричности и
ортогональности:
b 
a
− a
b  .

 0 − 2b
Значения а и b могут быть вычислены из условия нормировки
∑
x = ∑i =1 xi22 = N
N
2
i =1 i1
N
, при котором оценки коэффициентовbjлинейной модели будут иметь одинаковые
дисперсии. С учетом этого условия для столбцов матрицы получим 2а2=6b2=3 и,
следовательно, матрицу независимых переменных x1, x2
0,707 
 1,288
− 1,288 0,707 


 0
− 1,414
Для удобства следует провести масштабирование элементов матрицы, с тем чтобы
получить правильный симплекс, вписанный в окружность единичного радиуса. После
деления всех элементов на 1,414 отучим матрицу симплекс–планирования:
Н
омер
опыта
1
Матрица симплекс–плана
x0
x1
x2
+1
В
ыход уi
+0,86
0,500
у1
–
0,500
у2
6
2
+1
0,866
3
+1
0
–1,000
уз
Геометрическая интерпретация симплекса показана на рисунке. Для четырех
переменных исходная матрица симплекса будет иметь вид
92
 a1
− a
 1
 0

 0
 0
a2
a2
− 2a 2
0
0
a3
a3
a3
− 3a3
0
a4 
a4 
a4 

a4 
− 4a 4 
Из условия нормировки получим 2a12 = 6a 22 = 12a32 = 20a42 = 5 , откудаа1=1,580,
а2=0,912,а3=0,644, а4=0,500.
Определив значения а1, а2,а3, а4 после масштабирования делением всех элементов
на 2,00 получим матрицу планирования:
Матрица симплекс–плана
В
Номер
х
x
ыходyi
x1
x3
x4
опыта1
+
0,25
0,79
0
0,322
y
1
1
,456 0
0
2
+
–
0,322
0,25
y2
3
+
0
–
0,322
0,25
y3
4
+
0
0
–0,966
0,25
y4
+
–
5
0
0
0
y5
1
Матрица центрированного
К–симплекса, вписанного в сферу1,000
единичного радиуса,
может быть записана в общем виде
а2
а3
K аk 
 а1
− а
а2
а3
K аk 
 1
 0 − 2а 2
а3
K аk 


0
− 3а3 K аk 
 0
K
K
K K K 


0
0
K − kаk 
 0
где
k +1
ai =
, i ≤ k.
ik ( i + 1 )
В таблицеприводятся численные значения в зависимости отi и k.
1
0
2
1
0
0
0
0
0
,9129
0
,7746
0
0
0
0
7
8
,8660
0
,9661
0
,9258
0
0
,9562
0
,9759
0
,9487
1
,9897
0
0
,9186
1
,9798
,9354
,8729
0
0
0
0
,7500
6
1
0
,9487
,8819
,7559
0
,9682
,8944
,7638
5
1
,9482
,7906
4
1
,8660
,8165
3
0
0
,9682
1
,9897
0
,9820
0
,9922
1
93
В силу свойств ортогональности, симметричности и нормировки матрицы
симплекс–плана вычисление коэффициентов линейной регрессионной модели, анализ ее
пригодности для описания результатов эксперимента производится по аналогии с ПФЭ.
Дисперсии оценок коэффициентов в симплекс–планах и планах 2k одинаковы и
N
определяются как σ 2 {b j } = σ 2 {y} / ∑i=1 xij2 = σ 2 {y} / N . Вместе с тем симплекс–планы
имеют большую дисперсию предсказания значений зависимой переменной у. Так,
например, для линейной модели плана 24–1
y=b0+b1x1+b2x2+b3x3+b4x4.
дисперсия предсказания значений ŷ равна
σ 2 {ŷ} = σ 2 {b0 }+ x12σ 2 {b1 }+ x22σ 2 {b2 }+ x32σ 2 {b3 }+ x42σ 2 {b4 }.
Если принять σ 2 {y} = 1 , то σ 2 {bi } = 1 8 и
σ 2 {ŷ} = 0 ,125(1 + x12 + x22 + x32 + x42 ) .
Дисперсии предсказания может быть вычислена для линейной модели, получаемой
при реализации симплекс–плана для 4–факторной модели. С учетом примененного
масштабного уменьшения в два раза всех элементов матрицы симплекс–плана линейную
модель следует записывать в виде
y=b0+2b1x1+2b2x2+2b3x3+2b4x4.
Дисперсию предсказания σ 2 {ŷ} найдем из уравнения:
σ 2 {ŷ} = σ 2 {b0 }+ 4 x12σ 2 {b1} + 4 x22σ 2 {b2 }+ 4 x32σ 2 {b3 }+ 4 x42σ 2 {b4 } .
Если σ 2 {y} = 1 , то в случае симплекс–плана σ 2 {bi } = 1 / 5 , а
σ 2 {ŷ} = 0 ,200(1 + 4 x12 + 4 x22 + 4 x32 + 4 x42 ) .
Максимальные значения σ 2 {ŷ} достигаются на границе области эксперимента.
Сравнение этих значений дисперсии предсказания для двух типов планов при линейной
модели и минимальном числе опытов приведено в таблице.
Тип планов
σ 2 {ŷ} при числе входных
переменных
2
4
5
6
Планы 2k–p
0,7
0
0
0
5
,62
,75
,87
Наибольший интерес
Симплекс–
1,6
3
4
5
представляет применение
планы
7
,40
,33
,28
симплекс–планов в задачах
оптимизации объектов. На основе правильных симплексов может быть построена
достаточно формализованная процедура движения к экстремуму.
Симплекс–процедура движения состоит из следующих повторяющихся этапов:
1.
реализация опытов в соответствии с выбранной матрицей симплекс–плана;
2.
отбрасывание вершины симплекса с минимальным значением выходной
переменной (параметра оптимизации);
3.
построение на оставшейся грани нового симплекса, у которого отброшенная
вершина заменена ее зеркальным отображением.
В связи с тем, что в такой процедуре не требуется вычисления и оценивания
коэффициентов линейной модели, выбор правильного симплекса можно делать без учета
свойств ортогональности, нормировки. Очень часто, особенно в условиях
промышленного эксперимента, возникает необходимость выбора такого вписанного
симплекса, который имеет минимальное число дробных уровней варьирования.
94
Например, в выбранном квадрате факторного
пространства для кодированных переменных правильный
симплекс может быть вписан в квадрат, как показано на рис.
Матрица такого симплекса имеет следующий вид:
№
x2
x1
опыта
1
–1
–1
2
+1
–1
3
0
+0
,73
Для трех переменных симплекс совпадает с планом 24–1:
№
x1
x2
x3
опыта
1
–1
–1
+1
2
+1
–1
–1
3
–1
+1
–1
4
+1
+1
+1
и матрица не имеет дробных уровней.
В общем виде почти целочисленная матрица правильногоk–симплекс–плана может
быть записана в виде
− 1 + 1 + 1 K + 1
+ 1 − 1 + 1 K + 1


+ 1 + 1 − 1 K + 1
2


+ 1 + 1 + 1 K + 1 , где δ k = 1 − k k + 1 + 1 .
K K K K K 


+ 1 + 1 + 1 K − 1
δ δ δ K δ 
k
k
k
 k
Приведенные симплекс–планы записаны в кодированных переменных. Чтобы
перейти от кодированных значений хj,к натуральным Xj, следует воспользоваться
известным преобразованием.
Движение в пространстве входных переменных, например
в направлении максимума функции отклика, происходит путем
r
зеркального отображения вершины X 1 симплекса с
r
наименьшим значением у( X 1 ) и построения нового симплекса,
как показано на рис.
Координаты новой вершины симплекса определяются из
равенств:
2
x*ij = (x1 j + x2 j + K + xi −1, j + xi +1, j + K + xk +1, j ) − xij ,
k
*
где xij – j–тая координата новойi–й вершины; j=1, 2, ..., k – число входных
переменных;i=1, 2, ..., N – число вершин симплекса.N=k+1.
Формула справедлива и для натуральных значений координат вершин симплекса.
Пусть при реализации матрицы симплекс–плана для k=4 в третьем опыте получено
минимальное значение у3. При движении к максимуму производится зеркальное
отражение третьей вершины.
Координаты новой вершины вычисляются по формуле:
x*31=2/4(x11+x21+x41+x51)–x31=2/4(–1+1+1–0,618)–1;
(
)
95
x*32=2/4(x12+x22+x42+x52)–x32=2/4(+1–1+1–0,618)–1;
x*33=2/4(x13+x23+x43+x53)–x33=2/4(+1+1+1–0,618)+1;
x*34=2/4(x14+x24+x44+x54)–x34=2/4(+1+1–1–0,618)–1.
При реализации симплекс–процедуры движения могут возникать трудности,
связанные с ошибками эксперимента, ограничениями на входные переменные,
особенностями рельефа поверхности отклика. Эти обстоятельства заставляют
использовать ряд дополнительных правил. Например:
1. Привращениисистемы симплексов вокруг одной вершины («зацикливание»
симплекса) после k+1 опыта прекращают отражение и повторяют опыт в данной
вершине. Эта ситуация, показанная на рисунке, может расцениваться как достигнутая
близость экстремума, в этом случае следует перейти к планированию второго порядка,
либо может быть выявлена ошибка в ранее полученном результате.
2. Значение отклика в новой вершине при кантовании симплекса наименьшее. В
этой ситуацииследует вернуться к исходному симплексу, отражая вторую наименьшую
вершину.
Симплекс–планирование является достаточно эффективным средством достижения
областей экстремума. Отметим достоинства и недостатки последовательного
симплексного метода.
Достоинства:
•
используется минимальное число опытов для определения направления
движения по сравнению с другими планами. Введение нового фактора требует
постановки только одного дополнительного опыта;
•
метод обладает простой вычислительной процедурой;
•
достаточно легко учитываются ограничения на область изменения
переменных;
•
процедура метода позволяет легко включать или исключать из рассмотрения
те или иные переменные;
•
направление движения определяется только соотношением величин функции
отклика в вершинах симплекса, а не их абсолютными значениями;
•
метод работоспособен в условиях дрейфа характеристик объекта.
Недостатки:
•
реализация метода не дает информации о влиянии каждой переменной на
функцию отклика;
•
движение по правилам симплексного метода дает ограниченное
представление о рельефе поверхности отклика.
96
Скачать