438 УДК 681.51 ПРОБЛЕМЫ ПОСТРОЕНИЯ МОДЕЛЕЙ ВИРТУАЛЬНЫХ АНАЛИЗАТОРОВ СЛАБО ФОРМАЛИЗОВАННЫХ ТЕХНОЛОГИЧЕСКИХ ОБЪЕКТОВ А.Ю. Торгашов Институт автоматики и процессов управления ДВО РАН Россия, 690041, Владивосток, Радио ул., 5 E-mail: torgashov@iacp.dvo.ru Г.Б. Диго Институт автоматики и процессов управления ДВО РАН Россия, 690041, Владивосток, Радио ул., 5 E-mail: bernatsk@iacp.dvo.ru Н.Б. Диго Институт автоматики и процессов управления ДВО РАН Россия, 690041, Владивосток, Радио ул., 5 E-mail: digo@iacp.dvo.ru И.С. Можаровский Институт автоматики и процессов управления ДВО РАН Россия, 690041, Владивосток, Радио ул., 5 E-mail: studvvsu@gmail.com Ключевые слова: слабо формализованный технологический объект, показатель идентифицируемости, виртуальный анализатор. Анализируются проблемы идентификации модели виртуального анализатора слабо формализованного технологического объекта. Предлагаются пути их решения. Оцениваются возможности построения качественной модели по имеющимся данным при использовании показателя идентифицируемости без перебора различных ее структур. PROBLEMS OF CONSTRUCTING MODELS OF SOFT SENSORS OF MILDLY FORMALIZED TECHNOLOGICAL PLANTS A.Yu. Torgashov Institute of Automatics and Control Processes of the FEB of RAS Russia, 690041, Vladivostok, Radio Street, 5 E-mail: torgashov@iacp.dvo.ru G.B. Digo Работа выполнена при частичной финансовой поддержке гранта ДВО РАН № 12-I-П17-02 по программе фундаментальных исследований Президиума РАН № 17 «Динамические системы и теория управления». The paper is partially financially supported by a grant og FEB of RAS No. 12-I-П17-02 on the program of basic researches of the Supreme of the RAS No. 17 ''Dynamic systems and control theory''. Труды X Международной конференции «Идентификация систем и задачи управления» SICPRO ‘15 Москва 26-29 января 2015 г. Proceedings of the X International Conference “System Identification and Control Problems” SICPRO ‘15 Moscow January 26-29, 2015 439 Institute of Automatics and Control Processes of the FEB of RAS Russia, 690041, Vladivostok, Radio Street, 5 E-mail: bernatsk@iacp.dvo.ru G.B. Digo Institute of Automatics and Control Processes of the FEB of RAS Russia, 690041, Vladivostok, Radio Street, 5 E-mail: digo@iacp.dvo.ru I.S. Mozharovskiy Institute of Automatics and Control Processes of the FEB of RAS Russia, 690041, Vladivostok, Radio Street, 5 E-mail: studvvsu@gmail.com Key words: mildly formalized technological plant, identifiability index, soft sensor. Problems of the identification of a model of a soft sensor of a mildly formalized technological plant are analyzed. Ways to solve them are proposed. Possibilities of constructing a qualitative model by use of available data under use of an identifiability index without enumeration of different structures of the model are evaluated. 1. Введение В реальных условиях большинство объектов является сложными и слабо формализуемыми из-за недостаточности имеющихся знаний о них и среде, в которой они функционируют. При их идентификации часто появляется необходимость учета нечетко заданных параметров или неточной технологической информации, возникающих вследствие недостаточной изученности объектов, неучтенных внешних воздействий, наличия качественных характеристик, неопределенности и т.д. И если методы моделирования и качественного анализа хорошо формализованных сложных объектов основаны на предположении о возможности получения аналитически заданной функциональной зависимости с последовательным уточнением значений ее коэффициентов, то для применения к слабо формализованным объектам требуется их определенное развитие с учетом конкретных особенностей. Используемые в настоящее время численные методы анализа параметров моделей зачастую носят апостериорный характер, включают полученные по данным эксперимента численные оценки значений параметров. В связи с этим при управлении, например, физико-химическими слабо формализуемыми объектами, характеризуемыми сложной взаимозависимостью между входными и выходными потоками, исследователям нужны методы, позволяющие оценивать имеющиеся производственные данные с точки зрения возможности построения адекватных моделей без перебора различных их структур. В докладе обсуждаются проблемы, возникающие при построении модели виртуального анализатора слабо формализованного технологического объекта, и намечаются пути их решения. 2. Постановка задачи Рассматривается слабо формализованный технологический объект с несколькими измеряемыми входами u1, u2 , , u N и одним выходом y. В реальных условиях качество его выходного продукта анализируется лабораторным путем либо с помощью виртуальных анализаторов (ВА). Первый путь - достаточно сложная, дорогостоящая и долгоТруды X Международной конференции «Идентификация систем и задачи управления» SICPRO ‘15 Москва 26-29 января 2015 г. Proceedings of the X International Conference “System Identification and Control Problems” SICPRO ‘15 Moscow January 26-29, 2015 440 временная процедура. ВА, представляющий собой программно-аналитический комплекс, позволяет по имеющимся данным получать необходимые сведения дешевле и надежнее. Принцип действия ВА основан на непрерывном определении показателя качества по математической модели, описывающей его взаимосвязь с текущими значениями измеряемых технологических переменных. Он обеспечивает оценивание не измеряемых непосредственно, но необходимых показателей качества продукта по таким измеряемым параметрам технологического процесса как температура, давление, расход, непрерывно контролируемых современными системами управления. Однако при построении ВА слабо формализованного объекта приходится сталкиваться с тем, что неизвестна структура и, соответственно, количество переменных, включаемых в модель. При обращении к регрессионным моделям для выбора структуры, опираясь на имеющуюся априорную информацию об исследуемом объекте, приходится преодолевать вычислительные проблемы, возникающие в расчетах при формировании и анализе нескольких вариантов обычно многомерных нелинейных моделей. Проведенный в [1] анализ результатов применения современных регрессионных методов при построении моделей ВА позволил сделать вывод о том, что в зависимости от имеющихся входных данных получены различные по точности результаты. Поэтому ставится задача выявления проблем, препятствующих построению модели виртуального анализатора слабо формализованного объекта и выбора вариантов их преодоления. 3. Проблемы, возникающие при построении модели виртуального анализатора по промышленным данным Для построения виртуального анализатора слабо формализованного технологического объекта исследователям требуется выборка, сформированная по промышленным данным, при использовании которой приходится сталкиваться со следующими проблемами: 1) Отсутствует информация о структуре модели и числе входных переменных, влияющих на выход. 2) Объем данных, заведомо влияющих на качество выходных показателей, недостаточен для получения достоверных результатов. 3) При сборе данных присутствуют существенная погрешность измерений выхода или неизмеряемые воздействия. В связи с этим подбору модели виртуального анализатора должны предшествовать шаги по их преодолению. Для устранения первой из перечисленных проблем предлагается использовать показатель идентифицируемости объекта, понимая под идентифицируемостью возможность построения его модели на основе имеющихся данных вход-выход. С его помощью можно оценить возможность получения адекватной модели по имеющейся выборке, избегая длительного перебора возможных вариантов структур. Алгоритм вычисления и оценки показателя идентифицируемости приведен в [1]. Вторая проблема возникает, в частности, когда в силу своих физико-химических свойств входная переменная должна быть относительно постоянной, и вследствие этого выборка данных по такому входу представляет собой значение, изменяющееся в малом диапазоне (имеет почти постоянное значение). Для построения в таких условиях адекватной модели предлагается вводить корректирующую поправку, учитывающую влияние этой входной переменной, исходя из известной физико-химической модели (например, увеличивая диапазон изменчивости до тех пор, пока сформированная расши- Труды X Международной конференции «Идентификация систем и задачи управления» SICPRO ‘15 Москва 26-29 января 2015 г. Proceedings of the X International Conference “System Identification and Control Problems” SICPRO ‘15 Moscow January 26-29, 2015 441 ренная выборка данных [2] позволит получить модель со значимым коэффициентом при этом входе). Третья проблема может быть устранена несколькими путями. Если на этапе предварительного анализа данных известно, что при измерении выхода присутствует существенная погрешность или из физико-химических соображений известно о каких-либо информативных входах, отсутствующих в выборке, в качестве рекомендаций может быть предложение об установке дополнительных датчиков с целью улучшения информативности промышленных данных. Для уменьшения влияния погрешности значений выхода в конкретной выборке может применяться робастная регрессия [3], использующая различные варианты весовых функций и согласующих констант для каждой из них. Учитывать неизмеряемые воздействия в ряде случаев удается с помощью ввода искусственных входов или (при наличии мультиколлинеарности) метода гребневой регрессии [3]. 4. Проблемы построения виртуальных анализаторов для промышленных массообменных технологических объектов Проведенный в [4] анализ результатов применения современных регрессионных методов при построении моделей ВА для контроля качества выходного продукта при управлении массообменными технологическими процессами, в частности процессами ректификации, позволил сделать вывод о том, что в зависимости от имеющихся входных данных получены различные по точности результаты. А предложенная в [5] методика, протестированная на промышленных данных, подтвердила возможность оценивать идентифицируемость сложных нелинейных объектов с неизвестной структурой. Проведенные численные исследования с физико-химическими моделями двухпродуктовых колонн ректификации (КР) позволяют сделать вывод, что по имеющимся данным может быть построена модель удовлетворительного качества, если показатель идентифицируемости H превышает пороговое значение H p 10 . В реальных условиях получение показателя идентифицируемости H ниже порогового значения может быть обусловлено следующими причинами: Погрешность измерения выхода. Недостаточная информативность входов. Наличие проблем в работе контактных устройств (тарелок, насадок) колонн. Для того чтобы ответить на вопрос, что из трех возможных причин является доминирующим в снижении значения H при оценивании показателя идентифицируемости по промышленным данным, необходимо проводить дополнительное численное исследование моделей КР, имитируя выше перечисленные условия, и сопоставлять результаты с результатами, полученными по промышленным данным. 5. Примеры анализа промышленных данных для ректификационных колонн Пример 1. По имеющейся выборке данных, полученных с промышленной РК, требуется построить модель виртуального анализатора, адекватно описывающую работу колонны при изменении давления. Задача усложняется тем обстоятельством, что выборка не содержит возмущений, вызванных изменениями давления, а априори извест- Труды X Международной конференции «Идентификация систем и задачи управления» SICPRO ‘15 Москва 26-29 января 2015 г. Proceedings of the X International Conference “System Identification and Control Problems” SICPRO ‘15 Moscow January 26-29, 2015 442 но, что в процессе ректификации давление оказывает существенное влияние на качество конечного продукта. Исходная выборка данных содержит входные переменные ( x1 – расход острого орошения, x 2 – расход дистиллята, x3 , x 4 – температуры вверху и внизу колонны соответственно, x5 – давление вверху колонны), которые с точки зрения физического смысла наиболее влияют на выход Y (значение изо-пентана в дистилляте). Однако в построенной по ней после центрирования МНК модели коэффициент при входной переменной x5 оказался незначимым. Для учета его влияния и расширения диапазона изменения сформирована выборка на основе физико-химической модели (предварительно откалиброванной на промышленных данных), учитывающей закономерности фазового равновесия, КПД ступеней разделения, материальные и энергетические балансы. Вычисляем, Согласно изложенному в [2] алгоритму, вычислена корректирующая поправка d 5 12.4468 x5 при изменении давления в расширенном диапазоне [1.0;1.8] кг/см2 и преобразовано значение выхода. После этого построена МНК модель с преобразованным выходом y d на основе промышленных данных и получено преобразованное значение выхода. В результате получена модель ВА с учетом корректирующей поправки на давление (1) YˆM Yˆd 12.4468 x5 , Yˆd 0.4888 x1 0.1413 x 2 1.0545 x3 0.0395 x 4 с коэффициентом детерминации R 2 0.8009 , в то время как без использования априорной информации модель ВА имела вод Yˆ 0.3609 x1 0.1183 x 2 1.0344 x3 0.0410 x 4 (2) с коэффициентом детерминации R 2 0.6480 . Точность модели (1), по сравнению с традиционным методом построения модели (2), улучшена (коэффициент детерминации увеличен на 19%). Таким образом, учет корректирующей поправки, рассчитанной на основе расширенного диапазона изменчивости входов, позволяет улучшать точность моделей виртуальных анализаторов промышленных ректификационных колонн на проверочных выборках. Пример 2. Рассматривается промышленный технологический объект - блок стабилизации бензина установки каталитического крекинга. В колонне верхним продуктом выводится фракция С3-С4, а нижним продуктом – стабильный бензин. Температура начала кипения стабильного бензина является важным показателем качества, так как позволяет отслеживать потери бензина в процессе хранения и транспортировки. Поэтому необходим мониторинг с помощью ВА данного показателя качества с целью его поддержания на уровне не ниже 35С. Основные технологические параметры, влияющие на прогнозирование температуры начала кипения стабильного бензина, представлены в таблице 1. Таблица 1. Основные технологические параметры, влияющие на прогнозирование температуры начала кипения стабильного бензина. Технологические переменные Описание технологических переменных Среднее значение Единицы измерения x1 Температура на 21-ой тарелке ТО 82,61 С x2 Температура паров на входе в ТО 105,90 С x3 Расход скомпремированного газа на установку 49305,30 Нм3/ч x4 Расход газов из сырьевой емкости ТО 10812,85 Нм3/ч x5 Расход сухого газа 11702,79 Нм3/ч Труды X Международной конференции «Идентификация систем и задачи управления» SICPRO ‘15 Москва 26-29 января 2015 г. Proceedings of the X International Conference “System Identification and Control Problems” SICPRO ‘15 Moscow January 26-29, 2015 443 x6 Температура верха 60,62 С x7 Температуре на первой тарелке 59,28 С x8 Температура нестабильного бензина на входе 119,37 С x9 Температура на 25 тарелке 115,86 С x10 Температура паров 135,45 С x11 Температура низа 154,58 С x12 Расход острого орошения 159,19 м3/ч x13 Расход фракции С3-С4 92,86 м3/ч x14 Давление внизу колонны 10,54 Кгс/см2 x15 Давление в сырьевой емкости ТО 12,15 Кгс/см2 x16 Температура в сырьевой емкости ТО 42,70 С x17 Расход сырья на установку 362,89 м3/ч Используемая на данном производстве МНК модель прогноза температуры начала кипения yˆ1= 54.07 0.42 x15+0.17 x16 0.36 x9+0.20 x10 0.67 x14 + 2.46 x12 /x17 , не являясь адекватной, не может обеспечить получение качественных результатов, поэтому возникает проблема ее улучшения при неизвестной структуре и существенной погрешности имеющихся лабораторных данных. Чтобы избежать длительного перебора возможных вариантов структур моделей, использовался показатель идентифицируемости, позволяющий оценить возможность получения качественной модели по имеющимся данным и вычисляемый по методике, предложенной в [5]. Его максимальное значение, полученное по имеющимся промышленным данным, не превышает 1.64, в то время как пороговое значение H p показателя идентифицируемости технологического объекта подобного класса, определенное в [5], существенно больше ( H p 10 ). Полученный результат позволяет утверждать, что по имеющимся данным не может быть построена адекватная модель ВА. Для подтверждения этого факта был проведен вычислительный эксперимент, основанный на методе перебора. Изменялись структура модели и количество входов, для каждого случая строилась модель, и одновременно оценивался показатель идентифицируемости. Использовались метод наименьших квадратов, робастная и гребневая регрессии, оценивались шесть различных структур (линейная; квадратичная; четвертой степени; кубическая; включающая произведение значений двух соседних входов для первых элементов выборки; произведение значений двух соседних входов для последних элементов выборки), а число входов менялось от 4 до 17. Критериями адекватности построенных моделей выбраны коэффициент детерминации (доля объясненной дисперсии отклонений зависимой переменной от ее среднего значения) R 2 1 i ( yi yˆ i ) 2 i ( yi y ) 2 и среднеквадратичная ошибка (rootmean square error) RMSE in1 ( yi yˆ i ) 2 / n , где yi – наблюдаемое значение выходной переменной, ŷi – значение выходной переменной, предсказанное по модели, y – среднее значение наблюдаемой выходной переменной. Число входов в модель определялось по максимальному значению коэффициента детерминации для проверочной выборки. Проанализировано 234 модели, лучшие из полученных результатов представлены в таблице 2. Таблица 2. Результаты эксперимента по определению идентифицируемости. Труды X Международной конференции «Идентификация систем и задачи управления» SICPRO ‘15 Москва 26-29 января 2015 г. Proceedings of the X International Conference “System Identification and Control Problems” SICPRO ‘15 Moscow January 26-29, 2015 444 R2 R2 RMSE RMSE Н, показатель обучающая проверочная обучающая проверочная идентифицируемости Тип модели Линейная Сумма квадратов входов Сумма произведений входов 0,0945 0,0329 1,1132 1,2461 2,2355 0,0946 0,0326 1,1134 1,2463 2,2652 0,0954 0,0430 1,1129 1,2396 2,3851 0,0984 0,0304 1,1111 1,2477 1,8890 0,0981 0,0320 1,1113 1,2466 1,8373 0,1006 0,0354 1,1097 1,2445 2,3699 0,0116 -0,0212 1,1633 1,2804 1,8091 0,0119 -0,0226 1,1632 1,2814 2,2222 0,0071 -0,0021 1,1660 1,2684 1,2748 Отрицательное значение R 2 , полученное по проверочной выборке для нелинейных моделей, свидетельствует о том, что обучающая выборка не охватывает в полной мере весь диапазон данных 6. Среди построенных моделей наилучшей является модель yˆ 2 = 24.38 + 0.368 x1 0.34 x2+0.0002 x4 0.04 x6 0.15 x7 0.12 x8+ 0.11 x9 0.03 x10 0.21 x11 0.02 x12+0.01 x13 0.49 x14 , для которой на проверочной выборке: R 2 0.043 , а RMSE 1.24 . Анализ эксперимента показал, что с помощью имеющейся выборки промышленных данных невозможно построить адекватную модель, максимальное значение детерминации на проверочной выборке равно 0.06, что свидетельствует о высокой погрешности измерений или присутствии нерассмотренных факторов, нарушающих связь между выходом и входами. Показатель идентифицируемости модели ВА позволяет подтвердить плохую идентифицируемость объекта на основе предоставленных промышленных данных, не прибегая к длительному перебору структур модели. Причинами такого результата являются наличие существенной погрешности измерений выхода и отсутствие каких-либо информативных входов ВА. Поэтому в качестве рекомендаций может быть предложена установка дополнительных датчиков температурного профиля аппаратов технологического объекта с целью улучшения информативности промышленных данных. Кроме того, в таких ситуациях желательно проводить анализ исходных данных на присутствие в них систематических ошибок измерений, замерять дополнительные воздействия на объект. Это могут быть, например, химический состав бензина на входе в колонну, плотность сырья и т.д. 6. Заключение Проведенные исследования подтверждают, что использование алгоритма чередующихся условных математических ожиданий позволяет преодолевать трудности, связанные с определением структуры модели. Предлагаемая процедура расчета индекса идентифицируемости слабо формализованного объекта помогает избегать длительного (в общем случае бесконечного) процесса перебора различных вариантов структур моделей ВА. Труды X Международной конференции «Идентификация систем и задачи управления» SICPRO ‘15 Москва 26-29 января 2015 г. Proceedings of the X International Conference “System Identification and Control Problems” SICPRO ‘15 Moscow January 26-29, 2015 445 Источником низкого значения показателя идентифицируемости могут быть погрешности измерения выхода, отсутствие измерений ключевых входных переменных, а также наличие нестационарных свойств у технологического объекта. В связи с этим представляется перспективным проведение дальнейших исследований по разработке алгоритма распознавания конкретного источника, снижающего индекс идентифицируемости. Список литературы 1. 2. 3. 4. 5. 6. Диго Г.Б., Диго Н.Б., Можаровский И.С., Торгашов А.Ю. Анализ идентифицируемости нелинейных объектов управления слабо формализованной структуры // Информатика и системы управления. 2012. № 3 (33). С. 34-46. Диго Г.Б., Диго Н.Б., Можаровский И.С., Торгашов А.Ю. Идентификация моделей массообменных технологических процессов при недостаточном объеме данных // Труды XXVI Международной научной конференции «Математические методы в технике и технологиях» ММТТ-26. Нижний Новгород, 27- 30 мая 2013. Нижегород. гос. техн. ун-т имени Р.Е. Алексеева, 2013. Т. 2. Секция 2. С. 54-57. Интернет-ресурс: Воронцов К. В. Лекции по алгоритмам восстановления регрессии. Лекции по алгоритмам восстановления регрессии. http://www.ccas.ru/voron/download/Regression.pdf. Диго Г.Б., Диго Н.Б., Можаровский И.С., Торгашов А.Ю. Исследование моделей виртуальных анализаторов массообменного технологического процесса ректификации // Информатика и системы управления. 2011. № 4 (30). С. 17-27. Диго Г.Б., Диго Н.Б., Можаровский И.С., Торгашов А.Ю. Метод разработки виртуальных анализаторов для нелинейных технологических объектов // Информатика и системы управления. 2013. № 3 (37). С. 13-23. http://en.wikipedia.org/wiki/Coefficient_of_determination. Труды X Международной конференции «Идентификация систем и задачи управления» SICPRO ‘15 Москва 26-29 января 2015 г. Proceedings of the X International Conference “System Identification and Control Problems” SICPRO ‘15 Moscow January 26-29, 2015