Тематическая статья FOSS ХЕМОМЕТРИЧЕСКИЙ ВЫПУСК Хемометрическая терминология для качественного и количественного анализа – IQ2 Автор: Lars Nørgaard*, Ib Haunstrup, Michael Petersen and Johan Weimann, FOSS Klavs Martin Sørensen, университет Копенгагена *lno@foss.dk P/N 1026715, Выпуск 1, Май 2014 г. Dedicated Analytical Solutions Использование инфракрасной аналитической технологии в пищевой промышленности включает в себя много специальной хемометрической терминологии, особенно, когда речь заходит о растущей необходимости обеспечения целостности цепи поставок. Эта тематическая статья содержит разъяснения, представляя терминологию в двух основных категориях: «классификация» и «количественная оценка». Она представлена здесь как концепция IQ2 FOSS. Введение 16 июля 1968 г. Игл совершил посадку на Луну. Была разработана четкая стратегия прекращения миссии при возникновении проблем сразу же после посадки модуля Игл. Базз Олдрин должен был ждать подтверждения из Хьюстона: прервать операцию, направив Игл назад к командному модулю Колумбия, ждущему на лунной орбите, или остаться. Обычно каждый руководитель полета, которому приходится принимать столь критическое решение, подает команду «выполнять» или «отставить». Но в данном случае положительный ответ на продолжение выполнения операции согласно плану – выполнять – мог быть ошибочно воспринят пилотом лунного модуля как указание опасности и побудить его к решению покинуть поверхность Луны. Это лишь один пример того, насколько важной может быть терминология. Когда руководитель полета Ген Кранц выявил эту возможность в ходе тренировок, он изменил план полета, включив гораздо лучшую команду «остаться» или «не оставаться», тем самым защитив лунную программу НАСА от весьма впечатляющей неприятности [1]. В хемометрических задачах последствия нечеткой терминологии, вероятно, не столь драматичны, как провал первой посадки на Луну, но столь же уместно определить конкретные термины для решения конкретных задач. В этом хемометрическом выпуске мы опишем наше видение общей картины, охватывающей как качественный, так и количественный анализ – см. графический обзор на рис. 1. QUALITATIVE Categorical response IDENTIFICATION ”Which product?” Unknown product spectrum compared to at least two well-defined product spectral groups ”is it skimmed or whole milk powder?” QUALIFICATION ”Is it a good product?” Unknown product spectrum compared to spectra from accepted good product – often a tighter model than in identification ”is skimmed milk powder quality as expected?” QUANTITATIVE Constituents concentrations QUANTIFICATION “How much ?” Constituent prediction models applied ”contains 15,3 % protein” ”contains 440 ppm melamine” Рисунок 1: Иллюстрация концепции IQ2: идентификация, классификация и количественная оценка. Page 2 Качественный анализ Качественный анализ данных основан на калибровочном наборе данных, включающем маркированные спектры образцов соответствующего сырья, промежуточного или конечного продукта. Маркировка отражает группу продукта, например пшеница, ячмень или кукуруза, или вид образца – чистое молоко или молоко с добавлением меламина. Две основные цели сбора калибровочного набора данных для качественного анализа – идентификация и классификация поступающих спектров новых образцов согласно известным группам. Идентификация При идентификации маркированный калибровочный набор данных используется для поиска продукта, соответствующего неизвестному спектру согласно критериям выбранного метода идентификации. Для идентификации необходимы, по меньшей мере, два четко определенных продукта, чтобы классифицировать неизвестный спектр согласно группам продуктов – идентификацию часто называют «дискриминантной» благодаря Р.А. Фишеру [2], который представил линейный дискриминантный анализ для двух или более продуктов в 1930 г. Классификация: Методы классификации далее классифицируют неизвестный продукт и устанавливают, соответствует ли качество образца критериям выбранного метода. Каждый продукт может иметь собственный метод классификации с индивидуальным порогом, что позволяет создавать отдельные методы для анализа каждого конкретного продукта. Количественный анализ В количественном анализе выполняется калибровочное моделирование. Оно включает полную валидацию, чтобы создать заключительную прогнозирующую модель для целей массового анализа, предсказывающую концентрацию компонента в составе неизвестного образца в режиме реального времени. Она также известна как количественная оценка. Для разработки прогнозирующей модели для количественной оценки необходим набор спектров с соответствующими данными по составу, полученными из эталонного анализа. Калибровочное моделирование основано на спектральных данных и данных по составу и может производиться с использованием различных методов; стоит упомянуть математические модели, включающие регрессию по методу частных наименьших квадратов (PLS), MPLS, LOCAL и искусственные нейронные сети (ANN), как основные методы линейного и нелинейного моделирования для малых и больших баз данных. Page 3 Пример A: технологический мониторинг сухого молока с помощью NIR В производстве сухого молока широко используется встроенный технологический анализ, обеспечивающий быструю и непрерывную регистрацию NIR-спектров в диапазоне 1100-1650 нм. В этом случае анализируется сухое обезжиренное молоко и может использоваться концепция IQ2, как показано ниже, а также на рис. 2. 1) Идентификация: применяется модель, чтобы идентифицировать анализируемый образец как, например, a) сухое обезжиренное молоко, b) сухое цельное молоко или c) сухая сыворотка. Затем результат идентификации определяет выбор правильных моделей классификации и количественной оценки: 2) Классификация: применяется более жесткая модель классификации, например, разработанная по данным за последние три месяца, подтверждающая, что образец сходен с произведенным недавно обезжиренным порошком, и как дополнительное преимущество, подтверждается, что образец правильно представлен на технологический аналитический интерфейс; если образец классифицируется как обезжиренное сухое молоко, может быть выполнена количественная оценка: 3) Количественная оценка: применяются специализированные PLS прогнозирующие модели для сухого обезжиренного молока, чтобы оценить концентрацию влаги и белка. Описанный выше процесс может быть реализован непосредственно в программном обеспечении прибора. Как идентификация, так и классификация могут выполняться чрезвычайно быстро, немедленно выдавая результаты предсказания. QUALIFICATION IDENTIFICATION Spectral fingerprint is used to identify product The ideal product during production is defined by spectra Is the right calibration and qualification used? A warning is given when the product / production moves out of spec For process - is the right product loaded/mixed? QUANTIFICATION Prediction of relevant compositional constituents in the product A warning is given when the product / production moves out of spec or if the calibration model does not match the product Is the raw material or final product compliant with good product 0 p g p 5 0 5 OK Warning Out-of-spec 0 5 0 Рисунок 2: Технологический анализ с помощью NIR с использованием концепции IQ2. Page 4 Пример B: FTIR-анализ сырого молока Анализ сырого молока с помощью прибора, использующего ИК Фурье-спектрометрию (FTIR), например, широко применяемого MilkoScan FT1, позволяет применять модель классификации для защиты, например, от подмешивания. Если подтверждается, что образец сходен с «хорошими» чистыми образцами, может выполняться количественная оценка. В этом случае всегда известно, что рассматриваемый образец является сырым молоком, так что этапа идентификации не требуется: 1) Классификация: применяется глобальная, так называемая общая (неспециализированная) модель, подтверждающая, что рассматриваемый образец соответствует совокупности образцов чистого сырого молока, на которой основана глобальная модель. Следующий этап – количественная оценка: 2) Количественная оценка: Имеются модели количественной оценки для обоих композиционных параметров и для выбранных примесей. Модели количественной оценки для выбранных примесей, часто называемые специализированными моделями, используются потому, что пределы обнаружения для них меньше, чем у глобальной общей модели; т.e. возможно, что общая модель не выявит загрязнитель в образце, который впоследствии будет обнаружен с помощью количественной специализированной модели. Используются следующие расчетные модели: а) Предсказание состава: жир, протеин, лактоза, полное содержание сухого вещества, сухое вещество без жира, лимонные кислоты, понижение температуры замерзания, свободные жирные кислоты, плотность, общая кислотность, казеин и мочевина. b) Предсказание концентрации меламина, нитрита натрия, гидроксипролина, циануровой кислоты и мальтодекстрина – эти модели дополняют глобальные общие модели и выступают в качестве дополнительной проверки безопасности. Читатель отсылается к работе [3], содержащей обзор терминологии по подмешиванию и загрязнению, и к [4] для введения в терминологию по специализированным/общим моделям. Заключение Поскольку инфракрасная аналитическая технология приобретает все большую важность для обеспечения качества продовольствия и целостности цепи поставок, возникает очевидная необходимость в согласовании терминологии, связанной с хемометрическими задачами. Совокупность согласованной терминологии обеспечивается в рамках концепции IQ2 FOSS, охватывающей «классификацию» и «количественную оценку». Это дает три основных термина для разработки хемометрических приложений: идентификацию, классификацию и количественную оценку, или сокращенно IQ2. Page 5 Идентификация • Идентифицирует образец как принадлежащий к одной из, по меньшей мере, двух групп четко определенных продуктов • Для создания моделей не требуется эталонный анализ – они могут быть разработаны непосредственно из спектральных данных Классификация: • Определяет, соответствует ли образец конкретному, часто более узко определенному продукту – необходим только один вид продукта • Для создания моделей не требуется эталонный анализ – они могут быть разработаны непосредственно из спектральных данных Количественная оценка • Для разработки моделей требуется эталонный анализ. Литература [1] http://www.hq.nasa.gov/pao/History/alsj/a11/a11final-fltpln.pdf (page 174). [2] R.A. Fisher, The Use of Multiple Measures in Taxonomic Problems, Annals of Eugenics, 7:179-188, 1936. [3] T.M.P. Cattaneoa and S.E. Holroyd, The use of near infrared spectroscopy for determination of adulteration and contamination in milk and milk powder: updating knowledge, Journal of Near Infrared Spectroscopy, 21:341–349, 2013. [4] S van Ruth, http://fera.co.uk/events/pastConferences/documents/sVanRuth.pdf, 11th Annual Fera/ JIFSAN Symposium, 2010. См. также проект Q-saffe (http://www.qsaffe.eu/). FOSS, Представительство в РФ - ООО «Фосс Электрик» ул.Новорязанская, д. 31/7 корп.24 105066, г.Москва Россия Тел.: +7 (495) 640-76-10 Факс: +7 (495) 640-76-11 Russia@foss.dk www.foss.ru Page 6