Что такое хемометрика и нужна ли она лично Вам? Родионова Оксана Евгеньевна, Институт химической физики РАН. Содержание 1. Введение 2. БИК-спектроскопия и калибровка 3. Сенсоры и хемометрика 4. Формальные и содержательные модели 5. Многомерный статистический контроль процессов 6. Многие приложения 7. Заключение Хемометрика: два определения Дедуктивное Хемометрика - это научная дисциплина, находящаяся на стыке химии и математики, предметом которой являются математические методы исследования химических данных сайт Российского хемометрического общества Индуктивно е Хемометрика – это то, что делают хемометрики. сайт Международного хемометрического общества Хемометрики – это такие люди, которые все время пьют пиво и воруют идеи у математиков Svante Wold Что делают хемометрики? • проводят допинг контроль спортсменов; •• проводят исследуют причины разрушения локализуют месторождение золота в на диагностику артрита и рака документов, написанных старинными Швеции; ранних стадиях; гальскими чернилами • определяют состояние лесов в Канаде по • находят следы кокаина на банкнотах, • расшифровывают снимкам из космоса;состав косметики собранных в Британском парламенте; Древнего Египта; • исследуют органические субстанции в • выявляют фальшивые лекарства; • определяют происхождение пигментов, кометном веществе старыми живописцами. •использованных контролируют производство аспирина, полупроводников, пива, водки, бумаги полиэтилена, бензина, булочек … Так что же делает хемометрика? • Хемометрика имеет дело с данными (зачастую с очень большими), поэтому хемометрика это подраздел информатики (Data mining) • Данные, которые исследует хемометрика по большей части происходят из химии, поэтому хемометрика - это подраздел химии (Analytical chemistry) • Методы, которые использует хемометрика ориентированы на формальное моделирование (Soft modeling) Почему «хемо-» ? • Хемометрика родилась из задачи анализа химических спектров • Спектроскопия – один из наилучший метод получения информации по ходу процесса (online) в режиме реального времени: быстро и без влияния на процесс • «Хемо» подчеркивает практическую, а не статистическую значимость применяемых методов Почему «-метрика» ? • Хемометрические методы легко и плодотворно переносятся в другие области, например, в психологию, биологию, геологию, и т. д. • Хемометрика активно эксплуатирует математику статистику, линейную алгебру. ------------------------------------------------------------------‘It is easier to teach a chemist statistics that to teach chemistry to a statistician.’ (Svante Wold) Когда появилась? «Каждая попытка применить математические методы для исследования химических проблем должна рассматриваться как абсолютно абсурдная и противоречащая самому духу химии. Если математический анализ, когдалибо займет сколько-нибудь значительное место в химии – извращение, которое по счастью почти невероятно – это повлечет за собой повсеместно быстрое вырождение этой науки». Огюст Конт, 1825 США, Сиэтле, 1974 год Брюс Ковальски (B. Kowalski) Сванте Волд (S. Wold) Почему появилась? Математические методы Много переменных и много измерений Одно измерение – спектр (600 точек) Один цикл – 800 спектров (времен) Один массив данных – 200 образцов (циклов) ю ... Основные принципы 1. Использование многомерного подхода при конструировании экспериментов и анализе их результатов. 2. Что считать шумом, а что – информацией, всегда решается с учетом поставленных целей и методов, используемых для ее достижения. 3. Понятие эффективного (химического) ранга и скрытых, латентных переменных, число которых равно этому рангу. Основная задача хемометрики Заменить прямые измерения, которые либо – невозможны дороги длительны на косвенные измерения, которые – доступны дешевы быстры с последующей их обработкой (калибровкой). Определение качества бензина БИК-спектру по 0.6 0.4 0.2 0 1100 0.6 PC2 Scores 92 H 0.3 90 H H H H H H H 1400 1500 1600 Predicted Y Elements: Slope: Offset: Correlation: RMSEP: SEP: Bias: S 13 1.010279 -0.918475 0.987680 0.233897 0.243305 0.008032 S S S S S S S S S 88 LL LLLL L S -0.3 H M -0.2 1300 S S H LMM M LM L 0 1200 0 0.2 PC1 0.4 0.6 0.8 86 Measured Y 86 87 88 89 90 91 92 Определение качества зерна по БИК-спектру NIR analyzers standardization Pavel A. Luzanov, Lumex ltd., St. Petersburg, Russia Сенсоры и хемометрика. Электронные язык и нос по материалам Алисы Рудницкой, Россия Схема электронного языка multiplexor sensor array measuring device V reference electrode computer analysed solution Реальный вид Корреляция «человек-сенсор» 5 bitter sweet salty 4 3 Root2 (8%) 2 1 0 -1 -2 -3 -6 -4 -2 0 2 4 6 Root1 (92%) 8 10 12 14 Подробнее о языке Analysis of port wines using the electronic tongue. Assessment of port wine age and comparison with chemical analysis data Alisa Rudnitskaya Sr. Petersburg University, Russia И еще о сенсорах The classification of aqueous solutions with the use of voltammetric system of divided cells and principal component analysis Artem Sidelnikov, Bashkir State University, Ufa, Russia Формальные и содержательные модели Содержательные “Hard” models Формальные “Soft” models Физика, химия, …. Из данных y=f (x,a)+e y=Xa+e Параметры Имеют физ. смысл Физически бессмысленны Проблемы Построить модель Обработать данные Назначение Экстраполяция Интерполяция Пример Хим. кинетика ANOVA Откуда Формула Оценка активности антиоксидантов методом ДСК Hard and soft modeling. A case study Alexey Pomerantsev Institute of Chemical Physics, Moscow, Russia Многомерный статистический контроль процессов (MSPC) MSPC – это математический анализ реальных исторических данных, характеризующих опыт работы • Цель: Научиться у самих себя принимать оптимальные решения в различных ситуациях. • Средства: Сбор истории работы процесса, а также анализ накопленных данных. • Результат: Снижении затрат при стабилизации качества. MSPC – это один из методов анализа процессов (PAT) Контроль с помощью SPC X1 X2 Одномерная область контроля t t t t t t t X2 t t t t t t t X1 Многомерная область контроля Контроль с помощью MSPC X3 Мера Т2 Хотеллинга (расстояние внутри модели) X2 Ошибка моделирования (расстояние до модели) X1 Зачем в MSPC нужна хемометрика? Потому, что все больше данных о процессах получают с помощью современных, эффективных приборов Макропеременные (температура, pH, давление, ... ) Спектроскопия (УФ, ИК, БИК, ...) Хроматография (ЖХ, ГХ, ...) Гибридные методы (ЖХ/МС, ЖХ/ЯМР, ...) Видео образы и гиперспектры (2D, 3D) Диагностика отказов Real time diagnostics of technological processes and field equipment Rusinov L.A, St. Petersburg Technological University, Russia PAT & FDA Process Analytical Technology (PAT) = Технология (методы) анализа процессов PAT = Статистический контроль процессов (MSPC) + Хемометрика (Chemometrics) FDA = U.S. Department of Health and Human Services Food and Drug Administration Guidance for Industry PAT — A Framework for Innovative Pharmaceutical Development, Manufacturing, and Quality Assurance Pharmaceutical CGMPs, September 2004 Контроль и оптимизация Analytical Process Control and Optimization Oxana Rodionova Institute of Chemical Physics, Moscow, Russia Периодические (batch) процессы Периодические процессы применяются при производстве лекарств, полимеров, пищевых продуктов, и т. п. Они характеризуются – Конечной продолжительностью Кинетикой протекания Изменчивостью, как внутри, так и между циклами Частой сменой производимых продуктов В непрерывных процессах важны только взаимоотношения между переменными, тогда как в периодических важно знать как переменные меняются во времени. Поэтому здесь особенно важен контроль в реальном времени. Сравнение двух типов процессов Непрерывный процесс Периодический процесс X X t $t1 $t2 $t3 batch 1 batch 2 batch 3 t Контроль в фармацевтике Концентрации Реакция идет при T= – 50оС concentrations 1 A C 0.8 0.6 B 0.4 0.2 0 0 2 4 time 6 Модель Макропараметры: температура, давление t t 8 10 MSPC в фармацевтике Реактор История процесса Спектры Проекционная модель Макро t t t t t Текущий цикл Обратная связь MSPC Контроль Рентгеновская кристаллография белков Two examples of chemometrics application in protein crystallography Andrey Bogomolov, European Molecular Biology Laboratory (EMBL), Hamburg, Germany Многомерный анализ изображений (MIA) по материалам Paul Geladi, Sweeden Разложение изображения по каналам Red channel Green channel Blue channel Оцифровка изображения Применение МГК для анализа Образ ГК1 X PCA Образ ГК2 Исследование состояния лесов (Канада) Область высоким Старые Новыеспосадки деревья Область в тени коэффициентом Исходный аэроснимок отражения Он же в пространстве ГК1 Анализ изображений и медицина Using black and white models for classification of medical images Sergei Kucheryavski, Altai State University, Barnaul, Russia Хемометрика и экспертиза по материалам Оксаны Родионовой, Россия и Lars P. Houmøller, Denmark Фальшивые таблетки ИК Спектры таблеток 0.7 N1 N1Cut 0.6 N2 N2Cut 0.5 0.4 0.3 N2 0.2 N1 0.1 0 3800 -0.1 cm -1 4800 5800 6800 7800 8800 9800 -0.2 -0.3 Прибор Bomem MB160 в диапазоне 3800 – 10000 cm-1 (ближний ИК спектр); 1609 значений. N1 - таблетки от производителя –10 штук; N1Cut – образец N1 разрезанный N2 - таблетки фальсифицированные – 10 штук; N2Cut – образец N2 разрезанный PCA полного спектра 0.3 PC2 0.2 Fake N1 N1Cut N2 N2Cut 0.1 True PC1 0.0 -0.1 -0.2 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 Отдельные участки спектра 0.2 N1 N1Cut N2 N2Cut -0.01 7000 7100 7200 -0.03 0.16 -0.05 0.12 -0.07 0.08 -0.09 -0.11 0.04 0 5800 6000 6200 6400 6600 cm-1 -0.13 6800 -0.15 N1 N1Cut N2 N2Cut 7300 7400 cm-1 Анализ «наихудшего» участка спектра 0.70 0.08 N2 PC2 0.65 0.06 0.60 0.04 N1 N1Cut N2 N2Cut Fake 0.55 0.02 N1 True 0.50 PC1 0.00 0.45 -0.02 0.40 3800 3900 4000 4100 4200 4300 -1 cm -0.04 -0.10 -0.05 0.00 0.05 0.10 SIMCA Полный спектр (1609 точек) Участок спектра (130 точек) 0.020 0.005 N2 0.010 N1Cut 0.005 N2 0.004 Distance to model, s i Distance to model, s i 0.015 0.003 0.002 N1Cut 0.001 0.000 0.000 0 10 20 30 40 50 60 70 Leverage, h 0 20 40 60 80 100 Leverage, h Гипреспектры таблеток Spectral Dimensions MatrixNIR Hyperspectral Imaging Camera Wavelength: 900 – 1700nm @ 10 nm intervals Image size: 256 x 320 pixels Гиперспектральный анализ Is Hypserspectral Imaging an Analytical Instrument? Paul Geladi, SLU, Umeå, Sweden Хемометрика и экология по материалам Pentti Minkkinen, Finland Влияние ванадиевой пыли на людей Испытательная группа 18 человек подверженных пыли V2O5 на фабрике Контрольная группа 17 человек Измерялись 26 клинических показателей плазмы крови График ГК 5 4 3 V ГК2 (17.5 %) 2 V V 1 V C V 0 V C -1 -2 -5 -5 V V V V C C V C C V V VC C C C C C C -3 -4 V V VV C C C C 0 ГК1 (29.9 %) 5 PLS-D Дискриминация Матрица дескрипторов X Матрица индикаторов Y x11 x12 … … x1k 1 0 x21 x22 … … x2k 1 0 … … … … 1 0 … … … … 1 0 xi1 xi2 … … xik 1 0 xi+1,1 xi+1,2 … … xi+1,k 0 1 … … 0 1 0 1 CLASS CLASS C V … PLS2 … … … 0 1 xn1 xn2 xnk 0 1 График ГК в PLS-D 3 ГК2 C 2 C C C C C V C 1 C C C C 0 V V VV V V C C C -1 V C C V VV V V C VV V V V -2 ГК1 -3 -5 -4 -3 -2 -1 0 1 2 3 4 Анализ экологического состояния Волжского бассейна The principle of «ecological matreshka (a set of nesting doll)» in the system of the analysis of multivariate ecological data G.S. Rozenberg, Institute of ecology of the Volga river basin of the RAS, Togliatti, Russia Реки Каталонии Investigation of main contamination sources of heavy metal ions in fish, sediments and waters from catalonia rivers using different multiway data analysis methods Roma Tauler IIQAB-CSIC, Barcelona, Spain Озеро Саимаа в Финляндии Environmental Monitoring of Lake Saimaa, Finland Satu-Pia Reinikainen, Lappeenranta University of Technology, Lappeenranta, Finland Мониторинг состояния окружающей среды Chemometric methods for environmental pollution monitoring D.E Bykov, Samara State Technical University, Samara, Russia Пробоотбор по материалам Pentti Minkkinen, Finland Теория пробоотбора Пробоотбор • Искусство отделения малой части из большой массы и подготовки этой пробы к анализу Лозунг дня • Результат анализа всегда хуже, чем проба, по которой он сделан • Проба должна быть представительной Теория, соединяющая техническую и статистическую стороны была разработана Pierre Gy: Sampling for Analytical Purposes, Wiley, 1998 и теперь развивается в работах Kim Esbensen & Pentti Minkkinen Введение в теорию пробоотбора Representative sampling in PAT and environmental/geological work: Theory of Sampling (TOS) — a missing link Kim H. Esbensen, Aalborg University, Esbjerg Institute of Technology, Denmark Подробнее об ошибках пробоотбора Weighting Error — the Often Neglected Component of the Sampling Errors Pentti Minkkinen, Lappeenranta University of Technology, Lappeenranta, Finland Четвертая парадигма Парадигма – концептуальная схема, используемая для постановки проблем и их решения, господствующая в научном сообществе в течение длительного исторического периода. Энциклопедический словарь по материалам Алексея Померанцев Познать, значит нарисовать V-III вв до н.э. Познать, значит посчитать X-XV н.э. Познать, значит составить и решить дифференциальное уравнение XVII в. –н.в. 2H2+O2 2H2O Познать, значит собрать и проанализировать данные