Все что вы хотели знать о хемометрике – но стеснялись спросить 10.02.05 WSC-4 Courses 1 Содержание 1. Введение 2. Кинетика 3. Промышленность 4. Фармацевтика 5. Многие приложения 6. Информация 10.02.05 WSC-4 Courses 2 Хемометрика: два определения Дедуктивное Хемометрика - это научная дисциплина, находящаяся на стыке химии и математики, предметом которой являются математические методы исследования химических данных сайт Российского хемометрического общества Индуктивно е Хемометрика – это то, что делают хемометрики. сайт Международного хемометрического общества Хемометрики – это такие люди, которые все время пьют пиво и воруют идеи у математиков Svante Wold 10.02.05 WSC-4 Courses 3 Что делает хемометрика? • Хемометрика имеет дело с данными (зачастую с очень большими), поэтому хемометрика это подраздел информатики (Data mining) • Данные, которые исследует хемометрика по большей части происходят из химии, поэтому хемометрика - это подраздел химии (Analytical chemistry) • Методы, которые использует хемометрика ориентированы на формальное моделирование (Soft modeling) 10.02.05 WSC-4 Courses 4 Почему «хемо-» ? • Хемометрика родилась из задачи анализа химических спектров • Спектроскопия – наилучший метод получения информации по ходу процесса (on-line) в режиме реального времени: быстро и без влияния на процесс • «Хемо» подчеркивает практическую, а не статистическую значимость применяемых методов 10.02.05 WSC-4 Courses 5 Почему «-метрика» ? • Хемометрические методы легко и плодотворно переносятся в другие области, например, в психологию, биологию, геологию, и т. д. • Хемометрика активно эксплуатирует математику статистику, линейную алгебру • ‘It is easier to teach a chemist statistics that to teach chemistry to a statistician.’ (Svante Wold) 10.02.05 WSC-4 Courses 6 Много переменных и много измерений Одно измерение – спектр (600 точек) Один цикл – 800 спектров (времен) Один массив данных – 200 образцов (циклов) ю 10.02.05 ... WSC-4 Courses 7 Основная задача хемометрики Заменить прямые измерения, которые либо – невозможны дороги длительны на косвенные измерения, которые – доступны дешевы быстры с последующей их обработкой (калибровкой). 10.02.05 WSC-4 Courses 8 Определение качества бензина по ИК-спектру 0.6 0.4 0.2 0 1100 0.6 PC2 Scores 92 H 0.3 90 HH H H H H H 1500 1600 Elements: Slope: Offset: Correlation: RMSEP: SEP: Bias: S 13 1.010279 -0.918475 0.987680 0.233897 0.243305 0.008032 S S S S S S S S S 88 S -0.3 H M 10.02.05 1400 Predicted Y LL LLLL L -0.2 1300 S S H LMM M LM L 0 1200 0 0.2 PC1 0.4 0.6 86 0.8 WSC-4 Courses Measured Y 86 87 88 89 90 91 92 9 Как определить число ГК? L6. Defining Multivariate Calibration Model Complexity for Model Selection and Comparison John Kalivas Idaho State University, Pocatello, USA 10.02.05 WSC-4 Courses 10 Формальные и содержательные модели Содержательные “Hard” models Формальные “Soft” models Физика, химия, …. Из данных y=f (x,a)+e y=Xa+e Параметры Имеют физ. смысл Физически бессмысленны Проблемы Построить модель Обработать данные Назначение Экстраполяция Интерполяция Пример Хим. кинетика ANOVA Откуда Формула 10.02.05 WSC-4 Courses 11 Белые, серые и черные модели L2. Gray Modelling Approaches to Investigate Chemical Processes Roma Tauler Institute of Chemistry and Environmental Research, CSIC, Barcelona, Spain 10.02.05 WSC-4 Courses 12 Хемометрика среди своих сестер 1970 Хемометрика Психометрика 1900 Биометрика Оригинальность методов 1940 Область приложений 10.02.05 WSC-4 Courses 13 H – принцип. Основы хемометрики L3.The H-principle of Mathematical Modeling Agnar Höskuldsson IPL, DTU, Kgs Lyngby, Denmark 10.02.05 WSC-4 Courses 14 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 15 Хемометрика – от археологии до астрономии L5. Exploration and Classification: Applications from Archaeometry to Spectroscopy Kurt Varmuza Vienna Technical University, Vienna, Austria 10.02.05 WSC-4 Courses 16 Кинетика – curve resolution 1 7 13 19 25 31 37 43 49 0 10.02.05 2 WSC-4 Courses 4 6 8 10 17 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 18 Как найти кинетику по спектрам? k1 k2 A B C Концентрации 1.0 1.0 C A 0.8 0.8 0.6 B 0.4 0.2 0.6 0.4 0.2 0.0 0.0 0 2 4 6 8 10 time 10.02.05 C B A spectral signal concentrations «Чистые» спектры компонент 0 5 10 15 20 25 30 35 40 45 50 conventional wavelengths WSC-4 Courses 19 Эволюция спектра компонент реакции 1.0 t=0 t=10 t=8 0.9 t=6 spectral signal 0.8 0.7 0.6 t=2 0.5 t=4 0.4 0.3 0.2 0.1 0.0 0 10 20 30 40 50 conventional wavelengths 10.02.05 WSC-4 Courses 20 Оценки кинетических констант 0.40 GRAM k1 0.35 ПБО SBE 0.30 0.25 0.20 WCR 0.15 LM-PAR 0.10 -0.05 10.02.05 0.00 0.05 k2 0.10 WSC-4 Courses 0.15 0.20 0.25 21 Кинетика и хемометрика L1.Principal Component Analysis in Photochemistry Владимир Разумов Institute of Problems of Chemical Physics, Chernogolovka, Russia 10.02.05 WSC-4 Courses 22 Хемометрика в промышленности по материалам Nouna Kettaneh-Wold, Sweeden и Richard Brereton, UK 10.02.05 WSC-4 Courses 23 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 24 PAT & FDA Process Analytical Technology (PAT) = Технология (методы) анализа процессов PAT = Статистический контроль процессов (SPS) + Хемометрика (Chemometrics) FDA = U.S. Department of Health and Human Services Food and Drug Administration Guidance for Industry PAT — A Framework for Innovative Pharmaceutical Development, Manufacturing, and Quality Assurance Pharmaceutical CGMPs, September 2004 10.02.05 WSC-4 Courses 25 Многомерный статистический контроль процессов (MSPC) MSPC – это математический анализ реальных исторических данных, характеризующих опыт работы • Цель: Научиться у самих себя принимать оптимальные решения в различных ситуациях. • Средства: Сбор истории работы процесса, а также анализ накопленных данных. • Результат: Снижении затрат при стабилизации качества. MSPC – это один из методов анализа процессов (PAT) 10.02.05 WSC-4 Courses 26 Зачем в MSPC нужна хемометрика? Потому, что все больше данных о процессах получают с помощью современных, эффективных приборов Макропеременные (температура, pH, давление, ... ) Спектроскопия (УФ, ИК, БИК, ...) Хроматография (ЖХ, ГХ, ...) Гибридные методы (ЖХ/МС, ЖХ/ЯМР, ...) Видео образы и гиперспектры (2D, 3D) 10.02.05 WSC-4 Courses 27 Контроль с помощью SPC X1 X2 Одномерная область контроля t t t t t t t X2 t t t t t X1 t Многомерная область контроля t 10.02.05 WSC-4 Courses 28 Контроль с помощью MSPC X3 Мера Т2 Хотеллинга (расстояние внутри модели) X1 X2 Ошибка моделирования (расстояние до модели) 10.02.05 WSC-4 Courses 29 Периодические (batch) процессы Периодические процессы применяются при производстве лекарств, полимеров, пищевых продуктов, и т. п. Они характеризуются – Конечной продолжительностью Кинетикой протекания Изменчивостью, как внутри, так и между циклами Частой сменой производимых продуктов В непрерывных процессах важны только взаимоотношения между переменными, тогда как в периодических важно знать как переменные меняются во времени. Поэтому здесь особенно важен контроль в реальном времени. 10.02.05 WSC-4 Courses 30 Сравнение двух типов процессов Непрерывный процесс Периодический процесс X X t 10.02.05 WSC-4 Courses $t1 $t2 $t3 batch 1 batch 2 batch 3 t 31 Контроль в фармацевтике Концентрации Реакция идет при T= – 50оС concentrations 1 A C 0.8 0.6 B 0.4 0.2 0 0 2 4 time 6 8 10 Модель Макропараметры: температура, давление t t 10.02.05 WSC-4 Courses 32 MSPC в фармацевтике Реактор История процесса Спектры Проекционная модель Макро t t t t t MSPC Контроль Текущий цикл Обратная связь 10.02.05 WSC-4 Courses 33 Трехмодальные (3-way) данные X y time batch 2 time batch 3 time batch 4 time batch 5 time batches batch 1 wavelengths wavelengths 10.02.05 WSC-4 Courses 34 Регрессия n наблюдений p переменных X p >> n 10.02.05 a = y+ e rank (X) < p WSC-4 Courses 35 Вполне реальный пример 10.02.05 WSC-4 Courses 36 MSPC Контроль по первым двум ГК Средняя траектория хороших циклов (зеленая) ± 3 (красные). Хорошие циклы должны лежать в этих пределах. 10.02.05 WSC-4 Courses 37 Контроль процесса в реальном времени Плохой процесс (черный) выходит за пределы допустимых отклонений по ГК1. Причина выясняется с помощью графика вкладов переменных в первую ГК. Bad batch 10.02.05 Bad variable WSC-4 Courses 38 Контрольная карта для этой переменной 10.02.05 WSC-4 Courses 39 Многомерный анализ изображений (MIA) по материалам Paul Geladi, Sweeden 10.02.05 WSC-4 Courses 40 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 41 Разложение изображения по каналам Red channel Blue channel Green channel 10.02.05 WSC-4 Courses 42 Оцифровка изображения 10.02.05 WSC-4 Courses 43 Применение МГК для анализа Образ ГК1 X 10.02.05 PCA Образ ГК2 WSC-4 Courses 44 Исследование состояния лесов (Канада) Область высоким Старые Новыеспосадки деревья Область в тени коэффициентом Исходный аэроснимок отражения Он же в пространстве ГК1 10.02.05 WSC-4 Courses 45 Хемометрика и экспертиза по материалам Оксаны Родионовой, Россия и Lars P. Houmøller, Denmark 10.02.05 WSC-4 Courses 46 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 47 Фальшивые таблетки 10.02.05 WSC-4 Courses 48 ИК Спектры таблеток 0.7 N1 N1Cut 0.6 N2 N2Cut 0.5 0.4 0.3 N2 0.2 N1 0.1 0 3800 -0.1 cm -1 4800 5800 6800 7800 8800 9800 -0.2 -0.3 Прибор Bomem MB160 в диапазоне 3800 – 10000 cm-1 (ближний ИК спектр); 1609 значений. N1 - таблетки от производителя –10 штук; N1Cut – образец N1 разрезанный N2 - таблетки фальсифицированные – 10 штук; N2Cut – образец N2 разрезанный 10.02.05 WSC-4 Courses 49 PCA полного спектра 0.3 PC2 0.2 Fake N1 N1Cut N2 N2Cut 0.1 True PC1 0.0 -0.1 -0.2 -0.8 10.02.05 -0.6 -0.4 -0.2 0.0 WSC-4 Courses 0.2 0.4 0.6 50 Отдельные участки спектра 0.2 N1 N1Cut N2 N2Cut -0.01 7000 7100 7200 -0.03 7300 7400 cm-1 0.16 -0.05 0.12 -0.07 0.08 -0.09 -0.11 0.04 0 5800 10.02.05 6000 6200 6400 6600 cm-1 -0.13 6800 -0.15 WSC-4 Courses N1 N1Cut N2 N2Cut 51 Анализ «наихудшего» участка спектра 0.70 0.08 N2 PC2 0.65 0.06 0.60 0.04 N1 N1Cut N2 N2Cut Fake 0.55 0.02 N1 True 0.50 PC1 0.00 0.45 -0.02 0.40 3800 3900 4000 4100 4200 4300 -1 cm 10.02.05 -0.04 -0.10 WSC-4 Courses -0.05 0.00 0.05 0.10 52 SIMCA Полный спектр (1609 точек) Участок спектра (130 точек) 0.020 0.005 N2 0.010 N1Cut 0.005 N2 0.004 Distance to model, s i Distance to model, s i 0.015 0.003 0.002 N1Cut 0.001 0.000 0.000 0 10 20 30 40 50 60 70 Leverage, h 10.02.05 WSC-4 Courses 0 20 40 60 80 100 Leverage, h 53 Гипреспектры таблеток 10.02.05 WSC-4 Courses 54 Хемометрика и экология по материалам Pentti Minkkinen, Finland 10.02.05 WSC-4 Courses 55 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 56 Влияние ванадиевой пыли на людей Испытательная группа 17 человек подверженных пыли V2O5 на фабрике Контрольная группа 18 человек Измерялись 26 клинических показателей плазмы крови 10.02.05 WSC-4 Courses 57 График ГК 5 4 3 V ГК2 (29.9 %) 2 V V 1 V C V 0 V C -1 -2 -5 -5 10.02.05 V V V V C C V C C V V VC C C C C C C -3 -4 V V VV C C C C 0 ГК1 (17.5 %) WSC-4 Courses 5 58 PLS-D Дискриминация Матрица дескрипторов X x11 x12 … … x1k 1 0 x21 x22 … … x2k 1 0 … … … … 1 0 … … … … 1 0 xi1 xi2 … … xik 1 0 xi+1,1 xi+1,2 … … xi+1,k 0 1 … … 0 1 0 1 CLASS CLASS 10.02.05 Матрица индикаторов Y C V … PLS2 … … … 0 1 xn1 xn2 xnk 0 1 WSC-4 Courses 59 График ГК в PLS-D 3 ГК2 C 2 C C C C C V C 1 C C C C 0 V V VV V V C C C -1 V C C V VV V V C VV V V V -2 ГК1 -3 -5 10.02.05 -4 -3 -2 -1 0 WSC-4 Courses 1 2 3 4 60 Хемометрика в биологии по материалам David O. Nelson and Matt Coleman, USA 10.02.05 WSC-4 Courses 61 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 62 Новая биология: X- omics Традиционный подход: • Один ген/белок/реакция за раз • Исследование отдельной модели Новый «системный» подход: • Все ДНК/РНК/белки исследуются вместе • Глобальный анализ больших данных 10.02.05 WSC-4 Courses 63 Что такое microarray - чип? • Каждый микрореактор содержит ДНК (или белок) • Обычно в каждом реакторе разные ДНК, с повторами для контроля точности • За один раз несколько микрореакторов гибридизируются с экстрактами тканей • Результат виден как образ, состоящий из множества цветных пятен 10.02.05 WSC-4 Courses 64 Эксперименты с ДНК Подготовка проб ДНК контроль Подготовка чипа тест подкрашивание красителями смешивание в равных объемах гибридизация пробы сканирование Сравниваются две пробы ДНК. Они подкрашиваются разными красителями Результат эксперимента это интенсивности через два фильтра - красный и зеленый 10.02.05 WSC-4 Courses 65 Схема обнаружения промоторов 1. Эксперимент с чипом 2. Извлечение кластеров кДНК A 5. Определение потенциальных промоторов 3. Поиск последовательностей в базе 4. Извлечение последовательностей 7. Поиск других генов в базе 8. Возможные гены B C 6. Возможная модель промотора Из Thomas Werner Biomolecular Engineering, 17: 87-94 (2001) 10.02.05 WSC-4 Courses 66 QSAR и QSPR по материалам Альфреда Сулейманова, Россия 10.02.05 WSC-4 Courses 67 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 68 Что такое QSAR/QSPR? QSAR/QSPR Quantitative structure-activity/property relationships Количественная связь «структура-активность/свойство» Цель – создание новых продуктов с заданными свойствами 10.02.05 WSC-4 Courses 69 Разработка изделий из ПВХ (QSPR) Матрица дескрипторов X Модификаторы FM22 Дакрилан Стабилизаторы Интерстаб Нафтомикс Прочие добавки Матрица свойств Y Белизна Разрывное растяжение Ударная прочность Текучесть расплава Ytraining Xtraining PLS Ynew Xnew 10.02.05 WSC-4 Courses 70 Связь «состав-свойства» График X и Y нагрузок 0.6 Прогноз ударной прочности Дакрилан PC2 36 Slope=0.865 FM22 Удар Offset=3.14 Correlation=0.9 34 Интерстаб RMSEC=1.33 0.3 Растяжение Белизна PC1 0 -0.6 -0.3 Текучесть 0 -0.3 0.3 0.6 RMEP=1.57 32 Predicted, KJ/m Нафтомикс 30 28 26 24 24 -0.6 10.02.05 26 28 30 32 34 36 Measured, KJ/m WSC-4 Courses 71 Подробнее о QSAR/QSPR T14. QSAR/QSPR: Universal Approach to the Prediction of Properties of Chemical Compounds and Materials Владимир Палюлин Moscow State University, Russia 10.02.05 WSC-4 Courses 72 Электронные язык и нос по материалам Алисы Рудницкой, Россия 10.02.05 WSC-4 Courses 73 Численные методы Хемометрика Фармацевтика Экология Хемометрика Аналитическая химия Множество приложений QSAR QSPR Распознавание образов 10.02.05 Промышленность WSC-4 Courses 74 Схема электронного языка multiplexor sensor array measuring device V reference electrode computer analysed solution 10.02.05 WSC-4 Courses 75 Реальный вид 10.02.05 WSC-4 Courses 76 Корреляция «человек-сенсор» 5 bitter sweet salty 4 3 Root2 (8%) 2 1 0 -1 -2 -3 -6 -4 -2 0 2 4 6 8 10 12 14 Root1 (92%) 10.02.05 WSC-4 Courses 77 Подробнее о языке и носе T5. Comparison of PLS Regression and Artificial Neural Network for the Processing of the Electronic Tongue Data from Fermentation Growth Media Monitoring Алиса Рудницкая Sr. Petersburg University, Russia 10.02.05 WSC-4 Courses 78 Пробоотбор по материалам Pentti Minkkinen, Finland 10.02.05 WSC-4 Courses 79 Теория пробоотбора Пробоотбор • Искусство отделения малой части из большой массы и подготовки этой пробы к анализу Лозунг дня • Результат анализа всегда хуже, чем проба, по которой он сделан • Проба должна быть представительной Теория, соединяющая техническую и статистическую стороны была разработана Pierre Gy: Sampling for Analytical Purposes, Wiley, 1998 и теперь развивается в работах Kim Esbensen & Pentti Minkkinen 10.02.05 WSC-4 Courses 80 Неправильный отбор образца 10.02.05 WSC-4 Courses 81 Правильный отбор образца 10.02.05 WSC-4 Courses 82 Выводы Хемометрика находит приложение во многих, очень многих областях 10.02.05 WSC-4 Courses 83 Конференция Analytica Expo 2005 Москва, Выставочный Центр «Сокольники», 19 апреля 2005 г. APPLICATIONS OF CHEMOMETRICS TO PAT Richard G. Brereton Centre for Chemometrics University of Bristol United Kingdom 10.02.05 WSC-4 Courses 84