ПОИСК ДЕСКРИПТОРОВ В РЕШЕНИИ ЗАДАЧИ «СТРУКТУРА – СВОЙСТВО» Е.И. Прохоров, А.В. Перевозников, Л.А. Пономарёва, М.И. Кумсков, И.В. Свитанько, И.Д. Воропаев Московский государственный университет им. Ломоносова, Москва, Россия Работа посвящена поиску функциональной зависимости в задаче «структура – свойство». Предложены различные методы отбора дескрипторов и построения прогностических моделей, проведено сравнение результатов. Результаты получены для выборки гликозидов и используются для дальнейшей работы по моделированию химических веществ. Задача «структура – свойство» (QSAR) – одна из наиболее актуальных задач распознавания образов [3], – состоит в том, чтобы по структуре химического соединения предсказать его активность (химическую или биологическую). Основное отличие QSAR-задачи от задачи распознавания образов в том, что описание молекул заранее неизвестно. Поэтому решение задачи разбивается на два основных этапа: этап построения описания обучающей выборки, на котором формируется матрица «молекула – дескриптор» и этап поиска функциональной зависимости. Этап описания: исходя из формата молекулярных графов (типа меток вершин и ребер) выбирается алфавит дескрипторов A. На основе этого алфавита строится отображение из множества молекулярных графов в признаковое пространство R M и формируется матрица «молекула – дескриптор» для обучающей выборки. Этап поиска функциональной зависимости: в результате анализа матрицы «структура-свойство» на признаковом пространстве строится модель функциональной зависимости – классифицирующая функция F с наилучшей прогностической способностью, т.е. с наибольшим значением функционала качества. Для построение описания обучающей будем применять структурные дескрипторы [2] – пары и тройки особых точек (ОТ), определенных на триангулизированной молекулярной поверхности химического соединения. Структурный символьный спектр молекулярного графа представляет собой число повторений молекулярных фрагментов в молекулярном графе путем полного перечисления всех пар, троек, четверок особых точек [2]. Пусть имеем матрицу «молекула – дескриптор», где по строкам находятся значения всех дескрипторов для данной молекулы, а по столбцам значения данного дескриптора для всех молекул. Кроме того дан вектор активности, компоненты которого – значения активности для каждой молекулы. Необходимо по значениям дескрипторов для данной молекулы установить значение её активности. Используя обучающую выборку, будем строить модели, предсказывающие активность молекул. Для оценки прогностической способности моделей будем использовать коэффициент так называемого «скользящего контроля» (cross validation) [6], [7]. Решение задачи поиска функциональной зависимости разобьём на несколько шагов. Кластеризация и обработка выбросов; отбор значимых дескрипторов; построение модели; прогноз. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. При построении наших моделей будем использовать алгоритм kсредних. Отметим, что вместо алгоритма k-средних можно использовать любые другие, например, графовые алгоритмы кластеризации или статистические алгоритмы кластеризации. Использование именно алгоритма kсредних обусловлено его простотой, универсальностью и хорошей скоростью сходимости. На этом этапе идёт также обработка выбросов. Выброс – химическое соединение в выборке, признаки которого существенно отличаются от признаков остальных соединений. Такие молекулы могут попасть в выборки из-за ошибки составителей, но могут сами по себе являться содержательными с точки зрения химии. Присутствие выбросов существенно ухудшает качество прогноза. Поэтому при построении модели мы их не учитываем. Кластеризация позволяет строить модель локально, внутри небольшой группы сходных соединений, что часто оказывается очень полезным. Задача кластеризации чрезвычайно важна также для ускорения вычислений, ведь построение моделей внутри каждого кластера может идти параллельно, сам алгоритм кластеризации также может быть распараллелен при реализации на различных языках программирования. Эффективность проводимых вычислений важна, так как выборки содержат сотни молекул, для каждой из которых обрабатываются несколько тысяч дескрипторов. Из-за огромного числа дескрипторов многие алгоритмы распознавания становятся неприменимыми для нашей задачи, поэтому их число необходимо сократить, отобрав при этом наиболее существенные для прогноза. В двух описываемых реализациях были выбраны разные подходы к этой проблеме. В первом случае результирующую модель на основе системы нечёткого логического вывода ANFIS предлагалось строить на главных компонентах матрицы «молекула – дескриптор». Во втором случае была применена модификация МГУА (Метода Группового Учёта Аргументов) для алгоритма k-nn с ограничением по радиусу (метод k ближайших соседей). Выделение факторов (главных компонент матрицы) с помощью сингулярного разложения – довольно грубый инструмент отбора дескрипторов, к тому же мы получаем не исходные признаки молекулы, а некую их линейную комбинацию, что дополнительно затрудняет организацию обратной связи с этапом описания молекул. Метод же группового учёта аргументов реализует концепцию так называемых эволюционных алгоритмов и действительно эффективно реализует этап отбора. Заметим, что МГУА уже строит много моделей и отбирает из них наилучшие на каждом шаге своей работы. Сингулярное разложение матрицы «молекула – дескриптор» проходит абсолютно независимо от алгоритма, строящего модель. Построение модели – самый ёмкий с вычислительной точки зрения этап поиска функциональной зависимости. Таким образом, первый подход работает в разы быстрее второго. Матрица «молекула-дескриптор» Условия принадлежности кластерам Отказ от прогноза Кластер 1 … Кластер k Отбор значимых дескрипторов Отбор главных компонент МГУА k-nn Система нечёткого логического вывода Прогноз Прогноз На рисунке представлена схема проводимых вычислений. Для анализа была представлена выборка гликозидов. Гликозиды представляют собой обширную группу органических веществ, встречающихся в растительном (реже в животном) мире и/или получаемых синтетическим путём. По выборке были сформированы 24 матрицы с различными параметрами, описывающие 76 молекул, в зависимости от способа разбиения интервала электростатического заряда (2 варианта), типа функции принадлежности – четкие, нечеткие треугольные, нечеткие трапециевидные (3 варианта) и количества разбиений интервала расстояний между особыми точками (ОТ) и между ОТ парой ОТ (еще 4 варианта). Число дескрипторов в построенных матрицах (порядка 2000) варьировалось в зависимости от того, с какими настройками была построена матрица. К указанным матрицам были применены описанные подходы. На каждом этапе вычисления проводились с различными параметрами. Исходя из качества полученного прогноза, формировались рекомендации по изменению параметров детализации, использованных на этапе описания молекул и формирования дескрипторов. Далее весь алгоритм запускается заново уже с новыми параметрами детализации. Отметим, что кластеризация на этой конкретной выборке не дала качественного улучшения прогноза, но использовалась для повышения эффективности вычислений. При использовании нечёткой системы логического вывода лучший прогноз составил 76,32%. Для построения модели были отобраны всего 2 фактора, так как именно на 2-х столбцах была построена наиболее удачная классифицирующая функция. Использование при построении моделей нечёткой логики отражается и на результатах расчётов, как мы увидели, лучший прогноз получен на матрице, сформированной с параметрами нечёткой разбивки интервалов заряда и расстояния. Модель, полученная МГУА k-nn, была построена на 5 столбцахдескрипторах (здесь опять увеличение числа дескрипторов не ведёт к улучшению качества прогноза) и показала 96.05% успешных прогнозов, что даёт право говорить о её высокой прогностической способности на указанной выборке. Полученный процент успешных прогнозов высок для задач типа «структура – свойство» и позволяет рассчитывать на дальнейший успех в работе с этим химическим свойством. Дальнейшим развитием подхода в решении задачи поиска дескрипторов станет реализация метода группового учёта аргументов на этапе описания обучающей выборки. Так как для построения дескрипторов используются все возможные пары, тройки и четвёрки особых точек [2, 5], количество дескрипторов очень велико. Решением этой проблемы может стать использование эволюционных принципов для построения дескрипторов. Идея состоит в том, чтобы модель строить сначала на небольшой матрице «молекула – дескриптор», построенной с учётом только пар особых точек. А затем, отобрав «лучшие пары», строить по ним тройки и так далее. Таким образом, реализуется обратная связь этапа поиска функциональной зависимости с этапом описания обучающей выборки. Список литературы 1. Штовба С.Д. Введение в теорию нечетких множеств и нечеткую логику. Винница: Издательство винницкого государственного технического университета, 2001. – 198 с. 2. В.А. Кохов. Метод количественного определения сходства графов на основе структурных спектров // Известия РАН, «Техническая Кибернетика ». – 1994. - № 5. - С. 143-159. 3. Журавлев Ю.И., Рязанов В.В., Сенько О.В. «Распознавание». Матема-тические методы. Программная система. Практические применения. – М.: ФАЗИС, 2006. 4. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.:Мир, 1976. 5. Кумсков М.И., Смоленский Е.А., Пономарева Л.А., Митюшев Д.Ф., Зефиров Н.С. Системы структурных дескрипторов для решения задач «структура-свойство». – Доклады Академии Наук, 1994, 336. 6. Деветьяров Д.А., Григорьева С.С., ПермяковЕ.А., Кумсков М.И., Понаморёва Л.А., Свитанко И.В. Решение задачи «структура – свойство» для молекул с множеством пространственных конформаций. // Система прогнозирования свойств химических соединений: Алгоритмы и модели: Сборник научных работ/ Под ред. М.И. Кумскова. Москва: МАКС Пресс, 2008. 7. Григорьева С.С., Кумсков М.И., Захаров А.М. Применение метода главных компонент при построении кластерной структуры обучающей выборки молекул. // Математические методы распознавания образов. 13-я Всероссийская конференция: Сборник докладов. Москва: МАКС Пресс, 2007.