259 ИСПОЛЬЗОВАНИЕ НЕЧЕТКОЙ ЛОГИКИ ПРИ ПОСТРОЕНИИ 3D ДЕСКРИПТОРОВ МОЛЕКУЛ В ЗАДАЧЕ "СТРУКТУРА-СВОЙСТВО"1 Д.А. Деветьяров2, А.М. Захаров2, М.И. Кумсков2, Л.А. Пономарева2 2Кафедра вычислительной математики, Механико-математический факультет, Московский Государственный Университет им. М.В. Ломоносова, 119992 Москва. E-mail: qsar_msu@mail.ru, kumskov@mail.ru. Предложено решение задачи «структура-свойство», основанное на применении «нечетких» структурных трехмерных дескрипторов, которое позволяет избавиться от ряда недостатков стандартных методов решения задачи. Приведены результаты сравнения построения прогнозирующих моделей на основе «четких» и «нечетких» структурных символьных спектров молекулярных графов обучающей выборки. Введение Для решения задачи «структура-свойство» применяются структурные дескрипторы [1] – пары и тройки особых точек (ОТ) [2,3], определенных на триангулизированной молекулярной поверхности химического соединения. Структурный символьный спектр молекулярного графа представляет собой число повторений молекулярных фрагментов в молекулярном графе путем полного перечисления всех пар, троек, четверок особых точек [1, 4, 5]. Однако, описание молекул с помощью «обычных» структурных дескрипторов имеет ряд недостатков: 1. Проблема дискретизации расстояний. Описание существенно зависит от выбора интервалов расстояний. При этом затруднена возможная оптимизация выбора такого разбиения, так как значения дескрипторов не связаны непрерывно с выбором параметров – точек разбиений. 2. При введении интервалов значения структурных дескрипторов «разрывны» относительно параметров молекулы: при непрерывном изменении координат особых точек значения дескрипторов не зависят непрерывно от этих аргументов, то есть могут меняться только скачкообразно. 3. При моделировании биологической активности задача «структура-свойство» осложняется тем, что молекулы могут менять конформацию (пространственную укладку). В результате, при изменении конформации даже незначительное изменение взаимного расположения ОТ может привести к значительному изменению значений дескрипторов. Таким образом, классифицирующая функция, построенная на основе «обычных» интервальных структурных дескрипторов, может работать ошибочно на «гибких» молекулах. Эти проблемы предлагается решать с помощью использования нечеткой логики [6] при определении так называемых «нечетких» дескрипторов. Постановка задачи Задача состоит в определении «нечеткого» аналога структурного символьного спектра молекулярного графа [4] таким образом, чтобы можно было подойти к решению «проблемы интервалов» с помощью использования нечетких функций принадлежности при формировании дескрипторов пространственной структуры молекулы. Определение. Нечетким множеством A на множестве расстояний в трехмерном пространстве D называется совокупность пар (d , A (d )) , где A (d ) называется степенью принадлежности расстояния к нечеткому множеству A, d D Чем выше степень A (d ) [0,1] . принадлежности, тем в большей степени расстояние соответствует («принадлежит») нечеткому множеству. ____________________________________________________________________________________________________________ Работа поддержана грантом РФФИ 07-07-00282 1 260 Определение. Отображение d A (d ) называется функцией принадлежности нечеткого множества. Пусть dmax - максимальное значение из расстояний между особыми точками для всех элементов обучающей выборки. Зафиксируем целое число N 1 и зададим на отрезке [0; dmax] N нечетких множеств с функциями принадлежности g j ( x), 0 g j ( x) 1, j 1,.., N (пример приведен на рис. 1). 1 g1(x) g2(x) g4(x) g3(x) d max 0 Интервал Интервал «очень «малых» малых» расстояний расстояний Интервал «больших» расстояний Интервал «очень больших» расстояний коэффициент трапеций. наклона d max (k 1) N 1 d max (k 1) N 1 dk dk боковых сторон 1 , k 2, ..., N ; 2 1 , k 1, ..., N 1. 2 Определим нечеткие принадлежности: 0, ( x d k 1 ), g k ( x) 1, ( x d k 1 ), 0, (2) функции x [0; d k 1 ]; x [d k 1 ; d k ]; x [d k ; d k ]; (3) x [d k ; d k 1 ]; x [d k 1 ; 0]; где k = 1, …, N (для случаев k = 1 и k=N рассматриваем функции принадлежности только на [0; dmax]). 1 Рис. 1. Пример задания нечетких функций принадлежности расстояний g2(x) g1(x) g3(x) В случае «четких» дескрипторов функции принадлежности имели следующий вид: 1, x (d j 1 ; d j ], g j ( x) 0, x (d j 1 ; d j ], 0 (1) где d0 = 0, d1, … dN = dmax – точки разбиения. Целесообразно определить общий вид функции принадлежности, задав в качестве параметров ряд показателей, которые могут, в частности, регулировать близость нечетких функций принадлежности к четким (геометрическую «крутизну» графиков функций). Ниже приведены два примера. 1. Кусочно-линейные трапецевидные функции принадлежности. Пусть N – количество «нечетких» N 1 ; ) – интервалов разбиения, [ d max d 1+ d 2- d 2+ d 3- Рис. 2. Трапецевидные нечеткие функции принадлежности расстояний В данном случае параметр α регулирует близость функций распределения gk(x) к четким. По мере увеличения значения α функция принадлежности становится «более четкой». Граничные случаи N 1 следующие: соответствует d max треугольным функциям принадлежности, четким функциям принадлежности. 2. Гауссовские функции принадлежности. Определим: 261 g k ( x) e 1 xd k 2 ( ) 2 , dk d max (k 1), N 1 (4) где k = 1, …, N; N – количество «нечетких» интервалов разбиения. В данном случае от параметра σ зависит «ширина» графиков функций. При заданных функциях принадлежности можно определить значение «нечеткого» дескриптора для данного молекулярного графа. Для определения дескриптора, соответствующего «нечеткому» структурному фрагменту 2-ого порядка [1, 5] {Li, Lj, Gk}, где Li, Lj – метки ОТ, Gk – «нечеткий» интервал c функцией принадлежности gk(x), необходимо перечислить все неупорядоченные пары ОТ, встречающиеся в молекулярном графе. Для каждой такой пары определим степень сходства пары и структурного фрагмента {Li, Lj, Gk }, равной gk(d), где d – расстояние между ОТ, если ОТ имеют метки Li и Lj, и 0 в противном случае. Значение дескриптора определяется как сумма всех значений степени сходства данного структурного фрагмента и молекулярных фрагментов (пар ОТ), присутствующих в молекулярном графе конформации. Для определения значения дескриптора, соответствующего структурному фрагменту 3-его порядка {{Li, Lj, Gk}, Lm, Gn}, где {Li, Lj, Gk} - «нечеткий» структурный фрагмент 2-ого порядка, Lm – метка третьей ОТ, Gn – «нечеткий» интервал c функцией принадлежности gn(x), необходимо перечислить все неупорядоченные тройки ОТ, встречающиеся в молекулярном графе. Для каждой такой тройки необходимо проверить, можно ли разбить ее на 2 таких группы F1 и F2 (состоящие из 1 и 2 особых точек соответственно), так что степень сходства F2 и {Li, Lj, dk}положительна и F1 = Lm. Если такое разбиение невозможно, то полагаем, что степень сходства тройки ОТ молекулярного графа и {{Li, Lj, Gk}, Lm, Gn} равна 0. В противном случае вычислим расстояние d(F1, F2) между F1 = Lm и F2 (под расстоянием здесь понимается наименьшее, наибольшее или среднее из всех расстояний между F1 и каждой из особых точек F2). Окончательно, положим степень сходства тройки ОТ молекулярного графа и {{Li, Lj, Gk}, Lm, Gn} равной произведению gk(d) gn(d(F1, F2)). Как и в случае дескрипторов 2-ого порядка, значение «нечеткого» дескриптора 3-его порядка определяется как сумма всех значений степени сходства данного структурного фрагмента и молекулярных фрагментов (троек ОТ), присутствующих в молекулярном графе конформации. Аналогичным образом формируются значения «нечетких» дескрипторов более высокого порядка. В результате, каждая пара (тройка) ОТ молекулярного графа задает значения для нескольких дескрипторов, соответствующих разным интервалам разбиения. Например, при разбиении диапазона расстояний на три интервала каждая пара вносит вклад в значения 3 дескрипторов, каждая тройка – 9. Ниже приведены этапы решения задачи «структура-свойство», основанного на «нечетких» дескрипторах. A1. Определение общего вида функций принадлежности интервалов разбиения и формирование перечня «нечетких» пар, троек по всем молекулам всей выборки для заданных параметров функций принадлежности. A2. Формирование матрицы значений дескрипторов. A3. Построение прогнозирующей функции (искомой зависимости значения активности/свойств от значений вычисленного вектора дескрипторов) [7] при помощи известных методов распознавания образов и классификации (регрессии, нейронных сетей, кластерного анализа, метода группового учета аргументов (МГУА) и т. п.) [4, 8]. A4. Оценка качества прогнозирующей функции с помощью различных функционалов качества. В частности, функционалом качества может выступать сумма квадратов ошибки, вычисленная с помощью скользящего контроля [5]. Задача состоит в оптимизации функционала качества по параметрам функций принадлежности. С этой целью, например, теоретически возможно применение метода градиентного спуска, так как функционал 262 качества непрерывно зависит от параметров функций принадлежности. Далее возможно спрогнозировать активность молекулы, не вошедшей в обучающую выборку. Прогноз происходит в несколько шагов: B1. Вычисление аналогичным образом значений дескрипторов для новой молекулы и формирование из них вектора «структура-свойство». B2. Определение принадлежности полученного вектора (новой молекулы) определенному кластеру молекул. Если полученный вектор находится достаточно «удаленно» от сформированных кластеров, то происходит «отказ от прогноза». B3. Прогноз активности молекулы с помощью прогнозирующей функции, построенной для выбранного кластера. Результаты Приведенный алгоритм был реализован и применен к выборке амбровых одорантов [2]. При построении прогнозирующей модели выделялось два крупных кластера, остальные элементы выборки исключались из прогноза. Был проведен ряд экспериментов на различных значениях параметров при использовании четких и нечетких (треугольных) функций принадлежности. В результате, при описании с помощью «нечетких» дескрипторов удавалось выделить крупнейший кластер по количеству элементов в среднем на 41 % больше, однако, со значением функционала качества на скользящем контроле в среднем на 5 % ниже. Заключение Сформулирована оптимизационная задача поиска дескрипторов, адекватных данному биологическому свойству, обобщающая «нечеткие» дескрипторы, формируемые как элементы структурного символьного спектра молекулярного графа. Вычислительные эксперименты показали, что применение «нечетких» дескрипторов позволяет улучшить параметры прогноза. Список литературы 1. В.А. Кохов. Метод количественного определения сходства графов на основе структурных спектров // Известия РАН, «Техническая Кибернетика ». – 1994. - № 5. - С. 143-159. 2. I.V. Svitanko, D.A. Devetyarov, D.E. Tcheboukov, M. S. Dolmat, A.M. Zakharov, S.S. Grigoryeva, V.T. Chichua, L.A. Ponomareva, M.I. Kumskov. QSAR Modeling on the Basis of 3D Descriptors Representing the Electrostatic Molecular Surface (Ambergris Fragrances) // Mendeleev Communications. – 2007. – Vol.17, No. 2. – P. 9091. 3. I.V. Svitanko, M.I. Kumskov, D.E. Tcheboukov, M.S. Dolmat, A.M. Zakharov, L.A. Ponomareva, S.S. Grigor’eva, V.T. Chichua. QSAR Modeling on the Base of Electrostatic Molecular Surface (Amber Fragrances) // 16th European Symposium on Quantum Structure-Activity Relationships and Molecular Modelling, Italy: EuroQSAR. - 2007. 4. М.И. Кумсков, Е.А.Смоленский, Л.А. Пономарева, Д.Ф. Митюшев, Н.С. Зефиров. Системы структурных дескрипторов для решения задач “структура-свойство” // Доклады АН. – 1994. - Т. 336, н. 1. - С. 64-66. 5. T. Hurst, and T. Heritage. HQSAR - A Highly Predictive QSAR Technique Based on Molecular Holograms // 213th ACS National Meeting, San Francisco, CA. – 1997. - CINF 019. 6. L.A. Zadeh. Fuzzy Sets. Information and Control. 1965. - P. 338-353. 7. Yu.I. Zhuravlev, A.P. Vinogradov, V.V. Voronchikhin, V.V. Ryazanov, O.V. Senko. LOREG: Program System of Pattern Recognition and Data Analysis // Pattern Recognition and Image Understanding, Infix. – 1999. - P. 244-250. 8. А.Г. Иваненко, Ю.П. Зайченко, В. Д. Димитров. Принятие решений на основе самоорганизации // М.: Советское Радио. - 1976. 9. G.M. Makeev, M.I. Kumskov. Recognition of Spatial Forms of Conformationally Mobile Molecules in Problem of Modeling the StructureBiological Activity Relationship // Pattern Recognition and Image Analysis. – 1998. - No. 3. – P. 433-435