ЭВОЛЮЦИОННОЕ ПОСТРОЕНИЕ НЕЧЕТКИХ ДЕСКРИПТОРОВ ПРИ РЕШЕНИИ ЗАДАЧИ «СТРУКТУРА-АКТИВНОСТЬ» Д.А. Деветьяров1, М.И. Кумсков1, Г.Н. Апрышко2, А.В. Перевозников1, Е.И. Прохоров1, Ф.M. Носеевич1, Е.А. Пермяков3 Московский государственный университет имени М.В. Ломоносова, механико-математический факультет, Москва, Россия 2 Российский онкологический научный центр имени Н.Н. Блохина, Москва, Россия 3 Институт органической химии имени Н.Д. Зелинского, Москва, Россия 1 В работе описана схема эволюционного построения нечетких дескрипторов для решения задачи «структура-активность». Приведены результаты вычислительных экспериментов с использованием дескрипторов, построенных на основе четких и двух типов нечетких функций принадлежности. Проведено сравнение результатов обработки матриц «молекула-признак», сформированных из разных типов дескрипторов, различными методами построения классификатора. В ранних работах авторов при решении задачи «структураактивность» [2] были применены структурные трехмерные дескрипторы – пары и тройки особых точек (ОТ), определенных на триангулированной молекулярной поверхности химического соединения [6]. Был использован структурный символьный спектр молекулярного графа, представляющий собой число повторений молекулярных фрагментов в молекулярном графе путем полного перечисления всех пар, троек, четверок ОТ [2]. Главная проблема подобной задачи – экстенсивный рост числа дескрипторов при усложнении описании молекул. При незначительном усложнении описания молекулы (например, при введении нового параметра молекулярной поверхности), число дескрипторов увеличивается на порядок. По этой причине в данной работе предлагается использовать эволюционное построение дескрипторов: дескрипторы n-ого порядка формируются не на основе всех дескрипторов, а только на основе наиболее информативных дескрипторов (n 1) -ого порядка. Помимо того, в [3] было предложено использовать так называемые нечеткие дескрипторы – дескрипторы, сформированные на основе нечетких функций принадлежности. Данный подход был предложен для устранения следующих недостатков стандартных дескрипторов: Описание стандартными дескрипторами в значительной степени зависит от выбора разбиения интервала значений расстояний. При этом значения дескрипторов не связаны непрерывно с выбором параметров – точек разбиений, поэтому оптимизация выбора разбиения не кажется возможной. Значения структурных дескрипторов «разрывны» относительно параметров молекулярной поверхности: при непрерывном изменении координат ОТ значения дескрипторов не зависят непрерывно от этих аргументов и могут меняться только скачкообразно. Это также осложняет прогноз активности для молекул, которые могут менять свою пространственную укладку в пространстве. В результате, при изменении конформации даже незначительное изменение взаимного расположения ОТ может привести к значительному изменению значений дескрипторов. В данной работе эволюционное построение нечетких дескрипторов было применено к выборке химических соединений – гликозидов, протестированных на противоопухолевую активность. Матрицы «молекулапризнак», построенные для двух видов нечетких дескрипторов, а также классических дескрипторов были проанализированы с помощью различных методов машинного обучения. Алгоритм эволюционного построения дескрипторов В четком случае, значение дескриптора, равно количеству повторений определенного структурного фрагмента [6] (группы ОТ с определенными метками и расстояниями между ними) в молекулярном графе. В случае нечетких дескрипторов, процедура усложняется: значение дескриптора вычисляется на основе степени сходства структурного фрагмента и группы ОТ в молекулярном графе [3]. Эволюционное построение дескрипторов заключается в рассмотрении неполного пространства дескрипторов, построенного следующим образом. Сначала задача решается на пространстве дескрипторов 2-ого порядка (т.е., пар ОТ). Пары ОТ, которые вошли в классифицирующие модели с лучшим качеством прогноза, считаются информативными. Далее рассматриваем новое семейство дескрипторов: дополняем информативные дескрипторы 2-ого уровня дескрипторами 3-его уровня, построенными на комбинациях информативных дескрипторов 2-ого уровня и отдельных ОТ. Иначе говоря, к информативным парам ОТ были добавлены комбинации информативных пар и отдельных ОТ. Решаем задачу на данном пространстве дескрипторов. Дескрипторы 3-его уровня, задействованные в классифицирующих правилах с лучшим качеством прогноза, считаются информативными, и аналогично дополняются дескрипторами 4-ого уровня построенными на основе информативных дескрипторах 3-его уровня. Подобный подход позволяет значительно уменьшить размерность пространства дескрипторов. В данной работе были построены дескрипторы, соответствующим парам ОТ, а затем на основе наиболее информативных из них были сформированы дескрипторы – тройки ОТ. Дескрипторы Для определения дескрипторов необходимо задать нечеткие множества с функциями принадлежности gi ( x), 0 gi ( x) 1, j 1, , N на отрезке [0; d max ] , где d max – максимальное значение из расстояний между ОТ для всех элементов обучающей выборки. Примеры приведены на рис. 1 и 2. В данной работы мы рассматриваем кусочно-линейные функции принадлежности: тип 1 соответствует четким дескрипторам, типы 2 и 3 – двум видам нечетких дескрипторов. Ниже приведены функции принадлежности для соответствующих дескрипторов, начиная от четких к наиболее нечетким. N – количество нечетких множеств, определенных на отрезке [0; dmax ] . 1. Четкие функции принадлежности: если di 1 x di , 1, gi ( x) 0, в противном случае, где d0 0, d1 , , d N dmax – точки разбиения. 2. Кусочно-линейные трапециевидные функции принадлежности: x di1 , 1, d d если x [0; d1 ], i 1 i 1 1, xd gi ( x) g1 ( x) 1 , если x [d1 ; d1 ], x di , d1 d1 di di 0, в противном случае, 0, i 2, , N 1, если x [ di1 ; di1 ], если x [ di1 ; di ], если x [ di ; di ], в противном случае, x d N 1 , если x [d N 1 ; d N 1 ], d d N 1 N 1 g N ( x) 1, если x [d N 1 ; d max ], 0, в противном случае, 1 1 i i где di 4 d max , di 4 d max , i 1, , N 1 – вспомогательные точки N N разбиения. 1 0.8 0.6 0.4 0.2 0 0 max Рис 1. Кусочно-линейные трапециевидные функции принадлежности 3. Кусочно-линейные треугольные функции принадлежности: x ti 1 t t , если x [ti 1 ; ti ], 1, если x [0; t1 ], i i 1 x ti 1 x t2 g1 ( x) , если x [t1 ; t2 ], gi ( x) , если x [ti ; ti 1 ], t t t t 1 2 i i 1 0, 0, в противном случае, в противном случае, i 2, , N 1, x t N 1 t t , N N 1 g N ( x) 1, 0, 1 i где ti 4 d max , N если x [t N 1 ; t N ], если x [t N ; d max ], в противном случае, i 1, , N – вспомогательные точки разбиения. 1 0.8 0.6 0.4 0.2 0 0 max Рис 2. Кусочно-линейные треугольные функции принадлежности Были сформированы 24 матрицы «молекула-признак», соответствующие разным типам функции принадлежности, а также разным наборам параметров формирования дескрипторов, как то: способ разбиения интервала электростатического заряда, количество интервалов разбиения расстояния между ОТ, между ОТ и парами ОТ. Построение классифицирующей функции Полученные 24 матрицы были обработаны различными методами машинного обучения. Все методы применены в режиме скользящего контроля (leave-one-out cross validation), так как размер выборки не позволяет разделение на тренировочное и тестовое множества. Таким образом, каче2 ство прогноза вычислялось как RCV . Были реализованы следующие методы: 1. МГУА. Был применен метод группового учета аргументов (МГУА) [1] с линейными комбинациями дескрипторов в качестве опорных функций. При- менение подобного алгоритма к задаче «структура-активность» изложено в [4]. 2. МГУА на конъюнкциях / дизъюнкциях. Действительные значения дескрипторов были преобразованы в бинарные данные. Полученное множество было разбито на кластеры агломеративным методом кластерного анализа. К бинарным матрицам «молекулапризнак» для каждого кластера был применен МГУА, использующий в качестве опорных функций конъюнкции ряда дескрипторов и отдельно от них дизъюнкции ряда дескрипторов. Когда добавление очередного дескриптора не давало улучшения прогноза, алгоритм МГУА останавливался. Предварительная бинаризация каждого столбца также проходила с помощью иерархического кластерного анализа. Значения дескрипторов в каждом столбце разбивались на заданное число кластеров так, что сумма числа элементов в двух самых больших была больше (а разность между ними – меньше) некоторого процента от общего количества элементов. Элементы остальных кластеров были распределены по наименьшему евклидову расстоянию до центров выделенных кластеров. Оптимальные типы метрики и меры сходства для кластерного анализа были подобраны отдельно. 3. МГУА-kNN. Применен алгоритм МГУА [1] с использованием метода ближайших соседей (kNN). В качестве опорных функций использован следующий вариант метода kNN: для нового объекта предсказываем класс большего числа объектов, находящихся на расстоянии, не превышающем радиус облака max d ( X , Y ) , где d – евклидово расстояние, заданное на всех точек R min Y M X M векторе определенных дескрипторов, M – множество всех объектов выборки. Если у молекулы на расстоянии радиуса графа нет других молекул в метрике, основанной на дескрипторах, отобранных для метода ближайших соседей, то молекула относится к выбросам. Итерации по добавлению нового дескриптора прекращались, когда при добавлении очередного дескриптора качество переставало улучшаться. 4. ANFIS на главных компонентах. С помощью SVD-разложения (singular value decomposition), были выделены главные компоненты матрицы «молекула-признак». Далее был применена система нечёткого логического вывода ANFIS (Adaptive Network – based Fuzzy Inference System) [5] к определенному числу первых (по модулю собственных значений) главных компонент. Оптимальные параметры, а также количество задействованных главных компонент были подобраны. В частности, рассматривалось такое количество главных компонент, что при добавлении очередной компоненты качества прогноза на 2 скользящем контроле RCV не улучшалось. Результаты вычислительных экспериментов В таблицах 1 и 2 приведены результаты применения ANFIS на главных компонентах и МГУА-kNN. 2 Таблица 1. RCV для ANFIS на главных компонентах Метод раз- Количество Количество биения ин- интервалов интервалов "Нечеткие" тра- "Нечеткие" тервала зна- расстояний расстояний "Четкие" де- пециевидные треугольные чений заряда ОТ-ОТ ОТ-(пара ОТ) скрипторы дескрипторы дескрипторы Равномерно 2 2 61.8% 67.1% 75.0% Равномерно 2 3 67.1% 68.4% 69.7% Равномерно 3 2 73.7% 69.7% 72.4% Равномерно 3 3 65.8% 67.1% 67.1% Кластеры 2 2 63.2% 71.1% 64.5% Кластеры 2 3 71.1% 72.4% 76.3% Кластеры 3 2 65.8% 69.7% 68.4% Кластеры 3 3 68.4% 65.8% 69.7% 2 Таблица 2. RCV для МГУА-kNN Метод раз- Количество Количество биения ин- интервалов интервалов "Нечеткие" тра- "Нечеткие" тервала зна- расстояний расстояний "Четкие" де- пециевидные треугольные чений заряда ОТ-ОТ ОТ-(пара ОТ) скрипторы дескрипторы дескрипторы Равномерно 2 2 92.1% 90.8% 89.5% Равномерно 2 3 89.5% 90.8% 86.8% Равномерно 3 2 89.5% 92.1% 93.4% Равномерно 3 3 92.1% 90.8% 90.8% Кластеры 2 2 92.1% 90.8% 89.5% Кластеры 2 3 88.2% 94.7% 94.7% Кластеры 3 2 93.4% 96.1% 96.1% Кластеры 3 3 96.1% 92.1% 94.7% Лучшие показатели качества прогноза были продемонстрированы при применении методов МГУА-kNN и МГУА на конъюнкциях / дизъюнкциях. При этом первый метод предсказывал на всем множестве молекул, второй метод работал с предварительным разбиением на 2 кластера. Сравнение четких и нечетких дескрипторов показало, что при обработке матриц методом ANFIS нечеткие дескрипторы работают заметно лучше, чем классические дескрипторы: фактически при всех комбинациях параметров построения дескрипторов, значение функционала качества на нечетких дескрипторах превышало значение функционала качества на четких дескрипторах. При применении других методов улучшения прогнозирующей способности при переходе к нечетким дескрипторам не наблюдалось: четкие и нечеткие дескрипторы давали лучшие прогнозы относительно друг друга без особой закономерности. При этом ни один метод машинного обучения не давал очевидно лучшие предсказания на четких дескрип- торах. Выводы В работе описан эволюционный метод построения нечетких дескрипторов, а также приведены результаты применения данного подхода. Сравнение прогностической способности сформированных моделей для матриц четких и нечетких дескрипторов показало, лучшее качество прогноза было достигнуто при применении МГУА-kNN и МГУА на конъюнкциях / дизъюнкциях. Также зафиксировано, что при обработке матриц методом ANFIS качество прогноза было значительно выше для нечетких дескрипторов. Однако подобное явление не наблюдалось при применении других методов. В качестве продолжения работы, предлагается иная обработка выбросов. Даже одиночный выброс, оказавшийся в выборке по причине случайной ошибки, может испортить качество прогноза. По этой причине, для алгоритмов, в которых выделяются кластеры соединений, предлагается удалить выбросы из множества и запустить алгоритмы заново на матрице «молекула-признак» с меньшим числом объектов-молекул. Ожидается улучшение качества прогноза на данных подмножествах. Список литературы 1. Иваненко А.Г., Зайченко Ю.П., Димитров В. Д. Принятие решений на основе самоорганизации // М.: Советское Радио. 1976. 2. Кохов В.А. Метод количественного определения сходства графов на основе структурных спектров // Известия РАН, Техническая Кибернетика. 1994. № 5. С. 143–159. 3. Devetyarov D.A., Zaharov A.M., Kumskov M.I. et al. Fuzzy logic application for construction of 3D descriptors of molecules in QSAR problem // Proc. 8th Intern. Conf. “Pattern Recognition and Image Analysis: New Information Technologies” (PRIA-8-2007), Yoshkar-Ola, the Russian Federation. 2007. Vol. 2. P. 249–252. 4. Kumskov M.I., Mityushev D.F. Group method of data handling (GMDH) as applied to collective property estimation of organic compounds by an inductive search of their structural spectra // Pattern Recognition and Image Analysis. 1996. Vol. 6. No. 3. P. 497–509. 5. Roger Jang J.-S. ANFIS: Adaptive-network-based fuzzy inference systems // IEEE Transactions on Systems, Man, and Cybernetics. May 1993. Vol. 23, No. 03. P. 665–685. 6. Svitanko I.V., Devetyarov D.A., Tcheboukov D.E. et al. QSAR modeling on the basis of 3D descriptors representing the electrostatic molecular surface (ambergris fragrances) // Mendeleev Communications. 2007. Vol. 17, No. 2. P. 90–91.