1 ГРАФ-МОДЕЛИ ДЛЯ АНАЛИЗА СХОДСТВА СТРУКТУР СИСТЕМ НА ОСНОВЕ ИХ СЛОЖНОСТИ В.А. Кохов1 Предложены граф-модели структур систем, позволяющие определять сходство систем с учётом их сложности и вкладов фрагментов в сложность. Рассмотрена система стратификации граф-моделей, которая позволяет формировать (порождать) и исследовать широкий спектр новых отношений структурного сходства. Предложенные модели позволили развить подструктурный подход к анализу сходства графов и выделить новые виды отношений сходства графовых моделей систем. Введение Концепция сходства систем неразрывно связана с концепцией сложности систем и является значимой в общей теории систем и особенно систем искусственного интеллекта. Сходство структур систем является ключевым понятием в интеллектуальном анализе данных, реализации правдоподобных рассуждений, распознавании образов, обработке высказываний на естественных языках и других областях искусственного интеллекта. Это определяет актуальность и значимость разработки методов и программных средств для определения сходства структурированных нечисловых объектов (графов, мультиграфов, семантических сетей и пр.) [Финн, 1991]. Порождающие и базовые граф-модели для анализа сложности и сходства систем Ниже предлагается наиболее общий подход для построения структурных и числовых инвариантов, характеризующих расположение фрагментов в графе. Стратификация построения все более и более точных инвариантов достигается на основе использования расширяемых базисов структурных дескрипторов (СД) и приводит к построению системы стратификации отношений эквивалентности и толерантности графовых моделей систем. Пусть Fl(G)={Fl1,Fl2,…,Flt,…,FlT} множество помеченных фрагментов графа G=(V,E), где Flt={f1lt,f2lt,…,fjlt,…,frtlt} множество фрагментов типа t, j номер фрагмента, rt фрагментов типа t. число Определим пространство характеризации расположения фрагментов fjlFl(G) как тройку вида SK=(G,Fl,sr), где sr отношение на множестве FlFl, т.е. бинарное отношение film(sr)fjln на парах элементов <film,fjln> и film,fjlnFl. Пусть sr отношение «иметь изоморфное пересечение с учетом пометок вершин ». Под порождающей граф-моделью (ПГМ) графа G=(V,E) будем понимать взвешенный на вершинах и ребрах двудольный граф вида: GM_(G)= wleFlwlLFlwlR(G)=(VLVR, sr, E, WVL, wL, WVR, wR, WE, we), где: VL – множество вершин левой доли и VL = Fl = k; VR – множество вершин правой доли и VR = Fl = k; sr= – отношение, определенное на WVLWVR; E(VLVR) – множество ребер; вершины vVL и uVR соединены ребром тогда и только тогда, когда справедливо отношение wL(v)(sr)wR(u), где wL(v)WVL, wR(u)WVR; WVL – множество весов вершин из VL (рассматриваются структурные веса: графы, являющиеся фрагментами из Fl); wL – весовая 1 111250, Москва, ул. Красноказарменная, 14, МЭИ; KokhovVA@mpei.ru 2 функция для вершин левой доли, wL: VLWVL; WVR – множество весов вершин из VR (рассматриваются структурные веса: помеченные графы, являющиеся фрагментами из Fl); wR – весовая функция для вершин левой доли, wR: VRWVR; WE – множество весов ребер из Е (рассматриваются структурные веса: максимальные изоморфные пересечения помеченных фрагментов); we – весовая функция для ребер из Е, we: ЕWE, где каждому ребру {v,u}Е сопоставляется множество всех МИП вида wL(v)wR(u). Пусть max(filmfjln) обозначает максимальное по числу ребер (вершин) изоморфное пересечение фрагментов film и матрицей смежности вершин M_GM(G)=||mсfij||; i=1,2,…,k; граф-модели wleFlwlLFlwlR(G) j=1,2,…,k; для которой mсf l ij будем понимать fjln. Под матрицу максимальное по числу ребер изоморфное пересечение filmfjln, если filmfjln и 0, если filmfjln =. Введем унифицированную систему обозначения ПГМ: [we[l ]]L[wL[l ]](sr)R[wR[l ]]=[w[l ]]L[w[l ]](sr)R[w[l ]], где L обозначает множество WVL, R – множество WVR, sr – отношение, определенное на WVLWVR; we – наличие графов-весов ребер ПГМ, wL – графов-весов вершин левой доли ПГМ; wR – графов-весов вершин правой доли ПГМ; l – наличие пометок вершин в графах-весах. При отсутствии некоторых параметров, выделенных скобками [ ], получаются различные классы графмоделей производных от ПГМ [Кохов, 2006]. Рассмотрим класс ПГМ, в которых вместо операции пересечения фрагментов используется операция изоморфного вложения фрагментов. Если столбцы матрицы смежности ПГМ FlwlLFlwlR(G), принадлежащие помеченным фрагментам одного и того же типа t, заменить одним столбцом со значениями элементов, равными сумме значений элементов заменяемых столбцов, то в результате получим матрицу смежности базовой граф-модели (FlwlLF(G))=(FlwlF(G)), где F(G) обозначает множество фрагментов графа G, которые выступают в качестве базиса СД. Элементы в базисе СД упорядочены по значениям их индексов сложности [Кохов, 2002]. Специфическая особенность базовых граф-моделей состоит в необходимости применять расширяемые базисы структурных дескрипторов (СД) для характеризации расположения фрагментов в графе. Данный подход имеет практическую направленность разработки эффективных (точных и приближенных) алгоритмов решения задачи анализа сложности и сходства графов с адаптацией к анализируемым семействам графовых моделей систем. Пусть для графа G построен его полный структурный спектр (ПСС) в базисе В: WF(G/B)=(w1b1, w2b2 , ... ,wi bi, ... ,wk1bk1), где bi фрагмент базиса; wi число канонических изоморфных вложений фрагмента bi в граф G; k число фрагментов базиса B, относительно которого характеризуется сложность графа. Очевидно, что w(K1)=p, а w(K2)=q. Примем ISC(K1)=1, а ISC(K2)=3. Так как для любого фрагмента fi можно определить его ПСС, а для каждого фрагмента от фрагмента G, можно построить его ПСС и т.д., то рекурсивным образом всегда можно вычислить ИСС графа G в базисе СД B: 3 ISC(G/B)=w1ISC(b1)+ w2ISC(b2)+ ... + wiISC(bi)+ ... + wkISC(bk ). Для графов (рис. 1) получим: ISC(G1/B)=ISC(G2/B)=281, где B=<P0,P1,P2,C3>. Заметим что, выбирая различные базисы BF, где F множество собственных фрагментов графа G, можно строить разные индексы сложности, в зависимости от значимости этих базисов в различных приложениях и вычислять вклады (значимость) фрагментов в общую сложность графа. Пусть B=<b1,b2,...,bj,...,bk1> базис СД. Через wij обозначим число достроек фрагмента fiF до фрагмента, изоморфного bj в G. Под матрицей изоморфных вложений (достроек) fi l без учета пометок вершин до bj в графе G называется матрица EM(F l_B(G))=||wij||, i=1,2,...,k; j=1,2,...,k1. Пример матрицы достроек EM(Pl0_P0-1C(G)) базовой граф-модели вида Pl0P0-1C(G) для графов (рис. 1) приведен в табл. 1. Значение элемента wij матрицы граф-модели Pl0-1 P(G) равно числу достроек вершин Pl0 до подграфов графа, изоморфных элементу базиса B=<P0,P1,P2,C3>. G2 G1 9 1 2 13 5 1 6 14 2 10 3 5 7 9 13 6 10 14 3 11 11 4 12 8 4 8 12 7 Рис. 1. Диаграммы анализируемых графов с выделением вкладов вершин в сложность графа Таблица 1 V 5,6,7,8 9,10,11,12 14 1,2,3,4 13 P0 1 1 1 1 1 P1 1 2 5 2 5 P2 1 5 18 3 12 C3 0 0 0 1 2 V 5,6,7,8 9,10,11,12 1,2,3,4 13,14 P0 1 1 1 1 P1 1 2 2 5 P2 1 5 3 15 C3 0 0 1 1 Расширенная матрица достроек фрагментов Ниже определяется расширенная матрица достроек фрагментов, на основе которой предлагается метод иерархического анализа сходства графов с учетом сложности графов и вкладов фрагментов в общую сложность графов. Пусть Aut(G) группа автоморфизмов вершин графа G, а Aut(f t) группа автоморфизмов фрагмента ft, которая характеризует симметрию расположения фрагмента f t в графе G. Через Aut(f t) обозначим порядок группы Aut(f t). Рассматривая в качестве примера фрагмента f t цикл длины 3 (C3), получим, что для графа G2 (рис. 1) группа Aut(f t) состоит из двух автоморфизмов: (1,2,13),(3,4,14) 1, 2 (1,2,13),(3,4,14) 1, 2 g1 = ; g2 . (1,2,13),(3,4,14) 1, 2 (3,4,14),(1,2,13) 2, 1 Для рассмотренного примера Aut (f t ) = Aut (f C3 ) =2. Добавим к матрице EM(F l_B(G)) четыре новые строки: 1. Slw(F l/B)=< Slw(F l/b1), Slw(F l/b2), …, Slw(F l/bj),…, Slw(F l/bk1) >, 4 l где Slw( F / b j ) rt wij . f lt F l i 1 2. Sw(F l/B)=< Sw(F l/b1), Sw(F l/b2),…,Sw(F l/bj),…,Sw(F l/bk1) >, T где Sw( F / b j ) l t 1 f t (b j ) T = w( f / b j ). t t Aut ( f ) t 1 3. Fw(G/B)= <w1(b1),w2(b2),…,wj(bj),…,wk1(bk1)> . 4. V_ISC(G/B)=< w1(b1)ISC(b1),…,wj(bj)ISC(bj),…,wk1(bk1)ISC(bk1)> . Учитывая справедливость леммы о том, что число w(bj) канонических изоморфных вложений bjB в граф G является EM(F l_B(G))-восстанавливаемой характеристикой и определяется по формуле [Кохов, 2002] rt w(b j ) Slw(F l / b j ) Sw(F l / b j ) wij f lt F l i 1 T w(f i 1 t , / bj ) если | E(bj)| | E(G)|, построим расширенную матрицу достроек фрагментов EM*(F l_B(G)). Матрицы вкладов фрагментов в общую сложность графа На основе EM*(Fl_B(G)) построим матрицу MIRC(Fl_B(G))=||irc(fit/bj)|| i=1,2,...,k+4; j=1,2,...,k1+3 относительных вкладов фрагментов в сложность графа, характеризующую, расположение фрагментов в графе относительно базиса СД B. Эта матрица позволяет проводить иерархический анализ сложности графов и на его основе анализ сходства расположения фрагментов в графе и сходства графов с учетом сходства расположения фрагментов. Значения элементов матрицы вычисляются по формуле irc ( fit / b j ) wij l ISC (b j ) Sw( F / b j ) ISC (G / B) . Тогда величина irc ( fit / B) , вычисляемая по формуле irc ( f it / B) k1 ISC (b j ) 1 , wij ISC (G / B) j 1 Sw( F l / b j ) определяет относительный вклад fit в общую сложность при использовании базиса СД B. t Фрагменты fit типа t, имеющие одинаковые значения вкладов irc ( fi / B) , образуют класс f t(c) эквивалентных по расположению фрагментов типа t, а при достаточной полноте базиса и орбиту группы Aut(f t), с общим вкладом irc ( f t (с) / B) . Сумма относительных вкладов по всем t фрагментам одного типа t образует вклад irc ( f / B) . Таким образом, расширенная матрица t достроек фрагментов, дополненная тремя столбцами: (k1+1) со значениями irc ( f (с, n) / B) ; (2) 5 t (k1+2) со значениями irc ( f t (с) / B) ; (3) (k1+3) со значениями irc ( f / B) , характеризует расположение фрагментов, классов эквивалентного расположения фрагментов и фрагментов каждого типа в G с учетом его сложности и обозначается MIRC(F l_B(G)). На основе MIRC(F l_B(G)) построим матрицу абсолютных вкладов фрагментов в сложность G, т.е. матрицу MIAC(F l_B(G)), используя значение индекса сложности ISC(G/B). Примеры матриц MIRC(Pl0_P0C3(G)) для графов (рис. 1) приведены в табл. 2. На диаграммах графов (рис. 1) размер вершин соответствует вкладам вершин в общую сложность графа. Таблица 2. Матрицы относительных вкладов вершин в сложность графов G1 P0 P1 P2 С3 5 0,004 0,005 0,011 0 6 0,004 0,005 0,011 0 7 0,004 0,005 0,011 8 irc irc irc (f t(c,n)/B) (f t(c)) (f t) 0,020 0,078 1 G2 P0 P1 P2 С3 irc irc irc (f t(c,n)/B) (f t(c)) (f t) 0,020 0,078 1 0,004 0,005 0,011 0 0,020 5 6 0,004 0,005 0,011 0 0,020 0 0,020 7 0,004 0,005 0,011 0 0,020 0,004 0,005 0,011 0 0,020 8 0,004 0,005 0,011 0 0,020 9 0,004 0,011 0,053 0 0,068 9 0,004 0,011 0,053 0 0,068 10 0,004 0,011 0,053 0 0,068 10 0,004 0,011 0,053 0 0,068 11 0,004 0,011 0,053 0 0,068 11 0,004 0,011 0,053 0 0,068 12 0,004 0,011 0,053 0 0,068 12 0,004 0,011 0,053 0 0,068 14 0,004 0,027 0,192 0 0,222 0,222 1 0,004 0,011 0,032 0,014 0,060 4 0,004 0,011 0,032 0,014 0,060 0,242 2 0,004 0,011 0,032 0,014 0,060 1 0,004 0,011 0,032 0,014 0,060 3 0,004 0,011 0,032 0,014 0,060 2 0,004 0,011 0,032 0,014 0,060 4 0,004 0,011 0,032 0,014 0,060 3 0,004 0,011 0,032 0,014 0,060 13 0,004 0,027 0,160 0,014 0,205 13 0,004 0,027 0,128 0,028 0,187 0,187 14 0,004 0,027 0,160 0,014 0,205 1 Slw 14 30 66 6 116 Sw 1 2 3 3 9 Fw 14 15 22 2 V_ISC 14 45 198 53 24 ISC=281 0,270 1 Slw 14 30 66 6 116 Sw 1 2 3 3 9 Fw 14 15 22 2 V_ISC 14 45 198 24 53 ISC=281 0,270 0,242 0,409 1 1 Анализ матриц показывает, что анализируемые графы имеют одинаковые значения, как индексов, так и вектор-индексов сложности в заданном базисе B=<P0,P1,P2,C3>, и их различение наступает только при сравнении вектор-индексов вкладов irc(f t(c)). Метод анализа сходства расположения фрагментов в графе с учетом их вкладов в общую сложность графа Результатом вычисления сходства расположения фрагментов в G будем считать матрицу или граф попарных расстояний анализируемых фрагментов или классов, эквивалентно расположенных фрагментов, то есть фрагментов с одинаковыми значениями строк матрицы MIRC(F l_B(G). Иерархический анализ сходства расположения классов фрагментов включает: 1. Определение попарных расстояний между фрагментами на основе вычисления модуля разности индексов относительных (irc(f t(c))) или абсолютных (iac(f t(c)) вкладов; 6 2. Определение на основе метрики Евклида расстояний между расширяемыми по числу элементов базиса векторами (относительных или абсолютных) вкладов, то есть значениями строк матрицы MIRC(F l_B(G). Пример матриц абсолютных вкладов классов вершин в общую сложность графов G1,G2 (рис. 1) приведен в табл. 3. На рис. 2 приведен граф сходства расположения классов вершин. Таблица 3. Матрицы абсолютных вкладов классов вершин в сложность Классы для G1 Номера вершин P0 P1 iac Классы (f t(c)) для G2 Номера вершин P0 P1 1 5,6,7,8 4 6 12 0 22 1 5,6,7,8 4 6 12 0 22 2 13 1 7.5 36 8 52.5 2 9,10,11,12 4 12 36 16 68 3 14 1 7.5 54 0 62.5 3 1,2,3,4 4 12 60 0 76 4 1,2,3,4 4 12 36 16 68 4 13,14 2 15 90 8 115 5 9,10,11,12 4 12 60 76 С3 P2 0 P2 С3 iac (f t(c)) 1 54 1 30,5 5 2 23,5 46 2 46 47 40,5 93 13,5 15,5 8 4 5,5 12 54 10 3 4 39 3 Рис. 2. Графы попарных расстояний между классами вершин для G1 и G2 Данный метод впервые позволяет проводить исследование тенденций изменения сходства расположения фрагментов (классов фрагментов, орбит расположения фрагментов) на основе построения и анализа графиков изменения расстояний в расширяемых базисах СД. Это необходимо когда анализируемые графы неизоморфны, но имеют одинаковое число классов эквивалентного расположения фрагментов и значения вкладов классов фрагментов совпадают. Используя подструктурный подход к анализу сходства графов, основанный на вычислении максимального общего фрагмента для каждой пары графов, можно впервые проводить анализ сходства графов с учетом сходства расположения фрагментов (вершин, цепей заданной длины, циклов, деревьев и т.д.), которые интересуют исследователя. Метод иерархического анализа сходства графов на основе матриц относительных вкладов фрагментов Применение матриц MIRC(F l_B(G)) позволяет проводить иерархический анализ сходства графов с последовательным уточнением результатов по двум направлениям: 1. Индекс (ISC), вектор-индекс (V_ISC), матрица MIRC(F l_B(G)); 2. Вектор-индекс вкладов irc(f t), irc(f t(c)), irc(fi t), матрица MIRC(F l_B(G)). Значение попарного сходства графов по направлению 1 определяется: для индексов на основе вычисления модуля разности их значений; 7 для вектор-индексов на основе вычисления расстояния между графами с использованием метрики Евклида; для граф-моделей вида FlB(G) на основе поиска их МОФ и вычисления значения расстояния D на основе определения максимального общего фрагмента (mcf) граф-моделей, то есть D(G1 ,G2 )= V (F l B (G1 )) + E (F l B (G1 )) V (F l B (G2 )) E (F l B (G2 )) 2 V (mcf (F l B (G1 ) ,F l B (G2 ))) , или индекса сходства 2 MSI (G1 ,G2 )=( V (mcf (F l B(G1 ) ,F l B (G2 ))) + E (mcf (F l B (G1) ,F l B (G2 ))) / / ( V (F l B(G1 )) E (F l B(G1 )) ) ( V (F l B(G2 )) E (F l B(G2 )) ). В качестве результатов вычисления сходства набора графов будем считать матрицу попарных расстояний между графами или при исследовании тенденций изменения сходства графики индексов относительного сходства графов в расширяемых базисах СД для анализируемых графов. Пусть PSc обозначает все связные цепи-подграфы графа. Вычисление mcf для каждой пары базовых граф-моделей в их стратифицированной системе, например, PlwPw PlSwPw PlSwPSw PlScwPSw PlScwPScw PlScwPScw, приводит к возможности исследования тенденций изменения сходства графов ещё по трём направлениям стратификации самой базовой модели: (1) монотонное расширение базисов СД; (2) монотонное по значениям индексов сложности расширение типов фрагментов; (3) монотонное расширение, как базисов, так и типов фрагментов графа. Для изучения влияния монотонного по значениям индексов сложности наращивания базиса B на величину относительного сходства графов используется следующая процедура: 1. Рассчитываются матрицы попарного сходства (расстояний) графов SMi (i=1,..,k) для базисов, содержащих 1,2,...,k компонент из анализируемого базиса B, т.е. базисов полученных отбрасыванием (k1),(k2),...,0 последних элементов. 2. В каждой SMi для каждого графа находится усредненное значение сходства avij к остальным графам, где j номер графа. Усреднение проводится путем сложения индексов сходства данного графа Gj c графами из множества {G\Gj} и деления полученного значения на |{G\Gj}|. 3. Вычисляется нормирующий коэффициент nki, равный среднему значению avij (усреднение проходит по индексу j). 4. Вычисляется относительное сходство графа Gj при длине базиса i rsij=avij/nki. 5. Строятся графики зависимости значения относительного сходства от длины базиса для каждого исследуемого графа. Индексы относительного сходства характеризуют сходство одного графа ко всем остальным в целом, что позволяет интегрально оценивать поведение значения индексов попарного сходства 8 от длины базиса. На рис. 4 приведены графики усредненных значений сходства, вычисленные на основе использования граф-моделей вида PlSwPw для графов (рис. 3). Они позволяют анализировать тенденции изменения сходства при наращивании базиса цепей-подграфов. G1 1 5 G2 G3 G4 1 1 1 3 4 2 2 2 3 5 3 5 5 2 2 4 5 4 4 G5 1 3 3 4 Рис. 3. Диаграммы всех графов с числом вершин 5 и ребер 6 1 0,95 0,9 G1 0,85 G2 0,8 G3 0,75 G4 0,7 G5 0,65 0,6 0,55 0,5 P0 P1 P2 P3 Рис. 4. Графики изменения усредненных значений сходства графов По виду базиса СД будем различать 2 класса задач: (1) глобальное сходство графов, если <b1,b2,...,bk>=<(G1)(G2)...(Gn)>, где (Gi) – множество всех подмножеств фрагментов Gi; (2) локальное сходство графов, если <b1,b2,...,bk ><(G1)(G2)...(Gn)>. Одной из проблем, для решения которой, разрабатывается методология и ее компьютерная поддержка, является проблема анализа точности решения задачи определения глобального сходства на основе расширяемых базисов СД. В отличие от подструктурного подхода к анализу сходства графов, предлагаемый подход использует эффективно вычислимый (полиномиальный по вычислительной сложности) алгоритм определения mcf двух базовых моделей. Заключение В заключении отметим, что базовые граф-модели позволили с наиболее общих позиций сформулировать классы задач анализа сходства структур систем и выделить стратифицированную систему новых видов отношений эквивалентности на основе сходства расположения фрагментов и отношений толерантности структур систем. Рассмотренные выше модели и методы анализа сходства реализованы в АСНИ «GMW» и используются в учебном процессе МЭИ (ТУ), ГУ-ВШЭ, научных исследованиях ИВМиМГ СО РАН и ВИНИТИ (www.graphmodel.com). Список литературы [Кохов, 2002] Кохов В.А. Концептуальные и математические модели сложности графов. – М: Изд-во МЭИ, 2002. [Кохов и др, 2006] Кохов В.А., Незнанов А.А., Ткаченко С.В. Программный комплекс для формирования и исследования отношений эквивалентности и толерантности на структурах. Десятая Национальная 9 конференция по искусственному интеллекту с международным участием. КИИ-2006: Труды конференции. В 3-х т. Том 1. М.: Физматлит, 2006. – С.199-207. [Финн, 1991] Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ. // Итоги науки и техники, сер. «Информатика», Т.15. 1991.