УДК Структурирование знаний в ассоциативной модели Жилякова Л.Ю., к.ф.-м.н., Ростовский государственный университет путей сообщения «РГУПС», г. Ростов-на-Дону zhilyakov@aaanet.ru Предложена модель знаний, основной особенностью которой является задание ассоциативных связей в виде множеств: каждому свойству соответствует множество объектов, этим свойством обладающих. Структура модели такова, что каждый объект многократно копируется и распределяется во все множества, соответствующие его свойствам. Это придает системе устойчивость и надежность, как при хранении, так и при извлечении информации. Введение При построении базы знаний интеллектуальной системы знания о предметной области структурируются в соответствии с типом модели, лежащей в основе создаваемой БЗ. Целью данной работы является построение такой модели знаний, которая обладала бы рядом свойств человеческой памяти [1, 4, 5, 7, 8]: – хранила бы информацию распределенно, те есть, по возможности, не локально; – позволяла бы задавать (и выявлять) явные ассоциативные связи между предметами, не имеющими связей, обусловленных логической структурой предметной области. Для этого предлагается ассоциативная модель, первичным понятием которой являются не только сами объекты, но и их свойства. Такой подход позволяет ввести понятие «ассоциации»: каждая сущность, обладающая определенным свойством, ассоциируется с остальными сущностями, которые имеют это же свойство. Множества объектов, ассоциированных по своим свойствам, образуют классы толерантности. Таким образом, можно реализовать связывание объектов не только с помощью отношений, соответствующих строго определенным семантическим связям, но и новым видом связей, который соответствует ассоциативному и метафорическому мышлению человека. Важной особенностью модели является возможность создания множеств ассоциированных понятий не только на основе реальных свойств, связывающих сущности, но и на основе любых искусственных признаков. Еще одна важная отличительная черта модели состоит в том, что объекты в ней хранятся нелокально. Для каждого объекта создается столько копий, сколькими свойствами этот объект обладает, и каждая копия попадает в множество, соответствующее одному из этих свойств, образующих ассоциации. Ассоциативная модель знаний Приобретение знаний Качество усвоения новых знаний человеком напрямую зависит от того, как тесно они связаны с теми знаниями, которые у него уже имеются. Чем теснее связь, тем больше вероятность того, что полученное новое знание запомнится, сохранится в памяти. Предположим, что модель мира некоторого человека реализована в виде семантической сети: ориентированного графа, состоящего из набора всех известных ему сущностей, их свойств и связей между ними. Пусть в эту модель нужно поместить новый узел, соответствующий объекту действительности, о котором прототип модели только что получил сведения. Объект этот является новым в полном смысле: его представления в модели никогда ранее не существовало. То есть, в имеющемся графе для него нет вершины. Такая вершина будет создана. Но пока она остается изолированной, вероятность того, что знание об этом объекте зафиксируется в долговременной памяти, очень невелика. Потому что 1) для этого знания нет никаких ассоциаций с тем, что уже известно; 2) если таких ассоциаций нет, то с большой долей уверенности можно предположить, что это знание не будет востребовано в дальнейшем (оно из какой-то чуждой данному человеку области действительности). Исключение составит лишь случай, когда человек начинает изучать что-то новое, но наверняка востребованное в будущем. Тогда, во-первых, наверняка это знание будет запоминаться (повторяться) вновь и вновь, а во-вторых, человек так или иначе будет ассоциировать его с тем, что уже знает. Таким образом, чем больше связей у новой вершины со старыми, чем теснее эти связи, тем легче новому знанию интегрироваться, встроиться, в существующую модель мира. Как если бы в ней изначально были пустые места, лакуны, – специально отведенные для этого знания. Количество возникших ассоциаций – важный, но не единственный критерий. Не менее важна «сила» ассоциаций. Ассоциация может быть даже единственной – главное, чтоб она была достаточно сильной. Именно ассоциация новой информации с чем-то уже известным облегчает процесс интеграции в память. Ассоциации играют одну из главных ролей в организации долговременной памяти. Этот принцип является основополагающим при использовании мнемотехники: когда каждое новой знание ассоциируется с тем, что хорошо известно. Практика мнемотехники указывает на еще одно важное свойство ассоциаций: «близость понятий» может быть как естественной, так и искусственно созданной. Ассоциативные связи очень важны не только при запоминании, но и, как следствие, при поиске информации. Для того чтобы найти изолированную вершину, нужно точно знать, где она находится. Иначе поиск может занять много времени, и не дать положительных результатов. В то время как для того, чтобы найти вершину, связанную с другими, достаточно найти хотя бы одну ассоциированную вершину и по имеющимся связям перейти к нужной. При этом сила и количество ассоциаций играют важную роль. Вспомним хотя бы «Лошадиную фамилию» – яркий пример того, что одной ассоциации оказалось недостаточно для извлечения информации, «релевантной запросу». Однако же именно ассоциации играют одну из главных ролей в долговременной памяти. Динамика долговременной памяти Долговременная память человека организована таким образом, что не все знания доступны в равной мере. Чем ближе знание к «поверхности», тем оно доступнее. А расстояние до поверхности определяется востребованностью знаний на каждый конкретный момент времени. Любое неиспользуемое знание имеет тенденцию постепенно забываться, – «тонуть», опускаться вниз. Это происходит в силу замещения неактуального знания актуальным. Память у самой поверхности самая динамичная, она всё время обновляется и пополняется. Только если всё время пользоваться знанием, – активизировать его, т.е. переводить из «нейтрального состояния», в котором оно находится в долговременной памяти, в активное: переносить его в оперативную память, – только тогда оно будет удерживаться на поверхности. Иначе – заместится чем-то более новым и/или востребованным (нужным), и, соответственно, переместится в более глубокие слои. Таким образом, в долговременной памяти существует восходящее и нисходящее движение информации. То, что только что побывало в оперативной памяти, находится у самой поверхности, заставляя тем самым другие знания опускаться ниже. Знание, долгое время остававшееся невостребованным, забывается. Оно находится на самых нижних слоях долговременной памяти, и вероятность извлечь его оттуда тем выше, чем больше ассоциированного с ним знания осталось близко к поверхности. Тогда – как за ниточку, по ассоциации, любое знание можно вытащить из самых глубин. Свойства модели В настоящей работе описываются свойства модели, которая позволяет хранить знания сходным образом, то есть обладает возможностью оперировать ассоциациями между понятиями. Для каждого свойства задается множество сущностей, которые этим свойством обладают. Все они образуют класс толерантности, по этому свойству. В каждом таком множестве отношение сходства относительно данного свойства играет роль ассоциации между сущностями. При пополнении модели новым объектом, для него будет создано такое количество копий, сколькими свойствами он обладает. Каждая копия попадёт в одно из соответствующих множеств. Тем самым при хранении объекта в памяти он умножается многократно. Чем больше свойств у нового объекта (и, как следствие, чем больше ассоциаций он вызывает), тем больше он размножится, тем в большее количество мест памяти попадёт. И даже если потом в одном месте он будет «забыт» (часть модели будет утеряна или разрушена), всегда можно будет извлечь его из другого места, и восстановить образовавшийся «пробел памяти». Чем больше у нового объекта ассоциаций, (чем на большее количество копий он разделен), тем надежней он запомнен. Кроме того, ассоциация всегда имеет две направленности: прямую и обратную. Пример. Константа е=2,718281828459045… Это знают все, кто, так или иначе, связан с математикой. Однако человечество делится на два непересекающихся множества: одни запоминают значение е, используя год рождения Льва Толстого – 1828, другие же наоборот, – год рождения Льва Толстого помнят исключительно благодаря числу е. Таким образом, чем большее количество ассоциаций применяется, тем надежнее новое знание интегрировано в модель, и тем большей устойчивостью обладает информация. Описание модели Пусть Е = {E1, E2,… EN} – множество объектов; R = {R1, R2,… RM} – семейство бинарных отношений между объектами, обусловленных структурой предметной области. R Е Е Семейство отношений R соответствует семантическим связям между сущностями предметной области. A = {A1, A2,… AK} – семейство множеств объектов, обладающих общими свойствами. Иными словами, Ai – это класс толерантности по наличию свойства Ai. Таким образом, Ai задает ассоциацию, связывающую между собой все объекты предметной области, обладающие заданным свойством. Свойство, соответствующее Ai, может быть как «естественным», – атрибутом объектов из Е, так и «искусственным»: множество может быть просто задано перечислением объектов, в него входящих. Каждой ассоциации присвоено имя. Оно либо совпадает с именем атрибута (для естественных ассоциаций), либо задается разработчиком (для ассоциаций искусственно созданных). Тогда ассоциативная модель знаний (в первом приближении) будет представлять собой тройку вида: M = (E, A, R) Таким образом, модель состоит из набора множеств Ai, каждое из которых содержит все сущности, обладающие данным свойством. Сущности эти связаны между собой структурными отношениями из R. Каждый объект предметной области попадает во все множества Ai, соответствующие свойствам, которыми он обладает. Множества Ai содержат одинаковые копии одного и того же элемента, который обладает свойствами, соответствующими Ai. Численное выражение силы ассоциаций Каждое свойство порождает множество, содержащее все сущности, этим свойством обладающие. Ясно, что в зависимости от того, каково это свойство, «сила связи» объектов, связанных такой ассоциацией, будет различной. Объекты, обладающие одним и тем же цветом, связаны гораздо слабее, чем, предположим, объекты, относящиеся к одной узкой области знаний. Чем больше членов содержит множество, тем меньше сила ассоциации. Таким образом, определим силу ассоциации как: Ai 1 Ai 1 где Ai – мощность множества Аi. Заметим, что так определенная сила ассоциации обладает следующими свойствами: 1° (Аi) > 0 i{1,…K} 2° (Аi) 1 i{1,…K} 3° (Аi)=1 Ai 2 Таким образом, (Аi) – нормированная величина, изменяющаяся на полуинтервале (0, 1]. Свойство 3° означает, что сила ассоциации достигает максимального значения тогда и только тогда, когда свойством, порождающим ассоциацию, обладает лишь один объект модели, кроме заданного. В этом случае, указание свойства напрямую указывает и единственный объект, этим свойством обладающий. Расстояние между объектами. Близость понятий На основе величины силы ассоциации определим расстояние между понятиями. При определении расстояния между двумя сущностями будем учитывать не только общие свойства, которыми они обладают, но и свойства, индивидуальные для каждой из них. Этот способ, вероятно, наиболее близок человеческому мышлению: чем больше сходных свойств и чем выше сила ассоциации каждого из них, тем объекты ближе, чем больше различающих свойств, тем они дальше. Объекты ассоциируются по сходным свойствам, но наличие различий, ослабляет силу ассоциации. Рассмотрим две сущности Е1 и Е2. Пусть Е1 входит в n ассоциаций Аi, i=1,…n; Е2 входит в m ассоциаций Аj, j=1,…m. Расстояние между сущностями Е1 и Е2 должно обладать следующими свойствами: 1) быть тем больше, чем больше количество разных ассоциаций для Е1 и Е2; 2) для одного и того же количества разных ассоциаций у двух пар сущностей быть тем меньше, чем меньше сила этих ассоциаций (т.е. чем незначительнее различия). 3) быть тем меньше, чем больше одинаковых ассоциаций для Е1 и Е2; 4) для одного и того же количества одинаковых ассоциаций у двух пар сущностей быть тем меньше, чем больше сила этих ассоциаций . Зададим расстояние следующей формулой. d E1 , E2 i i: E1 Ai & E2Ai i i: E1Ai & E2 Ai (1) i i: E1 Ai & E2Ai В числителе формулы – сумма сил ассоциаций всех множеств, отвечающих за свойства, различающие Е1 и Е2, то есть свойств, которыми обладает Е1 и не обладает Е2, и наоборот; в знаменателе – сумма сил ассоциаций, общих, для Е1 и Е2. Эта формула имеет существенный недостаток: слишком велика скорость роста расстояния при увеличении мощности множеств, входящих в знаменатель. Для того чтобы нивелировать эту скорость, прологарифмируем знаменатели дробей: d E1 , E2 i: E1 Ai & E2Ai 1 log 2 Ai i: E1 Ai & E2Ai 1 i: E2 Ai & E1Ai 1 log 2 Ai log 2 Ai (2) Проверим выполнение требования 1)-4): 1) Чем больше различных свойств у двух сущностей, тем больше слагаемых в сумме, составляющей числитель. 2) При одинаковом количестве слагаемых в числителе, чем больше членов имеется в каждом множестве, тем меньше сила ассоциаций, и тем меньше результирующая сумма. 3) Чем больше одинаковых ассоциаций, тем больше слагаемых в знаменателе, и тем меньше итоговое значение расстояния. 4) При одинаковом количестве слагаемых в знаменателе, чем сильнее связь, тем больше значение суммы, таким образом, расстояние обратно пропорционально силе связей. 5) Если различающих ассоциаций нет, то числитель равен нулю, и, следовательно, расстояние между понятиями равно нулю. 6) Если нет одинаковых ассоциаций, то знаменатель равен нулю, и такие сущности будем считать бесконечно удаленными, ничем не связанными, принадлежащими разным стратам. Для пункта 6) следует оговориться, что, возможно, следует определить понятие косвенного расстояния. Так, например, если для двух несвязанных сущностей А и В есть некоторая сущность С, имеющая ассоциации как с А, так и с В, в качестве расстояния между А и В можно взять сумму расстояний АС и СВ. Расстояние обладает следующими свойствами: 1. d(Еi, Ej) 0 для всех Еi, Ej E 2. d(Еi, Ei) = 0 3. d(Еi, Ej) = d(Еj, Ei) – очевидно в силу симметричности сумм в (1), (2) Неравенство треугольника: d(Еi, Ek) d(Еi, Ej) + d(Еj, Ek) – для произвольных Еi, Ej, Ek E не выполняется. Это происходит в силу нетранзитивности отношения сходства между объектами. Таким образом, расстояние d, определенное формулами (1), (2), не задает метрику в пространстве понятий, что является вполне естественным, поскольку пространство понятий не является метрическим пространством. Можно доказать, что при любом задании расстояния, удовлетворяющего свойствам 1)6), неравенство треугольника выполняться не будет. Это происходит в силу нетранзитивности отношения толерантности, задающего ассоциации объектов. Пусть даны три объекта: Е1, E2, E3 E, причем, (Е1, E2) и (Е2, E3) попарно имеют общие ассоциации, а Е1, E3 – общих ассоциаций не имеют, то есть: (Е1 Ai E2 Ai) (Е2 Aj E3 Aj) k[1, K]: (Е1 Ak E3 Ak) Тогда d(Е1, E2) и d(Е2, E3) – конечны и, соответственно, их сумма тоже конечна. Однако d(Е1, E3)=. Следовательно, при таких условиях d(Е1, E2) + d(Е2, E3) d(Е1, E3), и неравенство треугольника не выполняется. Заключение Предложенная модель является составной частью более общей модели, описанной в [6]. Создание ассоциаций позволит оптимизировать доступ к памяти. Организация ассоциаций в виде множеств позволит применить теоретико-множественный подход для работы с такой моделью. Умножение и распределение объектов по всей модели позволяет хранить информацию нелокально, и, тем самым, приблизить ее к квазиголографическому распределению [4, 5, 7, 8]. Литература 1. Прибрам К. Языки мозга. – М.: Прогресс, 1975. 2. Арбиб М. Метафорический мозг: пер. с англ. /Под ред. Д.А. Поспелова М.: Едиториал УРСС, 2004, - 304 с. 3. Роуз C. Устройство памяти. От молекул к сознанию. – М.: Мир, 1995. 4. Кузнецов О.П., Шипилина Л.Б. Псевдооптические нейронные сети - полная прямолинейная модель и методы расчета ее поведения. //Теория и системы управления, 2000, №5. 5. Кузнецов О.П., Марковский А.В. Поиск в массиве цифровых изображений на основе квазиголографического расщепления образов // Материалы Четвертого российско-украинского научного семинара «Интеллектуальный анализ информации. ИАИ-2004». 2004. Просвiта. Киев. с.129-135. 6. Жилякова Л.Ю. Концепции построения стратифицированной модели знаний. //5-я международная конференция «Интеллектуальный Анализ Информации ИАИ-2005», Киев, Просвiта, 2005, с.147-156. 7. Жилякова Л.Ю. Принципы построения ассоциативной модели знаний. 8-я международная конференция «Интеллектуальный Анализ Информации ИАИ-2008», Киев, Просвiта, 2008. с.191-200. 8. Жилякова Л.Ю. Проблемы моделирования сознания и голографическая память. Десятая национальная конференция по искусственному интеллекту с международным участием КИИ’ 2006. Труды конференции, том 2, М., Физматлит, 2006, с. 678-686.