УДК 007.5 МОДЕЛИРОВАНИЕ РАССУЖДЕНИЙ ИНТЕЛЛЕКТУАЛЬНОГО АГЕНТА, РЕШАЮЩЕГО ЗАДАЧИ В УСЛОВИЯХ ЖЁСТКИХ ВРЕМЕННЫХ ОГРАНИЧЕНИЙ: БАЗОВЫЕ ПРИНЦИПЫ М.М. Виньков (vinkovmm@mail.ru) И.Б. Фоминых (fomin77@land.ru) Российский институт информационных технологий и систем автоматизированного проектирования, Москва Рассматриваются базовые принципы, следование которым представляется необходимым при разработке моделей рассуждений интеллектуального агента, функционирующего в условиях жесткого временного ресурса. Реализация принципов основана на формализмах активной логики и ее модификаций. Введение Проблемой, к которой адресован данный доклад, является моделирование логическими средствами поведения интеллектуального агента (далее, агента), способного на основе своих знаний и наблюдений за внешней средой делать умозаключения и строить планы в условиях жёстких временных ограничений. Для работы в таких условиях характерно существование критического временного порога (далее, дедлайна, от английского deadline), установленного для решения стоящей перед агентом задачи. Превышение дедлайна чревато тяжёлыми, подчас катастрофическими последствиями и для агента является недопустимым. Ясно, что агенты, работающие в таких условиях, должны строить своё поведение в зависимости от состояния имеющегося у них ресурса времени и контролировать ход своих рассуждений по мере уменьшения этого ресурса. Это обстоятельство во многом определяет специфику моделей представления знаний и подходов к формализации рассуждений, осуществляемых агентами при решении стоящих перед ними задач в условиях жёстких временных ограничений. Ниже будут рассмотрены базовые принципы, реализация которых представляется необходимой при разработке такого рода моделей и связанных с ними логических формализмов. 1. Отказ от логического всеведения Большинство логических систем, разработанных для моделирования поведения интеллектуального агента, основаны на допущении, что коль скоро агент обладает способностью к рассуждению, результаты применения этой способности получаются агентом немедленно по мере необходимости. В некоторых ситуациях такое допущение может считаться оправданным. Например, агент может прибегать лишь к весьма простым рассуждениям и находиться при этом в обстановке, некритичной ко времени его реакции. Однако, такое допущение в некоторых случаях оказывается чрезмерным. Нереалистичность этого допущения, приводит к т.н. проблеме логического всеведения, хорошо известной в эпистемической логике. Соответственно, агенты, к которым эта проблема относится, называются всеведущими или идеальными [Бежанишвили, 2007]. Решения проблемы логического всеведения предлагались как в рамках модального подхода, так и вне его. Те решения, которые относятся к модальному подходу, образуют два направления. Одно из них связано с искусственным ослаблением дедуктивных возможностей агента, другое направление имеет в своей основе введение в логический язык специальных модальных операторов, трактуемых как умственные усилия, необходимые для получения какого либо знания (выраженного в виде логических формул) [Fagin et al., 1988]. Общим недостатком обоих указанных направлений является принципиальная невозможность получение логических результатов, интерпретируемых следующим образом: не обладающий всеведением агент i способен (или не способен) вывести формулу F, не выходя за временную границу t. Заметим, что именно такого рода результаты чрезвычайно важны для случая, когда временной ресурс агента i жёстко ограничен. Вне рамок модального подхода данный недостаток преодолевается в системах, отвечающих концепции т.н. активной логики [Elgot-Drapkin, 1998], [Purang et al., 1999], [Purang et al., 2005] (или подобных им [Alechina et al., 2004]), для которых характерно, что рассуждения агента трактуются не как последовательность формул (утверждений), которую можно рассматривать как единое целое, а как процесс, протекающий во времени. Важной особенностью таких систем является введение темпоральных параметров в метаязык, определяющий их операционную семантику. В качестве примера можно привести следующее правило вывода, являющееся «активным» аналогом modus ponens: t : , . (1) t+1: Данное правило «говорит» о том, что если в момент времени t агентом выведены в результате рассуждений или получены из наблюдения за внешней средой формулы и , то в следующий момент времени t+1 будет выведена формула . 2. Соотнесение результатов рассуждений с моментами времени Данная инструкция подготовлена в соответствии с указанными выше правилами. Поэтому Вы можете использовать в данный файл для набора Как уже было сказано выше, представляется очевидным, что для агентов, имеющих жёстко ограниченный ресурс времени, необходимо контролировать свои рассуждения, приводящие (в силу принципа отказа от логического всеведения) к расходу данного ресурса. Этот контроль невозможно осуществить, не соотнося результаты, полученные в ходе этих рассуждений (т.е., конкретные утверждения, выраженные в виде логических формул) с моментами времени, когда эти результаты были получены. В соответствии с концепцией активной логики рассуждение во времени характеризуется выполнением циклов дедукции, называемых шагами вывода. Так как в основе активной логики лежит дискретная модель времени, то эти шаги вывода играют роль временного эталона – время измеряется в шагах. Знания агента ассоциируются с индексом шага, на котором они были впервые получены. В соответствии с концепцией активной логики это обеспечивается посредством отсчёта времени, который ведётся с помощью специального одноместного предиката now (.). В отношении этого предиката действует следующее правило вывода: t : now (t) , (2) t+1: now (t+1) причем формула now (t) не наследуется в момент времени (на шаге вывода) t+1, как это происходит с «обычными» формулами благодаря правилу вывода t: . (3) t+1: 3. Грануляция времени Одно из серьёзных ограничений исходной концепции активной логики связано с трактовкой времени как внутренней сущности, зависящей от структуры базы знаний агента и используемой им стратегии логического вывода. Течение времени связывается с длительностью выполнения шагов вывода (= дедуктивных циклов). Принцип отсчета времени, используемый в существующих подходах к решению задачи моделирования ментальности агентов с ограниченным временным ресурсом, в качестве меры времени (эталона) неявно подразумевает продолжительность дедуктивного цикла, которая мыслится постоянной. В реальности на длительность выполнения дедуктивного цикла оказывают влияние изменения, происходящие в составе и структуре знаний агента вследствие проводимых им рассуждений и наблюдений за внешней средой. Кроме того, на длительность дедуктивных циклов могут влиять случайные факторы, такие, как сбои в электропитании, в работе других технических систем и т.д. По существу, допущение о неизменной длительности дедуктивных циклов сродни логическому всеведению и, так же как и последнее, оно нередко вступает в противоречие с реальной действительностью. Особенно остро это сказывается при моделировании поведения многоагеной системы, т.к. принятие данного допущения означает, что процессы рассуждений различных агентов протекают якобы синхронно. Один из возможных путей преодоления указанного недостатка предложен в [Виньков, 2008] . Как и в других системах активной логики, время здесь рассматривается как бесконечная последовательность натуральных чисел из множества N. Будем обозначать ее Gck (глобальные часы). Однако, в данном случае учитывается, что основное назначение такого рода логических систем состоит в моделировании поведения агента в различных условиях (= прогонах). Поэтому каждому такому прогону ставятся в соответствие т.н. часы прогона модели Ck, отражающие его специфику (в чём, собственно, и состоит принцип грануляции времени). Часы прогона модели – это конечная или бесконечная строго возрастающая подпоследовательность глобальных часов, члены которой интерпретируются как моменты времени (на глобальных часах) завершения дедуктивных циклов, например <3, 5, 7, 10,... > . Множество всех таких моментов времени будем обозначать Ck*. Каждый «тик» часов прогона модели, как и «тик» рассмотренных выше виртуальных внутренних часов, соответствует одному выполнению конкретного дедуктивного цикла. При этом, порядковый номер этого цикла совпадает не с моментом времени его завершения (как это имеет место в других существующих логических системах данного класса), а только с порядковым номером этого момента времени на часах прогона модели. Данное обстоятельство дает возможность, меняя часы прогона модели, имитировать различные условия работы агента и лучше отражать, например, такие особенности, как увеличение длительности дедуктивных циклов агента по мере увеличения количества известной ему информации или в связи с выходом из строя части его вычислительных ресурсов. Кроме того, различным агентам можно назначать различные локальные часы, моделируя таким образом, например, их различное быстродействие или то, что они вводятся в действие в различные моменты времени. 4. Самопознание В условиях жёстких временных ограничений чрезвычайно важно, чтобы агент был способен осознавать не только то, что он знает в данный момент времени, но и то, чего он к этому моменту не знает (хотя знать ему это было бы, как минимум, не лишним), в чём и состоит суть принципа самопознания. Эта способность необходима агенту для осуществления контроля своих рассуждений по мере расхода имеющегося ресурса времени и адекватного реагирования на возможные непредвиденные ситуации. В соответствии с концепцией активной логики самопознание достигается благодаря правилу вывода t : , sub (,),[] . (4) t+1: K(t,) (негативная интроспекция), где - любая формула, не известная агенту в момент времени t, но являющаяся подформулой некоторой известной ему формулы , т.е. осознаваемая агентом, sub (.,.) – двухместный метапредикат, выражающий отношение «быть подформулой», [ ] – нотация, означающая, что формула отсутствует в текущих знаниях агента в момент времени t. K(.,.) – двухместный метапредикат (а не модальный оператор!), выражающий тот факт, что агенту известна некоторая формула в некоторый момент времени. 5. Толерантность к противоречиям За небольшим исключением для существующих логических систем актуально латинское изречение ex contradiction quod libet, т.е. из противоречия следует всё, что угодно. Это означает, что противоречивая логическая теория бесполезна – всякая наперёд заданная формула является её теоремой. Тем не менее, в повседневной жизни люди часто сталкиваются с противоречивой информацией, однако они обычно не сходят от этого с ума и даже нередко извлекают из такой информации пользу. В ситуациях, когда временной ресурс жёстко ограничен, особенно в т.н. системах жёсткого реального времени, возникновение противоречий вполне естественно и при этом чрезвычайно важно, чтобы столкнувшийся с противоречивой информацией агент не терял от этого работоспособность [Cox et al., 2007]. В некоторых системах, реализующих концепцию активной логики, проблема, связанная с противоречивой информацией решается посредством механизма обнаружения и устранения т.н. прямых противоречий, т.е. пар формул, одна из которых является отрицанием другой (это можно рассматривать как обобщение понятия «контрарная пара литер», используемого в методе резолюций и подобных ему). Обнаружение и последующая обработка прямых противоречий достигается благодаря следующему правилу вывода t : , . t+1: contra (t, , ) (5) где contra (.,.,.) – специальный трёхместный метапредикат, принимающий значение «истина», если в момент времени t текущие знания агента содержат формулы и . Ниже приведён пример контроля рассуждений агента посредством метарассуждений с использованием описанных выше правил вывода. Здесь факт, что некоторое событие А, связанное с рассуждениями агента (например, вывод им некоторой формулы), не наступило вовремя (момент времени 2), проявляется в виде прямого противоречия. Этот факт устанавливается в момент времени 3: Пример 5.1. 0: … now (0), now (1) K (2, A ) … 1: … now (1), now (1) K (2, A ), K (0, A ) … 2: … now (2), now (1) K (2, A ), K (0, A ) , K (1, A ) … 3: … now (3), now (1) K (2, A ), K (0, A ) , K (1, A ), K (2, A ), K (2, A) … 4: … now (4), now (1) K (2, A ), K (0, A ) , K (1, A ), K (2, A ), K (2, A ), contra (3, K (2, A ), K (2, A ) ) … В моменты времени 0, 1, 2, 3 сработало правило вывода (4), в результате чего были последовательно выведены формулы K (0, A ) , K (1, A ), K (2, A ), K (2, A ). В момент времени 1 сработало правило вывода (1), аргументами которого стали формулы now (1) и now (1) K (2, A ) , выражающее ожидание, что в момент времени 2 агент будет знать, что произошло событие А. В момент времени 4 сработало правило (5), установившее противоречие в данном случае между ожиданием агента наступления события А в момент времени 2 и фактом, что данное событие в момент времени 2 не произошло. Следует отметить, однако, что до настоящего времени отсутствует удовлетворительное определение декларативной семантики систем активной логики, в которых присутствует обнаружение и устранение прямых противоречий [Anderson et al., 2005], [Priest et al., 2004]. 6. Фокусировка внимания В условиях жёстких временных ограничений весьма важно, чтобы агент в каждый момент времени сосредотачивал своё внимание только на тех знаниях, которые релевантны текущей задаче, стоящей перед ним. Особенно это относится к ситуациям, когда расход имеющегося у агента ресурса времени оказался непредвиденно большим и возникает реальная угроза пересечения дедлайна, что требует от агента в корне изменить своё поведение. В настоящее время нам неизвестны логические формализмы (а не реализующие их инструментальные средства), в которых бы принцип фокусировки внимания был бы воплощён математически корректно и с необходимой полнотой. Представляется, что в системах активной логики данный принцип может быть реализован с помощью специального метапредиката, аргументами которого должны быть формулы и временной параметр. При этом должны быть модифицированы имеющиеся правила вывода (в первую очередь, правило вывода (1)), и введены дополнительные правила вывода, которые, в отличие от рассмотренных выше должны быть проблемноили предметнозависимыми, а их консеквентом должен быть указанный метапредикат. Заключение Рассмотренные выше принципы построения моделей рассуждений интеллектуального агента в полном объёме не реализованы ни в одной из известных нам логических систем. В тоже время, нам представляется, что образуемый ими перечень не следует рассматривать как исчерпывающий с точки зрения специфики моделирования рассуждений интеллектуального агента, имеющего жёстко ограниченный ресурс времени. В частности, данный перечень касается только отдельных агентов, но не затрагивает специфики интеллектуальных многоагентных систем жёсткого реального времени [Емельянов, 1999], где на первый план выходит кооперация их совместных действий в условиях жёстких временных ограничений. В то же время, представляется, что рассмотренные принципы остаются актуальными и в случае, когда агент является лишь одним из звеньев более сложной многоагентной системы. Благодарности. Работа выполнена при финансовой поддержке РФФИ (проекты № 10-07-00080, 10-01-00744, 11-07-00042, 11- 07-00375). Список литературы [Беженишвили, 2007] Беженишвили М.Н. Логика модальностей знания и мнения/Предисл. В.К. Финна.М.: КомКнига, 2007. [Виньков, 2008] Виньков М.М. Время, как внешняя сущность при моделировании рассуждений рационального агента с ограниченными ресурсами //Труды XI-й национальной конференции по искусственному интеллекту с международным участием КИИ-2008. — М.: Физматлит, 2008. [Емельянов, 1999] Емельянов В.В. Многоагентная модель децентрализованного управления потоком производственных ресурсов// Труды Международной конференции <Интеллектуальное управление: новые интеллектуальные технологии в задачах управления> (ICIT'99, Переславль-Залесский, 6-9 декабря, 1999). - М.: Наука. Физматлит, 1999. С. 121-126. [Alechina et al., 2004] Alechina N., Logan B., and Whitsey M. A complete and decidable logic for resource-bounded agents. In Proc. Third International Joint Conference on Autonomous Agents and Multi-Agent Systems (AAMAS 2004). [Anderson et al., 2004] Michael L. Anderson, Bryant Lee. Empirical results for the use of meta-language in dialog management. Proceedings of the 26th Annual Conference of the Cognitive Science Society. 2004. [Anderson et al., 2005] Michael L. Anderson, Walid Gomaa, John Grant, and Don Perlis. On the reasoning of real-world agents: Toward a semantics for active logic. In Proceedings of the 7th Annual Symposium on the Logical Formalization of Commonsense Reasoning, Corfu, Greece, 2005. [Cox et al., 2007] Cox,Raja. Metareasoning: Manifesto, in BBN Technical Memo TM-2028, 2007 [Elgot-Drapkin, 1998] J. Elgot-Drapkin. Step Logic: Reasoning situated in time. PhD thesis. Department of computer science, University of Maryland, Colledge-Park, Maryland, 1988. [Fagin et al., 1988] R. Fagin and J. Y. Halpern, Belief, awareness and limited reasoning, Artificial Intelligence 34 (1988), 39-76. [Priest et al., 2004] Graham Priest and Koji Tanaka. Paraconsistent logic. In Edward N. Zalta, editor, The Stanford Encyclopedia of Philosophy. Winter 2004. [Purang et al., 1999] K. Purang, D. Purushothaman, D. Traum, C. Andersen, D. Traum, D. Perlis . Practical Reasoning and Plan Executing with Active Logic. 1999. Proceedings of the IJCAI'99 Workshop on Practical Reasoning and Rationality. [Purang et al., 2005] Perlis D., Purang K., Purushothaman D., Andersen C., Traum D. Modeling time and meta-reasoning in dialog via active logic //Working Notes of AAAI Fall Symposium on Psychological Models of Communication. — 2005.