РАЗРАБОТКА МОДЕЛИ ПОВЕДЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ АГЕНТОВ, ОСНОВАННОЙ НА

реклама
РАЗРАБОТКА МОДЕЛИ ПОВЕДЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ
АГЕНТОВ, ОСНОВАННОЙ НА НЕЙРОННЫХ СЕТЯХ В
АГЕНТНО-ОРИЕНТИРОВАННОЙ СИСТЕМЕ МОДЕЛИРОВАНИЯ
Каримов Д.Ф.
Пермский государственный национальный исследовательский университет,
кафедра математического обеспечения вычислительных систем
Пермь, Россия
DEVELOPMENT OF BEHAVIOR MODEL OF ARTIFICIAL AGENTS, BASED
ON NEURAL NETWORK IN AGENT-ORIENTED MODELING SYSTEM
Karimov D.F.
Perm State National Research University, Department of Computer Science
Perm, Russia
Важным свойством интеллектуального поведения является целенаправленность.
Целенаправленность проявляется на различных уровнях организации живой материи,
можно выделить цели на уровне вида, популяции, отдельного организма. Каковы
механизмы, управляющие мотивацией и поведением живых существ, и как их можно
смоделировать?
Рассматриваемая модель является развитием работы [1], в которой описывался
подход к построению системы имитационного моделирования с использованием
интеллектуальных агентов-объектов.
Целью работы является разработка модели поведения интеллектуальных агентов,
основанной на нейронных сетях.
Был разработан подход к реализации необходимого модуля управления агентами.
При построении модели использовались методы теории “Искусственной жизни” [2-4].
Согласно разработанной модели модуль управления агента состоит из двух блоков:
•
блок поведения, т.е. блок, определяющий действия агента;
•
блок оценки действий, т.е. блок, формирующий цели поведения.
Блок поведения состоит из нейронной сети, выходы которых определяют действия
агента. Блок оценки действий определяет обучающий сигнал. Последний имеет простой
смысл: он показывает, улучшилось или ухудшилось (с точки зрения блока оценки)
состояние агента в данный такт времени по сравнению с предыдущим тактом в результате
выполненного действия.
Поведение агентов управляется их нейронной сетью. Система управления агента
состоит из нейронной сети, состоящей из рецепторных (входных) и эффекторных
(выходных) модулей.
Входами нейронной сети являются видимая картина мира и внутреннее состояние
агентов (например, количество энергии и уровень здоровья). Каждому входу нейронной
сети соответствует один рецептор, который реагирует на один фактор из окружающей
среды. Поведение (то есть конкретные действия) агентов определяется выходами
нейронной сети. Каждому действию соответствует один эффектор (получается – один
нейрон).
Таким образом, нейронная сеть осуществляет связи между рецепторами и
эффекторами. Значения на выходах нейронной сети yj вычисляются умножением вектора
входных сигналов на матрицу весов связей входов с выходами, где входы соответствуют
рецепторам, а выходы – эффекторам:
,
где xi – входы j-го нейрона, а wij – его синаптические веса.
Агент выполняет действие, соответствующее нейрону с наибольшим выходным
сигналом yj. Веса матрицы связей определяются геномом агента.
Окружающая среда развивается в дискретном времени. В каждый такт времени
нейронная сеть определяет выбор только одного действия агента.
Веса синапсов блока оценки не меняются в течение жизни агента. Блок оценки
играет роль «учителя» для блока поведения, причем сам учитель оптимизируется в
процессе эволюции.
Для обучения блока поведения применяется вариант алгоритма обратного
распространения ошибки. Ошибка на выходе каждого нейрона блока поведения
определяется по выходу данного нейрона и сигналу обучения от блока оценки действий.
Этот сигнал обучения может быть как положительным (если блок оценки решает, что
команда с блока поведения улучшает жизнь агента), так и отрицательным (в противном
случае). В соответствии с ошибками на выходах нейронов корректируются веса синапсов
нейронов, аналогично тому, как это происходит в обычном методе обратного
распространения ошибок.
Популяция агентов эволюционирует: при скрещивании рождаются потомки агентов,
которые отличаются от своих родителей. Изменение генома происходит от родителя к
потомку. Каждый ген Wi потомка задается как случайная величина x, равномерно
распределенная на интервале [Wp1, Wp2], где Wp1 – соответствующий ген родителя 1 и Wp2
– ген родителя 2.
Геном агента S состоит из 2 хромосом S = (Wb, Wl). Первая хромосома Wb содержит
веса синапсов нейронной сети блока поведения wij. Вторая хромосома Wl содержит веса
синапсов нейронной сети блока оценки действий. При скрещивании меняются только
хромосомы блока поведения, так как подразумевается, что система ценностей каждого
агента неизменна.
Разработанный подход к представлению интеллекта агентов был опробован на
тестовой модели. Модель представляет собой искусственный мир в двухмерном
замкнутом пространстве (тор). Пространство разбито на клетки, в которых могут
находиться агенты и их пища. Время дискретно. В каждый такт времени агент должен
совершить какое-либо действие. Через определенные промежутки времени в клетках с
некоторой вероятностью появляется пища, потребляемая агентами. Каждый агент имеет
внутренний энергетический ресурс R, который пополняется при питании и расходуется на
выполнение действий. Агенты могут получать информацию о состоянии окружающего их
мира и своем внутреннем состоянии, совершать определенные действия
Данная модель была реализована в виде 2-слойного персептрона [5]. Были получены
удовлетворительные результаты, доказывающие возможность построения агентов на
основе нейронных сетей. Эксперименты с моделью показывают, что в процессе
искусственной эволюции в популяции агентов вырабатывается поведение, которое можно
рассматривать как поведение, свойственное интеллектуальным сущностям ввиду
проактивной деятельности, направленной на приспособление к окружающей среде.
Текущая модель позволяет исследовать влияние неоднородности распределения пищи на
поведение и видообразование в популяции. Можно отметить, что неоднородное
распределение приводит к увеличению числа подвидов. При помощи модели можно
рассмотреть вопросы, связанные с эволюционным обучением и сохранением знания на
уровне популяции в нестационарных условиях (при изменении количества пищи во
времени).
Также в результате моделирования было показано, что одна эволюция без обучения
плохо обеспечивает адаптацию популяции агентов. Обучение приводит к лучшей
адаптации, но наиболее эффективная адаптация наблюдается в случае совместной работы
эволюции и обучения. В последнем случае находились агенты, которые не вымирали на
протяжении нескольких десятков тысяч тактов жизни агентов.
На следующем этапе планируется исследование других типов нейронных сетей и
возможность динамического перестроения сети.
Список литературы
1. Каримов Д.Ф. Разработка и реализация интеллектуальных агентовобъектов, основанных на нейронных сетях
[Электронный ресурс] [Режим доступа:http://rae.ru/forum2012/219/2698]
[Проверено:27.01.2013]
2. Yaeger L. Computational Genetics, Physiology, Learning, Vision, and
Behavior or PolyWord: Life in a New Context // Artificial Life III. – AddisonWesley,1994. – P. 263-298.
3. Ackley D. Littman M. Interactions between learning and evolution // Artificial
Life II. – Addison-Wesley, 1992. – P.487-509.
4. Nolfi S., Parisi D. Learning to adapt to changing environments in evolving
neural networks // Adaptive Behavior. – V.5, 1997. – P. 75-98.
5. Хайкин С. Нейронные сети: полный курс. – Вильямс, 2006. – С. 219-340.
Скачать