К.В. ЛАХМАН1, М.С. БУРЦЕВ1,2 1 Национальный Исследовательский Центр «Курчатовский институт», Москва 2 Институт прикладной математики им. М.В. Келдыша РАН, Москва klakhman@gmail.com ФОРМИРОВАНИЕ ЦЕЛЕНАПРАВЛЕННОГО ПОВЕДЕНИЯ НА ОСНОВЕ КРАТКОВРЕМЕННОЙ ПАМЯТИ В ЭВОЛЮЦИИ НЕЙРОМОРФНЫХ АГЕНТОВ* В работе рассмотрена задача создания нейроэволюционной модели адаптивного поведения, позволяющей формировать эффективную стратегию поведения в изменяющейся окружающей среде. В качестве теоретической основы разрабатываемой модели были использованы теория функциональных систем П.К. Анохина [1] и системно-эволюционная теория В.Б. Швыркова [2]. Исследование эволюционной динамики популяции нейроморфных агентов показало, что агенты приобретают способность хранить кратковременную память и формировать альтернативное поведение. Ключевые слова: адаптивное поведение, нейроморфные системы, нейроэволюция, кратковременная память, теория функциональных систем Введение Наибольший интерес в рамках изучения мозга и создания нейроморфного искусственного интеллекта вызывают механизмы обеспечения целенаправленного поведения. Однако их рассмотрение невозможно в отрыве от эволюции и обучения, так как именно эти два фактора обеспечивают формирование поведения человека и животных. Области машинного обучения и создания интеллектуальных автономных агентов активно развиваются на протяжении последних десятилетий. Наиболее популярные алгоритмы обучения с подкреплением [3] и их модификации могут быть эффективно использованы на этапе предварительного обучения автономного агента. Однако так как поведение робота детерминировано единой системой оценок пар состояние-действие, то реализация альтернативных моделей поведения невозможна для алгоритмов данного класса. Во многих ситуациях эвристическое формировании си* Работа выполнена при поддержке РФФИ, проекты 11-04-12174-офим-2011 и 10-01-00786-а. стемы подкреплений невозможно, например, в мало-формализованных задачах, поэтому разрабатываются алгоритмы генерации значений подкрепления с иcпользованием эволюционных подходов [4]. Существующие алгоритмы также неспособны обеспечить необходимый уровень адаптивности в среде с иерархией целей [5]. Различные методы, разработанные для генерации поведенческих последовательностей [6, 7] в большинстве случаев не могут эффективно работать в ситуациях большого количества целей в среде и их сложной иерархии, а также необходимости автономного исследования данной иерархии. Для синтеза контроллеров автономных агентов в малоформализованных задачах успешно применяются алгоритмы, основанные на нейроэволюционных подходах [8, 9]. Однако дообучение полученных структур в процессе автономного функционирования агента на основе заранее приобретенных знаний является затруднительной задачей. В свою очередь проблема формирования кратковременной памяти в рекуррентных нейронных сетях широко освещена в литературе, в том числе с точки зрения реверберации сигнала в сети [10] и воспроизведения последовательностей [11]. Тем не менее, вопрос автоматической генерации нейросетевой структуры, способной к хранению кратковременной памяти, эффективно использующейся для формирования текущего поведения, на данный момент не достаточно исследован. Возможным подходом к построению интеллектуальных машин нового поколения, которые будут обладать повышенными способностями к адаптации, является использование исследований в области теоретической нейробиологии [1, 12]. Среда с иерархией целей В рамках текущего исследования состояние среды, в которой функционирует автономный агент, представляется бинарным вектором: 1 E t e t , ,e env t , e t 0 ,1 . 1 n i В любой так дискретного времени агент может изменить на противоположный один из битов этого вектора, и, таким образом, структура среды является гиперкубом размерности n env . В среде задаются конкурирующие цели различной сложности, определяемые как упорядоченное множество изменений вектора состояния среды: ai n1 , q1 , , n ki , q ki , 2 где n j – номер изменяемого бита вектора состояния среды, q j – требуемое (целевое) значение бита, k i – сложность цели. В среде присутствуют цели разной сложности, которые в совокупности образуют разветвленную иерархическую структуру. Для определения сложности среды на основе вероятностного подхода был введен показатель заполненности среды: NA Cf 1 2 ki ki env 2 n i 1 ki , 3 где N A – количество целей в среде, ki – количество уникальных бит вектора состояния, изменение которых происходит в процессе достижения цели (над одним и тем же битом среды может совершаться несколько действий). Показатель, обратный коэффициенту заполненности, мы будем называть коэффициентом сложности. С каждой целью среды ассоциируется награда, прямо пропорциональная сложности цели. В течение фиксированного времени агент функционирует в среде, достигая целей и накапливая награду, которая в дальнейшем будет влиять на его репродуктивный успех. При этом после достижения агентом цели, уровень начисляемой награды за данную цель обнуляется и затем линейно восстанавливается до изначального значения за время Tr . В рамках настоящего исследования среда может быть как стационарной, так и квазистационарной. В последней изменение вектора состояния может происходить не только при воздействии на него агента, но и случайно с некоторой вероятностью. Поведение агента и эволюционный алгоритм Поведение агента в среде управляется формальной нейронной сетью произвольной топологии, которая развивается в процессе эволюции и обучения (с возможностью формирования рекуррентных связей). Активационная характеристика нейронов в данной модели представлена неотрицательной логистической функцией, а сигнал по синаптическим связям передается только в том случае, если значение выхода пресинаптического нейрона выше некоторого порога активации (порог брался равным 0,5), то есть наблюдается спайк. Текущий вектор состояния среды непосредственно подается на входные нейроны сети, а комбинация пары наиболее активных выходных нейронов кодирует совершаемое действие. Необходимо отдельно отме- тить, что действия перевода бита вектора состояния в 1 и в 0 кодируются различными комбинациями нейронов. Для моделирования эволюции популяции независимых друг от друга автономных агентов применялся модернизированный алгоритм NEAT [13], в котором наряду с мутациями весовых коэффициентов синаптических связей используются структурные мутации топологии нейросети, такие как добавление связи и вставка нейрона в существующую связь. При этом «вставка нейрона» была заменена на мутацию «дупликация нейрона», при которой дуплицирующий нейрон наследует от родительского всю структуру связей. Данное изменение было осуществлено с целью, сделать алгоритм NEAT биологически более правдоподобным. Репродуктивный успех агента в процессе эволюции определяется суммарной накопленной наградой. Первичное развитие и обучение в течение жизни Критическим вопросом разработки эффективной модели генерации адаптивного поведения является создание алгоритма самообучения в течение функционирования агента в среде. В данном контексте алгоритм нейроэволюции необходимо дополнить моделями первичного развития (первичного системогенеза [1]) и обучения (вторичного системогенеза). Первичный системогенез необходим для трансляции выработанного в результате эволюции генотипа агента в начальную структуру интеллектуального контроллера, обеспечивающего первичный репертуар поведения агента в среде. Вторичный системогенез позволяет эффективно адаптироваться к изменениям окружающей среды и корректировать поставленную перед агентом задачу за счет формирования новых функциональных систем нейронов, специализированных относительно возникающих проблемных ситуаций. До текущего момента мы рассматривали эволюцию искусственных нейронных сетей. Однако для формулирования моделей первичного и вторичного системогенезов в рамках нашего подхода необходимо перейти от эволюции сетей нейронов к эволюции структур связанных нейрональных пулов. Каждый нейрональный пул транслируется во множество нейронов со сходной структурой связей. В процессе первичного системогенеза за счет эндогенных активаций малой части нейронов сети отбирается группа наиболее активных нейронов, которые будут участвовать в генерации поведения агента с момента рождения. Остальные клетки формируют множество молчащих нейронов [14], за счет которого будет происходить обучение в течение жизни. Каждый нейрон формирует предсказание об ожидаемых афферентациях с помощью специальных связей-предикторов от остальных нейронов сети агента. Данное предсказание позволяет детектировать момент рассогласования всего организма со средой на нейрональном уровне и запускать процесс обучения. За счет постепенного включения в сеть молчащих нейронов из пула рассогласованного нейрона происходит корректировка стратегий поведения агента. При этом включающиеся нейроны специализируется относительно новых для агента ситуаций с помощью организации своей структуры связей и позволяют осуществлять распознавание отличительных признаков данных проблемных ситуаций. Экспериментальное исследование эволюционного процесса Для исследования эффективности эволюции на стационарных и квазистационарных средах осуществлялся контрольный прогон лучших популяций каждого эволюционного запуска на стационарной среде. Результаты моделирования показывают, что с увеличением коэффициента заполненности среды, то есть с упрощением среды для агента, происходит рост средней накопленной награды (рис. 1). Рис. 1. Зависимость средней накопленной награды от коэффициента заполненности среды (каждый отсчет – это усреднение по 20 средам и 10 запускам эволюции в каждой среде, * - t-критерий Уэлча-Сатервайте с p = 0,01) Агенты, эволюционировавшие в условиях квазистационарной среды, функционируют успешнее (рис.1) – в среднем набирают большую награду – и в большинстве случаев обладают более обширным репертуаром пове- дения. Данный феномен можно объяснить тем, что при функционировании в среде, которая может внезапно изменится, агенту требуется разнообразный репертуар стратегий, чтобы подстраиваться под изменения среды. Таким образом, нестационарность среды способствует отбору агентов с более гибким поведением, позволяющим достигать большее число целей из различных начальных положений. Однако при повышении вероятности случайного изменения среды наблюдается резкий спад эффективности эволюции, что происходит вследствие дестабилизации всех стратегий изза чрезмерно частого изменения среды. Исследование внутренней динамики эволюционного процесса показало, что эволюция популяции происходит постепенно (рис. 2), путем распространения успешной стратегии по популяции и увеличения количества состояний, из которых данная стратегия может применяться. Рис. 2. Пример гистограмм распределения накопленной награды в популяции агентов для трех поколений одного эволюционного запуска Альтернативное поведение и кратковременная память В результате исследования поведенческих стратегий, появляющихся в результате эволюции, было показано, что агенты приобретают способность хранить кратковременную память за счет реверберации в нейросети с использованием обратных связей. Наличие кратковременной памяти у агентов подтверждается возможностью выработки политик поведения на основе альтернативных действий, когда из одного состояния совершаются различные действия в зависимости от предыдущей истории поведения. На рис.3 представлен пример записи поведения, в процессе которого из одного состояния совер- шаются три различных действия. Подобный феномен был бы невозможен в условиях реактивностной работы нейросетевой структуры. Рассматриваемое поведение обеспечивается нейронной сетью с 30 нейронами, из которых только 15 являются интер-нейронами, и 611 синаптическими связями. Анализ нейрональной активности в моменты, соответствующие совершению того или иного действия, позволяет определить, что на принятие решения влияет изменение активности небольшого числа нейронов. При этом выходные значения большинства нейронов остаются без изменений, а нейроны, определяющие поведение, изменяют свою активность с нулевого уровня до максимального. Таким образом, подобные нейроны можно назвать специализированными относительно совершения действий в конкретной поведенческой ситуации. A Б 8 1 2 7 13 4 5 5 3 10 4 2 12 11 4 13 Активность интер-нейронов 6 1 0 0 1 9 3 Действие № Рис. 3. A. Пример альтернативного поведения (кругами обозначены состояния, стрелками – переходы/действия агента); Б. Активность интер-нейронов сети при совершении трех альтернативных действий (черный цвет – максимальная активность соответствующего нейрона, белый – нулевая активность) На основе анализа различных поведенческих политик, которые вырабатываются в процессе эволюции, было показано, что нижняя оценка глубины эффективной кратковременной памяти, влияющей на поведение, составляет не менее 4-х прошлых состояний. Подобный вывод был сделан при рассмотрении ситуаций, в которых альтернативные действия совершались при одинаковой истории поведения и, таким образом, нижней оценкой может считаться первое неодинаковое состояние в двух последовательностях действий. Использование кратковременной памяти для формирования политик поведения позволяет, во-первых, реализовывать значительно более слож- ное поведения, а во-вторых, набирать большее количество награды в процессе функционирования. На рис. 4 приведен пример политики поведения, которая построена на чередовании двух циклов действий. Так как после достижения цели, она восстанавливает свою награду за некоторое фиксированное количество тактов, то подобная стратегия позволяет целям, достигаемым на одном цикле, дольше восстанавливать свою ценность для агента, пока идет проход по второму циклу. При этом поведение, приведенное на рис. 4, может осуществляться с использованием кратковременной памяти глубины 2. 5 5 4 1 0 0 6 1 2 2 9 10 3 7 6 10 состояний 5 состояний 8 7 3 4 Рис. 4. Стратегия поведения из двух циклов Возникновение возможности оперировать кратковременной памятью происходит без предварительного задания любых искусственных предпосылок к данному феномену в строении эволюционного алгоритма. Рис. 5. Запись спайков интер-нейронов в процессе поведения При рассмотрении записей активности нейронной сети (рис. 5) в течение всего промежутка поведения автономных агентов можно выделить как нейроны, которые активны при совершении большинства действий, так и такие нейроны, которые проявляют активность только в очень ограниченном количестве состояний среды (иногда даже в единственном состоянии). В табл. 1 приведены параметры эволюционного алгоритма, которые использовались при проведении экспериментального моделирования. Табл. 1. Основные параметры моделирования Параметр Размерность среды n env Кол-во тактов эволюции Tev Значение 8 бит Параметр Объем популяции Np Значение 250 агентов 5000 тактов Кол-во тактов жизни агента Tlife 250 тактов Время восстановления награды Tr Дисперсия мутации веса синапса Dm 30 тактов Вероятность мутации веса синапса Pm Вероятность добавления синапса Pa-syn 0,6 Вероятность удаления синапса Pd-syn 0,05 Вероятность дупликации нейрона Pdup 0,007 Вероятность случайного изменения бита состояния Pen- var 0,08 0,1 0,0085 Заключение В рамках текущей статьи была представлена модель адаптивного поведения, основанная на теории функциональных систем П.К. Анохина. Данная модель состоит из нейроэволюционного алгоритма, а также алгоритмов первичного развития и обучения в течение жизни. Предложенная модель обучения основана на методике эндогенной оценки результативности целенаправленного поведения на нейрональном уровне и формировании функциональных систем, специализированных относительно проблемных поведенческих ситуаций. Результаты экспериментального моделирования показывают, что нестационарность среды значительно увеличивает эффективность эволю- ции. В процессе эволюции автономные агенты вырабатывают способность хранить кратковременную память за счет обратных связей в управляющей нейросети. С использованием кратковременной памяти становится возможным формировать эффективные поведенческие стратегии, которые основаны на альтернативных действиях, зависящих от предыдущей истории поведения. Список литературы 1. Анохин П.К. Очерки по физиологии функциональных систем. М.: Медицина, 1975. 2. Швырков В.Б. Введение в объективную психологию. Нейрональные основы психики. М.: Институт психологии РАН, 1995. 3. Kaelbling L.P., Littman M.L., Moore A.W. «Reinforcement Learning. A Survey» // Journal of Artificial Intelligence Research. Vol. 4, Pp. 237-285, 1996. 4. Singh S., Lewis R., Barto A. G. «Where Do Rewards Come From? » // Proceedings of the Cognitive Science Society (CogSci). Pp. 2601-2606, 2009. 5. Botvinick M.M., Niv Y., Barto A.G. «Hierarchically organized behavior and its neural foundations. A reinforcement learning perspective» // Cognition. Vol.113, Is. 3, Pp. 262-280, 2009. 6. Sandamirskaya Y., Schoner G. «An embodied account of serial order: How instabilities drive sequence generation» // Neural Networks, Vol. 23, No. 10, Pp. 1164-1179, 2010 7. Komarov M. A., Osipov G. V., Burtsev M. S. «Adaptive functional systems: Learning with chaos» // Chaos, Vol. 20, Is.4, 04511, 2010. 8. Floreano D., Mondana F. «Automatic Creation of an Autonomous Agent: Genetic Evolution of a Neural-Network Driven Robot» // Proceedings of the third international conference on Simulation of adaptive behavior: From Animals to Animats 3, Pp. 421-430, 1994. 9. Floreano D., Durr P., Mattiussi C. «Neuroevolution from architectures to learning» // Evolutionary Intelligence. Vol. 1, No.1, Pp. 47-62, 2008. 10. Hochreiter S., Bengio Y., Frasconi P., Schmidhuber J. «Gradient Flow in Recurrent Nets - the Difficulty of Learning Long-Term Dependencies» // A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, Pp. 237-243, 2001. 11. Botvinick M.M., Plaut D.C. «Short-Term Memory for Serial Order: A Recurrent Neural Network Model» // Psychological Review. Vol. 113, No. 2, Pp. 201-233, 2006. 12. Edelman G. Neural Darwinism: The theory of neuronal group selection. NY: Basic Books, 1987. 13. Kenneth S., Miikkulainen R. «Evolving Neural Network through Augmenting Topologies» // Evolutionary Computation. Vol. 10(2), Pp. 99-127, 2002. 14. Jog M.S., Kubota K, Connolly C.I., Hillegaart V., Graybiel A.M. «Building neural representations of habits» // Science. Vol. 286, Pp. 1745-1749, 1999.