Приобретение согласованного поведения с использованием асинхронной стратегии обновления, которая дает возможность одновременного обучения в многообъектном окружении. Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С. Чего мы хотим? Многообъектное согласованное поведение - одна из задач расширения способностей отдельного робота. Позволяет увеличивать эффективность управления параллельными операциями Позволяет сделать возможным выполнение задач, решение которых не может быть достигнуто одним роботом Окружение быстро меняется и центральное управление множеством роботов оказывается слишком сложным. Типичная схема многоэтапного обучения Объект овладевает стратегией для достижения цели, путем изучения функции стоимости действий, основанной на награде, полученной в текущем состоянии при выбранном действии. Предположение Маркова: переход из одного состояния в другое зависит только от пары: текущее состояние и выбранное действие Реализация одновременного многоэтапного обучения в многообъектном окружении оказывается очень сложной по причине того, что процесс не является Марковским из-за изменений в окружении, вызванных процессом совместного обучения объектов Метод глобального планирования Основная идея: ограничение количества обучающихся объектов до одного и позволение остальным исполнять фиксированные стратегии, полученные на предыдущем этапе обучения Недостатки: система нуждается в некотором централизованном управлении, которое выбирает обучающихся, но при этом необходима прямая связь между центральной системой и отдельными обучающимися объектами Основная идея предлагаемого метода Каждый объект обладает одной стратегией и одной функцией стоимости действия: Стратегия предназначена для исполнения действия, основанного на функции стоимости действий, обновленной на предыдущем этапе Функция стоимости действия предназначена для обучения, основанного на событиях, полученных методом ε -приближений Многоэтапное обучение Для чего применяют этот метод? метод обучения роботов с малыми или отсутствующими априорными знаниями и более высокой способностью к реагирующему и адаптивному поведению Взаимодействие с окружением в многоэтапном обучении Здесь показана основная модель взаимодействия робота и окружения: робот и окружение смоделированы двумя синхронизированными конечными автоматами, взаимодействующими в дискретные моменты времени циклического процесса. робот распознает текущее состояние st S из окружения и выбирает действие at A. на основе состояния и действия окружение переходит в новое состояние и генерирует награду rt , которая отправляется обратно роботу. через эти взаимодействия робот обучается направленному поведению для достижения заданной цели. окружение должно удовлетворять марковскому предположению Q-обучение Функция стоимости действия Q(s,a) показывает стоимость выбора действия a A в состоянии s S , и основана на функции награды r(s,a), заданной разработчиком. Она обновляется, как показано ниже, чтобы приблизить оптимальную функцию Q *(s,a). Q-обучение α и γ (между 0 и 1) обозначают скорость обучения и дисконтирующий множитель соответственно. Оба являются параметрами для управления процессом обучения. Если α больше, то обучение сходится быстро, но увеличивается возможность остановки в локальных максимумах. Иначе, обучение становится более консервативным и требует больше времени для сходимости. γ управляет тем, в какой степени награды в отдаленном будущем влияют на общую стоимость стратегии, что выполняется, когда γ немного меньше 1. Когда γ маленький, поведение, которому обучился робот, стремится к рефлексивности. Q-обучение Оптимальная стратегия π* задается следующим образом: Q-обучение Построенная функция стоимости действий может быть приближена к оптимальной Q* независимо от стратегии исследования, выбранной во время процесса приближения. Это свойство называется типом «выключенной стратегии», согласно которому стратегия исследования, для определения пар состояние-действие, которые следует посетить, могут быть случайными, но требуется, чтобы все эти пары постоянно обновлялись. Метод ε-приближений Для чего? решить важную проблему компромисса между использованием и исследованием, чтобы максимизировать общие награды Основная идея: случайный выбор действия представлен с вероятностью ε и оптимальное действие, основанное на текущей функции стоимости действия Q, выбирается с вероятностью (1- ε) Метод ε-приближений Обычно стоимости действий инициализируются пессимистично, то есть всеми нулями, и постепенно приближается к оптимальной Q* . Проблема совместного обучения В чем состоит проблема? Если Q-обучающиеся объекты многократно применят метод εприближений, то стратегии будут часто меняться, и таким образом марковское предположение больше не выполняется. Это означает, что реализация совместного многоэтапного обучения в многообъектном окружении оказывается очень сложной из-за того, что процесс не является марковским, в результате изменений окружения, вызванных совместным процессом обучения объектов, за исключением тех случаев, когда исследуемая территория значительно ограничена. Для того чтобы обойти эту проблему, необходимо продумывать окружение, которое удовлетворяет предположению Маркова. Проблема совместного обучения Метод глобального планирования Ограничиваем количество обучающихся объектов до одного и позволяем остальным исполнять фиксированные стратегии, полученные на предыдущем этапе обучения. Центральная система управляет процессом обучения, переключая обучающиеся объекты, а кооперативное поведение достигается с использованием метода ε -приближений. Метод был применен к одной кооперативной задаче в ситуации игры в футбол: согласование пасов и ударов, используя двух роботов на поле средних размеров Кубка Роботов. Система требует явные каналы связи между центральной системой и отдельным обучающимся объектом. С точки зрения автономности, менее централизованное управление - предпочтительнее. Синхронное обучение, основанное на асинхронной стратегии обновления Каждый объект использует фиксированную стратегию πn основанную на Qn-1 для выбора действия во время n-го этапа обучения, в то время как накапливаются n событий для обучения (чтобы обновить Q). Если обучение индивидуального объекта сошлось, он обновляет стратегию πn+1 основанную на Qn. Марковское окружение реализовано на применении фиксированной стратегии отдельно от других обучающихся объектов, которые также обладают фиксированной стратегией, основанной на такой же схеме. Каждый объект имеет свое собственное граничное значение, чтобы независимо судить о сходимости обучения, следовательно, время обновления оказывается асинхронным. Синхронное обучение, основанное на асинхронной стратегии обновления Каждый объект вычисляет сумму оптимальной стоимости действия σQ, как показано ниже: Затем ее производная сравнивается с предварительно заданным граничным значением ѲσQ. Если производная меньше, чем ѲσQ, то считается, что изучаемая функция Qn сошлась Синхронное обучение, основанное на асинхронной стратегии обновления В качестве первоначальной стоимости действий мы полагаем значения выше, чем награда (1.0). Это тип стратегии исследования оптимальной функции стоимости действий путем уменьшения стоимости действия, когда выбранное действие не оптимально в текущем состоянии. Так как все объекты ведут себя согласно фиксированной стратегии πn, основанной на Qn-1, оптимистичная стратегия оказывается предпочтительнее благодаря результативности исследования. Синхронное обучение, основанное на асинхронной стратегии обновления Каждый объект выполняет следующий алгоритм: 1. Подготавливает Qn и πn и инициализирует их оптимально. 2. Анализирует состояния st S из окружения. 3. Выбирает действия at A в текущем состоянии s согласно стратегии πn. Синхронное обучение, основанное на асинхронной стратегии обновления 5. Состояние переходит в следующее st+1 S после выполнения действия at. 6. Мгновенное получение награды rt+1 из окружения. Обновляя функцию стоимости действий Qn, мы приближаем оптимальную функцию Q*. Синхронное обучение, основанное на асинхронной стратегии обновления 6. Если Qn сходится, обновляем стратегию πn+1 7. Переход к шагу 2 Эксперименты Предложенный метод был применен к ситуации игры в футбол, точнее к кооперативной задаче пасов и ударов, используя двух подвижных роботов на среднем поле Кубка Роботов. Успехом их кооперативного поведения является ситуация, в которой пасующий и бьющий способны получить награду за каждый этап обучения. В действительности, кооперативное поведение наиболее подходящее для достижения цели за ограниченное время. Эксперименты. Начальные позиции в компьютерной модели. Рисунок представляет игровое поле 8м на 4м, на котором 2 обучающихся робота (пасующий и бьющий) двигаются по кругу, а мяч находится в случайной «области мяча» (одна из десяти позиций внутри области). Скорость модели составляет 33мс, что соответствует частоте смены кадров. Объекты выполняют одни и те же действия до тех пор, пока не изменится состояние. Эксперименты. Подвижный робот, мяч и ворота. На рисунке показаны мяч и настоящий неголономный робот, обладающий системой наблюдения всех направлений и ударным устройством. Устройство робота Эксперименты. Пространство состояний объекта. Пространство состояний задается разбиением на части воспринимаемого поля в терминах ориентации (8 направлений) и расстояний (4), как показано на рисунке. Положение изучаемого объекта (противника, мяча или ворот противника) определяется сектором, в котором он находится. Если какой-то объект не наблюдается, он считается потерянным состоянием. Направление вперед предпочтительнее других, так как в этом случае ударное устройство работает хорошо. Итого, размерность пространства состояний равна 6 (три вида объектов, их направление и расстояние до них). Общее число состояний, включая потерянные, равно (8 * 4 + 1)3 = 35937. Пространство действий состоит из действий четырех видов: вперед, назад, поворот направо, поворот налево. Ударное устройство работает все время. Эксперименты. Функции наград. Функции наград определяются следующим образом: Для пасующего: награда 1 дается в случае успешной передачи паса бьющему. Это происходит в состоянии s = {направление мяча, расстояние до мяча, направление ворот, расстояние до ворот, направление бьющего, расстояние до бьющего} = {0, 0, a, b, c, d} (где a = 0 или 1, c = 0 или 7, b и d произвольные). В этом случае делается движение вперед. Для бьющего: награда 1 дается в случае попадания мяча в ворота противника. Это происходит в состоянии s = {направление мяча, расстояние до мяча, направление ворот, расстояние до ворот, направление бьющего, расстояние до бьющего} = {0, 0, a, b, c, d} (где a = 0, остальные величины произвольны) Любая нестыковка пасующего и бьющего дает пасующему отрицательную награду -1. В остальных случаях награда 0. Параметры обучения α=0.2 и γ=0.9. Результаты экспериментов. Были протестированы 3 метода: Предложенный метод с оптимистичными начальными значениями (1.0 ~ 1.0001) Метод глобального планирования с пессимистичными начальными значениями (0.0) Без планирования с пессимистичными начальными значениями (0.0) Результаты экспериментов. Сравнение методов планирования. Изменения скорости достижения успеха, при границе сходимости ѲσQ = 0.01. Результаты экспериментов Изменение σQ при оптимистичных начальных значениях. Результаты экспериментов Частота обновления при оптимистичных начальных значениях Результаты экспериментов Изменение σQ при пессимистичных начальных значениях. Результаты экспериментов Частота обновления при пессимистичных начальных значениях Результаты экспериментов. Сравнение граничных значений. Последовательность кооперативных действий реальных роботов. Заключение 1. 2. 3. Без планирования: независимость от начальных значений. Кооперативное поведение не достигается из-за того, что окружение оказывается не марковским, что вызвано одновременным обучением. Глобальное планирование: независимость от начальных значений. Кооперативное поведение достигается за счет того, что поддерживается марковское окружение. Предложенный метод: коэффициент успеха зависит от начальных и граничных значений. Список литературы [1] Richard S.Sutton and Andrew G.Barto: “Re-inforcement learning:An Introduction”, MITPress/Bradford Books, March 1998. [2] Peter Stone and Richard S.Sutton“Scaling Rein-forcement Learning toward RoboCup Soccer”, 18thInternationalConferenceonMachineLearning2001. [3] P.Stone: “Layered Learning”, Eleventh EuropeanConference on Machine Learning, 2000. [4] Yasuo Nagayuki,Shin Ishii, and Kenji Doya: “Multi-Agent Reinforcement Learning:An Approach Basedon the Other Agent’s Internal Model”, Fourth Inter-national Conference on MultiAgent System(ICMAS)Los Alamitos:IEEE Computer Soceiety, pp.215-221,2000. [5] T.Andou: “Refinement of Soccer Agent’s PositionsUsing Reinforcement Learning.H.Kitano(Ed.).”,RoboCup97:Robot soccer World CupI,Springer,1998. [6] M.Ohta: “Learning Cooperative Behaviors inRoboCup Agents.H.Kitano(Ed.).”, RoboCup-97:Robot Soccer World Cup I,Springer,1988. [7] M.Tan: “Multi-agent reinforcement learn-ing:Independent vs. cooperative agents”, Proceedingsof the Tenth International Conference on MachineLearning, pp.330-337. [8] M.L.Littman: “Markov games as a framework formulti-agent reinforcement learning”, In Proc.of the11th International Conference on Machine Learning,pp.157-163,1994 [9] M.Asada,E.Uchibe, and K.Hosoda: Cooperative Be-havior Acquistion for Mobile Robots in DynamicallyChanging Real World via Vision-Based Reinforce-ment Learning and Development. Artificial Intelligence, Vol.110,pp.275-292,1999. [10] M.Asada,H.Kitano,I.Noda,and M.Veloso:”RoboCup:Today and tomorrow - what we havelearned”, Artificial Intelligence,pp.193-214,1999. [11] C.J.C.H.,Watkins, and Dayan P: ”Technical note:Q-learning”, Machine Learning, Vol.8,pp.279-292,1992. [12] M.Asada,S.Noda,S.Tawaratsumida,and K.Hosoda:“Vision-Vased Reinforcement Learning for PurposiveBehavior Acquistion”, Proc.of IEEE Int.Conf.onRobotics and Automation, pp.146-153,1995 [13] K.Yamazawa,Y.Yagi and M.Yachida: “Obstacleavoidance with omnidirectional image sensor hyper-omni vision”, In Proc.of IEEE Int.Conf.on Roboticsand Automation, pp.1062-1067,1995.