Автоматизированные самоходные агрегаты».

реклама
УДК 001(06) Инновационные проекты, студенческие идеи, проекты, предложения.
А.О. ВЫБОРНОВ
Московский инженерно-физический институт (государственный университет)
ПРОЕКТ
«АВТОМАТИЗИРОВАННЫЕ САМОХОДНЫЕ АГРЕГАТЫ».
ОБУЧЕНИЕ АВТОМАТИЧЕСКОГО АГРЕГАТА
ДЛЯ РАБОТЫ В ИЗМЕНЯЮЩИХСЯ УСЛОВИЯХ
В проекте рассмотрены принципы организации обучения и управления
автоматическими роботами с использованием теории искусственного интеллекта.
Система предназначена для обучения робота при работе в неизвестных или
изменяющихся условиях, в соответствии заданными критериями рационального
поведения.
В работе ставится задача охватить круг вопросов, связанных с
интеллектуальным управлением автоматическими агрегатами. Автором
представлены новые подходы к построению программ обучения и
управления интеллектуальными устройствами, относящиеся к категории
методик обучения без учителя. При этом основной задачей
представленной работы является разработка и исследование моделей и
методов построения и анализа алгоритмов и программ, позволяющих
организовать автономную работу автоматических агрегатов, в сложном,
изменяющемся мире, без управляющего участия человека, а так же задача
верификации разработанных методов.
При этом для автоматического агрегата определены основные
функциональные задачи:
 накопление и корректировка знаний на основе активного
восприятия информации о мире и обобщения опыта;
 целенаправленного поведения на основе накопленных знаний.
Основная особенность предлагаемых средств машинного обучения
заключается в организации обучения агрегата во взаимодействии со
средой работы. При этом предполагается, что условия реальной работы
предварительно полностью неизвестны, но заданны критерии
рационального поведения агрегата (кратчайшая траектория перемещения,
минимальное количество шагов, расход энергии и т.п.).
В процессе реальной работы, агрегат получает знания об
эффективности принятия различных действий, и на основе накопленного
опыта, в дальнейшем работает согласно формируемому рациональному
алгоритму. При таком подходе к обучению, представляется важным
получение агрегатом некоторых предварительных знаний, до начала
110
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 11
УДК 001(06) Инновационные проекты, студенческие идеи, проекты, предложения.
реальной работы. Для этого, предлагается использование компьютерного
имитационного моделирования, для обучения агрегата.
В предлагаемом подходе к обучению участвуют четыре компонента:
Политика - определяет выбор действия обучаемого агрегата в
определенное время. Такая политика может быть представлена правилами
вывода действия или простой таблицей поиска.
Вознаграждение - задает отношение состояние-цель для данной
задачи. Она определяет отображение каждого действия, или более точно,
каждой пары “состояние-отклик”, в меру вознаграждения, определяющую
степень эффективности этого действия для достижения цели. В процессе
обучения перед агрегатом ставится цель максимизации общего
вознаграждения, получаемого в результате решения задачи.
Функция стоимости, или ценности это свойство каждого состояния
агрегата, интегрально определяющая величину вознаграждения, на
которое может рассчитывать система, продолжая действовать из этого
состояния. Если функция вознаграждения определяет сиюминутную
эффективность пары “состояние-отклик”, то функция ценности задает
долговременную перспективность состояния агрегата.
Модель внешней среды.
Агрегат и среда взаимодействуют друг с другом в определенные
дискретные моменты времени t = 0, 1, 2, 3… (временные шаги). В каждый
временной шаг t агрегат получает представление о состоянии среды,
st  S, где S– набор всех возможных состояний.
На основании полученного состояния выбирает действие at  A(st), где
A(st), - набор действий, доступных или возможных в состоянии st. Шагом
далее, в момент t+1, агрегат получает значение вознаграждения rt+1  R и
переходит в новое состояние st+1.
На каждом временном шаге, алгоритм обучения переводит выбор или
отображение состояния st в вероятность выбора каждого из разрешенных
действий. Данное отображение и является политикой агрегата Пt, где
Пt(s,a) - вероятность того, что в состоянии st = s будет выбрано действие
at=a. Обучение определяет изменение политики выбора действий в
результате опыта взаимодействия со средой. Цель агрегата максимизировать общее вознаграждение, полученное в течение времени
работы.
Последовательность вознаграждений, полученных после временного
шага t обозначим rt+1,rt+2,rt+3. В общем случае агрегат пытается
максимизировать полное вознаграждение Rt определяемое как:
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 11
111
УДК 001(06) Инновационные проекты, студенческие идеи, проекты, предложения.
Где T - последний временной шаг, а 0    1.
Значение функции стоимости состояния s при использовании
политики П, VП(s) можно определить как значение ожидаемого полного
вознаграждения, начиная с состояния s и следуя далее политике П во всех
дальнейших состояниях:
где t – произвольный временной шаг.
Таким образом основной задачей обучения является нахождение
политики П, которая обеспечивает достижение наибольшего
вознаграждения в течение времени работы агрегата. При этом политика П
определяется лучшей по отношению к политике П’, если VП(s)  VП’(s)
для всех s  S.
В работе предложен ряд методов к решению данной задачи. Основная
идея которых состоит в использовании функции стоимости для
организации и структуризации поиска рациональной политики принятия
решения с применением итеративного подхода к оценке значений
функции стоимости VП произвольной политики П (оценкой политики), с
дальнейшим переходом к лучшей политике П’, зная которую возможно
определение лучшей политики П’’. Таким образом, возможно выявление
пошаговой последовательности улучшения политики и оценки функций
стоимости на базе новой политики:
где
означает процесс оценки функции стоимости, а
процесс улучшения политики. Различия в предлагаемых методах
заключаются в способе оценки функции стоимости, а именно в ожидании
достижения целевого состояния для оценки, или оценку сразу принятия
очередного действия. Для всех методов доказана их сходимость.
Так же рассмотрены вопросы нахождения компромисса между
обучением при изменении среды функционирования и работой согласно
рациональному алгоритму функционирования. В этой связи предлагаются
алгоритмы обучения вне политики, как способ, при котором агрегат
функционирует согласно выбранной рациональной политике, в то же
112
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 11
УДК 001(06) Инновационные проекты, студенческие идеи, проекты, предложения.
время продолжает исследовать и оценивать другие политики, с целью
нахождения возможно лучшей политики. Обучение и поиск новых
рациональных политик не прекращается.
Для верификации предлагаемых методов обучения и управления была
поставлена задача построения компьютерной имитационной модели
работы выбранного агрегата. В качестве прототипа для моделирования
выбран автоматизированный самоходный агрегат (АСА). [2,3,6,7,8,9,10]
Было обоснованно унифицированное техническое решение по
созданию семейства агрегатов, удовлетворяющих требованию экологии,
имеющих широкое применение в областях расположенных в
труднодоступных регионах России. Были разработаны базовые принципы
построения АСА, обоснована актуальность применения АСА. Было
проведено исследование методов решения задач управления с
использованием аппарата итеративно-табличных автоматов [7].
Построение модели АСА проводилось в рамках развития работ по
моделированию работы АСА в различных областях применения.
Обоснованы принципы построения базовых блоков системы управления
АСА, разработаны алгоритмы управления агрегатом [2,5,6,10].
Разработаны функциональные модели на основе которых получены
сценарии, алгоритмы и программы работы АСА, программы работы
центрального компьютера и выработки управляющих сигналов для
двигателей опор согласно сценарию движения.
Моделирование работы АСА проводилось на виртуальном полигоне с
различными препятствиями, представляющими изменяющиеся условия
для испытания АСА. При перемещении агрегата по полигону, проводится
оценка принятия того или иного действия в каждом из состояний и
обучение агрегата согласно ранее описанным алгоритмам. При этом в
качестве критерия рационального поведения выбрано условие
нахождения кратчайшего пути до целевой точки траектории. Согласно
результатам моделирования можно сделать вывод о том, что
апробированные методы, обеспечивают обучение и требуемую работу
агрегата. Показано, что представленные методы обучения приводят к
реализации
вышерассмотренных
принципов
управления
интеллектуальными устройствами. При этом не требуют реализации
поиска в пространстве всех возможных состояний агрегата.
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 11
113
УДК 001(06) Инновационные проекты, студенческие идеи, проекты, предложения.
Таким образом, представленная работа решает ряд вопросов связанных
с обучением без учителя, и может служить прототипом при построении
систем управления реальных машин.
Список литературы
Выборнов А.О. Техническая имитация интеллекта при построении систем управления
роботизированных комплексов. Научная сессия МИФИ-2004. Сборник научных трудов.
Т. 12,М.:МИФИ,2004 С. 174-175
2. Выборнов А.О., Попов Ю.А. Инструментальные средства точного функционального
моделирования автоматизированных агрегатов. Научная сессия МИФИ-99. Сборник
научных трудов Т. 9,М.:МИФИ,1999 С. 64-70
3. Выборнов А.О., Попов Ю.А. Реализация системы управления автоматизированного
самоходного агрегата (АСА). Научная сессия МИФИ-2001. Сборник научных трудов. Т.
11,М.:МИФИ,2001 С.101-110
4. Попов Э.В., Фирдман Г.Р. Алгоритмические основы интеллектуальных роботов и
искусственного интеллекта. М.:Издательство «Наука» , 1986
5. Люгер Д. Искусственный интеллект. Стратегии и методы решения сложных проблем.
Пер. с англ., «Вильямс», 2003
6. Выборнов А.О., Ивлиева М.А. Автоматизированные самоходные агрега. Научная сессия
МИФИ-98. Сборник научных трудов. Часть 7,М.:МИФИ,1998 С.55-70
7. Выборнов А.О., Ивлиева М.А. Создание и испытание компьютерной функциональной
модели АСА. Научная сессия МИФИ-98. Сборник научных трудов. Часть
9,М.:МИФИ,1998 С.55-61
8. Выборнов А.О. Проектирование автоматизированных самоходных агрегатов (АСА).
Научная сессия МИФИ-2003. Сборник научных трудов. Т. 11,М.:МИФИ,2003 С.95-103
9. Выборнов А.О., Попов Ю.А. Принципы построения автоматизированного самоходного
агрегата и системы управления для использования в лесоперерабатывающей
промышленности. Научная сессия МИФИ-2000. Сборник научных трудов. Т.
11,М.:МИФИ,2000 С.21-25
10. Выборнов А.О. Построение системы управления автоматизированного самоходного
агрегата (АСА). Научная сессия МИФИ-2000. Сборник научных трудов. Т.
11,М.:МИФИ,2003 С.76-80
1.
114
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 11
Скачать