Задача Новичка

реклама
Задача Новичка
Определение цели антагонистической игры в отсутствии
подкреплений
Павел Александрович Малышкин
Москва, ИСА РАН
2013
Цель – что это?
Цели существуют и играют для теории важную
роль, но как они возникают – за рамками теории:
• Теория управления (критерий оптимизации)
• Исследование операций (цель)
• Теория игр (выплаты)
• Экономика (полезность блага)
• Функциональный анализ (направленность и
целенаправленность)
Задача теории – прояснить, как возникают цели
• Теория организации (принцип примата цели)
• Психология (мотивация поведения)
Теория организации
Структура
организации
определяется
целями
Принцип
Примата
Цели
Целостность
организации
обеспечивается
согласованностью
целей разных видов
Такой подход основан
на положении, что
целями можно
сознательно управлять
Из принципа примата цели вытекает необходимость
понимания (описания) процесса возникновения целей.
Психология
Вторичные
потребности
Базовые
потребности
Пирамида Маслоу как оппозиция бихевиоризму:
Вторичные потребности проявляются, когда удовлетворены базовые.
Вопрос: как тогда возникают вторичные потребности?
Теория самоопределения
• Эго-психология Гейнца Гартмана (1939) –
Существует сфера психического здоровья,
которая значит для определения целей
больше, чем конфликт.
• SDT Дэси, Райан (с 1985) – попытка
объяснить самоопределение как результат
конфликта ранее неучтенных потребностей –
автономии, компетенции и взаимоотношений.
Возврат к концепции бихевиоризма?
Почему?
Подходы к определению цели
Теория организации:
Необходимость
в обеспечении целостности
Согласование
Цели
Психология:
Потребности в автономии,
компетенции, взаимошениях
Адаптация
Физика:
Цели
Второе начало термодинамики
Реакция
на внешнее
воздействие
Цели
Малышкин П.А. Физика интеллекта: От
принципов самоорганизации к модели
мышления. М: “ЛИБРОКОМ” 2014.
Шашки или поддавки?
Если вы не знаете цели игры, можете ли вы определить ее
по поведению противника в серии игр?
А если варианты цели игры не известны?
Лектор против аудитории
Лектором предлагается серия партий многошаговой игры с целью,
неизвестной аудитории. Например, игра “Ним” c измененной целью.
Аудитория не уведомляется, выигрывает ли она в каждой партии.
Просто по окончании партии начинается другая.
Результат: Аудитория школьников 9-11 классов способна определить
цель игры по действиям лектора, сформулировать ее, и начать
выигрывать. Аудитория студентов МФТИ 3-го курса определяет цель
той же игры за 5 партий.
Как аудитория определяет цель игры?
• Лектор, достигая цель, привносит в игру
закономерности, которые не следуют из
правил игры.
• Аудитория способна увидеть эти
закономерности.
• Противодействуя возникновению
ситуаций, в которых проявляются
закономерности, аудитория начинает
выигрывать.
Определение цели игры
Игра
Осведомленный
игрок
Реализация
выигрышной
стратегии
поведения
Новичок
правила
взаимодействия
и определения
выигрыша
Обучение без
подкрепления
(отсутствие данных
о цели игры)
Пусть, например, новичок узнает о своем выигрыше только по окончании
довольно продолжительной серии игр. Как он может увеличить этот
выигрыш? Какова степень уверенности, что новичок правильно определил цель?
Антагонистическая матричная игра со смешанным равновесием
Лектор=
Аудитория=
3
0
0
1
= Новичок:
- Не имеет об априорных знаний о
структуре игры, кроме наборов стратегий.
- Не получает данных о выплатах по
результатам кона
- Получает данные о выборе оппонента по
итогам каждого кона
- Имеет “совершенную” память
= Осведомленный
игрок:
- Может иметь знание о
структуре игры
- Получает сведения о
выплатах и о выборе
оппонента.
- Имеет “совершенную”
память – помнит
выплаты предыдущих
конов и выбор
оппонента и
подстраивает свою
стратегию так, чтобы
максимизировать
выигрыш.
Задача новичка – максимизация его выигрыша по итогам серии игр
Решение игры
3 0
0 1
В традиционном
понимании эта игра имеет
решение в смешанных
стратегиях:
((0.25, 0.75), (0.25,0.75),
0.75)
Известно (см. например, Морозов, Васин), что в решении игры все стратегии игроков, не
исключенные по доминированию, имеют одинаковые ожидаемые выплаты. Это значит,
что если новичок придерживается оптимальной стратегии, то осведомленному игроку
все равно, какую выбрать стратегию.
Обратное утверждение состоит в том, что для Новичка существует алгоритм
асимптотического приближения к равновесной стратегии, при котором Осведомленный
рациональный игрок в среднем будет играть (0.5,0.5).
Тогда игра стремится к точке ((0.25, 0.75), (0.5,0.5), 0.75), то есть, новичок может
найти свою оптимальную стратегию и иметь выигрыш, не меньший, чем в точке
равновесия по Нэшу. Но он не сможет выиграть больше за счет отклонения
Осведомленного игрока точки равновесия.
Что нужно для доказательства
?
1. Почему осведомленный игрок будет адекватно менять свою стратегию в
зависимости от меняющейся стратегии новичка? => Предположение о
осведомленности оппонента (см., например, индекс Гиттингса).
2. Почему, если новичок играет оптимально, осведомленный игрок будет
играть (0.5, 0.5) – ведь он может с тем же выплатами играть любую
смешанную стратегию? => Предположение о рациональности
осведомленного игрока и симметричных отклонениях новичка от
равновесной стратегии.
3. Предположение, что решение в игре единственное и вполне смешанное
Но новичок останется новичком, если алгоритм его действий позволит ему
выяснить также и выполнение всех этих условий.
Новичок остается новичком
Новичку предлагается алгоритм решения его задачи – нахождения его
равновесной стратегии.
При выполнении перечисленных условий алгоритм должен привести новичка к
решению. Если этот алгоритм новичка не сходится, новичок будет знать, что не
выполняется какое-то из требований.
В этом смысле новичок остается новичком – он действует в рамках
предположений, которые может проверить, и находит решение, если
предположения верны.
Возможно, перечисленные требования можно ослабить. Специально этот вопрос
не исследовался. Единственное предположение, требующее объяснений предположение о том, что игра является антагонистической.
Алгоритм Новичка
Случай 2х2 стратегий
I фаза – накопление данных
(0,1)
(х, 1-х)
(1,0)
II фаза – переход к решению
(0,1)
(х, 1-х)
(1,0)
Алгоритм Новичка
Случай 3х3 стратегий
(1,0,0)
r(2)=r(3)
III фаза
фаза
r(1)=r(2)
r(1)=r(3)
(0,0,1)
(0,1,0)
Алгоритм Новичка
•
•
Новичок нацелен на обнаружение закономерностей в поведении
Осведомленного игрока.
Как только закономерности обнаружены, Новичок принимает решения так,
чтобы обнаруженные закономерности более не проявлялись.
Отсутствие закономерностей в поведении Осведомленного игрока для
Новичка означает отсутствие в его действиях информации, или, в случае
матричной игры, локального максимума энтропии в виде:
H   ri log ri
i
Где ri - компоненты профиля стратегий осведомленного игрока. Поиск
закономерностей в случае матричной игры соответствует вычислению
компонентов ri , а алгоритмом принятия решений может быть любой
алгоритм, максимизирующий H .
Единственным требованием к игре, которому нужно иметь объяснение –
игра должна быть антагонистической.
Модель коммуникации
Осведомленный игрок –
автор сообщения
Новичок – получатель
сообщения
ДО:
У игрока есть цель – вызвать
определенное поведение у
новичка. Он ее рационально
преследует.
Действия новичка блуждающие
– ему нужно “почувствовать”
цель осведомленного игрока
ПОСЛЕ:
Игроку все равно, какое
предпринять действие –
сообщение передано.
В действиях новичка есть
определенность. Сообщение
получено.
Результаты
• Алгоритм Новичка, асимптотически
выигрывающий 100% от принципиально
возможного выигрыша в антагонистическую
матричную игру против осведомленного
оппонента
• В процессе выполнения алгоритма можно
проверить условия, необходимые для его
применимости к данной игре.
• Алгоритм отражает возможную связь
механизма определения цели с физическим
принципом максимума энтропии.
Спасибо!
Контакты:
Павел А. Малышкин
МФТИ, ФРТК, кафедра Радиоэлектроники
и прикладной информатики
pavelmalyshkin@gmail.com
Скачать