Пример 1. Нахождение защитных стратегий

реклама
Решение конечных
антагонистических игр
Лектор:
доцент каф. АОИ
Салмина Нина
Юрьевна
Модель антагонистической игры
J1 = –J2 = A = || aij ||mxn
А – платежная матрица
aij – выигрыш 1-го игрока, если он применяет i-ю
стратегию, а 2-й игрок применяет j-ю стратегию
m – количество стратегий первого игрока
n – количество стратегий второго игрока
αi – i-я стратегия первого игрока
βj – j-я стратегия второго игрока
Принципы оптимальности
Два основополагающих
принципа:
осторожности и
уравновешенности
Принцип осторожности
Защитные стратегии:
Стратегия α максимизирующая гарантированный
выигрыш 1-го игрока:
min a  max ,
ij
j
i
и стратегия β  минимизирующая гарантированный
проигрыш 2-го игрока: max a  min
i
ij
βj
Гарантированный выигрыш/проигрыш:
Нижняя цена игры
V1  max min aij
j
i
Верхняя цена игры
V2  min max aij
j
i
Пример 1
Пусть первый игрок имеет 2, а
второй игрок — 3 фишки.
Независимо и тайно друг от
друга они откладывают
произвольное количество
фишек. Если при этом
количество отложенных фишек
оказывается четным, то их
выигрывает игрок 1, в
противном случае фишки
достаются игроку 2.
Величина выигрыша
определяется общим
количеством выложенных
фишек
1
2
3
1
2
-3
4
2
-3
4
-5
Пример 1. Нахождение защитных
стратегий
1
2
3
min
1
2
-3
4
-3
2
-3
4
-5
-5
max
2
4
4
Пример 1. Нахождение защитных
стратегий
1
2
3
min
1
2
-3
4
-3
2
-3
4
-5
-5
max
2
4
4
V1  3
 '  1
 '  1
V2  2
Пример 2
Пусть у каждого игрока на
руках имеются по 3 карты. У
первого — валет, девятка,
десятка, у второго —
шестерка, восьмерка, дама.
Игроки одновременно
открывают по одной карте.
Тот, у кого карта старше,
получает выигрыш, равный
сумме очков на обеих картах
(валет считается старше
десятки, но его стоимость —
2 очка, дамы — 3 очка).
6
В
9
10
8
Д
Пример 2
Пусть у каждого игрока на
руках имеются по 3 карты. У
первого — валет, девятка,
десятка, у второго —
шестерка, восьмерка, дама.
Игроки одновременно
открывают по одной карте.
Тот, у кого карта старше,
получает выигрыш, равный
сумме очков на обеих картах
(валет считается старше
десятки, но его стоимость —
2 очка, дамы — 3 очка).
6
8
Д
В
8
10
-5
9
15
17
-12
10
16
18
-13
Пример 2. Нахождение защитных
стратегий
6
8
Д
min
В
8
10
-5
-5
9
15
17
-12
-5
10
16
18
-13
Max
16
18
-5
V1  5
 '  1
 '  3
V2  5
Принцип уравновешенности
Пара стратегий
(α i , β j  ) уравновешена, если
для  i, j выполняется
aij  ai j   ai j
Решением игры в чистых стратегиях
называется уравновешенная пара чистых
стратегий.
Цена игры: выигрыш 1-го игрока, если оба игрока
применяют оптимальные стратегии V  α
i j 
Существование решения в чистых
стратегиях
Игра имеет седловую точку тогда и только тогда, когда
нижняя цена игры равна верхней:
V1  max min aij  min max aij  V2  V
i
j
j
i
Неоднозначность решения
Если (α i1 , β j1 ) и (α i 2 , β j 2 ) — уравновешенные пары
стратегий, то пары (α i1 , β j 2 ) и (α i 2 , β j1 ) — также
уравновешены, причем α
i1 j1  α i 2 j 2  α i1 j 2  α i 2 j1 .
Пример 3. Нахождение седловых
точек
А=
2
2
3
4
2
0
4
3
4
2
3
3
3
1
0
2
Пример 3. Нахождение седловых
точек
А=
2
2
2
3
4
2
0
4
3
0
4
2
3
3
2
3
1
0
2
0
4
2
4
4
Седловые
точки
а12
а 32
Уравновешенные
пары стратегий
1 ,  2 
 3 ,  2 
Понятие смешанной стратегии
Смешанной стратегией называется распределение
вероятностей на заданном множестве чистых
стратегий:
X  ( x1 , x 2 , ..., x m ),
Y  ( y1 , y2 , ..., ym ),
где
где
xi  0,
yi  0,
m
x
i 1
1
i
m
y
i 1
i
1
Оценка полезности смешанных
стратегий
Математическое ожидание выигрыша первого игрока:
1-й игрок использует смешанную стратегию
стратегию β j ,
m
X а 2-й — чистую
M ( X , β j )   x i  a ij
i 1
1-й игрок выбирает чистую стратегию α i , а 2-й — смешанную
стратегию Y
n
M (α i , Y )   y j  aij .
j 1
оба игрока применяют смешанные стратегии X и Y
m
n
m
n
i 1
j 1
i 1 j 1
M ( X , Y )   xi  M (α i , Y )   y j  M ( X , β j )   xi  aij  y j .
Пример 1. Применение смешанных
стратегий
1
2
3
X
M ( X , β1 ) 
1
2
X
2
-3
-1/2
-3
4
1/2
4
-5
-1/2
1
1
1
 2   (3)   ;
2
2
2
1/2
M ( X , β2 ) 
1
1
1
 (3)   4  ;
2
2
2
M ( X , β3 ) 
1
1
1
 4   (5)  
2
2
2
1/2
Решение игры в смешанных
стратегиях
Решением игры в смешанных стратегиях
называется уравновешенная пара ( X  , Y  )
стратегий: M ( X , Y  )  M ( X  , Y  )  M ( X  , Y ).
Число V  M ( X  , Y  ) , которое представляет собой
выигрыш первого игрока при условии, что оба
игрока используют оптимальные стратегии,
называется ценой игры.
Уравновешенная пара
стратегий
Защитная пара
стратегий
Существование решения
Теорема о минимаксе: любая конечная игра
двух лиц со строгим соперничеством имеет
решение в смешанных стратегиях.
Существующие методы нахождения оптимальных стратегий:




Графический метод для игр 2xm и nx2
Метод линейного программирования
Аналитический метод для игр 2х2
Итеративный метод
Графический метод нахождения
защитных стратегий для игр 2xm и nx2
Игра 2хm
Смешанная стратегия 1-го игрока
Защитная стратегия
α2
min M ( X , β j )  max ,
j
X
α1
a2 n
a11
a22
V
a12
0
a21
X  ( x, 1 - x).
x
1
a1n
M ( X , β1 ).
M ( X , β 2 ).
Графический метод нахождения
защитных стратегий для игр 2xm и nx2
Игра nx2
Смешанная стратегия 2-го игрока
Защитная стратегия
2
max M ( i , Y )  min
Y
i
1
am 2
a11
a22
a12
M (1 , Y ).
M ( 2 , Y ).
V
0
Y  ( y, 1 - y )
a21
y
1
an1
M ( n , Y ).
Пример 1. нахождение оптимальной
стратегии для 1-го игрока
Игра:
2
-3
4
-3
4
-5
4
α2
α1
4
2
0
-3
-5
1
-3
Пример 1. нахождение оптимальной
стратегии для 1-го игрока
Игра:
2
-3
4
-3
4
-5
4
α2
α1
4
2
0
-3
-5
1
-3
Пример 1. нахождение оптимальной
стратегии для 1-го игрока
Игра:
2
-3
4
-3
4
-5
4
α1
α2
4
2
V
0
-3
-5
x
1
-3
Пример 1. нахождение оптимальной
стратегии для 1-го игрока
Игра:
2
-3
4
-3
4
-5
4
V
0
-3
-5
 3  (2  (3)) x  4  (3  4) x
α1
α2
x
 3  5x  4  7 x
4
12x  7
2
x  7 / 12
1
-3
Пример 1. нахождение оптимальной
стратегии для 1-го игрока
Игра:
2
-3
4
-3
4
-5
4
V
0
-3
-5
 3  (2  (3)) x  4  (3  4) x
α1
α2
x
 3  5x  4  7 x
4
12x  7
2
x  7 / 12
1
X  (7 / 12, 5 / 12)
-3
V  3  5  7 / 12  1/ 12
Сокращение платежной матрицы
Доминирование стратегий 1-го игрока:
Стратегия
α i доминирует стратегию α i , если для всех j
aij  aij
Доминирование стратегий 2-го игрока:
Стратегия β j  доминирует стратегию β j  ,если для всех
aij  aij
i
Пример сокращения платежной
матрицы
3
4
2
7
1
2
5
5
2
1
3
4
5
6
4
6
Пример сокращения платежной
матрицы
3
1
2
5
4
2
1
6
2
5
3
4
7
3
4
2
7
1
2
5
5
5
6
4
6
5
4
6
Пример сокращения платежной
матрицы
3
1
2
5
4
2
1
6
2
5
3
4
7
3
4
2
7
3
2
1
2
5
5
1
5
5
6
4
6
5
4
5
4
6
Пример сокращения платежной
матрицы
3
4
2
7
3
1
2
5
2
1
6
5
3
4
4
2
7
3
2
5
1
2
5
5
1
5
5
6
4
6
5
4
4
6
1
5
5
4
Скачать