теоретико-игровые модели на линейных когнитивных картах

реклама
ТЕОРЕТИКО-ИГРОВЫЕ МОДЕЛИ НА ЛИНЕЙНЫХ КОГНИТИВНЫХ
КАРТАХ
Куливец С.Г., аспирант
Институт проблем управления РАН им. В.А. Трапезникова
e-mail: skulivec@yandex.ru
Рассмотрим игру n ( n  2 ) лиц на линейной когнитивной карте (ЛКК)
  
Г С  N , Si



iN ,
 fi iN , C
(1)
Здесь:
N={1,…,n} – множество игроков;
M={1,…,m} – множество факторов ЛКК;
 M i  M , M i – множество факторов ЛКК доступных для управления i-м игроком (управляемые
i N
факторы для i-го игрока), обозначим количество факторов в M i через mi ;

R 
R  ...

Стратегия i-го игрока задается вектором si  Si , Si  R mi , здесь R mi  


R ;
mi

 f i iN

С – линейная когнитивная карта.
– множество целевых функций игроков;
Под линейной когнитивной картой мы будем понимать взвешенный орграф, вершины и дуги
которого удовлетворяют нижеописанным условиям, и задано правило динамики значений вершин. Каждая
вершина этого орграфа представляет фактор из предметной области. Ориентированные дуги представляют
причинно-следственные связи между факторами в предметной области. Фактор-причина – это фактор, из
которого выходит дуга, а фактор-следствие ecть фактор, в который она входит. Абсолютное значение веса
дуги задает силу этой связи. Знак веса дуги в орграфе задает вид связи: положительный знак говорит о
прямой причинно-следственной связи, отрицательный знак – об обратной причинно-следственной связи.
Далее в работе под матрицей смежности орграфа W мы будем понимать матрицу, элементы которой w ji
соответствуют весам дуг, задающих силу и вид причинно-следственных связей. w ji  R , оценка силы
причинно-следственной связи j-го фактора-причины на i-й фактор-следствие.
Определение: Причинно-следственная связь между факторами называется прямой, если увеличение
значения фактора-причины приводит к увеличению значения фактора-следствия, а уменьшение значения
фактора-причины приводит к уменьшению значения фактора-следствия. Причинно-следственная связь
между факторами называется обратной, если увеличение значения фактора-причины приводит к
уменьшению значения фактора-следствия, а уменьшение значения фактора-причины приводит к
увеличению значения фактора-следствия.
Пусть время дискретно и начальному состоянию системы соответствует нулевой момент времени.
Значения факторов в нулевой момент времени обозначим вектором действительных чисел
x0  x10 , x20 ,...,xm0 . Начальные возмущения для каждого фактора также выражены в виде вектора


действительных чисел
уравнением


p 0  p10 , p20 ,..., pm0 . Динамика значений факторов в системе определяется

pi0 ,
t 0

xi (t  1)  xi (t )  pi (t ) , где pi (t )   w  p (t  1), t  1,2,3,...
 ji j

 jM
(2)
Здесь w ji – элементы W (матрицы смежности орграфа). Здесь и далее будем предполагать, что
собственные значения матрицы W содержатся внутри окружности единичного радиуса на комплексной
плоскости. Это обеспечивает согласно теореме из [1] абсолютную устойчивость автономного импульсного
процесса, т.е. ряд из последовательных приращений для каждого фактора p0  p0 W  p0 W 2  p0 W 3  ...
сходится и его можно представить в виде


p0  p0 W  p0 W 2  p0 W 3  ...  p0  E  W  W 2  W 3  ...  p0  Q ,
где Q  E  W  W 2  W 3  ...  E  W 1 [1]. Здесь Е – единичная матрица.
Таким образом, получаем для j-го элемента



 sM

 p j (t )  p 0j   wkj  pk0   wkj    wsk  ps0   ...   qkj  pk0
t 0
k M
k M
(3)
k M
Здесь qkj – элементы матрицы транзитивного замыкания Q для матрицы смежности орграфа W. Это
предположение позволяет нам рассматривать в качестве результата выбора из возможных стратегий игроков
значения факторов, после того как импульсный процесс сойдется:

x j  x 0j   p j (t ) , j  M
(4)
t 0


Таким образом, вектор действительных значений x  x1 , x2 ,...,xm определяет конечное состояние
системы, на основе которого будут определяться значения целевых функций.
В игре на линейной когнитивной карте стратегией i-го игрока будет вектор, составленный из
начальных возмущений pk0 для управляемых факторов из M i ( si  ( pk01 , pk02 ,..., pk0m ) , M i  {k1, k2 ,...,kmi } ).
i
В данной работе развивается описание игры на линейной когнитивной карте, представленное в работе
[2].
Цели игрока могут быть представлены двумя видами:
Заданием желаемого направления для изменения (увеличения или уменьшения) значения целевого
фактора;
 Удержанием значения целевого фактора вблизи желаемого значения.
Для каждого из вариантов могут быть построены соответствующие целевые функции. Важно
подчеркнуть, что далее мы будем рассматривать две отдельные задачи, в каждой из которых цели игроков
определяются только одним из двух описанных вариантов. Отметим, что целевых факторов у каждого из
игроков может быть несколько и для каждого из них будет свое желаемое направление для изменения, либо
свое желаемое значение. Поэтому целевые функции должны учитывать совокупность интересов игрока по
каждому из целевых факторов. Целевые функции игроков будем записывать таким образом, чтобы для
достижения своей цели игроки максимизировали значение своей целевой функции.
Рассмотрим случай, когда цель игрока можно рассматривать как задание желаемых направлений для
изменения (увеличение, уменьшение) значений целевых факторов. В этом случае целевая функция i-го
игрока может быть представлена в виде
f i    ij  ( xj  x 0j )
(5)

jM
Здесь
x j
– значение j-го фактора в конечном состоянии,
x 0j
– начальное значение j-го фактора,  ij –
«доля важности» j-го фактора, как целевого фактора, среди остальных целевых факторов i-го игрока,
 ij [1,1] ,

jM
 ij  1 . Знак коэффициента  ij отражает желаемое направление изменения значения
фактора. Если  ij  0 , то i-й игрок стремится увеличить значение j-го фактора. Если  ij  0 , то i-й игрок
стремится уменьшить значение j-го фактора. Если  ij  0 , то i-му игроку безразлично значение j-го фактора.
Факторы, разность между начальным и конечным значениями которых представлены в (5) с коэффициентом
 ij  0 , мы будем называть целевыми факторами для i-го игрока.
Представление целевой функции для i-го игрока (5) не выражает в явном виде зависимость выигрыша
i-го игрока от действий всех игроков. Для того чтобы эта зависимость была видна, преобразуем вид целевой
функции. В (5) вместо x j подставим правую часть выражения (4).
fi 




  ij  ( xj  x0j )    ij  ( x0j   p j (t )  x0j )    ij    p j (t ) 
jM
jM
t 0
jM
 t 0

Далее, используя выражение (3), получаем




f i    ij    p j (t )     ij    qkj  pk0  
j M
 t 0
 j M
 k M




    ij  qkj  pk0      ij  qkj   pk0 
jM k M
k M 
 jM


(6)


Обозначим  ik     ij  qkj  , тогда целевую функцию i-го игрока можно записать в виде
 jM



f i    ik  pk0
(7)
k M
Вид (7) целевой функции i-го игрока в явном виде выражает зависимость выигрыша i-го игрока от
действий всех игроков.
Определение: Вектор действий (стратегий) si  s1,..., si 1, si 1,..., sn  всех игроков, кроме i-го,
называется обстановкой игры для i-го игрока ( i  N ). Напомним, что здесь sq  ( pk01 , pk02 ,..., pk0m ) q
стратегия q-ого игрока, M q  {k1 , k2 ,..., kmq } .
*
Определение: Стратегия si
si  Si
обстановки
и
для
называется доминантной стратегией игрока i, если для любой
любых
стратегий
si  Si
игрока
i-го
справедливо
неравенство
fi ( si* si ) 
fi ( si si ) . Здесь f i – целевая функция i-го игрока. Другими словами, если у игрока, независимо
от действий противников, есть стратегия, дающая максимальный выигрыш по сравнению с его другими
стратегиями, то эта стратегия называется доминантной.
Целесообразность использования каждым игроком своих доминантных стратегий очевидна.
Разделим запись суммы в (7) на две суммы: первая сумма по начальным возмущениям управляемых
факторов i-го игрока (стратегии i-го игрока), вторая сумма по начальным возмущениям управляемых
факторов остальных игроков (обстановке игры для i-го игрока).
f i    ik  pk0 
(8)
ik  pk0  i1  siT  i2  sTi
k M i
k 
jN \{i }
Mj
Здесь i1, i2 – векторы, составленные из соответствующих коэффициентов  ik в первой и второй
сумме, siT , sTi – транспонированные вектора стратегии и обстановки игры, соответственно, для i-го игрока.
Представление целевой функции i-го игрока в виде (8) позволяет аддитивно разделить зависимость значения
целевой функции от выбранной игроком стратегии и от обстановки игры для него. Исходя из определения
доминантной стратегии можно утверждать, что для i-го игрока существует доминантная стратегия, если
существует хотя бы один вектор si*  Si , такой что для любых векторов si  Si , s i  S  i выполняется
неравенство
 
T
i1  si*  i2  sTi  i1  si  i2  sTi ,
либо, после сокращения одинаковых слагаемых, неравенство
 
i1  si*
T
  i1  si .
Другими словами, для существования доминантной стратегии игрока необходимо и достаточно,
чтобы первое слагаемое в записи (8) достигало своего максимума на множестве стратегий S i , а


si*  arg max i1  siT будет доминантной стратегией игрока [3].
si S i
В случае Si  R mi функция  i1  siT
линейной функции был максимум на
компактным множеством. Для целевой
стратегий i-го игрока S i компактное
в силу линейности не имеет максимума на S i . Для того, чтобы у
S i , достаточно, чтобы множество стратегий игрока S i было
функции вида (5) будем рассматривать в качестве множества
множество вида [ pkmin
, pkmax
]  [ pkmin
, pkmax
]  ... [ pkmin
, pkmax
] , где
1
1
2
2
m
m
i
i
psmin , psmax  R - ограничения на начальные возмущения системы, s  M i .
Введенные ограничения на S i , позволяют определить доминантную стратегию для i-го игрока в

случае целевой функции (5). Исходя из si*  arg max i1  siT
si S i
 очевидно, что доминантную стратегию i-го
игрока si* можно вычислять согласно правилу:
min

 p , Sign( ik )  0
pk*   kmax
, k , k  M i .
(9)

 pk , Sign(ik )  0
Проведенные рассуждения для произвольного игрока i позволяют вычислить доминантные стратегии
для каждого игрока из N.
Определение: Если для каждого игрока i существует доминантная стратегия si* , то их совокупность
 
s*  si*
iN
называется равновесием в доминантных стратегиях (РДС).
Решением игры (1) с целевыми функциями игроков вида (5) будет РДС. Доминантные стратегии
игроков можно вычислять по формуле (9).
Рассмотрим случай, когда цель игрока можно рассматривать как удержание значений целевых
факторов вблизи желаемых значений. В этом случае целевая функция i-го игрока может быть представлена
в виде
(10)
fi    ij   ( x j  xij* ) 2
jM


Здесь x j - значение j-го фактора в конечном состоянии, xij* - желаемое значение j-го фактора для i-го
игрока,  ij - «доля важности» j-го фактора, как целевого фактора, среди остальных целевых факторов i-го
  ij  1 .
игрока,  ij [0,1] ,
jM
Представление целевой функции для i-го игрока (10) не выражает в явном виде зависимость
выигрыша i-го игрока от действий всех игроков. Для того чтобы эта зависимость была видна, преобразуем
вид целевой функции. В (10) вместо x j подставим правую часть выражения (4).


f i    ij   ( x j  xij* ) 2     ij  ( x 0j   qkj  pk0  xij* ) 2 
jM
    ij  (cij   q kj 
jM
kM
jM
kM
p k0 ) 2
(11)
В (11) через cij обозначена разность x 0j  xij* .

Определение: Ситуация s*  s1* , s2* ,...,sn*

называется ситуацией равновесия по Нэшу (в чистых
стратегиях), если для всех i  N и si  Si , справедливо неравенство fi (si* , s* i )  fi (si , s* i ) . [3]
Ситуация равновесия Нэша характеризуется тем, что отклонение от данной ситуации равновесия
одним из игроков не может увеличить его выигрыша, и, таким образом, рациональной стратегией каждого
игрока должна быть реализация этого равновесия. Отметим, что ситуация равновесия по Нэшу в чистых
стратегиях для игры может не существовать или быть не единственной.
В теории игр известна теорема
Теорема Если в непрерывной игре множества стратегий S i – выпуклые подмножества линейных
метрических пространств, для каждого игрока i функция выигрыша f i непрерывна по всем переменным и
строго вогнута по переменной si , то в этой игре существует равновесие Нэша в чистых стратегиях. [3]
Игра (1) с целевой функцией (10) (преобразованной к виду (11)) удовлетворяет условиям теоремы.
f i
Множество равновесий Нэша в чистых стратегиях можно найти из решения системы уравнений:
 0,
pk0
k  M i , i  N . Более детально:
 2


  ij  qk j   cij   qkj  pk0   0 ,
jM
1

k M



 2    ij  qk 2 j   cij   qkj  pk0   0 ,
jM
k M


…


 2    ij  qk m j   cij   qkj  pk0   0 ,
i
jM
k M


M i  k1, k2 ,...,kmi , i  N .


В преобразованном виде


    ij  qsj  qkj   pk0     ij  qsj  cij , s  M i , i  N (12)
k M  jM
jM

0
Полагаем в (12), что pk  0, k   M i , т.е. для всех неуправляемых факторов.
iN
Множество решений системы линейных алгебраических уравнений (12) будет множеством ситуаций
равновесия по Нэшу в чистых стратегиях для игры (1) с целевыми функциями игроков вида (10).
Литература.
1.
2.
3.
Робертс Ф. Дискретные математические модели с приложениями к социальным, биологическим и экологическим
задачам. – М.: Наука, 1986.
Новиков Д.А. «Когнитивные игры»: линейная импульсная модель. Проблемы управления. № 3, 2008 г.
Губко М.В., Новиков Д.А. Теория игр в управлении организационными системами. – М.: ИПУ РАН, 2005.
Скачать