Загрузил Xvbgdd Afgbjhc

Дискретные марковские процессы

1. Лабораторная работа № 1. Дискретные марковские
процессы
1.1. Цель работы
Целью работы является освоение способов принятия решений в
условиях риска.
1.2. Задачи
1. Изучение рекуррентного метода дискретных марковских
процессов (ДМП).
2. Реализация алгоритма для решения конкретной задачи.
1.3. Теоретическая часть
Случайный процесс называется марковским процессом (или
процессом без последействия), если для каждого момента времени t
вероятность любого состояния системы в будущем зависит только от
ее состояния в настоящем и не зависит от того, как система пришла в
это состояние.
Марковский процесс удобно задавать графом переходов из
состояния в состояние. Существуют два варианта описания
марковских процессов — с дискретным и с непрерывным временем.
В первом случае переход из одного состояния в другое
происходит в заранее известные моменты времени − такты или этапы
(1, 2, 3, 4, …). Переход осуществляется на каждом такте, то есть
исследователя интересует только последовательность состояний,
которую проходит случайный процесс в своем развитии, и не
интересует, когда конкретно происходил каждый из переходов.
Во втором случае исследователя интересует и цепочка
меняющих друг друга состояний, и моменты времени, в которые
происходили такие переходы.
Если вероятность перехода не зависит от времени, то
марковскую цепь называют однородной.
Рассмотрим первый случай − моделирование Марковского
процесса с дискретным временем.
Модель марковского процесса представим в виде графа
(рис. 1.1), в котором состояния (вершины) связаны между собой
связями (переходами из i-го состояния в j-е состояние).
1
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина
i
Pij
j
Рис. 1.1. Пример графа переходов
Каждый переход характеризуется вероятностью перехода Pij.
Вероятность Pij показывает, как часто после попадания в i-е
состояние осуществляется затем переход в j-е состояние. Конечно,
такие переходы происходят случайно, но если измерить частоту
переходов за достаточно большое время, то окажется, что эта частота
будет совпадать с заданной вероятностью перехода.
У каждого состояния сумма вероятностей всех переходов
(исходящих стрелок) из него в другие состояния должна быть всегда
равна 1, т.к. переходы из i-го состояния являются полной группой
случайных событий (рис. 1.2).
i
Pi3
Pi1
Pi2
j
Pi1+Pi2+Pi3=1
Рис. 1.2. Фрагмент графа переходов
Например, полностью граф может выглядеть так, как показано
на рис. 1.3.
2
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина
0.4
1
2
0.1
1
0.6
0.7
0.2
4
3
1
Рис. 1.3. Пример марковского графа переходов
Реализация марковского процесса (процесс его моделирования)
представляет собой вычисление последовательности (цепи)
переходов из состояния в состояние. Цепь на рис. 1.4 является
случайной последовательностью и может иметь также и другие
варианты реализации [1].
1
3
4
2
4
Рис. 1.4. Пример марковской цепи, смоделированной
по марковскому графу
Далее подробно рассматриваются дискретные марковские
процессы с доходностью и алгоритм вычисления оптимальной
стратегии для них на основе рекуррентного метода [2]. Суть задачи
состоит в том, что есть система, для который выделено конечное
множество
состояний.
Рассмотрим
депозитный
портфель
коммерческого банка как пример системы. Зададим множество
состояний депозитного портфеля банка – удовлетворительное и
плохое. Для перехода системы из состояния в состояние
используются стратегии. В нашем случае стратегиями выступают
открытие нового депозита со ставкой 9% годовых, со ставкой 10,5%
годовых и со ставкой 12% годовых. Для каждой стратегии задаются
вероятности переходов системы из состояния в состояние, а также
доходности, соответствующие таким переходам. В нашем случае
должны быть известны три матрицы для вероятностей перехода из
3
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина
состояния в состояние и три матрицы доходностей, поскольку
стратегий три. Размер матриц 2х2, поскольку состояний выделено
два.
1.4. Постановка задачи
Дано:
N – число состояний системы (оно неизменно на каждом этапе);
k – номер стратегии;
n – количество этапов моделирования;
pijk – вероятность перехода от одного состояния (i) к другому (j);
rijk – доходность.
Обозначим: qik – ожидаемая доходность; vi ( n ) – полная
ожидаемая доходность на n-ом этапе моделирования.
Требуется найти: d i ( n ) – номера оптимальных стратегий на
каждом этапе процесса (n=1, 2, 3…) для каждого i-того состояния
системы.
1.5. Алгоритм решения
Шаг 1. Вычислим ожидаемую доходность за один переход при
выходе из i-го состояния и при выборе стратегии k:
qik

N
 pijk rijk ,i, j=1,...N,
j 1
где i, j –состояния.
Шаг 2. Для каждого состояния i найдем полную ожидаемую
доходность за n этапов моделирования при выборе оптимальной
стратегии:
 k N k

vi ( n  1 )  maxqi   pij v j ( n ) ,n  0,1,2,...
k 

j 1

Зададим граничные доходы процесса: v j (0)  0.
Шаг 3. Найдем решение: d i ( n ) − номера оптимальных стратегий
на каждом этапе процесса (n =1, 2, 3…), для каждого i-того состояний
системы:
di ( n )  max vi ( n  1 ) .
4
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина
1.6. Пример
Дано:
2 состояния системы − «Удовлетворительное» («У») и «Плохое»
(«П»);
3 стратегии L, M, N, а также матрицы переходных
вероятностей (табл. 1.1) и доходностей для них (табл. 1.2):
Таблица 1.1
Матрицы переходных вероятностей
L(1)
Удовл Плохое M(2)
Удовл Плохое N(3)
Удовл Плохое
Удовл 1
0
Удовл 1
0
Удовл 1
0
Плохое 0,1
0,9
Плохое 0,33
0,67
Плохое 0,33
0,67
Таблица 1.2
L(1)
Удовл
Удовл 8,68
Плохое 2,43
Матрицы доходностей
Плохое M(2)
Удовл Плохое N(3)
Удовл
0
Удовл 16,83
0
Удовл 3,23
3,29
Плохое 14,11
7,63
Плохое 10,07
Плохое
0
7,86
Найти: номера оптимальных стратегий на каждом этапе
процесса (n =1,2,3…) для каждого состояния системы.
Решение. Рассмотрим первый этап моделирования (принятия
решений).
Шаг 1. Величина qik является ожидаемым доходом за один
переход при выходе из состояния i и при выборе стратегии k. Таким
образом:
qik

N
 pijk rijk , i , j  1, N ,
j 1
qУ1  8,68* 1  0* 0  8,68;
qУ2  16,83* 1  0* 0  16,83;
qУ3  3,23* 1  0* 0  3,23;
q1П  2,43* 0,1  3,29* 0,9  3,2;
2
qП
 14,11* 0,33  7,63* 0,67  9,77;
q 3П  10,07* 0,33  7,86* 0,67  8,59.
Занесем вычисленные показатели в табл. 1.3.
5
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина
Таблица 1.3
Результаты первого этапа моделирования
Состояния Стратегии
Переходные
Доходности rijk
вероятности pijk
У
П
У
П
У
1
1
0
8,68
0,00
2
1
0
16,83
0,00
3
1
0
3,23
0,00
П
1
0,10
0,90
2,43
3,29
2
0,33
0,67
14,11
7,63
3
0,33
0,67
10,07
7,86
Ожидаемые
доходности
8,68
16,83
3,23
3,20
9,77
8,59
Оптимальным является такое поведение, которое максимизирует
полный ожидаемый доход для всех состояний и шагов
моделирования.
Шаг 2. Полный ожидаемый доход вычисляется по следующей
рекуррентной формуле:
 k N k

vi ( n  1 )  maxqi   pij v j ( n ) ,n  0,1,2,...
k 

j 1

Зададим v j ( 0 )  0.
Вычислим полный ожидаемый доход для 1-ой стратегии на
первом этапе моделирования:
vУ1 ( 1 )  8,68  1* 0  0 * 0  8,68;
v1П ( 1 )  3,2  0,1* 0  0,9 * 0  3,2.
Вычислим полный ожидаемый доход для 2-ой стратегии на
первом этапе моделирования:
vУ2 ( 1 )  16,83  1* 0  0 * 0  16,83;
2
vП
( 1 )  9,77  0,33* 0  0,67 * 0  9,77.
Вычислим полный ожидаемый доход для 3-ей стратегии на
первом этапе моделирования:
vУ3 ( 1 )  3,23  1* 0  0 * 0  3,23;
v3П ( 1 )  8,59  0,33* 0  0,67 * 0  8,59.
Найдем максимальное значение полного ожидаемого дохода для
каждого состояния для первого этапа моделирования:
vУ ( 1 )  max8,68;16,83;3,23  16,83,
6
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина
v П ( 1 )  max3,2;9,77;8,59  9,77.
Шаг 3. Если система находится в «удовлетворительном»
состоянии, то рекомендуется придерживаться 2-ой стратегии. Эта
стратегия принесет доход на 1-ом этапе моделирования в размере
16,83 у.е.
Если же система находится в «плохом» состоянии, то
рекомендуется также придерживаться 2 стратегии. Эта стратегия
принесет доход на 1-ом этапе моделирования в размере 9,77 у.е.
Таким образом, dУ(1) = 2, dП(1) = 2.
Рассмотрим второй этап моделирования (принятия решений).
Найдем полные ожидаемые доходности и решение, которое следует
принять на втором этапе моделирования.
Вычислим полный ожидаемый доход для 1-ой стратегии на
втором этапе моделирования:
vУ1 ( 2 )  8,68  1* 16,83  0* 9,77  25,51;
v1П ( 2 )  3,2  0,1* 16,83  0,9* 9,77  13,68.
Вычислим полный ожидаемый доход для 2-ой стратегии на
втором этапе моделирования:
vУ2 ( 2 )  16,83  1* 16,83  0* 9,77  33,66;
2
vП
( 2 )  9,77  0,33* 16,83  0,67 * 9,77  21,87.
Вычислим полный ожидаемый доход для 3-ей стратегии на
втором этапе моделирования:
vУ3 ( 2 )  3,23  1* 16,83  0* 9,77  20,06;
v3П ( 2 )  8,59  0,33* 16,83  0,67 * 9,77  20,69.
Найдем максимальное значение полного ожидаемого дохода для
каждого состояния на втором этапе моделирования:
vУ ( 2 )  max25,51;33,66;20,06  33,66,
vП ( 2 )  max13,68;21,87;20,69  21,87.
На втором этапе моделирования в «удовлетворительном»
состоянии рекомендуется придерживаться 2-ой стратегии, то есть
стратегии М. Поддержание этой стратегии принесет прибыль в
размере 33,66 у.е. Если же система находится в «плохом» состоянии,
то также рекомендуется придерживаться 2-ой стратегии.
Поддержание этой стратегии принесет прибыль в размере 21,87 у.е.
7
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина
Рассмотрим третий этап моделирования (принятия решений).
Найдем полные ожидаемые доходности и решение, которое следует
принять на третьем этапе моделирования.
Вычислим полный ожидаемый доход для 1-ой стратегии на
третьем этапе моделирования:
vУ1 ( 3 )  8,68  1* 33,66  0* 21,87  42,34;
v1П ( 3 )  3,2  0,1* 33,66  0,9* 21,87  26,25.
Вычислим полный ожидаемый доход для 2-ой стратегии на
третьем этапе моделирования:
vУ2 ( 3 )  16,83  1* 33,66  0* 21,87  50,49;
2
vП
( 3 )  9,77  0,33* 33,66  0,67 * 21,87  35,53.
Вычислим полный ожидаемый доход для 3-ей стратегии на
третьем этапе моделирования:
vУ3 ( 3 )  3,23  1* 33,66  0 * 21,87  36,89;
v3П ( 3 )  8,59  0,33* 33,66  0,67 * 21,87  34,35.
Найдем максимальное значение полного ожидаемого дохода для
каждого состояния на третьем этапе моделирования:
vУ ( 3 )  max42,34;50,49;36,89  50,49,
vП ( 3 )  max26,25;35,53;34,35  35,53.
На третьем этапе моделирования в «удовлетворительном»
состоянии рекомендуется придерживаться 2-ой стратегии, то есть
стратегии М. Поддержание этой стратегии принесет прибыль в
размере 50,49 у.е. Если же система находится в «плохом» состоянии,
то рекомендуется придерживаться 2 стратегии. Поддержание этой
стратегии принесет прибыль в размере 35,53 у.е. Основные
результаты представлены в табл.1.4:
Таблица 1.4
n
vУ(n)
vП(n)
dУ(n)
dП(n)
Итоговая таблица выбора стратегий
0
1
2
3
0
16,83
33,66
50,49
0
9,77
21,87
35,53
2
2
2
2
2
2
8
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина
1.7. Задание для выполнения
1. Разработать приложение, реализующее рекуррентный
алгоритм дискретных марковских процессов с доходностью.
Требования к приложению:
− ввод числа (количества) стратегий;
− ввод количества состояний;
− редактирование матрицы вероятностей, доходностей;
− ввод количества шагов моделирования;
− вывод результатов моделирования для каждого шага: итоговая
доходность и оптимальная стратегия;
− вывод графа состояний;
− сохранение и загрузка данных в файл.
2. Написать отчет к лабораторной работе, структура которого
представлена ниже:
− постановка задачи;
− описание примера дискретных марковских процессов с
доходностью;
− руководство пользователя разработанного приложения на
своем примере;
− выводы по работе.
9
Теория принятия решений, Лаб. работа №1, Николаева, Зотова, Агадуллина