Основная теорема матричных игр фон Неймана. Методы решения матричных игр

Автор работы: Пользователь скрыл имя, 29 Мая 2013 в 22:27, реферат

Описание работы

Наиболее многообещающим, из рассмотренных, выглядит метод Шепли-Сноу, так как он дает полное решение игры. Однако при значительной размерности платежной матрицы приходится решать большое количество систем линейных уравнений. Поэтому метод Шепли-Сноу можно рекомендовать для решения игр небольшой размерности. Наиболее простым в вычислительном плане является метод Брауна, но его сходимость достаточно быстро ухудшается с ростом размерности, поэтому этот метод можно рекомендовать для решения игр средней размерности (порядка нескольких десятков). Для решения игр большой размерности (порядка нескольких сотен или тысяч) предпочтительнее метод сведения их к задачам линейного программирования.

Файлы: 1 файл

Вопрос 13.docx

— 313.51 Кб (Скачать файл)

Основная теорема  матричных игр фон Неймана. Методы решения матричных игр.

Конечной антагонистической (или матричной) игрой называется тройка , где множества стратегий U1и U 2 состоят из конечного числа точек, а g(u1 , u2 )– функция дискретного аргумента.

 

Равенство имеет место тогда и только тогда,  когда матрицаА содержит седловую точку В этом случае общее значение нижней и верхней цены игры называется ценой игры, а i0  и

j0 - оптимальными стратегиями игроков.

Теорема (основная теорема матричных игр фон Неймана). Любая матричная игра имеет цену (в смешанных стратегиях), а игроки имеют оптимальные смешанные стратегии, т.е.

v = max min h( p, q) = min max h( p, q) =

pÎS

qÎS

qÎS

pÎSn

= min h( p 0 , q) = max h( p, q 0 ) = h( p 0 , q 0 ) . 

qÎS

pÎS n

Доказательство. Согласно теореме о необходимых и достаточных условиях существования седловой точки утверждение данной теоремы эк- вивалентно утверждению о существовании седловой точки у функции

h( p, q) на 

Sn ´ Sm . Последнее вытекает из теоремы о существовании седло-

вой точки у вогнуто-выпуклой функции. Действительно, множества

Sn  и S

являются, очевидно, выпуклыми замкнутыми ограниченными

подмножествами пространств 

R n   и 

R m , функция 

h( p, q) 

непрерывна по

p, q 

и линейна по 

p, q , следовательно, является вогнуто-выпуклой. Таким

образом, выполнены все условия теоремы о существовании седловой точки

у вогнуто-выпуклой функции и существует такая точка 

( p0 , q0 ) , что

h( p, q0 ) £ h( p0 , q0 ) £ h( p0 , q) 

"p, q. 

Из теоремы о необходимых и доста-

точных условиях существования седловой точки вытекает, что 

p0 реализу-

ет max min h( p, q) , 

q0  реализует 

min max h( p, q) 

и нижняя и верхняя цены

pÎS

qÎS 

qÎS

pÎSn

 

игры в смешанных стратегиях равны между собой, что и требовалось дока- зать.

Методы решения матричных игр

Задача решения матричной игры заключается либо в нахождении цены игры и хотя бы одной оптимальной стратегии каждого игрока, либо в нахождении цены игры и множеств всех оптимальных стратегий обоих игроков. В последнем случае решение называется полным. Так как множества оптимальных стратегий игроков представляют собой подмножества точек Sи Sm, удовлетворяющих системам линейных ограничений h( p0 , j) ³ v j =1, m.(3) и h(i, q0 ) £ v j = 1, n (4), то они являются выпуклыми замкнутыми ограниченными многогранниками.

В простейшем случае, когда у игрока имеются две чистые стратегии и его смешанная стратегия может быть полностью описана вероятностью выбора первой чистой стратегии p или q (вторая стратегия выбирается с

вероятностью 1- p или 1- q ), это означает, что множество оптимальных стратегий представляет собой либо одну точку, либо целый отрезок на от- резке [0,1] (возможно и весь этот отрезок). Для решения такой игры удобен

графический метод.

 

Графический метод

 

Рассмотрим матричную игру с двумя чистыми стратегиями у игрока

1 и произвольным числом стратегий m у игрока 2, т.е. игру с матрицей

размера 2´m (аналогично рассматривается игра с матрицей размера 

n ´ 2 ).

В соответствии с теоремой о свойствах оптимальных стратегий

запишем

v = max min[a  p + a 

(1 - p)] = max min[(a 

  • a  ) p + a
 

] = min[(a 

- a  ) p0 + a  ] .

0£ p£1 1£ j£m    1 2

0£ p£1 1£ j£m 1 2

2 j 1£ j£1 j 2 j 2 j

Для графического решения игры на отрезке [0,1] построим m линейных

функций 

(a1 j - a2 j ) p + a2 j

j = 1,2,..., m , найдем их нижнюю огибающую, соот-

ветствующую операции 

min , и у этой огибающей — точку (точки) макси-

1£ j £ m

мума. Абсцисса этой точки является оптимальной вероятностью выбора

первой чистой стратегии 

p 0 , а ордината — значением цены игры. Так как

при этом нижняя огибающая является, очевидно, графиком вогнутой ку- сочно-линейной функции (ломаной линией), то в точке максимума воз- можны два случая: либо через эту точку проходят две прямые, соответ

ствующие некоторым 

j1    и 

j2    и имеющие одна положительный, а другая

 

отрицательный наклон (возможно проходят и другие прямые), либо через эту точку проходит одна прямая, соответствующая некоторому j и параллельная оси абсцисс.

В первом случае можно построить оптимальную стратегию игрока 2,использующую только чистые стратегии j1 и j2    (q 1=0 для всех j ¹ j 1 j 2).

Для этого qj1 0     qj2  0  

надо выбирать как решение системы

q j10   + q j20= 1, k1 qj1 0 +k2 qj2 0= 0,

где k и k2- коэффициенты наклонов соответствующих прямых.

Тогда, очевидно, выполняется h( p, q 0 ) ) = v "p, , т.е. по первой из теорем о необходимых и достаточных условиях  оптимальности стратегии q0— оптимальная стратегия.

Во втором случае оптимальной является j -я чистая стратегия, так как   h( p, j) = v "p.

На рис. 7.1 и 7.2 изображены характерные для первого и второго

случая графические построения.

 

h


 

 

 

 

 

 

 

j1 j

 

 

j2

 

0 p0 1 p

Рис. 7.1 

 

 

 

0 p0 1 p

Рис. 7.2

 

Метод Шепли-Сноу

 

Этот метод предназначен для решения матричной игры произволь- ной размерности n´m. Множество оптимальных стратегий каждого игрока в такой игре представляет собой многогранник, который полностью опре- деляется конечным числом своих крайних точек (вершин), т.е. точек, не представимых в виде нетривиальной линейной комбинации двух различ- ных точек многогранника. Поэтому для нахождения полного решения мат- ричной игры достаточно определить крайние оптимальные стратегии, т.е. крайние точки множеств оптимальных стратегий. Метод нахождения крайних оптимальных стратегий вытекает из следующей теоремы.

Теорема (Шепли-Сноу). Все крайние оптимальные стратегии

p0  и q0  обоих игроков в игре с платежной матрицей ‖aij‖ и цена игры v

должны удовлетворять какой-либо из систем уравнений:

å ai j pi2- v = 0, t = 1,..., r, å pi   = 1,   (1)

å ai j qi2- v = 0, s = 1,..., r, å qi   = 1,   (2)

где a - квадратная матрица, полученная из матрицы aij   вычеркиванием некоторого количества строк и столбцов. Все остальные p0 и q0 с индексами, соответствующими вычеркнутым строкам и столбцам, равны нулю. При этом, если v ¹ 0 , то матрица a    невырождена.


s

По теореме Шепли-Сноу полное решение матричной игры сводится

к перебору всех квадратных подматриц матрицы игры и решению соответствующих систем линейных уравнений (1), (2). Если v ¹ 0 , то эти системы, очевидно, либо имеют единственное решение, либо не имеют решения. Полученное решение надо проверить на неотрицательность и на выполнение условий оптимальности (4), (3) для вычеркнутых строк и столбцов. Если условия выполнены, то решения системы, дополненные нулями на местах, соответствующих вычеркнутым строкам и столбцам, являются оптимальными стратегиями (но необязательно крайними, так как условия теоремы необходимые, но не достаточные). Полный перебор при- ведет к нахождению всех крайних оптимальных стратегий. Так как трудоемкость решения по методу Шепли-Сноу растет с увеличением размерности матрицы игры, то имеет смысл предварительно вычеркнуть в соответствии с принципом доминирования лишние строки и столбцы (если ищется полное решение, то при строгом доминировании), которые входят в оптимальные стратегии с нулевой вероятностью; цена игры при этом, очевидно, не меняется. Так как при решении системы линейных уравнений (1), (2) удобнее оперировать с невырожденной подматрицей a


s t

, то исход ную игру следует свести к игре с заведомо не равной нулю ценой. Проще всего это сделать следующим образом: прибавить к каждому элементу        матрицы aij     одну и ту же достаточно большую константу так, чтобы полученная матрица была положительной; тогда в новой игре цена, очевидно, больше нуля, причем она отличается от цены исходной игры на величину этой константы, а множества оптимальных стратегий игроков в обеих играх совпадают.


Метод Брауна

При достаточно большой размерности матрицы игры метод Шепли- Сноу приводит к решению больших систем линейных уравнений, что представляет собой весьма трудоемкий и не просто реализуемый вычисли- тельный процесс. Метод Брауна является более простым и удобным для численной реализации. Идея метода Брауна, с помощью которого можно получить лишь приближенное частное решение игры (т.е. по одной опти- мальной стратегии игроков), состоит в следующем.

Рассмотрим фиктивный процесс обучения игроков в многократно повторяющейся матричной игре со следующими простыми правилами.

На первом шаге игроки выбирают произвольные чистые стратегии i1

и j1 , ничего не зная о выборе противника.

На втором шаге игроки узнают предыдущий выбор противника и считают, что он и на втором шаге будет придерживаться той же стратегии. Тогда игрок 1 в соответствии со своим критерием выберет такую чистую стратегию i2 , что       ai j= max aij   ,

а игрок 2 выберет такую чистую стратегию j2 , что

ai j= min ai j

На третьем шаге игрок 1 считает, что игрок 2 может использовать

чистые стратегии 1 j и 2 j с равной вероятностью, и выбирает чистую стратегию i 3, которая максимизирует математическое ожидание выигрыша.

Аналогично, игрок 2 считает, что игрок 1 может использовать чистые стратегии i1 и i2 с равной вероятностью, и выбирает чистую стратегию  j3 , которая минимизирует математическое ожидание проигрыша:

На последующих шагах каждый игрок ориентируется на накоплен-


ную противником смешанную стратегию и выбирает свою чистую страте- гию из условия максимума или минимума соответствующего математиче-

ского ожидания. Обозначим через 

pi (k ) 

и q j (k) 

частоты появления i -й и

j -й чистых стратегий игроков в k повторениях; 

pi (k ) = ri / k, где r

— чис-

ло появлений i -й стратегии игрока 1 

(i = 1,..., n) , 

q j (k ) = l j / k , где l j   

число появлений j -й стратегии игрока 2 

( j = 1,..., m) . Тогда на 

k + 1шаге

 

игрок 1 считает, что игрок 2 будет использовать смешанную стратегию

q(k) = (q1 (k),..., qm (k )) и выбирает чистую стратегию ik +1 такую, что

h(ik +1, q(k)) = max h(i, q(k )) . 

Аналогично, игрок 2 считает, что первый будет использовать сме-

шанную стратегию

и выбирает чистую стратегию jk+1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее пересчитывают частоты по формулам

 

и переходят к следующей ( k + 2 )-й итерации.

Обозначим

Из утверждения следует 

v1 (k ) ³ v ³ v2 (k)"k ,

где v - цена игры, причем, если v1 (k ) = v2 (k) , то это общее значение есть цена игры,а p(k) и q(k) - оптимальные смешанные стратегии игроков.

Основное утверждение, на котором базируется метод Брауна, заклю- чается в сходимости сформулированного итеративного процесса:

практически вычисления по методу Брауна производят следующим образом. Задают точность решения если e > 0 и прекращают процесс после k шагов, если

При этом в качестве приближенного значения цены игры принимают величину

а e -оптимальными стратегиями игроков являются p(s1 ) , где s1 определяется из условия

и q(s2 ) , где s2 определяется из условия

Скорость сходимости итеративного процесса по методу Брауна уменьшается с увеличением размерности матрицы игры; ее порядок\

D(k ) = ck -1/(n+m-2)

 

Если после конечного числа шагов выполняется равенство D(k ) = 0 ,

то  решение игры найдено точно.

Существует тесная связь между матричными играми и линейным программированием. Решение любой матричной игры можно свести к решению пары двойственных задач линейного программирования специального вида (соответствующий результат будет сформулирован для игр с положительными матрицами, но любую матричную игру, как уже было сказано, можно свести к игре с положительной матрицей прибавлением достаточно большой константы к каждому элементу матрицы). С другой стороны, любую задачу линейного программирования, имеющую решение, можно свести к матричной игре специального вида

Определение. Матричная игра называется симметричной, если ее платежная матрица ‖ aij‖ кососимметрическая, т.е.

                                                                    aij = -a ji "i, j

 

Так как кососимметрическая матрица квадратная, то размерности векторов в смешанных стратегиях обоих игроков одинаковы (m = n) , а мно- жества всех смешанных стратегий совпадают. Свойство симметричных игр сформулировано в следующей лемме.

Информация о работе Основная теорема матричных игр фон Неймана. Методы решения матричных игр