Escrit per: CB Garcia i WI Zangwill

Professors de Ciències de la Gestió a la Booth School of Business (tots dos jubilats)

Actualitzat per 18, 2018 d'August (Garcia i Zangwill [8, 9]).

paraules clauTheory teoria del joc, dilema del pres, probabilitats subjectives, bayesianes

abstracte: Von Neumann i Morgenstern (VNM), utilitzant la hipòtesi d’utilitat esperada, van proporcionar la formulació fonamental del problema de la teoria de jocs. Fins a aquest punt, però, aquesta formulació havia estat difícil de resoldre sense imposar supòsits addicionals. Nash havia d’assumir que els jugadors estaven desacoblats de manera que la probabilitat que el jugador A prengués una acció fos independent de la probabilitat que el jugador B actués. En aquest treball eliminem els supòsits de Nash, incloent la hipòtesi que les estratègies dels jugadors són coneixements habituals i proposem un model totalment equivalent al problema general de VNM. La nostra formulació fàcilment resolt elimina algunes de les dificultats inherents a l'enfocament Nash, que sovint produïen resultats contradictoris i contrarius, com per exemple, al dilema del pres, el joc de pollastre, la paradoxa de Newcomb, la caça dels ceps i molts altres jocs. Per exemple, deixant la suposició mútua d’independència de Nash en el dilema del pres, el nostre model demostra que els jugadors són capaços d’obtenir rendiments superiors i, per aconseguir-ho, no necessiten jugar de forma cooperativa ni comunicar-se, sinó simplement aplicar el teorema de Bayes, a l’estil de (Harsanyi [10]; Kadane i Larkey [11]). El nostre enfocament divideix l'espai de probabilitat en dos semiespais o regions, la mida relativa dels quals depèn dels beneficis. Ara bé, no cal estimar la probabilitat amb precisió, sinó determinar només en quina regió es troba. Això proporciona avantatges importants, ja que, si una regió és considerablement més gran que l’altra, obtindrà una visió immediata de la manera de jugar. La nostra solució general, que no està correlacionada, diguem en el sentit d’Aumann [1], conté l’equilibri Nash com a solucions particulars. En contraposició a les solucions descriptives Nash, la nostra solució és un parell prescriptiu d’estratègies purament expectatives racionals, produint un nou fonament per a la teoria de jocs. Ampliem el nostre enfocament als jocs generals de M-Person, tal com il·lustrem en el joc de les tisores de roca i el problema de la barra d’aglomeració.

Resum de resultats.

Ara resumim alguns resultats, basats en els detalls i les retribucions explícites que es proporcionen a continuació. Creiem que aquests resultats demostren el valor del nostre enfocament per a la docència i la investigació, ja que els resultats solen presentar solucions noves.

Joc de coordinació: La suposició de la independència de Nash no troba l’aproximació bayesiana superior que fem. Per als beneficis que es proporcionen a continuació, jugueu la primera estratègia si creieu que la probabilitat de l’adversari de jugar la seva primera estratègia és, com a mínim, de 1 / 3, sinó que jugueu la segona estratègia. Nash no proporciona informació sobre quan aplicar quina estratègia. A més, si es canvien els beneficis, el nostre enfocament proporciona probabilitats revisades. Batalla dels sexes: dues parts difereixen per on han d’anar, però no se’ls permet comunicar-se. Les dues parts obtenen una bona recompensa si ambdues opten per la mateixa elecció, ja que com a mínim estan totes dues. Un partit determinat obtindrà un bo si tots dos opten per l'elecció d'aquest partit. Tampoc obté una bona recompensa si van a llocs diferents. Tenint en compte els beneficis que es presenten a continuació, el jugador A hauria de jugar la seva estratègia desitjada si creu que l’altre jugador també seleccionarà l’elecció desitjada d’A amb una probabilitat d’almenys 33%. En canvi, Nash proporciona tres equilibris sense conèixer de prop quan no hi ha cap anàlisi de les probabilitats. Parell de centaus: dos jugadors, parells i parells, mostren simultàniament un cèntim. Si els pennies coincideixen, Even manté els dos centaus; altrament, Odd manté els dos centaus. L'equilibri únic de Nash per a aquest joc de suma zero és que els dos jugadors juguen aleatòriament. Tenint en compte els beneficis següents, Parell hauria de jugar a caps si creu que Odd jugarà a caps amb probabilitat d'almenys 50%. D’altra banda, Odd hauria de jugar a capçalera si creu que Parell jugarà a caps amb probabilitat de com a màxim 50%. Joc de pollastre: dos cotxes s’avancen cap a l’altre i estan a punt de patir un cop de front. Nash suggereix que un cotxe ha de girar i l’altre anar recte, però ofereix poca visió sobre el que hauria de passar. Tenint en compte els beneficis següents, el nostre enfocament suggereix que penseu si creieu que l'oponent canviarà amb una probabilitat de 90% com a màxim, si no, aneu directament. Observeu aquí que els dos jugadors que giren (o els dos van rectes) no són un equilibri de Nash, sinó que els dos jugadors que giren (o tots dos van rectes) amb l'esperança que el rival es dirigeixi (o vagi) a ser un escenari d'equilibri. A més, si es canvien els beneficis, el nostre enfocament ofereix probabilitats actualitzades. Cursa d’armes: inicialment cada país acumula armes per no atacar-lo. Però, com es demostra a continuació, es redueix la disminució dels rendiments de les armes d’aport, obrint l’oportunitat d’un tractat de pau. Nash no identifica l’oportunitat del tractat de pau. Caça de cervesa: caça estagó si creieu que l'oponent caçarà ceps amb probabilitat com a mínim de 50%, sinó que caça llebre. (L’equilibri pur de Nash és tant per a la caça de ceps, com per a la caça de llebre). Problema de Newcomb: si el problema de Newcomb es planteja com a dilema dels presos, es pot arribar a la solució al problema de Newcomb de dues maneres: com l'equilibri Nash no cooperatiu que utilitza el principi de dominància o com a solució cooperativa utilitzant la hipòtesi de la utilitat esperada. Joc de tisores de paper de roca: l'equilibri de Nash és per a tu que jugui una matriu de cara a 3 a l'atzar. El que sembla ser una nova estratègia per a aquest joc antic és que jugueu a la roca si creieu que el vostre oponent jugarà paper amb probabilitat com a màxim de 33% i tisores amb probabilitat d'almenys 33%; per jugar a paper si creieu que el vostre oponent jugarà tisores amb una probabilitat de 33% com a màxim i un valor de probabilitat com a mínim de 33%; més per jugar a tisores. (El nostre enfocament us pot ajudar si diteu que teniu dades sobre les anteriors jugades del partit del vostre oponent.) El joc de bar-crowding té 3 amics A, B i C: Qualsevol que vagi al bar sol no obté res; quedar-se a casa és un millor elecció. Si dos amics van al bar, aquesta és la millor opció. Si surten els tres, la barra llença els tres fora. Els equilibris de Nash són per a tots els que es queden a casa o per a que tots juguin la seva primera estratègia amb una probabilitat igual al 33%. Però si teniu informació sobre els vostres amics i podeu estimar les probabilitats bayesianes del seu comportament, la nostra estratègia us pot ajudar.

També ampliem la nostra aproximació al joc de les persones M i obtenim dades similars. Per exemple, mostrem la solució completa dels jocs generals de la persona 2 i els jocs d’estratègies 3 per a les persones generals de la 2.

Hipòtesi de la utilitat esperada.

En un joc 2-Person, deixeu que els jugadors A i B tinguin estratègies 2: A1 o A2 per al jugador A, i B1 o B2 per al jugador B.

La base de la teoria de la utilitat esperada és el teorema d’utilitat de von Neumann - Morgenstern (von Neumann i Morgenstern [20]): deixeu que Aij i Bij siguin les retribucions als jugadors A i B respectivament si el jugador A juga a Ai i el jugador B juga Bj, per a i , j = 1 o 2. La hipòtesi de la utilitat esperada estableix que els jugadors A i B han de maximitzar els seus beneficis esperats1:

on pA (Ai i Bj) és la probabilitat del jugador A que A jugui Ai i B jugui Bj, i de manera similar per al jugador B.

Probabilitats condicionades[1].

Pel nostre plantejament, nosaltres caure Nash suposa que les probabilitats dels jugadors són independents mútuament. Això permet que el nostre problema (1) sigui més general i obtingui més solucions que satisfan la hipòtesi d’utilitat esperada.

Siguin els beneficis previstos per EP (A | Ai) i EP (B | Bj)[2],[3] d'A i B respectivament, ja que A juga A i B juguen Bj, per i, j = 1, 2:

Comencem demostrant que Teorema elemental “bayesià” dels jocs cosa que demostra l’equivalència del nostre enfocament a la formulació VNM:

Teorema 1[5]. Els problemes (3) a continuació equivalen als problemes (1)[6]:

Prova. Segons el teorema de Bayes,

Llavors,

El màxim[7] de l'equació anterior és pA (A1) = 1 (és a dir, jugar a l'estratègia A1) si EP (A | A1) ≥ EP (A | A2), o pA (A1) = 0 (és a dir, jugar a l'estratègia A2) si EP ( A | A1) EP (A | A2). Per tant, (3) manté el jugador A. Un argument similar es manté per al jugador BQED

Regions VNM.

Definiu les regions VNM A1 i A2 com a politops convexos:

Com es mostra a continuació, A hauria de jugar a l'estratègia A1 si espera que B estigui a la regió A1. En cas contrari, A hauria de jugar a A2. La línia d’equilibri

separa l’espai de probabilitats a les dues regions i proporciona un mitjà d’anàlisi visualment útil[8].

Importància de les regions: les dues regions són importants pràcticament, ja que ara no cal estimar la probabilitat amb precisió, sinó només determinar en quines de les regions es troba. Amb freqüència, es veurà que la probabilitat prèvia és que hi hagi en una regió. , i la identificació d'aquesta regió és informació suficient per suggerir el joc adequat del joc. Per exemple, suposem que la regió A1 és considerablement més gran que l'altra, de manera que és probable que hi hagi una regió A1. Això proporciona informació convincent que el jugador A probablement reproduirà A1.

Anàlogament per a B:

Les regions VNM depenen de les distribucions de probabilitats prèvies dels jugadors, sovint anomenades simplement priors (Jaynes [13]; Harsanyi [10]; Kadane i Larkey [11]), que són l'expressió de creences dels jugadors sobre la distribució de probabilitats de el seu oponent. [9]

Corol·lari 2. Tenint en compte (3), A juga a l'estratègia A1 si i només espera que el jugador B estigui a la regió VNM A1. Altrament, A juga l'estratègia A2. De la mateixa manera, B juga a l'estratègia B1 si i només espera que el jugador A estigui a la regió VNM B1. Altrament, B juga a l'estratègia B2.

Prova. EP (A | A1) ≥ EP (A | A2) si i només si A11 pA (B1 | A1) + A12 pA (B2 | A1) ≥ A21 pA (B1 | A2) + A22 pA (B2 | A2) si i només si (A11 - A12) pA (B1 | A1) + (A21 - A22) pA (B2 | A2) + A12 - A21 ≥ 0.

De la mateixa manera, EP (B | B1) ≥ EP (B | B2) si i només si B11 pB (A1 | B1) + B21 pB (A2 | B1) ≥ B12 pB (A1 | B2)

+ B22 pB (A2 | B2) si i només si (B11 - B21) pB (A1 | B1) + (B12 - B22) pB (A2 | B2) + B21 - B12 ≥ 0. QED

Des del teorema 1 i el corol·lari 2, per a punts de les regions (5) i (7), es manté la hipòtesi d’utilitat esperada, és a dir, les regions VNM defineixen la solució general del joc 2-Person.[10].

Equilibri de Nash.

Si les probabilitats dels jugadors són mútuament independents, les regions del VNM simplifiquen:

Proposició 3. Suposem que un equilibri de Nash (p (A1), p (B1)) es troba a la regió VNM Ai i a la regió BJ de VNM respectivament, per a alguns i, j = 1, 2. Aleshores, el jugador A jugarà a l’estratègia Ai i el jugador B jugarà a l’estratègia

Bj.

Prova. El problema d’equilibri de Nash és problema (1), on pA (Ai i Bj) = pB (Ai i Bj) = p (Ai) p (Bj), o problema (3), on pA (Bj | Ai) = p (Bj ) i pB (Ai | Bj) = p (Ai), per a i, j = 1, 2. Així, el corol·lari 2 manté, on les regions VNM són definides per (8), per pA (B1) = p (B1) i pB (A1) = p (A1). QED

Recordem que les equacions d’equilibri

separa les regions VNM, obtenint així la solució general a qualsevol joc. Aquestes mateixes equacions d'equilibri, on pB (A1) = p (A1) i pA (B1) = p (B1), donen l'equilibri mixt de Nash11, com mostrem a la taula següent.

Proposició 4. Tenint en compte qualsevol joc A = [[A11, A12], [A21, A22]] i B = [[B11, B12], [B21, B22]], els equilibris de Nash per al joc es calculen a partir de la fila aplicable de la taula 112.

Prova. Observeu que (i, j) és un equilibri de Nash pur si i només si sgn (2i - 1) * (A11 - A21)> 0 i sgn (2j - 1) * (B11 - B12)> 0, per a i, j = 0, 1. Utilitzant aquest fet, per a cada fila de la taula 1, enumerem tots els parells (i, j) que són els equilibris Nash purs.

Finalment, perquè la parella (a, b) definida per (9) sigui un equilibri mixt de Nash, només hem de mostrar que 0 <a <1 i 0 <b <1. Però tingueu en compte que per a les files 6, 7, 10 i 11 de la taula 1, el numerador i denominador de a, 1 - a, b o 1 - b són positius o tots dos negatius; per tant, a, 1 - a, b, 1 - b són tots majors que 0. QED

Exemple de domini iterat[13].

Siguin A = [[2, 2], [3, 1]] i B = [[0, 1], [0, 2]]. "Play A1 & B2" és l'equilibri de Nash.

Proposició 5. Tenint en compte A = [[2, 2], [3, 1]] i B = [[0, 1], [0, 2]], el jugador A jugarà A1 i el jugador B jugarà B2.

Prova. La regió VNM A1 és: pA (B2 | A2) ≥ 1 / 2, i la regió VNM B2 és: pB (A2 | B2) ≥ -1. Per tant, el jugador B jugarà B2. El jugador A també sap que aquest és el cas, per tant, pA (B2 | A2) = 1. Atès que pA (B2 | A2) = 1 és un punt de la regió VNM A1, el jugador A juga a A1. QED

Exemple de coordinació.

Sigui A = B = [[2, 0], [0, 1]]. Hi ha punts d’equilibri 3 Nash: “jugar A1 & B1”, “jugar A2 & B2” i “jugar a A1 (o B1) amb probabilitat 1 / 3”. La regió VNM A1 és: 2pA (B1 | A1) ≥ pA (B2 | A2) i la regió VNM B1 és: 2pB (A1 | B1) ≥ pB (A2 | B2). Analitzant visualment aquestes regions VNM, probablement A i B triaran les estratègies A1 i B1 respectivament.

Proposició 6. Tenint en compte A = B = [[2, 0], [0, 1]], si les probabilitats dels jugadors són independents mútuament, aleshores jugueu la primera estratègia si creieu que la probabilitat del rival de jugar la seva primera estratègia és com a mínim 1 / 3, una altra estratègia.

Prova. La regió VNM A1 és: pA (B1) ≥ 1 / 3 i la regió VNM B1 és: pB (A1) ≥ 1 / 3. QED

Exemple Batalla dels Sexes.

Siguin A = [[3, 1], [1, 2]] i B = [[2, 1], [1, 3]]. Hi ha punts d’equilibri 3 Nash: “jugar A1 & B1”, “jugar A2 & B2” i “jugar a A1 amb probabilitat 2 / 3, jugar a B1 amb probabilitat 1 / 3”. La regió VNM A1 és: 2pA (B1 | A1) ≥ pA (B2 | A2) i la regió VNM B1 és: pB (A1 | B1) ≥ 2pB (A2 | B2). A preferiria escollir A1 i B preferiria B2.

Proposició 7. Tenint en compte A = [[3, 1], [1, 2]] i B = [[2, 1], [1, 3]], si les probabilitats dels jugadors són mútuament independents, doncs: juga A1 si pA (B1 ) ≥ 1 / 3, en cas contrari reprodueix A2; Jugueu B1 si pB (A1) ≥ 2 / 3, si no, juga a B2.

Prova. La regió VNM A1 és: pA (B1) ≥ 1 / 3 i la regió VNM B1 és: pB (A1) ≥ 2 / 3. QED

Coincideixen amb un exemple de Pennies

Sigui A = [[1, -1], [-1, 1]] i B = [[-1, 1], [1, -1]]. Aquest joc de suma zero té un equilibri Nash mixt: "jugar A1 amb probabilitat 1 / 2, jugar B1 amb probabilitat 1 / 2".

Proposició 8. Tenint en compte A = [[1, -1], [-1, 1]] i B = [[-1, 1], [1, -1]], si les probabilitats dels jugadors són mútuament independents, doncs: juga A1 si pA (B1) ≥ 1 / 2, si no, toqueu A2; Juga a B1 si pB (A1) 1 / 2, en cas contrari reproduïu B2[14].

Prova. La regió VNM A1 és: pA (B1) ≥ 1 / 2 i la regió VNM B1 és: pB (A1) 1 / 2. QED

Exemple de joc de pollastre (Sugden [19]).

Sigui A = [[0, -1], [1, -10]] i B = [[0, 1], [-1, -10]]. Els equilibris de Nash són "jugar A1 (swerve) i B2 (anar recte)", "jugar A2 (anar recte) i B1 (swerve)" i "jugar A1 (B1) amb probabilitat 0.9".

Proposició 9. En el joc de pollastre, si les probabilitats dels jugadors són mútuament independents, aleshores: mireu si creieu que el rival optarà amb una probabilitat com a màxim de 90%, si no, aneu directament.

Prova. La regió VNM A1 és: pA (B1) + 11pA (B2) ≥ 2, o pA (B1) ≤ 9 / 10. De la mateixa manera, la regió VNM B1 és: pB (A1) ≤ 9 / 10. QED

Observeu que si el vostre oponent mostra massa il·lusió (com a mínim 90%) per fer-se valer, haureu d’anar directament.

Escenari preferit: els jugadors són més propensos a girar que a seguir rectes.

Escenari de pollastre: Suposem que pA (B1) = pB (A1) = 0. Els dos jugadors esperen que l’altre jugador passi recte. Tots dos giraran.

Escenari de catàstrofes: Suposem que pA (B1) = pB (A1) = 1. Els dos jugadors esperen que l’altre jugador faci girar. Tots dos aniran rectes[15].

Escenari d’equilibri de Nash: Suposem que pA (B1) = 1 - pB (A1) i pB (A1) = 0 o 1. El jugador que espera que l’altre jugador vagi recte canviarà i el jugador que esperi que l’altre jugador n’angi passarà directament.

Exemple de cursa d’armes.

A la proposició 9, deixem A = [[0, -x], [1, -10x]], B = [[0, 1], [-y, -10y]], per x, i ≥ 0. Que A1 o B1 siguin "a la recerca de la pau" i A2 o B2 sigui "atac nuclear". Els valors x i y denoten, respectivament, el fons de braços de B i A.

El país A busca la pau si la probabilitat que els atacs del país B siguin superiors a 1 / (9x + 1); altrament, un atac. La corba de probabilitat pA (B1) = 1 / (9x + 1) baixa ràpidament, per exemple, pA (B1) = 1 / 2 a x = 1 / 9, però aviat es replà dramàticament: B ha de tornar a emmagatzemar-se ràpidament inicialment, però com a corba els pisos, hi haurà poc benefici a B per emmagatzemar braços.

I de la mateixa manera per al país B.

En resum, cada país inicialment acumula armes per no atacar-lo. Però es redueixen els rendiments en disminució ràpida de les armes d’estoc, obrint l’oportunitat de buscar un tractat de pau.

Com a il·lustració, penseu en l'estoc nuclear nuclear estimat per 2018[16] de la taula 2.

A partir de les despeses anteriors i de la taula 2, una Corea del Nord racional hauria de buscar un tractat de pau amb els Estats Units i Rússia.

Skyrms [16]).

Siguin A = [[4, 1], [3, 2]] i B = [[4, 3], [1, 2]]. Els equilibris de Nash són "jugar A1 (Stag) i B1 (Stag)", "jugar A2 (Hare) i B2 (Hare)" i "jugar A1 (B1) amb probabilitat 0.5".

Proposició 10. A la caça de ceps, si les probabilitats dels jugadors són independents mútuament, doncs: busqueu cervells si creieu que el contrincant caçarà ceps i tindrà una probabilitat d'almenys 50%, o bé caça llebre.

Prova. La regió VNM A1 és: 3pA (B1) + pA (B2) ≥ 2, o pA (B1) ≥ 1 / 2. De la mateixa manera, la regió VNM B1 és: pB (A1) ≥ 1 / 2. QED

Dilema del pres[17].

Deixem A12 <A22 <A11 <A21, i deixem que B sigui igual al transposició de A. Com que A11 <A21 i A12 <A22, l'ús del principi de dominació produeix l'equilibri Nash, és a dir, la solució no cooperativa "juga A2 (defecte) i B2 (defecte) ”. Però com que A22 <A11, A i B són millors si tots dos juguen a la solució cooperativa "play A1 (silenci) i B1 (silenci)".

Proposició 11. En el dilema del pres, si les probabilitats dels jugadors són mútuament independents, els jugadors juguen de manera no cooperativa[18].

Prova. Considereu el costat esquerre de la regió VNM A1:

(A11 - A12 - A21 + A22) pàgA(B1) + A12 - A22.

Si A11 - A12 - A21 + A22 ≤ 0, llavors (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ A12 - A22 <0. D'altra banda, si A11 - A12 - A21 + A22> 0, llavors (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ (A11 - A12 - A21 + A22) + A12 - A22 = A11 - A21 <0. Per tant, per als anteriors per al jugador A, la regió VNM A1 és el conjunt nul, per tant ha de jugar l'estratègia 2.

De la mateixa manera, el jugador B ha de jugar a l'estratègia 2. QED

La proposta 11 mostra clarament que l’assumpció de la independència ens restringeix a la solució no cooperativa.

Exemple de dilema del presoner clàssic.

En el dilema del pres clàssic, A = [[-1, -3], [0, -2]] i B = [[-1, 0], [-3, -2]].

Proposició 12. En el dilema dels presos clàssics, si els jugadors principals són: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2, pB (A1 | B1) + pB (A2 | B2) ≥ 3 els jugadors jugaran a la solució cooperativa2.

Prova. La regió VNM A1 és: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2 i la regió VNM B1 és: pB (A1 | B1) + pB (A2 | B2 Per tant, per als nivells previs, els jugadors A i B han de jugar a la solució cooperativa. QED

A la Proposició 12, noteu la barra alta necessària per reproduir la solució cooperativa. Els jugadors preferirien jugar a la solució no cooperativa.

Una instància en què l’enfocament Nash no es planteja jugar a l’estratègia cooperativa.

Considereu el dilema del pres on A11 - A12 = A21 - A22, A21 = A11 + m i A22 = A11 - M, on m> 0 és petit i M> 0 és molt gran. Per exemple, A = [[100, -3], [101, -2]]. Recordem a partir de la Proposició 11 que, si les probabilitats dels jugadors són independents mútuament, els jugadors jugaran de manera no cooperativa.

Evidentment, seria insensat que els jugadors no tinguessin en compte ni jugar l’estratègia 1 ja que si un jugador juga 2, la possibilitat que l’altre jugador també jugui 2 produiria una pèrdua important, i per què arriscar-la. És evident que l’enfocament de Nash no considera la possibilitat de jugar a la solució cooperativa, fins i tot quan és la solució òbvia a jugar, un punt molt important, les discussions sobre desglossaments del mercat en els models d’equilibri econòmic general.

D’altra banda, com es mostra a la proposa proposició, deixant de banda l’assumpció de la independència, el nostre enfocament jugarà la solució cooperativa més que la no cooperativa.

La línia negra és la línia d’indiferència pel dilema clàssic del pres. Un jugador té més probabilitats de jugar a l'estratègia 2 a causa de la improbable probabilitat d'estar a la regió per jugar a l'estratègia

1.

La línia verda és la línia d'indiferència per a aquesta instància del dilema del pres: pA (B1 | A1) + pA (B2 | A2) = 1 + m / (M + m). Aquí, la mida de la regió de probabilitats per a l'estratègia 1 és gairebé la de l'estratègia 2. El nostre enfocament és aconsellar als jugadors que es plantegin jugar l'estratègia 1.

Proposició 13. Tenint en compte el dilema d'un pres on A11 - A12 = A21 - A22, A21 = A11 + m i A22 = A11 - M, on m> 0 és petit i M> 0 és molt gran, els jugadors A i B jugaran a la solució cooperativa20.

  • Per tant, els jugadors no jugaran a la solució no cooperativa.
  • Actualment, per arribar a la solució cooperativa, s’afegeixen supòsits, per exemple, la racionalitat delimitada, la informació incompleta (Aumann i Maschler [2]; Acevedo i Krueger [4]); les probabilitats conjuntes previstes de Daley donades a A són pA (Ai i Bj), A conclou que pA (A1 i B1) han d'estar a prop de 1, perquè A i B probablement juguin a l'estratègia 1, on els seus beneficis són força alts i només m unitats menys que el màxim.

Per tant, pA (B1 | A1) = pA (A1 i B1) / pA (A1) també han d'estar a prop de 1.

A també conclou que pA (A2 i B2) pA (A2 i B1) ja que B és més probable jugar a l'estratègia 2 si A està jugant a l'estratègia 2. Per tant, pA (B2 | A2) = pA (A2 i B2) / (pA (A2 i B1) + pA (A2 i B2)) 1 / 2. A conclou, utilitzant la figura 1, que B està suficientment dins de la regió VNM A1. De la mateixa manera, B jugarà l'estratègia 1. QED

La paradoxa de Newcomb com a versió del dilema del pres.

A la famosa paradoxa de Newcomb (Wolpert i Benford [21]), hi ha un pronosticador B, un jugador A i una caixa X. Al jugador A s’opta per agafar la casella X o la caixa X més $ 1,000. Abans que A faci la seva selecció, B prediu el que farà A i les prediccions de B són gairebé segures. Si B preveu que A només ocuparà la casella X, aleshores B posa 1,000,000 $ a la casella X. En aquest cas, ja que el quadre té un $ 1,000,000, A rebrà $ 1,000,000 o $ 1,001,000 segons si A tria el quadre X o X més $ 1,000. D'altra banda, si B preveu que A ocuparà la casella X més $ 1,000, aleshores B no posa res al quadre X. En aquest cas, depenent de la seva elecció, A bé rep $ 1,000 o res.

La paradoxa de Newcomb és que dues anàlisis perfectament racionals donen respostes contradictòries al problema d’optimització del jugador A: sota la hipòtesi d’utilitat esperada, el jugador A només hauria de prendre només la casella X, ja que la recompensa de prendre X és molt superior. D'altra banda, sota el principi de domini, el jugador A hauria d'adquirir la caixa X més $ 1,000.

La paradoxa s'entén millor per un passatge de (Wolpert i Benford [21]): "... Newcomb va dir que només prendria X; per què lluitar contra un ésser similar a Déu? Tot i això, Nozick va dir: "Per a tothom, és perfectament clar i evident què s'ha de fer. La dificultat és que aquestes persones semblen dividir-se gairebé de manera uniforme en el problema, i un gran nombre pensa que la meitat oposada només és una tonteria. "...".

Wolpert i Benford resolen la paradoxa mostrant que el problema de Newcomb representa en realitat dos jocs diferents amb resultats probabilístics diferents.

En aquest apartat, resoldrem la paradoxa plantejant el problema de Newcomb com a dilema dels presos. Al fer-ho, es pot arribar a la solució al problema de Newcomb de dues maneres: com a solució no cooperativa (agafem la casella X més $ 1,000) mitjançant el principi de domini, o com a solució cooperativa (només agafem la casella X) fent servir l’esperat hipòtesi d’utilitat.

Suposem que hi ha un ric benefactor que promet finançar una matriu de recompenses per al predictor B, que produeix el següent joc: A = [[$ 1,000,000, 0], [$ 1,001,000, $ 1,000]] i B = [[$ 1,000,000, $ 1,001,000 ], [0, $ 1,000]].

Si B pronostica correctament, B obté el que obté el jugador A. Però si B prediu erròniament, B obté $ 1,001,000 menys el que obté AX21.

Des de la Proposició 13, els jugadors A i B jugaran de forma cooperativa en aquest joc.

Si és el cas de Nash, el jugador resol el problema mitjançant el principi de domini, també ho fa el predictor. Tant el predictiu com el jugador seran a la solució no cooperativa: agafeu X més $ 1,000. Si el jugador resol el problema mitjançant la hipòtesi de la utilitat esperada, també ho fa el pronosticador, i tant el predictiu com el jugador estaran a la solució cooperativa: prengui només X. En qualsevol dels dos casos, la predicció del predictor és

i Sadowski [6]) o es descriuen nous mètodes, per exemple, equilibris correlacionats per tit-per-tat (Axelrod [3]; Aumann [1]).

21 Tingueu en compte que, plantejant el problema de Newcomb com a problema de PD, el predictor proporciona un incentiu personal que no troba en el problema de Newcomb.

cert. Atès que des de la Proposició 13, els jugadors no jugaran la solució no cooperativa, estem d’acord amb Newcomb que la cooperació és l’estratègia evident que cal portar.

Tingueu en compte que a la figura 1, però, la regió per a la cooperació és insignificantment menor que la de la no cooperació. No ens sorprèn, doncs, si la gent es divideix de forma uniforme quina estratègia cal adoptar.

Una generalització del dilema del presoner per a persones M.

Per entendre millor com es pot desglossar la solució Nash en els models d’equilibri econòmic general, generalitzem el dilema del pres a M-Persones, amb cada jugador amb estratègies 2, per M. 2.

Descrivim el joc de la persona M mitjançant arbres binaris.

La figura 2 és la recuperació del dilema del pres del jugador A. Tree (2, 1) és l'arbre binari amb el jugador B (jugador 2) com a pare i el jugador A (jugador 1) com a fill. Per obtenir la recompensa del jugador B, només cal que canvieu els papers de pare i fill a Tree (1, 2). Recordem que pel dilema del pres, A12 <A22 <A11 <A21.

A continuació, suposem que Tree (M - 1, M - 2, ..., 2, 1) denota la recompensa del jugador A per a un joc personal (M - 1), per a M 3 Construeix l’arbre d’escompliment del jugador A (M, M - 1,…, 2, 1) per a un joc de M-Person deixant que l’arbre del jugador A (M - 1, M - 2,…, 2, 1) siguin els arbres secundaris d’ambdues. branques del jugador pare M.

Els valors numèrics de la recompensa de l’arbre secundari dret s’assumeixen diferents dels de l’arbre secundari esquerre, sempre que la relació A12 <A22 <A11 <A21 es mantingui arreu de l’arbre.

Finalment, donat Tree (M, M - 1, ..., 2, 1) per al jugador A, crea Tree (1, M, M - 1, ..., 3, 2) per al jugador B (jugador 2) fent que 1 sigui el més alt pare; Arbre (1, 2, M, M - 1, ..., 4, 3) del jugador 3 convertint 2 en el segon pare més elevat, ..., Arbre (1, 2, 3, ..., M - 2, M, M - 1 ) per al jugador M - 1 convertint M - 2 en el tercer fill més baix, Tree (1, 2, 3, ..., M - 1, M) per al jugador M convertint M - 1 en el segon fill més baix.

Completen la descripció de les retribucions dels jugadors per a un joc de dilema del presoner en persona M, amb cada jugador amb estratègies 2.

Teorema 14. Pel dilema del pres del personatge M, M 2, utilitzant el principi de domini, la solució Nash és que els jugadors juguin l'estratègia 2.

Prova. Ja sabem que el teorema és de M = 2. Suposem per inducció que el teorema és de M - 1, per a M 3 Mostrem que el teorema és de M.

Arbre donat (M, M - 1, ..., 2, 1) per al jugador A, recordeu que per construcció, els arbres secundaris de les branques esquerra i dreta tenen la forma Arbre (M - 1, M - 2, ..., 2 , 1) per al jugador 1, Arbre (M, M - 1, ..., 2) per al jugador 2, Arbre (2, M, M - 1, ..., 4, 3) per al jugador 3, ..., Arbre (2, ... , M - 2, M, M - 1) per al jugador M - 1. Aquests arbres secundaris són idèntics per als jugadors 1, 2, ..., M - 1, tret de l'etiquetatge dels nodes dels pares. Tingueu en compte que l'estratègia de cada jugador 2 domina la seva estratègia 1 en qualsevol condició. Per inducció, utilitzant el principi de domini, els jugadors 1 a M - 1 jugaran a l'estratègia 2.

Per tant, tenint en compte Tree (1, 2, ..., M - 1, M) per al jugador M, si M toca 1, la recompensa del jugador M és b (el segon node més dret de l'arbre) mentre que si M toca 2, la recompensa per al jugador M és A22 (el node més dret de l'arbre). Segons el principi de domini, ja que A12 <A22, el jugador M també jugarà a l'estratègia 2. QED

Ara suposem que qualsevol recompensa del tipus A11 és molt més gran que qualsevol recompensa del tipus A22; i que A21 = A11 + m, on les retribucions A11 i A21 es troben en nodes adjacents.

És evident que l’enfocament de Nash no planteja jugar la solució cooperativa “estratègia de joc 1” fins i tot quan és la solució òbvia de jugar.

Seguint l'argument inductiu del teorema 14, també podem concloure que, com que els arbres sub de les branques esquerra i dreta són de la forma Arbre (M - 1, M - 2, ..., 2, 1) per al jugador 1, Tree ( M - 1, M - 2, ..., 2) per al jugador 2, Tree (2, M, M - 1, ..., 4, 3) per al jugador 3, ..., Tree (2, ..., M - 2, M, M - 1) per al jugador M - 1, per inducció, utilitzant la hipòtesi de la utilitat esperada, els jugadors 1 a M - 1 jugaran a l'estratègia 1 on la recompensa és del tipus A11.

Per tant, tenint en compte Tree (1, 2, ..., M - 1, M) per al jugador M, si M toca 1, la recompensa del jugador M és un (el node més esquerre de l'arbre) mentre que si M juga 2, la recompensa de el jugador M és A21 = A11 + m (el segon node més esquerre de l'arbre). Des de A11 <A21, el jugador M pot tenir la temptació de jugar a l'estratègia 2. Però, per què arriscar-se a jugar a l'estratègia 2 per a unitats m més que A11, quan podria comportar un resultat del tipus A22, un benefici significativament inferior a A11?

Segons la hipòtesi d’utilitat esperada, el jugador M també ha de jugar a l’estratègia 1.

Jocs generals per a persones en M.

Finalment, generalitzem el teorema 1 per a jocs en general de persones M.

Que hi hagi M jugadors, on cada jugador que tingui ni possibles estratègies per a cada i = 1, 2, ..., M. Tenint en compte el vector d’estratègia (j1, j2,…, jM), deixeu que la recompensa al jugador siga Aij1j2 ... jM. Sigui xi una estratègia mixta per al jugador i, és a dir, una estratègia xi on Σj xij = 1, xij 0, all j, i let x = (xi, xi) denoten les estratègies de tots els jugadors. El problema de Nash és:

on EP (i | xi) és la recompensa esperada del jugador que he donat xi i on la suma és per sobre de tot jk i tot k.

Una estratègia x * és un equilibri de Nash si xi * és una solució al problema del jugador i anterior, donat xi *.

Per al nostre enfocament, deixem pij1, j2, ..., jM ser el jugador la probabilitat que el jugador k jk, per a tot jk i tot k. La teoria de la utilitat esperada de Von Neumann-Morgenstern diu que l'objectiu del jugador i és maximitzar el seu benefici previst:

on la suma és per sobre de tot jk i tot k.

Definir

on -i juga a j-i vol dir que el jugador k toca jk i on la suma és superior a tot jk, per a tot k i.

Teorema 15. Els problemes (13) a continuació equivalen als problemes (11):

Prova.. Per definició,

on la suma és per sobre de tot rk, per a qualsevol k i.

El denominador de (14) és la probabilitat pi (jo jugu ji). Per tant,

Des Σ pi (jo jugo ji) = 1 i pi (jo jugo ji) 0 per a tots els ji, es desprèn que el jugador juga a l'estratègia [arg maxji EP (i | jo juga ji]]. QED

Un mètode per trobar la millor estratègia per al jugador i és el següent: Per a qualsevol parell d’estratègies per al jugador i, diguem estratègia r i estratègia s, calculeu el lloc de punts on els beneficis esperats estiguin condicionats a que el jugador que jo jugui o siguin iguals. . Això defineix una superfície d’indiferència que divideix l’espai de probabilitat condicional en regions 2 VNM. Una regió VNM s'identifica r perquè l'estratègia de tria és r, i l'altra regió VNM s'etiqueta s perquè l'estratègia de selecció és s.

Després dels càlculs anteriors, totes les regions de VNM hauran estat etiquetades tantes vegades com hi hagi parells d'estratègies diferents. Per a qualsevol regió VNM determinada, agafeu dues de les múltiples etiquetes i elimineu-ne una en funció de la superfície d’indiferència creada per aquest parell d’etiquetes. El procés s’acaba quan cada regió VNM té una sola etiqueta.

Jocs generals per a persones amb 2.

Que el jugador A tingui estratègies Ai, i = 1, 2, ... n1 i el jugador B tinguin estratègies Bj, j = 1, 2, ... n2. Suposeu que les probabilitats dels jugadors són mútuament independents. El problema (13) és:

Per tant, les regions VNM es defineixen per politops convexos:

Com es pot observar a (16), la solució establerta a un joc de persones amb 2 general és senzilla. Per exemple, tingueu en compte el joc de Rock-Paper-tisores de més de dos anys en què es troba l’equilibri de Nash: juga qualsevol estratègia amb 33% de probabilitat:

Estratègia A1 o B1 (rock) perd a l'estratègia A2 o B2 (paper) perd a l'estratègia A3 o B3 (tisores) perd a la roca.

Per al jugador A, en general el tenim 0 pA (Bj) 1,

que redueix a

I de manera similar per al jugador B.

El que sembla ser una nova estratègia per a aquest joc antic és: jugar al rock si creieu que el vostre oponent jugarà paper amb probabilitat com a màxim de 33% i tisores amb probabilitat d'almenys 33%; jugueu al paper si creieu que el vostre oponent jugarà a tisores amb una probabilitat com a màxim de 33% i amb una probabilitat d'almenys 33%; més juga a tisores22.

Jocs de 3-person on cada persona té estratègies de 2.

Apliquem el Teorema 15 per trobar la solució establerta a un joc de persones 3, on cada jugador A, B i C tenen estratègies 2 Ai, Bi, Ci, per a i = 1, 2 respectivament.

Suposeu que les probabilitats dels jugadors són mútuament independents. Per al jugador A, l’equació (13) és

i de la mateixa manera per als jugadors B i C. Utilitzant el teorema 15, la solució es defineix per:

Utilitzem l'anterior per al joc de Bar-crowding[21]:

Si el jugador es troba a casa, el seu pagament és 1; si el jugador està sol a la barra, el seu pagament és 0; si el jugador es troba a la barra amb una altra persona, el seu pagament és 2; si no, la seva remuneració és -1.

Tenim: A111 - A211 = -2, A112 - A212 = A121 - A221 = 1, A122 - A222 = -1, per tant, la regió VNM A1 és la regió -3pA (B1) (C1) - 2 ≥ 1, o equivalent a la regió[22] pA (B1) ≥ (1 - 2pA (C1)) / (2 - 3pA (C1)). De la mateixa manera, la regió VNM B1 és la regió pB (A1) ≥ (1 - 2pB (C1)) / (2 - 3pB (C1)) i la regió VNM C1 és la regió pC (B1) ≥ (1) - 2 - A / (1 - 2pC (A3)). Els equilibris de Nash són p (A) = p (B) = p (C) = 1 i p (A) = p (B) = p (C) = 1 / 1.

Reconeixement.

Volem agrair a Al Roth i Todd Davies el seu inestimable assessorament i orientació en la preparació d’aquest article.

Notes al peu

[1] Per senzillesa, fem el supòsit comú que la utilitat és una funció lineal de la recompensa (Starmer [18]). Per tant, maximitzar la utilitat esperada és el mateix que maximitzar els beneficis previstos.

[2] El nostre enfocament bayesià per als jocs difereix del treball bayesià anterior (per exemple, Acevedo i Krueger [4]; Aumann [1]; Daley i Sadowski [6]; McKelvey i Palfrey [12]; Quattrone i Tversky [15]) en aquest sentit, a diferència dels altres enfocaments, el nostre enfocament compleix les probabilitats condicionades inequívocament a la hipòtesi de la utilitat prevista, que la nostra solució sempre satisfà.

[3] Un crític afirma que “els jugadors racionals no ho han de considerar i no haurien de considerar les probabilitats condicionals ... Imagineu-vos un agent que sàpiga que la probabilitat de pluja és p. La vostra "solució" sembla ser que l'agent hauria de portar-li un paraigua si plogui i deixar el paraigües si no plou ".
El teorema 1 demostra que les crítiques antigues no són injustificades. Respecte a aquesta última crítica, deixem que EP (agent | porti un paraigua) = p, i EP (agent | no porti un paraigua) = 1 - p. La nostra solució seria: portar un paraigua si p ≥ 1 / 2; no porteu cap paraigua si p ≤ 1 / 2.

[4] Les probabilitats condicionals de (2) no violen el principi de Spohn [17]: "Qualsevol model de decisió quantitativa adequat no ha de contenir explícitament o implícitament cap probabilitat subjectiva d'actes ..." Les probabilitats condicionals d'un jugador són probabilitats subjectives per a l'oponent. estratègies, no per les seves pròpies estratègies.

[5] Aquest teorema es generalitzarà a un per a jocs de persona M.

[6] No hi ha cap senyalització entre els jugadors.

[7] Les variables independents pA (B1 | A1) i pA (B2 | A2) s'assumeixen donades en el problema de maximització, una simplificació que evita el problema de regressió infinita (similar al supòsit de Nash que p (B1) es dóna per al jugador A en la formulació del seu problema de maximització).

[8] La desigualtat (5) és la solució (descoberta) del problema (1) de la mateixa manera que la fórmula quadràtica és la solució a una equació quadràtica general.

[9] Els perfils del jugador poden dependre d'esdeveniments aleatoris parcialment observables, com ara el clima. Per a l'ús de priors en jocs amb informació incompleta jugada pels jugadors bayesians, consulteu (Harsanyi [10]).

[10] Aquesta solució general conté l'equilibri Nash com a solució particular. En contraposició a les solucions descriptives Nash, la nostra solució és un parell d’estratègies de expectatives racionals i prescriptives pures. A més, si per error, el jugador A es troba a la regió VNM A1 i juga a A2, el corol·lari 2 afirma que el jugador A obtindrà una recompensa més baixa esperada.

[11] És interessant tenir en compte que en un equilibri mixt de Nash, l'estratègia d'un jugador depèn de conèixer la funció de recompensa de l'altre jugador.

[12] Els signes zero es ignoren a la taula, ja que aquests casos són degenerats: un jugador no pot triar entre les seves dues estratègies. A més, és interessant observar que cada equilibri de Nash apareix exactament en quatre files.

[13] Els següents exemples de 3 s'adapten a (Davies [7]) d'una manera que pot servir de tècnica pedagògica per als estudiants en teoria de jocs. La taula 1 es pot utilitzar per trobar ràpidament l'equilibri Nash per a tots els exemples de jocs de la persona 2 descrits aquí.

[14] Les accions de A no afecten la tria de les accions de B. Això es deu al fet que les creences d’A no estan relacionades amb les creences de B. D'altra banda, si les creences estan correlacionades, les probabilitats d'ambdós jugadors han de ser iguals de 50%, en cas contrari, si es diu que les probabilitats dels jugadors són totes dues> 50%, A sap que B jugarà l'estratègia 2 (cues), per tant, jugarà l'estratègia 1 (caps) no pot ser una recepta correcta per a A. Si es diu, la probabilitat de A és> 50% i la probabilitat de B és <50%, B sap que A jugarà a caps, per tant, jugar a caps no pot ser una recepta correcta per a A. Etc. Per tant, la solució única és l'equilibri Nash.

[15] Tingueu en compte que pA (B1) = pB (A1) = 0 o 1 és un escenari d’equilibri: els dos jugadors s’inverteixen (o els dos van rectes) si tots dos jugadors esperen que l’altre jugador passi recte (o s’inverteix). En canvi, p (A1) = p (B1) = 0 o 1 no poden ser un equilibri de Nash: si B va recte (o gira), A s’anirà a girar (o s’anirà recte).

[16] Fonts: Associació de control d'armes, Federació de científics nord-americans, Grup Internacional de Materials Fissils, Departament de Defensa dels Estats Units, Departament d'Estat dels Estats Units i Institut Internacional de Recerca de la Pau d'Estocolm

[17] Des del document original de Flood i Dresher, s’han publicat milers d’articles sobre aquest tema. Una cerca de Google Scholar per "dilema dels presos" dóna resultats 104,000 a partir d'aquest escrit. Confereix (Kuhn [14]).

[18] Per tant, els jugadors no podran jugar la solució cooperativa.

[19] Si el teu oponent juga de forma no aleatòria, pot ser que el seu anterior pugui estar influenciat per les anteriors jugades d'aquest rival.

[20] La fórmula es pot estendre a M-persones, per a M> 3.

[21] Aquest joc es basa en el problema de bar El Farol (Arthur [5]).

[22] El lloc de la indiferència és una corba quadràtica que passa pels punts (pA (C1), pA (B1)) = (0.5, 0), (0.33, 0.33), (0, 0.5).

referències

[1] Aumann RJ (1974) Subjectivitat i correlació en estratègies aleatòries. Journal of Mathematical Economics 1: 67-96

[2] Jocs repetits d'Aumann RJ, Maschler M (1995) amb informació incompleta. MIT Press, Cambridge London

[3] Axelrod R (1984) L’evolució de la cooperació. Llibres bàsics

[4] Acevedo M, Krueger JI (2005) Raonament evident en el dilema del pres. The American Journal of Psychology 118: 431-457

[5] Arthur WB (1994) Raonament inductiu i racionalitat acotada. Revisió econòmica nord-americana 84: 406-411

[6] Pensament màgic Daley B, Sadowski P (2017): resultat de la representació. Economia teòrica 12: 909-956 24 Aquest joc es basa en el problema de la barra El Farol (Arthur [5]). 25 El lloc de la indiferència és una corba quadràtica que passa pels punts (pA (C1), pA (B1)) = (0.5, 0), (0.33, 0.33), (0, 0.5).

[7] Davies T (2004) Utilitat i teoria de jocs. Notes de conferència

[8] Garcia CB, Zangwill WI (2017) Un nou enfocament a la guerra o a la pau. Document de treball

[9] Garcia CB, Zangwill WI (2018) Dominància, utilitat prevista i dilema del presoner. Document de treball

[10] Jocs de Harsanyi J (1967) amb informació incompleta Jugada per jugadors “bayesians” I - III. J. Management Science 14 (3): 159-182

[11] Kadane JB, Larkey PD (1982) Probabilitat subjectiva i teoria de jocs. Ciència de la gestió 28 (2): 113-120

[12] McKelvey RD, Palfrey TR (1995) Equilibri de resposta quantal per als jocs de formes normals. Jocs i comportament econòmic 10: 6-38

[13] Probabilitats prèvies de Jaynes ET (1968). Transaccions IEEE sobre ciència de sistemes i cibernètica 4 (3): 227-241

[14] Dilema del presoner Kuhn S (2017). L'Enciclopèdia de Filosofia de Stanford

[15] Quattrone GA, Tversky A (1984) Causa versus contingències diagnòstiques: sobre l’engany propi i la il·lusió del votant. Revista de personalitat i psicologia social 46: 237-248

[16] Skyrms B (2004) The Hunt Stag and the Evolution of Social Structure. Cambridge University Press, Cambridge

[17] Spohn W (1977) On Luce i Krantz generalitzen realment el model de decisió de Savage. Erkenntnis 11: 113-134

[18] Evolucions C (2000) Més desenvolupades en la teoria de les utilitats no esperades: la recerca d’una teoria descriptiva d’elecció sota risc. Revista de literatura econòmica 38: 332-382

[19] Sugden R (2005) Economia dels drets, cooperació i benestar. Palgrave MacMillan, edició 2: 132

[20] Von Neumann J, Morgenstern O (1953) Teoria de jocs i comportament econòmic. Princeton University Press, Nova Jersey

[21] Wolpert DH, Benford G (2011) La lliçó de la paradoxa de Newcomb. Synthese 190: 1637-164