Een dergelijke strategie bestaat niet, tenminste niet als je het herhaaldelijk speelt. Als je eenmalig speelt, speelt geluk meer een rol. Maar er is geen strategie waarop je consistent hoger uit kan komen dan de mutual cooperation score. Als je herhaaldelijk speelt is de optimale strategie ‘nice tit-for-tat’: de eerste ronde speel je ‘cooperate’, daarna kopiëer je het gedrag van je tegenstander. Als hij je verraadt, verraad jij hem de volgende ronde terug. Als hij samenwerkt, werk je mee. Als je andere speler dezelfde strategie speelt, werk je altijd samen, omdat je met ‘cooperate’ begint. Dat is optimaal: als je hem zou verraden, verraadt hij je terug en dan ben je gemiddeld over die twee beurten slechter af.
Jij gaat hier uit van twee spelers die elkaar (denken te kunnen) beïnvloeden. In het artikel wordt uitgegaan van één speler die dat doet (en profiteert) en één speler die gegeven de omstandigheden een optimaal resultaat probeert te halen, zonder te pogen de andere speler te beïnvloeden. Zo lang de de profiteur maar af en toe coöpereert kan hij de andere speler dwingen altijd te coöpereren in diens eigen belang en zelf een beter resultaat halen dan als hij zelf ook altijd zou coöpereren. De totale winst voor beide spelers is suboptimaal (lager dan bij altijd coöpereren), maar de winst van de profiteur is hoger dan bij altijd coöpereren en de winst voor de andere speler is maximaal als hij altijd coöpereert, ondanks dat de profiteur dat niet doet.
“Jij gaat hier uit van twee spelers die elkaar (denken te kunnen) beïnvloeden.”
Nee, hoor. Sorry als het zo overkwam, het is altijd lastig zoiets makkelijk uit te leggen zonder de indruk te wekken dat de actoren nadenken over elkaars strategie (zoals mensen zouden doen). Het is inderdaad dat de profiteur hier eenzijdig bepaalt hoeveel hij meer wil krijgen dan de ander, en de ander doet daaraan mee omdat dat zijn winstkans maximaliseert, niet omdat hij een theory of mind heeft (dat wordt zelfs expliciet uitgesloten, er staat dat als dat het geval was, het hele spel gewoon neerkomt op een ultimatum game, wat natuurlijk erg logisch is).
Vergelijking 12 voor het algemene geval, vergelijking 15 voor de gebruikelijke waarden (5,3,1,0). p1 t/m p4 is de kans om ‘cooperate’ te spelen, gegeven de uitkomst van de vorige iteratie:
1 = samenwerken
2 = jij hebt de ander verraden
3 = jij was verraden
4 = jullie hebben elkaar verraden
Chi mag je zelf kiezen (>= 1) en bepaalt de verhouding tussen jouw score en die van je tegenstander. Phi mag je volgens mij ook zelf kiezen, binnen bepaalde grenzen aangegeven door chi. Onder vergelijking 16 staat dat je inderdaad een hogere score kunt afdwingen dan de mutual cooperation score, en daarmee is dit artikel een stuk schokkender dan ik eerst dacht. Ik snap ook nog niet waarom dat werkt, volgens mij zou een tit-for-tat tegenstander jouw score altijd lager maken dan de mutual cooperation score zodra je hem verraadt, zoals ik eerder al heb uitgelegd. Wat ik ook gek vind, is dat in het begin van sectie “X Demands and Gets an Extortionate Share”, er wordt gesproken over het behalen van een score hoger dan de non-cooperation score, terwijl onder vergelijking 16 ineens een score behaald kan worden hoger dan de mutual cooperation score. Dat eerste zou ik begrijpen, dat tweede is nog niet zo logisch.
Reacties (9)
Dupe
Ah ja, zie ik ook. Maar nu de vraag: Wat is de strategie die je moet spelen als ik het prisoners dilemma wil winnen?
Dat betekent dat ik MINDER gevangenisstraf moet krijgen dan met altijd samenwerken, maar de totale straf moet groter zijn.
Een dergelijke strategie bestaat niet, tenminste niet als je het herhaaldelijk speelt. Als je eenmalig speelt, speelt geluk meer een rol. Maar er is geen strategie waarop je consistent hoger uit kan komen dan de mutual cooperation score. Als je herhaaldelijk speelt is de optimale strategie ‘nice tit-for-tat’: de eerste ronde speel je ‘cooperate’, daarna kopiëer je het gedrag van je tegenstander. Als hij je verraadt, verraad jij hem de volgende ronde terug. Als hij samenwerkt, werk je mee. Als je andere speler dezelfde strategie speelt, werk je altijd samen, omdat je met ‘cooperate’ begint. Dat is optimaal: als je hem zou verraden, verraadt hij je terug en dan ben je gemiddeld over die twee beurten slechter af.
Jij gaat hier uit van twee spelers die elkaar (denken te kunnen) beïnvloeden. In het artikel wordt uitgegaan van één speler die dat doet (en profiteert) en één speler die gegeven de omstandigheden een optimaal resultaat probeert te halen, zonder te pogen de andere speler te beïnvloeden. Zo lang de de profiteur maar af en toe coöpereert kan hij de andere speler dwingen altijd te coöpereren in diens eigen belang en zelf een beter resultaat halen dan als hij zelf ook altijd zou coöpereren. De totale winst voor beide spelers is suboptimaal (lager dan bij altijd coöpereren), maar de winst van de profiteur is hoger dan bij altijd coöpereren en de winst voor de andere speler is maximaal als hij altijd coöpereert, ondanks dat de profiteur dat niet doet.
“Jij gaat hier uit van twee spelers die elkaar (denken te kunnen) beïnvloeden.”
Nee, hoor. Sorry als het zo overkwam, het is altijd lastig zoiets makkelijk uit te leggen zonder de indruk te wekken dat de actoren nadenken over elkaars strategie (zoals mensen zouden doen). Het is inderdaad dat de profiteur hier eenzijdig bepaalt hoeveel hij meer wil krijgen dan de ander, en de ander doet daaraan mee omdat dat zijn winstkans maximaliseert, niet omdat hij een theory of mind heeft (dat wordt zelfs expliciet uitgesloten, er staat dat als dat het geval was, het hele spel gewoon neerkomt op een ultimatum game, wat natuurlijk erg logisch is).
Het artikel beweert van wel, zie ook Bismarcks uitleg. Maar wat is nou de precieze strategie?
Vergelijking 12 voor het algemene geval, vergelijking 15 voor de gebruikelijke waarden (5,3,1,0). p1 t/m p4 is de kans om ‘cooperate’ te spelen, gegeven de uitkomst van de vorige iteratie:
1 = samenwerken
2 = jij hebt de ander verraden
3 = jij was verraden
4 = jullie hebben elkaar verraden
Chi mag je zelf kiezen (>= 1) en bepaalt de verhouding tussen jouw score en die van je tegenstander. Phi mag je volgens mij ook zelf kiezen, binnen bepaalde grenzen aangegeven door chi. Onder vergelijking 16 staat dat je inderdaad een hogere score kunt afdwingen dan de mutual cooperation score, en daarmee is dit artikel een stuk schokkender dan ik eerst dacht. Ik snap ook nog niet waarom dat werkt, volgens mij zou een tit-for-tat tegenstander jouw score altijd lager maken dan de mutual cooperation score zodra je hem verraadt, zoals ik eerder al heb uitgelegd. Wat ik ook gek vind, is dat in het begin van sectie “X Demands and Gets an Extortionate Share”, er wordt gesproken over het behalen van een score hoger dan de non-cooperation score, terwijl onder vergelijking 16 ineens een score behaald kan worden hoger dan de mutual cooperation score. Dat eerste zou ik begrijpen, dat tweede is nog niet zo logisch.
Bismarck, jij nog opmerkingen?
Nee, ik ben altijd te lui en wiskunde-fobisch om vergelijkingen te gaan ontleden en het komt op mij ook wat onlogisch over.
Hier een leuk voorbeeld