En wat nu als beide spelers die ‘dirty’ strategie spelen? Gezien de symmetrie zouden ze dan nog steeds evenlang in de cel zitten, maar waarschijnlijk langer dan wanneer ze coöperatief zouden spelen.
De analogie met koolstofuitstoot is ook een beetje zwak; het duurt zó lang voordat de negatieve resultaten merkbaar zijn dan het spel al lang gespeeld is voordat de opbrengststructuur duidelijk wordt.
#3
gronk
GS-variant: Zitten twee scooterklootzakjes in de cel, en omdat ze samenwerken en hun bek niet opentrekken gaan ze allebei vrijuit. He, die variant komt niet voor in de theorieboekjes!
Tja, ik weet niet of er in dit geval sprake is van prisoner’s dilemma, omdat ze vrijuit gaan als ze klikken en óók als ze stil blijven. De situatie waarin ze allebei hun mond houden is dus een Nash-evenwicht, misschien zelfs uniek omdat ze geen street cred kwijtraken (afhankelijk van wat er gebeurt als de ander klikt – heeft het dan ook nut om zelf ook te klikken?).
Misschien dat ze een paar dagen eerder vrijkomen als ze klikken, maar dan nog denk ik niet dat dat zou kunnen opwegen tegen het feit dat ze als ze vrijkomen door hun vrienden als verraders worden gezien. Zelfs rationeel gezien hebben de betreffende klootzakjes dus al geen prikkel om met justitie mee te werken, wat je als zwakte van het systeem zou kunnen zien.
#4
Bismarck
Het is ook niet echt een “ontsnapping”. Het gaat meer om het “winnen” (tov de andere prisoner wel te verstaan), uitgaande van een (rotsvaste) profiteur aan de ene zijde en aan de andere zijde iemand die puur voor (eigen) maximalisatie gaat, zonder te pogen het gedrag van de ene te beïnvloeden (of op zijn minst te bestraffen). En dat alles op de lange termijn (bij meervoudige herhaling van het PD) welteverstaan. Niet echt toepasbaar op een PD zoals het zich in realiteit voordoet dus.
#5
HansR
…forcing other countries to take on a disproportionate share of the costs.
Zou dat nou echt een oplossing zijn de klimaatsituatie?
Verder eens met Bismarck#1. Ik wordt er niet veel wijzer van iig.
#6
Richard E
mijn docent economie stelde dat ook de mafia het prisoners dilemma had gekraakt. Iedereen die klikt wordt vermoord. Dan kies je dus liever voor stilhouden, en blijft het (in het klassieke voorbeeld) bij een kleine straf voor verboden wapenbezit.
Hoe de “dirty”strategie werkt, en waarom ie nieuw is, is mij volledig niet duidelijk na het lezen van het artikel.
Hmm, misschien bedoel je het goed en lees ik het verkeerd, maar in zo’n situatie is er ook geen sprake van prisoner’s dilemma. Het prisoner’s dilemma is de situatie waarin beide spelers, ongeacht van wat de ander doet, beter af zijn door strategie X i.p.v. Y te spelen. Zij zullen dat dan logischerwijs alletwee doen, en komen dan in een situatie terecht waarin ze allebei minder nut ondervinden dan wanneer ze allebei strategie Y zouden spelen.
In de situatie van de mafia is het misschien mogelijk deze situatie in zijn geheel te vermijden, maar misschien ook niet (d.m.v een goed getuigenbeschermingsprogramma, voor getuige + familie). Ze lossen het dus niet op, maar hebben gewoon een manier gevonden waarin het zo kan zijn dat de hele problematiek zich niet voordoet. Ik ga er nu vanuit dat het spel één keer gespeeld wordt en niet herhaaldelijk. Zie ook het diner’s dilemma of de tragedy of the commons.
De situatie van de verdachte die verleid word zijn buddy te verraden wordt niet vermeden, de mafia slaagt erin X en Y om te draaien door de pay-off structuur veranderen. Het is nu beter om strategie Y (zwijgen) te spelen, omdat je zeker weet dat je buddy het ook doet, omdat ie anders vermoord wordt. De verleiding van vrijlating in ruil voor informatie werkt dus niet, en er is inderdaad geen dilemma in strikte zin.
Een getuigenbeschermingsprogramma verandert de pay-off structuur natuurlijk weer.
Een vergelijkbare “game-changer” waren de raket-schilden uit de jaren tachtig. Wanneer de VS erin geslaagd waren een raketschild te maken die een nucleaire aanval effectief zou neutraliseren, dan zou er een positieve pay-off voor de optie “aanvallen” ontstaan.(ie alleen maar vernietiging van het sovjetblok).
#7
parallax
Onzinnig in de context van de term ‘prisoner’s dilemma’. Alsof je 20 keer achter elkaar met een medeverdachte vastzit om ’t ‘spelletje’ te spelen.
“Prisoner’s dillemma’ is maar een naam en een verhaaltje, de geïtereerde variant heeft wel degelijk praktisch nut. Dat het niet binnen het gevangene-verhaaltje past is compleet irrelevant. Typische toepassingen van speltheorie zijn de economie, waarin mensen hun welvaart willen maximaliseren, en evolutietheorie, waarin soorten hun overlevingskans maximaliseren. Dat is juist vaker iteratief dan eenmalig: economische actoren en individuen van een diersoort komen elkaar meestal meerdere malen tegen en kunnen elkaar meerdere malen belazeren.
Tsja, je moet toch ergens een abstractie maken, he.
#8
about:
Ik heb ergens nog een fotokopietje liggen van een artikel lang geleden, waarin de oplossing voor het herhaalde prisonersdilemma werd gegeven als: “tit for tat, with a very few surprises”.
In het verkeer, tussen fietsers en wandelaars, als iemand je van de sokken wil rijden of net voor je wil oversteken: gewoon doorlopen of doorfietsen. Als iemand zich wel aan de regels houdt doe jij dat ook. Alleen zo nu en dan doe je het net even anders.
Zo ook in het cafe: een rondje moet je beantwoorden, iemand die geen rondje geeft geef je geen drankje kado. Alleen zo nu en dan doe je het even anders.
En zo ook in een relatie, of bijvoorbeeld op het werk, tegenover collega’s of de baas: Goed gedrag beloon je, slecht gedrag bestraf je, maar zo nu en dan doe je het net even anders, om de spanning erin te houden of om iemand zomaar opeens een kans te geven voor de vriendelijke oplossing te kiezen.
Voor zover ik het snap is in het artikeltje dat Dimitri aan draagt uitgerekend wat precies bij gegeven beloningswaarden de verhouding moet zijn tussen tit-for-tat en verrassingen om op de lange termijn tot een optimale uitkomst te komen.
Je beschrijft “nasty tit-for-tat”: eerste zet defect, daarna kopiëer je de zet van de tegenstander, maar “nice tit-for-tat” heeft een hogere payout: eerste zet is cooperate, daarna weer kopiëren. Dat van die verrassingen is simpelweg niet optimaal, je moet juist op je mutual cooperation-equilibrium blijven zitten, anders naait de ander je weer terug en ben je samen slechter af. Daarom moet 2R > T + S ook gelden (halverwege eerste pagina, links): om de beurt elkaar verraden heeft gemiddeld een lagere payout dan altijd samenwerken.
“Voor zover ik het snap is in het artikeltje dat Dimitri aan draagt uitgerekend wat precies bij gegeven beloningswaarden de verhouding moet zijn tussen tit-for-tat en verrassingen om op de lange termijn tot een optimale uitkomst te komen.”
Nee, dat klopt niet. Het gaat erom dat tit-for-tat een equilibrium is waarin beide spelers de maximale gemiddelde payout krijgen van mutual cooperation, maar er zijn nog meer equilibria, en daar krijgt één speler meer dan de ander. *Dat is niet meer dan de mutual cooperation payout! Alleen meer ten opzichte van het slachtoffer* Je kunt een ander dus erbij naaien, maar je zit dan niet meer op je eigen maximum. Als je doel is meer te krijgen dan een andere speler, maar niet noodzakelijk de maximale payout, dan staat in het artikel wat je moet doen. Als je doel is meer te krijgen dan de mutual cooperation payout, dan gaat dat je niet lukken want dan naait een tit-for-tat speler je erbij (hij naait je terug en dan ben je samen slechter af dan mutual cooperation).
Tit-for-tat is een speciaal geval van een hele reeks equilibria, waarin de ‘extortion factor’, de verhouding tussen jouw score en die van je slachtoffer, gelijk is aan één (dus je krijgt samen evenveel; de ander wordt niet echt genaaid). Dit is een speciaal geval, omdat hierin ook jouw eigen payout maximaal is, namelijk minimaal de mutual cooperation payout. In het generieke geval kun je de extortion factor ook anders kiezen, bijvoorbeeld om twee keer zo hoge score te krijgen als je tegenstander, maar dan krijg je niet meer de maximale payout. Het artikel beschrijft de relatie tussen de extortion factor en jouw payout, en bewijst dat het een evenwicht is (dus een tegenstander die zijn eigen winst maximaliseert, conformeert zich aan de extortie).
Reacties (17)
Het artikel is wel bijzonder non-informatief zeg.
Inderdaad.
En wat nu als beide spelers die ‘dirty’ strategie spelen? Gezien de symmetrie zouden ze dan nog steeds evenlang in de cel zitten, maar waarschijnlijk langer dan wanneer ze coöperatief zouden spelen.
De analogie met koolstofuitstoot is ook een beetje zwak; het duurt zó lang voordat de negatieve resultaten merkbaar zijn dan het spel al lang gespeeld is voordat de opbrengststructuur duidelijk wordt.
GS-variant: Zitten twee scooterklootzakjes in de cel, en omdat ze samenwerken en hun bek niet opentrekken gaan ze allebei vrijuit. He, die variant komt niet voor in de theorieboekjes!
Tja, ik weet niet of er in dit geval sprake is van prisoner’s dilemma, omdat ze vrijuit gaan als ze klikken en óók als ze stil blijven. De situatie waarin ze allebei hun mond houden is dus een Nash-evenwicht, misschien zelfs uniek omdat ze geen street cred kwijtraken (afhankelijk van wat er gebeurt als de ander klikt – heeft het dan ook nut om zelf ook te klikken?).
Misschien dat ze een paar dagen eerder vrijkomen als ze klikken, maar dan nog denk ik niet dat dat zou kunnen opwegen tegen het feit dat ze als ze vrijkomen door hun vrienden als verraders worden gezien. Zelfs rationeel gezien hebben de betreffende klootzakjes dus al geen prikkel om met justitie mee te werken, wat je als zwakte van het systeem zou kunnen zien.
Het is ook niet echt een “ontsnapping”. Het gaat meer om het “winnen” (tov de andere prisoner wel te verstaan), uitgaande van een (rotsvaste) profiteur aan de ene zijde en aan de andere zijde iemand die puur voor (eigen) maximalisatie gaat, zonder te pogen het gedrag van de ene te beïnvloeden (of op zijn minst te bestraffen). En dat alles op de lange termijn (bij meervoudige herhaling van het PD) welteverstaan. Niet echt toepasbaar op een PD zoals het zich in realiteit voordoet dus.
…forcing other countries to take on a disproportionate share of the costs.
Zou dat nou echt een oplossing zijn de klimaatsituatie?
Verder eens met Bismarck#1. Ik wordt er niet veel wijzer van iig.
mijn docent economie stelde dat ook de mafia het prisoners dilemma had gekraakt. Iedereen die klikt wordt vermoord. Dan kies je dus liever voor stilhouden, en blijft het (in het klassieke voorbeeld) bij een kleine straf voor verboden wapenbezit.
Hoe de “dirty”strategie werkt, en waarom ie nieuw is, is mij volledig niet duidelijk na het lezen van het artikel.
Hmm, misschien bedoel je het goed en lees ik het verkeerd, maar in zo’n situatie is er ook geen sprake van prisoner’s dilemma. Het prisoner’s dilemma is de situatie waarin beide spelers, ongeacht van wat de ander doet, beter af zijn door strategie X i.p.v. Y te spelen. Zij zullen dat dan logischerwijs alletwee doen, en komen dan in een situatie terecht waarin ze allebei minder nut ondervinden dan wanneer ze allebei strategie Y zouden spelen.
In de situatie van de mafia is het misschien mogelijk deze situatie in zijn geheel te vermijden, maar misschien ook niet (d.m.v een goed getuigenbeschermingsprogramma, voor getuige + familie). Ze lossen het dus niet op, maar hebben gewoon een manier gevonden waarin het zo kan zijn dat de hele problematiek zich niet voordoet. Ik ga er nu vanuit dat het spel één keer gespeeld wordt en niet herhaaldelijk. Zie ook het diner’s dilemma of de tragedy of the commons.
De situatie van de verdachte die verleid word zijn buddy te verraden wordt niet vermeden, de mafia slaagt erin X en Y om te draaien door de pay-off structuur veranderen. Het is nu beter om strategie Y (zwijgen) te spelen, omdat je zeker weet dat je buddy het ook doet, omdat ie anders vermoord wordt. De verleiding van vrijlating in ruil voor informatie werkt dus niet, en er is inderdaad geen dilemma in strikte zin.
Een getuigenbeschermingsprogramma verandert de pay-off structuur natuurlijk weer.
Een vergelijkbare “game-changer” waren de raket-schilden uit de jaren tachtig. Wanneer de VS erin geslaagd waren een raketschild te maken die een nucleaire aanval effectief zou neutraliseren, dan zou er een positieve pay-off voor de optie “aanvallen” ontstaan.(ie alleen maar vernietiging van het sovjetblok).
Onzinnig in de context van de term ‘prisoner’s dilemma’. Alsof je 20 keer achter elkaar met een medeverdachte vastzit om ’t ‘spelletje’ te spelen.
“Prisoner’s dillemma’ is maar een naam en een verhaaltje, de geïtereerde variant heeft wel degelijk praktisch nut. Dat het niet binnen het gevangene-verhaaltje past is compleet irrelevant. Typische toepassingen van speltheorie zijn de economie, waarin mensen hun welvaart willen maximaliseren, en evolutietheorie, waarin soorten hun overlevingskans maximaliseren. Dat is juist vaker iteratief dan eenmalig: economische actoren en individuen van een diersoort komen elkaar meestal meerdere malen tegen en kunnen elkaar meerdere malen belazeren.
Dat het iteratief is, is totaal overschat. Het is alleen iteratief als werkelijk alle actoren en variabelen elke keer identiek zijn.
Tsja, je moet toch ergens een abstractie maken, he.
Ik heb ergens nog een fotokopietje liggen van een artikel lang geleden, waarin de oplossing voor het herhaalde prisonersdilemma werd gegeven als: “tit for tat, with a very few surprises”.
In het verkeer, tussen fietsers en wandelaars, als iemand je van de sokken wil rijden of net voor je wil oversteken: gewoon doorlopen of doorfietsen. Als iemand zich wel aan de regels houdt doe jij dat ook. Alleen zo nu en dan doe je het net even anders.
Zo ook in het cafe: een rondje moet je beantwoorden, iemand die geen rondje geeft geef je geen drankje kado. Alleen zo nu en dan doe je het even anders.
En zo ook in een relatie, of bijvoorbeeld op het werk, tegenover collega’s of de baas: Goed gedrag beloon je, slecht gedrag bestraf je, maar zo nu en dan doe je het net even anders, om de spanning erin te houden of om iemand zomaar opeens een kans te geven voor de vriendelijke oplossing te kiezen.
Voor zover ik het snap is in het artikeltje dat Dimitri aan draagt uitgerekend wat precies bij gegeven beloningswaarden de verhouding moet zijn tussen tit-for-tat en verrassingen om op de lange termijn tot een optimale uitkomst te komen.
Is daar nog iemand?
Je beschrijft “nasty tit-for-tat”: eerste zet defect, daarna kopiëer je de zet van de tegenstander, maar “nice tit-for-tat” heeft een hogere payout: eerste zet is cooperate, daarna weer kopiëren. Dat van die verrassingen is simpelweg niet optimaal, je moet juist op je mutual cooperation-equilibrium blijven zitten, anders naait de ander je weer terug en ben je samen slechter af. Daarom moet 2R > T + S ook gelden (halverwege eerste pagina, links): om de beurt elkaar verraden heeft gemiddeld een lagere payout dan altijd samenwerken.
“Voor zover ik het snap is in het artikeltje dat Dimitri aan draagt uitgerekend wat precies bij gegeven beloningswaarden de verhouding moet zijn tussen tit-for-tat en verrassingen om op de lange termijn tot een optimale uitkomst te komen.”
Nee, dat klopt niet. Het gaat erom dat tit-for-tat een equilibrium is waarin beide spelers de maximale gemiddelde payout krijgen van mutual cooperation, maar er zijn nog meer equilibria, en daar krijgt één speler meer dan de ander. *Dat is niet meer dan de mutual cooperation payout! Alleen meer ten opzichte van het slachtoffer* Je kunt een ander dus erbij naaien, maar je zit dan niet meer op je eigen maximum. Als je doel is meer te krijgen dan een andere speler, maar niet noodzakelijk de maximale payout, dan staat in het artikel wat je moet doen. Als je doel is meer te krijgen dan de mutual cooperation payout, dan gaat dat je niet lukken want dan naait een tit-for-tat speler je erbij (hij naait je terug en dan ben je samen slechter af dan mutual cooperation).
Tit-for-tat is een speciaal geval van een hele reeks equilibria, waarin de ‘extortion factor’, de verhouding tussen jouw score en die van je slachtoffer, gelijk is aan één (dus je krijgt samen evenveel; de ander wordt niet echt genaaid). Dit is een speciaal geval, omdat hierin ook jouw eigen payout maximaal is, namelijk minimaal de mutual cooperation payout. In het generieke geval kun je de extortion factor ook anders kiezen, bijvoorbeeld om twee keer zo hoge score te krijgen als je tegenstander, maar dan krijg je niet meer de maximale payout. Het artikel beschrijft de relatie tussen de extortion factor en jouw payout, en bewijst dat het een evenwicht is (dus een tegenstander die zijn eigen winst maximaliseert, conformeert zich aan de extortie).
Ik hoop dat het zo ietsje duidelijker is.