Een halfvol glas?

COLUMN - In de recente golf wetenschappelijke replicatieprojecten waren vorige week de gedragseconomen aan de beurt. Een studie in het blad Science rapporteerde 18 pogingen tot replicatie van toppublicaties in dat vakgebied. Daarvan bleken 11 studies repliceerbaar, met nog een aantal in een schemergebied. Reden voor het weekblad The Economist om victorie te kraaien voor de economische wetenschap, terwijl de Volkskrant juist over een “aframmeling’’ spreekt. Is het glas half leeg of half vol?

Onder mijn collega-gedragseconomen is de stemming licht positief, ondanks het feit dat volgens de officiële statistiek ruwweg 95% van de studies repliceerbaar zouden moeten zijn. Eén van de redenen is dat eigenlijk niemand een resultaat van 95% had verwacht. Dat komt voornamelijk door de zogenaamde publication bias, de neiging van tijdschriften om spectaculaire resultaten te publiceren, waardoor “nulresultaten” vaak in de kast blijven liggen. Een tweede reden is dat economen er in ieder geval beter vanaf komen dan de psychologen, waar het replicatiepercentage in een soortgelijke studie rond de 39% lag (met nog ongeveer 30% in een soort schemergebied).

Je zou dus denken dat in ieder geval de psychologen zich achter de oren krabben, maar ook daar zijn de meningen verdeeld. Een aantal toppsychologen, waaronder David Gilbert trekken juist de replicatiestudies in twijfel, met het argument dat er subtiele verschillen waren tussen de replicaties en de originelen, zogenaamde “infedelities”, die voor mislukte replicaties zorgden. In sommige gevallen is dat punt geldig, bijvoorbeeld voor een experiment dat het effect van positieve emoties bestudeerde door mensen een Robin Williams video te laten zien. De replicatie mislukte, wellicht door het feit dat Williams in de tussentijd was overleden.

Het infedelities-argument stuit op haar beurt weer op sterke weerstand, bijvoorbeeld van Andrew Gelman, statisticus en bekend criticaster van onderzoeksmethoden in de sociale wetenschap. Volgens Gelman bewijst het slechts dat gedragswetenschappers, met name psychologen, vaak veel te subtiele effecten onderzoeken. Een paar van zijn favoriete voorbeelden zijn het effect van menstruatie op stemgedrag en het effect van het zien van subliminale smileys op je mening over immigranten.

Als de onderliggende effecten zo fragiel zijn laten replicaties (en meer solide statistiek) slechts zien wat iemand met een beetje gezond verstand ook had kunnen weten: namelijk dat ze worden ondergesneeuwd door omgevingsfactoren. De (retorische) vraag is in dat geval wat het nut van dergelijke studies. Ook replicatiestudies hebben in zo’n context maar beperkte waarde. Ze kunnen bijdragen aan het vroegtijdig opgeven van vergezochte onderzoeksgebieden, maar hebben geen directe invloed op de jacht naar “leuke” resultaten. De oplossing voor dat probleem ligt in betere theorievorming en beter onderzoeksontwerp.

Terug naar het half gevulde glas. Het de mens eigen om aandacht te besteden aan spectaculaire resultaten. Van de publicatiebias komen we dus nooit helemaal af, en een 95% replicatiepercentage is een illusie. Tegelijkertijd geven de replicatiestudies genoeg stof tot reflectie. Een mogelijke reden dat gedragseconomen een beter cijfer halen dan de psychologen is dat zij in de afgelopen decennia hun (sceptische) collega-economen moesten overtuigen, een debat dat strenge methodologische eisen opleverde. Dat geeft dus hoop op een goede uitkomst van de huidige replicatiediscussie.

  1. 2

    @1: Die 95% komt uit een misvatting over de betekenis van de p-waarde, die toevallig gisteren is afgefakkeld door de ASA: https://fivethirtyeight.com/features/statisticians-found-one-thing-they-can-agree-on-its-time-to-stop-misusing-p-values/

    @0: Verder kun je die 18 economie-studies natuurlijk niet zo maar vergelijken met die 100 psychologie-studies. 100 geeft sowieso meer power, maar ze waren ook verdeeld over verschillende disciplines, waarbij de cognitieve tak beter scoort dan de sociale.

    Dat is geen verrassing om twee redenen. Ten eerste omdat in de sociale psychologie een hoop onzin getest wordt waarvan altijd wel een deel de magische p<.05 haalt. Je noemt het "fragiel", maar er zijn lelijkere termen voor. Ten tweede omdat in de cognitieve psychologie de uitkomsten veel beter te meten zijn. Hoeveel milliseconden een reactie duurt in conditie 1 of 2 is objectief vast te stellen, hoeveel creatief or coöperatief iemand is bijna niet.

    Trouwens, kritiek op replicaties hebben omdat ze de oorspronkelijke meetsituatie niet 100% nauwkeurig hebben nagebootst is zeggen dat je het theorie was maar slechts een onduidbare observatie.

  2. 4

    Volgens mij is de voornaamste reden van het betere cijfer van de gedragseconomen de leeftijd van de discipline. Psychologie is meer dan 100 jaar oud, en bestudeerd een zeer breed scala aan verschijnselen in zowel gezonde als zieke mensen in zeer verschillende contexten, waarbij gebruikt gemaakt wordt van zeer uitgebreid repertoire van onderzoeksmethoden. Gedragseconomie is hooguit enkele decennia oud, en bestudeerd vooral keuzegedrag van gezonde mensen in economische contexten, waarbij vooral gebruik gemaakt wordt van gedragsmetingen. De kans dat er iets mis gaat is bij Psychologie lijkt me vele malen groter.

  3. 5

    @2: “Ten eerste omdat in de sociale psychologie een hoop onzin getest wordt waarvan altijd wel een deel de magische p<.05 haalt. Je noemt het "fragiel", maar er zijn lelijkere termen voor."
    Jelly beans!