Replicaties en respect

COLUMN - Het rommelt in de sociale psychologie. Recente replicatieprojecten laten zien dat een deel van het onderzoek in het vakgebied niet repliceerbaar is. De consequenties daarvan beginnen langzaam door te dringen binnen de gevestigde orde, zoals twee spraakmakende gebeurtenissen deze week lieten zien.

De eerste opschudding werd veroorzaakt door Susan Fiske, een vooraanstaand psycholoog aan Princeton University en redacteur van het toptijdschrift Proceedings of the National Academy of Sciences. In een essay haalt ze fel uit naar online criticasters op wetenschappelijke publicaties in haar vakgebied. Ze hekelt de agressieve toon die op sociale media wordt aangeslagen, en verwerpt het “methodologisch terrorisme” van de critici. Vooraanstaande wetenschapsbloggers zoals Andrew Gelman en Uri Simonsohn waren uiteraard niet te spreken over Fiske’s aanval. In een bedachtzaam antwoord benadrukt Simonsohn dat een respectvolle toon belangrijker is dan het medium waarin de kritiek wordt gepubliceerd.

Fiske gaat mijn inziens voorbij aan het feit dat online commentatoren een diverse groep zijn. Er zijn natuurlijk impulsieve schreeuwers op sociale media, maar die worden door weinig mensen serieus genomen. De nerds die in hun vrije tijd teststatistieken narekenen zijn daarentegen een aanwinst voor de professie, en verdienen hun aandacht. Een constructieve en respectvolle toon van beide kanten helpt om die twee soorten kritiek van elkaar te onderscheiden, een ongedifferentieerde terminologie van “methodologische terrorisme” doet juist het tegenovergestelde.

Net toen iedereen weer een beetje gekalmeerd was, zorgde Dana Carney voor nieuwe onrust. De professor aan Berkeley University liet in een verklaring op haar website weten dat ze niet meer gelooft in de resultaten van haar studies over power posing, het idee dat het tijdelijk innemen van een assertieve lichaamshouding leidt tot meer testosteron en meer bereidheid tot het nemen van risico. Ze gaf zelfs toe dat ze dubieuze statistische methoden had gebruikt om het de resultaten sterker voor te doen dan ze waren.

De verklaring van Carney verdient bewondering voor haar openheid: Het is niet makkelijk om toe te geven dat je fouten gemaakt hebt, zeker als het gaat om “onethische” onderzoeksmethoden. Daarnaast heeft ze actief meegewerkt aan de publicatie van replicatieonderzoeken, waardoor haar werk toch enig inzicht oplevert in hoe de wereld (niet) werkt. Het is interessant om te zien hoe haar co-auteur Amy Cuddy zal reageren, wiens Ted Talk over powerposing met 36 miljoen keer bekeken is, en wiens website op het moment van schrijven (27 september 2016, 14:00) suggereert dat power posing ook voor paarden werkt.

Het debat over bestaande onderzoekspraktijken zal de komende tijd waarschijnlijk alleen maar intensiveren, nu het in de gangen van topuniversiteiten in Princeton en Berkeley is geëxplodeerd. Als alle deelnemers daarbij de constructieve toon van Simonsohn combineren met de openheid van Carney, zal het vakgebied er ongetwijfeld sterker uitkomen.

  1. 1

    Er wordt sowieso te weinig gerepliceerd, vooral de sociale wetenschappen hebben daar last van. Replicatie-onderzoek is meestal niet ‘spannend’, dus dat verkoopt niet. Tijdschriften zullen zelden een replicatie-onderzoek featuren. En onderzoekers en faculteiten worden afgerekend op hun publicaties in die tijdschriften. Een alternatief systeem dat niet draait om zo’n perverse prikkel zou helpen.

  2. 2

    Toch erg pijnlijk. Als student in de jaren 80 (UvA Psy) heb ik het nut van repliceerbaarheid tot in den treure behandeld gekregen, kregen we goede statistiek en hoe je je gegevens moest interpreteren, hoe je een artikel moest schrijven, waarbij je ook de tekortkomingen moest noemen in de discussie etc. etc., kortom het werd je wel aangeleerd.
    Maar ergens in de jaren 90 begonnen allerlei onderzoekjes de kranten te halen, waarbij bij het doorlezen daarvan al meteen al bij mij vragen opkwamen als: “hoeveel proefpersonen zijn er gebruikt?”, “is er een alternatieve hypothese”?, “zijn oorzaak en gevolg niet omgedraaid”? en: “zou hetzelfde resultaat bij herhaling weer optreden?”.
    Ik was toen al in de IT beland, maar pijn doet het met Diederik Stapel als voorlopig dieptepunt.

  3. 3

    @2. Ik ben mijn aantekeningen uit de Stapel-maanden maar weer eens gaan raadplegen. Want er was veel meer mis met de onderzoeken van Stapel dan dat hij ze alleen maar had voorzien van zelf verzonnen gegevens. Zo waren zijn vakgenoten niet alleen in die fraude getuind, ze waren ook net zo kritiekloos geweest wanneer het om onzinnige hypotheses ging, wanneer het ging om klakkeloze vertalingen van correlatie naar causaliteit en wanneer het gerommel met statistiek en steekproeven betrof.

    Er zijn bekende voorbeelden van onzinnige hypotheses die getoetst worden met een krappe steekproef en met een beetje p-hacken worden “bewezen”. Zoals de aanname dat je besluiten van studenten met terugwerkende kracht kunt beïnvloeden (een corellatie met achteraf ingeprente ideeën) in deze studie.

    Bij Stapel kwamen ook een paar van die onzinnige hypothese voor die nooit ter discussie zijn gesteld, niet vroegtijdig in de opzet van de studie, en ook niet naderhand door mede-auteurs en reviewers. Zie de Sinterklaas-studie {Eur. J. Soc. Psychol. 39, 145–153 (2009)}: “In three studies the hypothesis was tested that for young Dutch children, who associate Saint Nicholas with the norm to share one’s wealth with others, attributes of Saint Nicholas (miter, book, and staff) would spontaneously activate the ‘‘sharing norm’’ and subsequent sharing behavior.” Terwijl dat toch echt niet de ervaring is van de gemiddelde ouder en onderwijzer(es) met kinderen in die leeftijdsgroep.

    Gerotzooi met de statistiek is vooral gebrek aan inzicht en kennis. Stapel was niet de enige die tegen de lamp liep omdat zijn cijfers “to good to be true” waren. Smeesters gooide de hem onwelgevallige waarnemingen gewoon weg, en snapte niet dat daardoor de conclusies niet deugden, want – zo stelde hij – iedereen deed het zo. Jens Förster en/of zijn medewerkers produceerden resultaten die altijd zo dicht bij de hypothese lagen dat ze absoluut niet random genoeg waren. Dan denk je eerst aan een coderingsfout of verkeerd gebruik van de software, maar Förster heeft nooit kunnen of willen laten zien wat het veroorzaakte.

    Dat zijn dan alleen nog maar een paar Nederlandse gevallen. Weinig introspectie gezien.

  4. 4

    @3 Ja, maar dat is ook wel voor de hand liggend, want de meeste psychologen zijn geen bètajongens en meisjes, maar gamma’s.

    Voor de meesten van hen is statistiek gewoon wat hebreeuws is voor theologiestudenten en formele logica voor filosofiestudenten: men probeert daar zo goed en zo kwaad als het kan doorheen te buffelen, om dit vervolgens het liefst zo snel mogelijk weer te vergeten.

    Vrijwel iedereen bluft vervolgens dat ze er net genoeg verstand van heeft om het te kunnen volgen, en aangezien zij de kaste der experts zijn op hun vakgebied, stelt vrijwel niemand ooit de kritische vraag of men überhaupt wel weet waar men mee bezig is.

    In feite zou iedere faculteit die iets doet met onderzoek dat op het vlak van statistiek ligt, dit onderzoek door moeten laten rekenen door een afdeling met statistische experts, een soort universiteits-CPB die dan heel kritisch kijken naar de verantwoording en uitwerking; en die dan functioneren als rekenmeesters, die nagaan of het allemaal wel in de haak is en de kennis en kunde bijspijkeren waar nodig.

    Daar zou veel sociologisch, economisch, psychologisch en misschien ook medisch onderzoek volgens mij in korte tijd flink van opknappen.

  5. 5

    @3 – van een afstandje lijkt dat misschien zo, maar die “jongens en meisjes” zijn wel academische onderzoekers waarvan je ook mag verwachten dat ze weten wat ze niet weten. Toen ik het in 2011 met Roos Vonk over haar “vlees-eters zijn hufters” aan de stok had was dan ook het eerste dat ze deed op te scheppen over de kwaliteit van het Methoden- en techniekenonderwijs dat ze bij haar in Tilburg al in het eerste jaar geven. Omdat ik direct in ging op het gebrek aan verband tussen de causaliteit versus correlatie in het onderzoek. Ze hadden, zei ze, de experimenten nu juist zo opgezet dat causaliteit kon worden aangetoond en, dat ik daar mijn vraagtekens bij zette, was volgend haar niveau eerste jaars en dus werd ik afgeserveerd. Dat diverse gepromoveerde psychologen precies hetzelfde commentaar leverden, deerde kennelijk niet. Arrogantie dus, niet gewend aan kritiek.

    Daarna heb ik ook nog een hele discussie gehad met Jules Ellis, die in die tijd dat M&T-onderwijs gaf in Tilburg, en daar werd ik ook niet vrolijk van (zie http://www.mariafoerier.nl/roos-vonk-interview). Die beweerde vrolijk dat de psychologie nu eenmaal een ander causaliteitsbegrip heeft dan bijvoorbeeld de etologie (die ook gedrag bestudeert). En hij had er ook geen bezwaar tegen die statistische toets te kiezen met de mooiste uitslag, ook als die toets minder valide is omdat aan de uitgangspunten van die toets niet (geheel) is voldaan.

    Nu een groot deel van de sociaal-psychologische onderzoeken niet reproduceerbaar blijkt moet de conclusie zijn dat er tenminste een flink deel van dat vakgebied op theoretisch drijfzand is gebaseerd.

  6. 6

    @2
    Er had net zo goed pvanlenth boven deze reactie kunnen staan. Elk detail bevestig ik. UvA psy, jaren 80, uiteindelijk IT want alleen al in Amsterdam liepen 2000 concurrenten (oa Jan vd Laan) rond. Dus nee, wij zijn niet verantwoordelijk, maar eea verbaast nog steeds. Je zou immers denken dat de wetenschapsbeoefening alleen maar vooruit kan gaan.

  7. 8

    Net in concept verschenen: Why most of psychology is statistically unfalsifiable van Richard Morey en Daniel Lakens.

    Waarin wordt betoogd dat in de experimentele psychologie – omdat de steekproeven te klein zijn – het statistisch gesproken vaak onmogelijk is om verschillende resultaten onderling met enige zekerheid te vergelijken. De tegenwerping dat de replicaties andere resultaten geven vanwege andere omstandigheden is even onweerlegbaar als onbewijsbaar. Elke mogelijk toets heeft te weinig “power” vanwege de in de psyschologie gangbare opzet.

    https://github.com/richarddmorey/psychology_resolution/blob/master/paper/response.pdf

    Coursera heeft op dit ogenblik een cursus van Daniel Lakens over dit onderwerp. Het is buitengewoon interessant (en onthutsend) te zien hoe psychologen jarenlang grosso modo alle aanwijzingen negeerden (vanaf Sterling in 1959 en Cohen in 1962) dat ze de zaken verkeerd aanpakten.

    https://www.coursera.org/learn/statistical-inferences/home/welcome