Hulspas weet het | Repliceren? Doe maar niet!

Het zou een Grote Schoonmaak worden. Het rommelige huis van de sociale psychologie zou eindelijk op orde worden gebracht. Dat waren de woorden die de deskundigen zo'n twee jaar geleden geregeld in de mond namen. En het was ook hoog tijd. Ze werden in die tijd toch écht ingehaald door het replicatieprobleem. Iedereen wist al jarenlang dat het vaak lastig was om onderzoeksresultaten te repliceren (en schandalen zoals die rond Diederik Stapel hadden het vakgebied nog eens extra verdacht gemaakt) dus toen een paar jaar geleden verschillende initiatieven startten om nu een systematisch replicatie-onderzoek te doen, was iedereen daar dolblij mee. De resultaten zijn inmiddels bekend. Pakweg zestig procent van de onderzoeken kwam niet ongeschonden door de herhaling. Vaak bleek het met veel aplomb gepubliceerde resultaat veel kleiner uit te vallen. Soms bleef er helemaal niks over. Die povere resultaten waren reden voor een diepgaand zelfonderzoek. (Dat kun je aan psychologen wel toevertrouwen.) Buiten het vakgebied werden ze vooral gezien als het bewijs dat dit soort onderzoek grotendeels flauwekul is. Nepwetenschap, opgebouwd uit selecte steekproeven, knullige onderzoeksopzetten, verdachte statistiek en het masseren van de cijfers. Zoiets zou een serieuze tak van wetenschap toch niet overkomen! Of wel.

Door: Foto: copyright ok. Gecheckt 09-02-2022
Foto: copyright ok. Gecheckt 09-02-2022

Een halfvol glas?

COLUMN - In de recente golf wetenschappelijke replicatieprojecten waren vorige week de gedragseconomen aan de beurt. Een studie in het blad Science rapporteerde 18 pogingen tot replicatie van toppublicaties in dat vakgebied. Daarvan bleken 11 studies repliceerbaar, met nog een aantal in een schemergebied. Reden voor het weekblad The Economist om victorie te kraaien voor de economische wetenschap, terwijl de Volkskrant juist over een “aframmeling’’ spreekt. Is het glas half leeg of half vol?

Onder mijn collega-gedragseconomen is de stemming licht positief, ondanks het feit dat volgens de officiële statistiek ruwweg 95% van de studies repliceerbaar zouden moeten zijn. Eén van de redenen is dat eigenlijk niemand een resultaat van 95% had verwacht. Dat komt voornamelijk door de zogenaamde publication bias, de neiging van tijdschriften om spectaculaire resultaten te publiceren, waardoor “nulresultaten” vaak in de kast blijven liggen. Een tweede reden is dat economen er in ieder geval beter vanaf komen dan de psychologen, waar het replicatiepercentage in een soortgelijke studie rond de 39% lag (met nog ongeveer 30% in een soort schemergebied).

Je zou dus denken dat in ieder geval de psychologen zich achter de oren krabben, maar ook daar zijn de meningen verdeeld. Een aantal toppsychologen, waaronder David Gilbert trekken juist de replicatiestudies in twijfel, met het argument dat er subtiele verschillen waren tussen de replicaties en de originelen, zogenaamde “infedelities”, die voor mislukte replicaties zorgden. In sommige gevallen is dat punt geldig, bijvoorbeeld voor een experiment dat het effect van positieve emoties bestudeerde door mensen een Robin Williams video te laten zien. De replicatie mislukte, wellicht door het feit dat Williams in de tussentijd was overleden.

Lezen: Venus in het gras, door Christian Jongeneel

Op een vroege zomerochtend loopt de negentienjarige Simone naakt weg van haar vaders boerderij. Ze overtuigt een passerende automobiliste ervan om haar mee te nemen naar een afgelegen vakantiehuis in het zuiden van Frankrijk. Daar ontwikkelt zich een fragiele verstandhouding tussen de twee vrouwen.

Wat een fijne roman is Venus in het gras! Nog nooit kon ik zoveel scènes tijdens het lezen bijna ruiken: de Franse tuin vol kruiden, de schapen in de stal, het versgemaaide gras. – Ionica Smeets, voorzitter Libris Literatuurprijs 2020.

Lezen: Bedrieglijk echt, door Jona Lendering

Bedrieglijk echt gaat over papyrologie en dan vooral over de wedloop tussen wetenschappers en vervalsers. De aanleiding tot het schrijven van het boekje is het Evangelie van de Vrouw van Jezus, dat opdook in het najaar van 2012 en waarvan al na drie weken vaststond dat het een vervalsing was. Ik heb toen aangegeven dat het vreemd was dat de onderzoekster, toen eenmaal duidelijk was dat deze tekst met geen mogelijkheid antiek kon zijn, beweerde dat het lab uitsluitsel kon geven.

Foto: copyright ok. Gecheckt 09-02-2022

Op herhaling

Het Open Science Collaboration (OSC) project heeft tot doel wetenschappelijke resultaten te repliceren. Afgelopen week publiceerde het tijdschrift Science de OSC-replicatiepogingen van 100 studies in drie toptijdschriften in de psychologie. De resultaten zijn slecht nieuws voor de houdbaarheid van veel wetenschappelijke publicaties.

In een eerdere column beschreef ik de ongerustheid van veel wetenschappers dat “[K]leine steekproeven en wetenschappelijk gesjoemel ertoe leiden dat veel experimentele resultaten berusten op statistische toevalstreffers. Eén belangrijke reden is dat een positief effect van een bepaald medicijn, onderwijsmethode of subsidie veel spannender en verrassender is dan geen effect. Onderzoek met zulke resultaten komt daarom in veel betere tijdschriften – en in de populair-wetenschappelijke bladen. Onderzoekers gebruiken daarom, soms onbewust, allerlei technieken om de effecten groter te laten lijken, of rapporteren alleen de ‘gelukte’ studies, een fenomeen genaamd publication-bias.”

Om de gevolgen van dit fenomeen te onderzoeken werkt het OSC samen met de auteurs van de originele artikelen en verschillende replicatie-teams. In het Science artikel van vorige week gaat het daarbij alleen om replicaties van experimenten in de cognitieve en sociale psychologie. De OSC-auteurs hanteren verschillende criteria om te bepalen welke resultaten repliceerbaar zijn, waaronder de grootte van het gevonden effect, en de zogenaamde pvalue, de statistische kans dat de gevonden patronen het resultaat zijn van toeval.