Het Open Science Collaboration (OSC) project heeft tot doel wetenschappelijke resultaten te repliceren. Afgelopen week publiceerde het tijdschrift Science de OSC-replicatiepogingen van 100 studies in drie toptijdschriften in de psychologie. De resultaten zijn slecht nieuws voor de houdbaarheid van veel wetenschappelijke publicaties.
In een eerdere column beschreef ik de ongerustheid van veel wetenschappers dat “[K]leine steekproeven en wetenschappelijk gesjoemel ertoe leiden dat veel experimentele resultaten berusten op statistische toevalstreffers. Eén belangrijke reden is dat een positief effect van een bepaald medicijn, onderwijsmethode of subsidie veel spannender en verrassender is dan geen effect. Onderzoek met zulke resultaten komt daarom in veel betere tijdschriften – en in de populair-wetenschappelijke bladen. Onderzoekers gebruiken daarom, soms onbewust, allerlei technieken om de effecten groter te laten lijken, of rapporteren alleen de ‘gelukte’ studies, een fenomeen genaamd publication-bias.”
Om de gevolgen van dit fenomeen te onderzoeken werkt het OSC samen met de auteurs van de originele artikelen en verschillende replicatie-teams. In het Science artikel van vorige week gaat het daarbij alleen om replicaties van experimenten in de cognitieve en sociale psychologie. De OSC-auteurs hanteren verschillende criteria om te bepalen welke resultaten repliceerbaar zijn, waaronder de grootte van het gevonden effect, en de zogenaamde p–value, de statistische kans dat de gevonden patronen het resultaat zijn van toeval.
De resultaten liegen er niet om. De grootte van het effect in de replicaties is gemiddeld minder dan de helft van dat van de originele studies. Daarnaast valt 53% van de effecten in de replicatiestudies buiten het 95% vertrouwensinterval van het originele resultaat, wat eigenlijk slechts in 5% van de gevallen zou moeten gebeuren. Terwijl 97% van de effecten in de originele studies een p-value van minder dan 5% had, was dat bij de replicatiestudies slechts bij 36% het geval.
Alles bij elkaar concluderen de OSC auteurs dat zij 39% van de originele effecten konden repliceren, en dat “[a] large proportion of replications produced weaker evidence for the original finding, despite using materials provided by the original authors, review in advance for methodological fidelity, and high statistical power to detect the original effect sizes.”
Natuurlijk zijn de resultaten van de replicaties niet definitief, en ook niet “beter” dan de originele resultaten. Als het origineel en replica bij elkaar worden gevoegd, blijkt 68% van de studies nog steeds statistisch bewijs voor het originele resultaat te geven. Het valt ook nog te bezien in hoeverre deze resultaten representatief zijn voor andere wetenschappelijke disciplines. Desalniettemin is een gemiddeld replicatiepercentage van 39% reden voor een serieuze wetenschappelijke discussie over de effecten van publicatiedruk en de handhaving van wetenschappelijke standaarden. Vooralsnog geldt een herhaling van het advies in mijn eerdere column: caveat lector.
Reacties (6)
” 95% vertrouwensinterval “?
Is niet bedoeld “95% betrouwbaarheidsinterval”?
@0: “Natuurlijk zijn de resultaten van de replicaties niet definitief, en ook niet “beter” dan de originele resultaten. Als het origineel en replica bij elkaar worden gevoegd, blijkt 68% van de studies nog steeds statistisch bewijs voor het originele resultaat te geven.”
Die 68% is echt een wanhoopspoging om het mooier te laten lijken dan het is. En de replicaties hoeven ook niet beter te zijn, als ze maar goed gedaan zijn. Omdat bij dit onderzoek niemand behoefte had om onwelgevallige uitkomsten te verdoezelen of te manipuleren, is de betrouwbaarheid (a priori) hoger, tenzij je uitgaat van volstrekte eerlijkheid van de oorspronkelijke onderzoekers en een onbevooroordeeld publicatiesysteem.
“Het valt ook nog te bezien in hoeverre deze resultaten representatief zijn voor andere wetenschappelijke disciplines.”
Nou… dit onderzoek staat in een mooie traditie en in de geneeskunde is het niet veel beter. http://www.theatlantic.com/magazine/archive/2010/11/lies-damned-lies-and-medical-science/308269/
Deze rubriek citeert regelmatig zelf rammelende wetenschappelijke studies. Gaat daar nu verandering in komen?
@3: Nog eens iets te melden? Of blijft het bij het eeuwige one-liner kritiek zonder onderbouwing?
@3: Dat je uitgerekend dit artikel dan weer niet in twijfel trekt.
@3: Je vraag is niet onterecht, hoewel “regelmatig” moeilijk hard te maken is. Het is waar dat onze rubriek gericht is op (gedrags)wetenschap, en het kan dus bijna niet anders dat wij soms onderzoek bespreken dat niet repliceerbaar is. De vraag is echter wat daaraan te doen is (behalve dan de wetenschappelijke standaarden verhogen, waar wij natuurlijk nauwelijks invloed op hebben). Wij proberen wel een soort kwaliteitscontrole toe te passen, en citeren ook meestal uit de gedragseconomie, waar naar mijn inzicht de statistische standaarden wat hoger liggen dan in de sociale psychologie. Desalniettemin weet je pas jaren later zeker welk onderzoek robuust was. Als je met die onzerkerheid niet kan leven, moet je misschien geen wetenschapscolumns lezen. Ik heb nu een aantal keer over replicatie geschreven, dus in ieder geval zijn we wel transparant.