Hulspas weet het | Repliceren? Doe maar niet!

COLUMN - Het zou een Grote Schoonmaak worden. Het rommelige huis van de sociale psychologie zou eindelijk op orde worden gebracht. Dat waren de woorden die de deskundigen zo’n twee jaar geleden geregeld in de mond namen. En het was ook hoog tijd. Ze werden in die tijd toch écht ingehaald door het replicatieprobleem. Iedereen wist al jarenlang dat het vaak lastig was om onderzoeksresultaten te repliceren (en schandalen zoals die rond Diederik Stapel hadden het vakgebied nog eens extra verdacht gemaakt) dus toen een paar jaar geleden verschillende initiatieven startten om nu een systematisch replicatie-onderzoek te doen, was iedereen daar dolblij mee. De resultaten zijn inmiddels bekend. Pakweg zestig procent van de onderzoeken kwam niet ongeschonden door de herhaling. Vaak bleek het met veel aplomb gepubliceerde resultaat veel kleiner uit te vallen. Soms bleef er helemaal niks over.

Die povere resultaten waren reden voor een diepgaand zelfonderzoek. (Dat kun je aan psychologen wel toevertrouwen.) Buiten het vakgebied werden ze vooral gezien als het bewijs dat dit soort onderzoek grotendeels flauwekul is. Nepwetenschap, opgebouwd uit selecte steekproeven, knullige onderzoeksopzetten, verdachte statistiek en het masseren van de cijfers. Zoiets zou een serieuze tak van wetenschap toch niet overkomen! Of wel.

Het afgelopen jaar heeft het Amerikaanse Center for Open Science zich gebogen over vijftig gerespecteerde en geruchtmakende kankeronderzoeken uit de periode 2010-2012. Kankeronderzoek in het lab. Geen gedoe met vragenlijsten en gesleutel aan de uitkomsten, maar gewoon keihard biochemisch onderzoek. Afgelopen week publiceerde eLife de eerste batch van vijf replicaties. Resultaat: in één geval werd er niks gevonden, de andere vier leken vergelijkbare resultaten op te leveren, maar een bijgaande statistische analyse leerde dat het resultaat ook toeval kon zijn. Klachten zijn er natuurlijk ook al. En dat is te begrijpen. Onderzoeken laten zich nu eenmaal niet voor honderd procent repliceren, en een non-replicatie bewijst uiteraard nog niet dat het eerste resultaat onjuist was. Maar deze eerste uitkomsten beloven wat voor de overige 45 studies die voor deze test zijn geselecteerd, en waarvan de resultaten nog moeten verschijnen.

Wetenschap is een bedrijf waarin alleen het resultaat telt, en grote reputaties op het spel staan. Onder die druk is het peer review systeem verworden tot gemopper in de marge, en is die cruciale eis dat onderzoek repliceerbaar moet zijn, naar de achtergrond verdwenen. Geen tijd voor. Levert geen publicatie op. Het resultaat laat zich raden: een stortvloed aan artikelen die na enige tijd terecht vergeten raken. En dat is dus niet alleen een probleem in de ‘zachte’ wetenschappelijke sector; ook het ‘harde’ kankeronderzoek lijdt hieronder. Hoewel, lijden?

Voor onderzoekers in dit vakgebied is dit resultaat waarschijnlijk geen nieuws. Zij zijn er wel aan gewend dat ze de fraaie resultaten in hun eigen lab niet kunnen reproduceren. Dergelijke replicaties verrichten ze ook alleen maar wanneer het nodig is. Wanneer ze serieus van plan zijn om op dat onderzoek van een ander voort te bouwen. Dan moet je dat onderzoek toch ook kunnen doen, én dezelfde resultaten vinden. Vaak gebeurt dat niet en besluit men toch weer iets anders te doen.

Je kunt je dus afvragen of dergelijke brede replicatie-studies als van het Center for Open Science wel nuttig zijn. Degenen die daardoor op het verkeerde been kunnen worden gezet, zullen het onderzoek toch wel eerst checken. Ook de geldschieters zal het worst zijn – zij tirven publicaties, en ‘waar of niet waar’ is daarbij Nicht im Frage. Het enige echte slachtoffer van de grote stroom fraaie doch loze publicaties is het grote publiek. Dat krijgt daardoor de indruk dat de wetenschap met grote sprongen voorwaarts gaat. Zonder te beseffen dat de meeste sprongen gewoon dood lopen. Maar moet het publiek beter weten?

Dat nodeloos repliceren komt voort uit het verheven ideaal dat wetenschappers open, eerlijk en zelfkritisch moeten zijn, opdat onze kennis steeds groter wordt. Maar wetenschappers zijn geen heiligen. Dat ideaal is onzin. Maar het is wel nuttige onzin. Misschien moeten we die illusie van de voortdurend voortstormende wetenschap dus maar niet verstoren. En dus niks repliceren als er geen directe wetenschappelijke noodzaak voor bestaat. Dat nodeloos repliceren zaait alleen maar twijfel. En wie zit er nu te wachten op minder maatschappelijk vertrouwen in de wetenschap?

Link:

https://www.sciencenews.org/article/cancer-studies-get-mixed-grades-redo-tests

  1. 1

    Aan genoemde meta-studie valt ook wat aan te merken. Aan deze figuur in het bijzonder:

    De lijnen in de verschillende grafiek zijn helemaal niet zo verschillend—met uitzondering van de standard error bars. Die in de onderste grafiek hebben om een of andere obscure reden bredere schreven (die horizontale lijntjes die de boven- en onderkanten van de error bars markeren en waarvan de breedte totaal geen betekenis heeft). Omdat ze breder zijn, geven ze wél de indruk dat de meetresultaten minder precies zijn.

    De standard is op sommige punten inderdaad groter, maar dat kan komen door gebrek aan ervaring en handigheid van het ‘gast’-lab met betrekking tot deze specifieke test. De trend van de grafiek verschilt ook wat, maar dat lijkt me eerder een systematische, c.q. interlaboratorium-variatie (bijvoorbeeld variaties in tumor-kweekomstandigheden, verschillen in proefdierenonderhoud), die verder geen invloed heeft op de implicaties van de studie.

    Ik wil verder wel aanmerken dat experimenten die zulke magere resultaten opleveren meestal in tijdschriften met lagere impact factor belanden en inderdaad (gelukkig) in de vergetelheid raken. Gebruik van dit medicijn zou een halvering van de tumor-groei suggereren. Dergelijke effecten worden in vivo bij mensen meestal teniet gedaan door potentiële bijwerkingen en mate van opname, metabolisering en uitscheiding van het medicijn die afwijkt van die bij proefdieren. Bij de betere studies worden voor de verticale as een logaritmische schaal gebruikt.

  2. 2

    Ik weet niet helemaal wat ik aan moet met dit stuk @Marcel Hulspas. Falende replicatie geeft aan dat een eerdere studie problemen heeft (denk maar aan de koude kernfusie van Fleischmann en Ponsch) of zelfs op fraude is gebaseerd. Replicatie percentages van zestig procent voor een hele discipline geeft aan dat de betreffende wetenschappers er een potje van maken. Ze duperen daarmee allereerst gewone mensen, en daarnaast ook de geloofwaardigheid van wetenschap.

    Als voorbeeld is er het herhaalde falende replicatie van het autisme bij inentingen onderzoek van Wakefield in The Lancet. Het is een belangrijke reden waarom wij als wetenschappers met gestrekt been tegen ouders in mogen gaan die hun kinderen maar liever niet inenten. Lang leve de replicatie denk ik dan.

  3. 3

    “Degenen die daardoor op het verkeerde been kunnen worden gezet, zullen het onderzoek toch wel eerst checken.”
    Ja dat is nogal gebleken tot dusver.
    /sarcasmeteken

  4. 4

    Dat nodeloos repliceren zaait alleen maar twijfel. En wie zit er nu te wachten op minder maatschappelijk vertrouwen in de wetenschap?

    mwah ik denk dat een beetje Stapel de wetenschap veel meer schade heeft aangedaan dan 10 replicatiestudies. blaming the messenger hier: niet de wetenschapsfraude maar degene die er over bericht doet het vertrouwen geweld aan. jaja

  5. 5

    @1: Die in de onderste grafiek hebben om een of andere obscure reden bredere schreven (die horizontale lijntjes die de boven- en onderkanten van de error bars markeren en waarvan de breedte totaal geen betekenis heeft). Omdat ze breder zijn, geven ze wél de indruk dat de meetresultaten minder precies zijn.

    huh, wat vergezocht zeg. ik denk dat de schreven breder zijn om het plaatje leesbaarder te maken. stel je de onderste schreven voor in het bovenste plaatje: omdat de lijntjes zo dicht op elkaar zitten wordt het een stuk minder leesbaar. en vice versa.

  6. 6

    @5: Waarschijnlijk was er geen opzet in het spel, maar die bredere streepjes zijn nergens voor nodig. Die maken het echt niet leesbaarder. Integendeel. Een niet-expert zou er bovendien zomaar wat achter kunnen zoeken.

    Peer reviewers zaniken al om minder.

  7. 7

    Rare aanbevelingen. Wetenschappelijke kennis is ‘objectief’ precies doordat het de subjectieve ervaring elimineert. Repliceerbaarheid is het instrument bij uitstek waardoor die objectiviteit wordt bereikt: niet alleen ik maar ook jij krijgt hetzelfde resultaat! Zonder repliceerbaarheid stort de objectiviteit van wetenschap in en heeft het publiek groot gelijk dat het de wetenschap niet meer vertrouwt.

    PS. Een typisch moderne kennisdefinitie is het pragmatisme omdat wij modernen geen zekerheid meer kennen: ‘waar is wat werkt’ (reeds de antieke sceptici werden aldus pragmatici, maar uiteindelijk is dit uiteraard weer gewoon die repliceerbaarheid). Dat lijkt me een belangrijk verschil tussen bv. psychologie en medicijnen. Als een medicijn werkt doet het er niet meer toe of het is verkregen door deugdelijke wetenschappelijk onderzoek. Maar psychologie levert volgens mij nooit wat bruikbaars op: het werkt niet en het is niet objectief. Tja, wat heb je er dan aan?

  8. 8

    @6: Waarschijnlijk was er geen opzet in het spel, maar die bredere streepjes zijn nergens voor nodig. Die maken het echt niet leesbaarder.

    leesbaarder dan de balletjes van figuur 1. bij het eerste punt van 2 zouden de balletjes praktisch op elkaar vallen.

  9. 9

    Ik dacht, er klopt iets niet.

    En in eerste instantie zag ik het niet eens, maar het is het woord repliceren. De betekenis komt neer op:

    1) Antwoorden 2) Bescheid doen 3) Daar tegen inbrengen 4) Wederwoord geven 5) Weerleggen

    Geen van deze betekenissen is datgene wat bedoeld wordt in de hierboven beschreven problematiek. Waar het om gaat is reproductie: het weer voortbrengen; het nabootsen; nabeelden;

    Dat is nl essentieel in de wetenschap: reproduceerbare resultaten. Een experiment dient zo beschreven te worden, dat het aan de andere kant van de wereld herhaald kan worden (gereproduceerd).

    En alle reaguurders nemen het repliceren over.
    Ik ben verbijstert, het valt me tegen, het stoort me.

    Maar het zal wel door de Trumpismen komen.

  10. 10

    @9: Haha, ik denk dat beide termen ‘repliceerbaar’ als ‘reproduceerbaar’ onjuist zijn. De juiste term is: ‘herhaalbaar’!

  11. 13

    @9: Je hebt gelijk, maar ik vermoed eerder dat repliceren gewoon een (te directe) vertaling uit het Engels is, waar het ook reproduceren kan betekenen (“het maken van een replica”). De betekenis van antwoorden is daar overgenomen door “to reply”.

  12. 17

    @14: In de wetenschap sluipen de anglicismen (en Engelse leenwoorden) er anders juist makkelijk in. Aangezien replicatie in het Nederlands ook bestaat (met de betekenis kopie/kopiëren), zou het me niet verbazen als repliceren binnen korte tijd gewoon sjiek Nederlands is voor kopiëren (taal is immers altijd in beweging).

  13. 18

    @14 & @17: Een paar oerhollandse woorden uit het laboratorium: inhiberen, blocken (met een lepeltje Completa—I kid you not), sequencen, blotten, powersupply, pellet, paper, proofreaden, submitten, reviewen, spinnen, heatshocken, vortexen, downpullen, zappen, flowkast…