Sociale wetenschappen berusten deels op drijfzand

Leugens.nl 30 januari 2012 , 19:00 Wetenschap & Onderwijs

Grote delen van de sociale wetenschap op drijfzand opgetrokken, stelt Han Oud, statisticus aan het Behavioural Science Institute van de Radboud Universiteit Nijmegen.

VSNU-voorzitter Noorda noemt het weglaten van statistische informatie om de conclusies van wetenschappelijke artikelen te verfraaien een ‘dagelijkse zonde’. Verbazingwekkend, omdat Noorda hiermee de hoofdoorzaak voor de onbetrouwbaarheid van sociaalwetenschappelijke onderzoeksresultaten miskent.

Wat is het geval? Sociaal-wetenschappelijk en ander statistisch geaard onderzoek is op steekproeven gebaseerd. Iedere steekproef heeft zijn eigen toevallige afwijkingen. Tamelijk willekeurig is afgesproken om alleen de 5 procent sterkste afwijkingen in de steekproefverdeling serieus te nemen: significantie-toetsing op het 5%-niveau.

Andere percentages treffen we veel minder aan. Het betekent dat, ook als er niets aan de hand is en dus geen enkel effect in de populatie, in 5 procent van de gevallen wordt besloten tot een (‘significant’) effect of resultaat.

Dat foutenpercentage van 5 is al heel wat maar hoe gaat het in de praktijk? Het uitblijven van het beoogde resultaat is voor veel sociale wetenschappers waaronder promovendi het startsein voor de significantiejacht.

Dit kan worden geïllustreerd aan de hand van een enquêteonderzoek, bijvoorbeeld naar houdingen en meningen met betrekking tot voeding. Dat zal al gauw 100 of meer vragen omvatten (een vraag gaat bijvoorbeeld over vlees eten en het antwoord op een andere vraag wordt indicatief geacht voor de ‘hufterigheid’ van de respondent).

100 vragen geven 4.950 samenhangen tussen vragen en deze gemiddeld weer 5 procent of 248 significante samenhangen, ook als er geen enkele samenhang in de populatie is.

Een respectabel aantal, waaruit verschillende proefschriften kunnen worden samengesteld, zogenaamd uitsluitend uit ‘ significante’ resultaten bestaand. Er wordt helaas niet vermeld dat tegenover de significante resultaten 4.702 niet-significante stonden die zijn weggelaten in de rapportage.

Correctiemethoden zelden toegepast

Significantiejacht is funest voor de wetenschapsbeoefening en maakt dat grote delen van de sociale wetenschap op drijfzand worden opgetrokken. Er bestaan methoden om voor de kanskapitalisatie in de significantiejacht te corrigeren maar deze worden in de praktijk zelden toegepast.

Significantie-jacht wordt niet alleen in de hand gewerkt door de enorme druk op hoogleraren en promovendi om te produceren, maar ook door de tendens bij wetenschappelijke tijdschriften om alleen significante resultaten te publiceren en dus de niet-significante weg te laten.

Bij pogingen om wetenschapsfraude te meten wordt veel te weinig onderscheid gemaakt tussen statistisch, op steekproeven gebaseerd onderzoek waar bijna de hele sociale wetenschap op berust, en exact georiënteerd onderzoek.

Door het gebrek aan strikte herhaalbaarheid (iedere steekproef heeft zijn eigen afwijkingen) is de kans op fraude vele malen hoger in statistisch onderzoek, omdat het veel moeilijker is vast te stellen.

Fisher, grondlegger van de moderne statistiek, had een half boekwerk nodig om de fraude in de data van Mendels befaamde erwtenexperimenten aan te tonen. Dat Fisher het statistisch bewijs kon leveren was te danken aan het enorme datamateriaal dat Mendel zelf in zijn artikel opnam.

Onderzoeksdata moet je checken

Een tweede reden, waarom statistisch onderzoek zo fraudegevoelig is, wordt dan ook veroorzaakt door het feit dat er nog steeds geen wettelijke verplichting is om databestanden waarover in de publiciteitsmedia en tijdschriften wordt gepubliceerd in het publieke domein ter beschikking te houden.

Fraudeurs kunnen dus bijna onopvallend en ongecontroleerd hun werk doen. Zie Stapel. Bij tijdschriften bestaat weliswaar de mogelijkheid dat een reviewer de data opvraagt, maar dat gebeurt in de praktijk uiterst zelden. Reviewers hebben het al druk genoeg met hun eigen analyses en nauwelijks tijd en zin in het schrijven van reviews.

Ook in het geval van promoties zou een lid van de manuscriptcommissie kunnen vragen om de data in te zien. Zo’n blijk van wantrouwen wordt zelden afgegeven, vooral omdat het commissielid dan bij de volgende gelegenheid zelf de kans loopt met de billen bloot te moeten.

In plaats van de ernst van de situatie te bagatelliseren zouden hoog geplaatsten zoals Noorda nu eindelijk maatregelen moeten nemen.

Voor de sociale wetenschappen zou het een enorme stap in de goede richting zijn, als de gezamenlijke faculteiten besloten een of meerdere ervaren onderzoekers vrij te stellen met als taak om steekproefsgewijs na te gaan of de resultaten van promotieonderzoek op de in het proefschrift aangegeven wijze voortkomen uit aanwezige databestanden en er geen statistische informatie bewust is weggelaten.

Han Oud is statisticus aan het Behavioural Science Institute van de Radboud Universiteit Nijmegen

Reacties (16)

#1 frank 30 januari 2012 , 20:02

Ik weet bijna zeker dat ik bovenstaand artikel van het weekend al in een van de kranten heb gezien. Mogelijk bronvermelding op zijn plaats?

#1.1 Mr. Understanding - Reactie op #1 30 januari 2012 , 20:19

Dit was een ingezonden brief die stond in het wetenschapskatern van het NRC afgelopen zaterdag.

#2 Harm 30 januari 2012 , 20:34

Het zou bovendien een grote vooruitgang zijn als men eindelijk eens zou ophouden te doen alsof Behavioural Science en sociale wetenschappen een hetzelfde zijn, alsof alles wat niet statisch meetbaar is geen wetenschap is.

“Behavioural sciences abstract empirical data to investigate the decision processes and communication strategies within and between organisms in a social system. This involves fields like psychology and social neuroscience, among others.

In contrast, social sciences provide a perceptive framework to study the processes of a social system through impacts of social organisation on structural adjustment of the individual and of groups. They typically include fields like sociology, economics, history, counselling, public health, anthropology, and political science.”

Feitelijk biedt het behaviourisme slechts een zeer beperkte kijk op de werkelijkheid en zou zonder de achterliggende concepten die ten grondslag liggen aan de menswetenschappen zelfs volstrekt hulpeloos zijn.

De kop van het artikel zou dan ook moeten luiden:

Behavioural Science berust deels op drijfzand

#2.1 børkbørkbørk - Reactie op #2 30 januari 2012 , 22:57

En Social Sciences helemaal.

#3 Karl Kraut 30 januari 2012 , 21:15

De taak van sociale wetenschappen is het leveren alibi’s voor overheidsbeleid; het waarheidsgehalte van sociale wetenschappen wordt alleen een kwestie als het beleid niet helemaal naar tevredenheid uitpakt, maar is verder niet echt van fundamenteel belang.

#4 Tjerk 30 januari 2012 , 21:39

En ik maar denken dat juist de steekproef het drijfzand is.

#5 DrBanner 30 januari 2012 , 21:57

artikel klopt niet
het miskent herhalingsexperimenten

#5.1 about: - Reactie op #5 30 januari 2012 , 22:20

En heeft statisticus Han Oud wel eens het woord “hypothese” gehoord? Zo niet, dan moet ik hem verwijzen naar b.v. A.D. de Groot. Zo ja, dan moet hij toch A.D. de Groot nog maar eens goed nalezen – dan kan hij daarna in elk geval de eerste helft van zijn woeste zelfbeschuldigingen tot een propje vormen en opeten.

Dat er met een significantietoets op het niveau van 5% in één van de twintig gevallen een significant maar toevallig verband wordt gevonden is namelijk niet echt een originele opmerking. Het is gewoon de definitie van de te hanteren begrippen; dat kun je dus verder niet ten detrimente van de methodologie van de sociale wetenschappen aanvoeren, zoals Oud doet. Hij bedrijft zo doende regelrechte demagogie. Dat is dom óf kwalijk, maar het is in elk geval volksverlakkerij. Zijn betoog is daarom ook in de verste verten nog niet voor 95 % correct, zoals zijn naïve statistische toetsingen dat wel zouden zijn.

#6 MrOoijer 30 januari 2012 , 22:11

Nou Han Oud, ik zou graag eens een uitgebreid gesprek met je willen voeren over dit onderwerp. Toen ik Roos Vonk attackeerde over de vleesetende hufters kreeg ik wel hartelijke bijval van een bevriende Nijmeegse hoogleraar, hij was het hartgrondig met mij eens, maar dat is een beetje N=1. Op de site van Maria Foerier discussieerde ik daarentegen met twee docenten methoden en techniek van de vakgroep van Roos Vonk, en ik werd helemaal niet zo vrolijk van de argumenten van beiden. (Dr.) Eric Marel probeerde me er in te luizen met een onjuist technisch argument over de centrale limietstelling, en (Dr.) Jules Ellis vond vooral dat sociale wetenschappers anders dachten dan een exacte wetenschapper zoals ik en dat mijn conclusies daarom niet deugden. Of misschien wel deugden, maar zijn werkelijkheid was anders.

En ja, Han, daarom voelt het ook voor mij dat het heel erg tijd wordt hier eens goed de bezem door te halen.

Mail me – adres te vinden bij http://www.mrooijer.nl

#7 about: 30 januari 2012 , 22:40

Nu moet ik opeens wel weer verschrikkelijk lachen. Ik zie in zijn literatuurlijst dat Oud zelf heel veel van zijn onderzoeken heeft uitgevoerd met zeer, zeer, zéér geavanceerde statistische modellen en technieken. Dat is de ideale manier om het spoor bijster te raken, natuurlijk. Is hij nu een oprechte spijtoptant of is hij achteraf bang dat het uitkomt, wat er allemaal niet klopte?

#7.1 MrOoijer - Reactie op #7 30 januari 2012 , 22:52

Lijkt me dat juist jij niet echt weet waar je het over hebt. Raar verwijt ook dat “state of the art” tot meer fouten zou leiden. Dan maar weer terug tot de tijd Huygens?

PS, A.D. de Groot was geen statisticus maar een psycholoog die je zou kunnen beschouwen als de grondlegger van de methodologie van zijn vak.

#7.2 frank - Reactie op #7.1 30 januari 2012 , 23:04

MrOoijer, ik heb zelf een keer de merkwaardige sensatie gehad bij het reviewen van een manuscript dat de groep die het had geschreven zo gefocussed was op het statistisch testen van alles wat ze onder handen hadden dat ze helemaal de voor de hand liggende conclusies over het hoofd hadden gezien (ging over verspreiding van soorten). Was notabene uit misschien wel de beste onderzoeksgroep op dit gebied. Het komt voor, dat je over gefocussed kunt zijn, al heb ik natuurlijk geen weet over het type onderzoek waar About naar refereert.

#7.3 about: - Reactie op #7.1 31 januari 2012 , 14:17

Ik was werkelijk even KO van de neerbuigende reactie @010. Dat MrOoijer best mooier kan is te zien aan zijn serviele, vlijende, opgeblazen en onbescheiden poging tot een vrijage met Han Oud in @007. Laten de moedige heren het weten wanneer zij zegevierend zijn teruggekeerd van hun kruistocht tegen alles wat vies en voos is in de sociale wetenschappen?

Over dat punt: ik denk dat de psychologie en de sociologie zelden echt falen, noch veel schade aanrichten als we het vergelijken met de tekortkomingen van bijvoorbeeld de economie of de politiek. Aan de fouten van die gammawetenschappen zouden een paar onderzoekscommissies veel werk kunnen hebben.

Om maar niet te spreken van de fouten van de bètawetenschappers. Ik noem maar eens het afvalprobleem van de kerncentrales, de CO2-uitstoot en vervuiling door de verbrandingsmotor, de milieuschade aangericht door de chemische industrie, het RoundUp schandaal, de eeuwigdurende mislukkingen in de IT-sector, het gewetenloze raffinement van de wapenindustrie, de kostenoverschrijdingen en corruptie bij allerlei nutteloze civiele projecten, het asbestschandaal, de patenteerraces in de medicijnenwereld, enz., enz.

Al met al is daarom de kritiek van Han Oud op de sociale wetenschappen een issue van de vierde of derde orde op zijn hoogst. Met het weinige wat hij tot nu toe aan verwijten jegens de sociale wetenschappen heeft aangevoerd kunnen we deze post gerust afdoen als (modieus) gebabbel.

#7.4 MrOoijer - Reactie op #7.3 31 januari 2012 , 20:48

Ach, graag gedaan, zo’n klein stootje en dan al even compleet KO.

Je waandenkbeelden zijn grenzeloos. Echt, zoek hulp:

“fouten van de bètawetenschappers.”

(1) “afvalprobleem van de kerncentrales” –> politiek
(2) “de CO2-uitstoot en vervuiling door de verbrandingsmotor” –> natuurwet, je bent zelf de struisvogel
(3) “de milieuschade aangericht door de chemische industrie” –> de industrie
(4) “het RoundUp schandaal” –> industrie (Monsanto)
(5) “de eeuwigdurende mislukkingen in de IT-sector” –> de wetenschap ontwerpt de IT, de sukkels die het niet snappen maken de mislukkingen
(6) ” het gewetenloze raffinement van de wapenindustrie” –> politiek, industrie
(7) “de kostenoverschrijdingen en corruptie bij allerlei nutteloze civiele projecten” –> ja hoor, slaat helemaal nergens op
(8) “het asbestschandaal” –> politiek, de wetenschap waarschuwde al jaren
(9) “de patenteerraces in de medicijnenwereld” –> industrie

#8 JanT 31 januari 2012 , 02:18

Eens met de auteur!
En Adriaan de Groot was een wiskundige die zich daarna is gaan toeleggen op zowel psychometrie als expertise (zie voor dit laatste zijn proefschrift ‘Het denken van de schaker’).
En het punt van de auteur is natuurlijk dat in praktijk veel (onbelangrijke) onderzoeken niet herhaald worden. Bovendien veranderd dit niets aan de promotie van een promovendus die gepromoveerd is aan de hand van onjuiste theorien. Dus zelfs replicatie onderzoek zal niets veranderen aan significantiejacht (mooie term overigens).

#9 pedro 31 januari 2012 , 10:25

Wat een nonsens. Het weglaten van onderzoeksgegevens is niet alleen bij sociale of behavioral wetenschappen een probleem. Dat kan zelfs in exacte wetenschappen gebeuren. Maar het probleem met dit artikel is toch vooral de uiterst vreemde stelling, dat sociale wetenschappen (of behavioral science) op drijfzand berusten, omdat er onderzoekers zijn, die frauderen met de gegevens. Wanneer aantoonbaar met de gegevens is gefraudeerd, houdt het onderzoek op wetenschappelijk te zijn, maar betekent dat niet, dat de hele wetenschap dus op drijfzand is gebouwd. Dat is onwetenschappelijke nonsens van deze professor Oud. Hij ziet dat ook wel in hoor, gezien de oplossing, die hij aandraagt. Nu eerst de politiek nog overtuigen, dat het controleren van proefschriften net zo waardevol is als de publicatiedruk, waar onze wetenschappers onder lijden, die er voor heeft gezorgd, dat het controleren van proefschriften van minder belang is geworden.