Bello de kat - Sargasso

Jona Lendering 28 juni 2012 , 15:00 Wetenschap & Onderwijs

Iedere wetenschapper masseert data weg. Maar hoe hard moet je masseren?

Stel, u doet onderzoek naar katten. Van twintig proefdieren meet u hoogte en breedte. De afmetingen van negentien katten blijken redelijk dicht bij elkaar te liggen, alleen één ervan, Bello genaamd, blijkt bijna eens zo hoog en breed. U bekijkt hun ogen en ziet dat ze allemaal groen of geel zijn, behalve de bruine kijkers van, alweer, Bello. U meet hoe ze spinnen, en alweer blijkt Bello sterk van de andere katten af te wijken. Er komt een punt waarop u concludeert dat u Bello beter buiten de statistieken kunt houden.

In de wetenschap komt dit vaak voor. Bello’s kunnen het gevolg zijn van ruis in de apparatuur, maar kunnen zich ook voordoen als de onderzoekscategorieën niet scherp zijn. U tekent bijvoorbeeld een sterrenkaart en noteert van alle sterren coördinaten, maar u merkt dat, terwijl alle sterren voortdurend op dezelfde plaats staan, andere van plaats veranderen. Op uw sterrenkaart laat u ze achterwege. Misschien noemt u deze dwalende bello’s met een mooi Grieks woord ‘planeten’. Als u mensen bestudeert, kan een bello erop wijzen dat ze op u reageren. De klachtenlijn van Schiphol constateerde ooit dat sommige mensen tientallen keren per dag klaagden, en die werden voortaan buiten de statistieken gelaten omdat er geen informatie aan kon worden ontleend over de ontwikkeling van de overlast.

Iedere wetenschapper masseert de bello’s weg. Dat is een gezonde manier van doen. Als ik het goed begrijp, is het verweer van de deze week in opspraak gekomen Rotterdamse hoogleraar Dirk Smeesters nu dat zijn meetgevens niet “too good to be true” waren doordat hij ze had verzonnen of er gruwelijk mee had zitten rommelen, maar dat hij de bello’s er te drastisch uit had gesloopt. Toen dit aanleiding was voor vragen over de oorspronkelijke gegevens, kon hij die niet meer tonen. Dit laatste kwam door een computercrash, en daarvoor voel ik wel enige sympathie. Het is oliedom om geen backups te maken, maar wie nooit bij een computercrash iets kwijtraakte, werpe de eerste steen.

Waar ik meer moeite mee heb, is Smeesters toelichting:

Er is een groot grijs gebied wat je wel meldt en wat niet. Er zijn ook geen regels voor. Ik zie nu dat ik het weglaten van gegevens wel had moeten melden, maar ik vind ook dat er betere regels voor moeten komen. Dat we moeten melden welke studies niet hebben gewerkt.

Misschien wreekt zich mijn deficiënte academische opleiding, maar ik zou toch denken dat er wel degelijk regels zijn. Van je twintig katten geef je netjes aan dat Bello sterk afwijkende resultaten opleverde. Dat is vervolgens de basis voor het toetsen van een groeiend vermoeden over de kwaliteit van de dierenhandel die de proefdieren leverde. Schiphol gaf keurig aan dat bepaalde reacties uit het onderzoek waren weggelaten, en kondigde een vervolgstudie aan om te ontdekken waarom bij sommige mensen frustratie leidt tot extreme reacties.

Ik ben niet overtuigd door Smeesters’ verweer dat er geen regels zijn. Als ze werkelijk niet bestaan, dan moet het zijn omdat de onderzoekers op hun klompen kunnen aanvoelen wat er van ze wordt verwacht. Ik heb bovendien ook een wat nare bijsmaak bij een ander deel van Smeesters’ antwoord, dat “velen gebruik maken van bewust weglaten van data om significantie te bereiken zonder dit te vermelden”.

Ofwel: het is niet erg want iedereen doet het. Dat iedereen het doet, zal waar zijn, en ik wil best geloven dat lang niet elke onderzoeker aangeeft hoe hij de data heeft gemasseerd. Maar het is geen excuus. Smeesters verwisselt “wat is de praktijk?” met “hoe hoort het eigenlijk?”

De hamvraag is: waarom heeft niemand er dan iets van gezegd? Ik vermoed dat het komt doordat het werk van onderzoekers wordt gecontroleerd door collega’s. Als iedereen nogal nonchalant omgaat met de data, en er dus een cultuur begint te groeien waarin het er allemaal niet zoveel toe doet, kun je er keer op keer mee wegkomen. Maar daarmee is het nog niet goed. De verantwoordelijkheid is alleen uitgesmeerd.

Vandaar de conclusie in mijn vorige blogpost dat we eens serieus moeten gaan kijken naar de wijze waarop wetenschappelijke informatie en instellingen worden gecontroleerd. Terwijl bijvoorbeeld de onderzoekers van Schiphol wél weten hoe je met bello’s moet omgaan, bestaat er in de sociale psychologie een andere cultuur. Dan is er dus een fout in de collegiale controle.

Een mogelijke oplossing zou zijn dat elk jaar een bepaald aantal studies wordt geselecteerd en door statistici en logici wordt doorgelicht. Een andere oplossing is dat de commissies die fondsen toekennen, ook bestaan uit niet-vakgenoten. Enkele van de problemen die ik in de oudheidkunde constateer, zouden zich niet hebben voorgedaan als af en toe een socioloog naar de onderzoeksvoorstellen had gekeken.

Maar ik denk eerlijk gezegd dat dit soort oplossingen te weinig zijn, en dat we ons veel structureler moeten bezinnen op het wetenschappelijk bedrijf. Vandaar dat ik in mijn vorige post pleitte voor een grondige evaluatie op het gehele bestel, of, eigenlijk, een soort Business Process Redesign. De conclusie kan dan zijn dat de kloof tussen “wat is de praktijk?” en “hoe hoort het eigenlijk?” te groot is en we helemaal van voren af aan moeten beginnen, en ze kan ook luiden dat de kloof gewoon groot is, en dat wat kleine aanpassingen volstaan om het vertrouwen te herstellen.

Foto flickr cc Mathieu Struck

Reacties (24)

#1 Satou 28 juni 2012 , 15:21

Het lijkt me dat als een zo’n enkele outlier (een bello) je resultaten enorm beïnvloed, je data sowieso niet zo sterk is. Persoonlijk zou ik het alleen weglaten als je sterke vermoedens hebt dat het veroorzaakt is door een meetfout of als ook met de outlier erbij je resultaten alsnog significant zijn en het vooral een kwestie wordt van duidelijkheid. Uiteraard moet het allemaal gedocumenteerd worden, al zullen velen het vast weglaten uit een mogelijk wetenschappelijk artikel.

Een groter probleem vind ik persoonlijk de enorme hoeveelheid aan mogelijke statistische toetsen die je kan gebruiken. Waarbij de keuze is, kies je voor een algemeen bekende toets of een onbekendere, zelfs als die eigenlijke geschikter is voor je type data. En ga je je data standaardiseren, op welke manier en waarom eigenlijk (zal vaak genoeg gedaan worden om iets significant te maken). En die statistische toetsen dan ook nog eens goed toepassen. Volgens mij zijn er genoeg studenten die bijvoorbeeld geen idee hebben hoe je moet omgaan met datamining en de bijbehorende problemen.

#1.1 Mozzarella - Reactie op #1 28 juni 2012 , 17:02

Ik ben het geheel met je eens.

In de klimaatwetenschap heb je ook een Bello, maar daar is het een stekelden. Als je de gegevens van deze boom (die sterk afwijken van de andere gegevens) uit het oorspronkelijke betoog van Michael Mann weglaat blijft er van het hockeystick-verhaal bijna niets over.
http://www.deingenieur.nl/nl/nieuws/3862/kyoto-verliest-belangrijkste-bewijs.html

Ook hier is er sprake van een enorme hoeveelheid gegevens, die op allerlei manieren te interpreteren valt.

#1.2 majava - Reactie op #1.1 28 juni 2012 , 22:58

Man(n) man, wat een onzin. Leuk, die link naar dat tijdschrift (waar alleen maar klimaatontkennerspraat wordt gepubliceerd). Maar goed, als je het divergentieprobleem in sommige dendro proxy’s al niet kan onderscheiden van het hele normale gegeven (inderdaad Bismarck) van een outlier in data, dan denk ik dat een verdere uitleg niet aan jou besteed is. Zo’n beetje elke zin van wat je schrijft is nonsens.

#1.3 Mozzarella - Reactie op #1.2 29 juni 2012 , 13:32

Het ging me eigenlijk meer om het algemene verhaal, maar dat heb je er blijkbaar niet uitgehaald.

In het klimaatdebat gaat het ook om een hoeveelheid data, die door bijna iedereen weer anders wordt geïnterpreteerd. Welk gewicht ken je toe aan welke data?

#1.4 gronk - Reactie op #1.3 29 juni 2012 , 13:57

die door bijna iedereen weer anders wordt geïnterpreteerd

Dat is niet zo. De interpretatie van die data is behoorlijk eenduidig. Iedereen die enigszins weet waar-ie mee bezig is komt op min-of-meer dezelfde trend uit. Wat resteert zijn domkoppen die halsstarrig vasthouden aan interpretaties die door anderen al -tig keer weerlegd zijn, lui die politiek/ideologisch verblind zijn en daarom tegen beter weten in dingen roepen die niet kloppen, en mensen die er voor *betaald* worden om onwaarheden in het nieuws te brengen.

Maar dat wil niet zeggen dat ‘iedereen een andere interpretatie heeft’.

#1.5 Bismarck - Reactie op #1 28 juni 2012 , 17:12

Het lijkt me dat als een zo’n enkele outlier (een bello) je resultaten enorm beïnvloed, je data sowieso niet zo sterk is.

Die is toch echt te kort door de bocht. Bij een niet al te grote steekproef en/of voldoende afwijking zal bello al snel een significante invloed (niet alleen in statistische betekenis) op het resultaat uitoefenen, ook als je niet kunt aantonen dat hij een meetfout is.

Persoonlijk zou ik het alleen weglaten … als ook met de outlier erbij je resultaten alsnog significant zijn

Dat is nogal een willekeurig criterium. Niet alleen de statistische significantie wordt door zo’n outlier beïnvloed. Ook je schatting van het effect kan veranderen.

Mij lijkt aanzienlijk veiliger om vóór de dataverzameling je regels te stellen (ik dacht dat dat ook good practice was), voor zover die “niet bestaan” (bij mijn weten bestaan er overigens wel degelijk -weliswaar niet universeel eenduidige- richtlijnen over hoe om te gaan met outliers). Op die wijze kun je je ook niet door de resultaten laten leiden in je analyse.

#1.6 burne - Reactie op #1 29 juni 2012 , 23:11

Het lijkt me dat als een zo’n enkele outlier (een bello) je resultaten enorm beïnvloed, je data sowieso niet zo sterk is.

Ik ben 2.05 meter lang. Ik weeg zo’n 120 kilo. Geen groeiafwijkingen, geen overgewicht, ik ben gewoon 14% langer (en breder en dikker) dan de gemiddelde man van mijn generatie. Altijd al geweest, sinds m’n geboorte. Ik was een ‘baby’ van vijf kilo en 60 centimeter. De dochter van mijn buren had tien maanden nodig om die cijfers te halen, ik begon op die maat.

Als je tien of twintig mensen uit mijn geboortejaar meet en deze bello niet uitsluit ga ik je data serieus vervuilen.

Afwijkingen komen voor. Ben ik relevant voor het gemiddelde van mijn generatie? Ik denk het niet.

#1.7 MrOoijer (Jan van Rongen) - Reactie op #1.6 30 juni 2012 , 12:24

“Ben ik relevant voor het gemiddelde van mijn generatie? Ik denk het niet.”

Ja hoor, je bent relevant voor het gemiddelde van de populatie. Er bestaan tenslotte ook hele kleine mannetjes, en die zijn ook relevant. Helemaal relevant ben je voor de variantie, want als we de kleine en de grote mensen eerst verwijderen uit een steekproef, zijn de onderlinge verschillen kleiner dan in werkelijkheid.

Hier heb je dus een mooi voorbeeld gegeven dat het gewone spraakgebruik niet hetzelfde is als de wiskundige definitie. Je bent géén “gemiddelde” Nederlander, maar in de statistiek tellen we je gewoon mee voor het gemiddelde.

#2 A. de Man 28 juni 2012 , 15:26

Heel erg veel tekst voor “Smeesters had gewoon moeten aangeven dat hij data had weggelaten en er moet steekproefsgewijs toezicht komen op wetenschappers om een eventueel bestaande “cultuur van weglaten” tegen te gaan.”
Daar wel mee eens overigens. Jammer dat blijkbaar sommigen niet kunnen omgaan met de vrijheid. En die verpesten het dus voor de rest. Nu moet de geloofwaardigheid weer teruggebracht worden. En wie betaalt dat?
Die vieze Smeesters moet aansprakelijk gesteld worden!

#3 J.Morika 28 juni 2012 , 15:48

“Maar ik denk eerlijk gezegd dat dit soort oplossingen te weinig zijn, en dat we ons veel structureler moeten bezinnen op het wetenschappelijk bedrijf“.

Ik heb bijzonder veel sympathie voor de intenties achter dit stukje (en ook voor die van het vorige blogpostje) maar toch ben ik het er helemaal niet mee eens. Waarom niet? omdat ik vind dat de pretenties te groot zijn, de lat is te hoog gelegd. Als je “de wetenschap” wilt hervormen zou je te veel hooi op de vork nemen.

Als je “de wetenschap” wilt bijsturen dan moet je namelijk eerst weten wat dat is, “wetenschap”. Maar daar is bijna onmogelijk overeenstemming over te krijgen want de onderwerpen van de verschillende wetenschappen lopen nogal uiteen en daarmee ook de bijbehorende methodologieën (bovendien lopen ook de opvattingen over het doel en de functie van wat “wetenschap” is te ver uiteen, maar ingaan op die vraag zou het te ingewikkeld maken voor een korte reactie als deze). Dit heeft tot gevolg dat er geen gemeenschappelijke basis meer gevonden zal kunnen worden van waaruit ooit vertrokken zal kunnen worden.

Mijn voorstel is: begin er wel aan, maar dan per faculteit of zelfs per vakgroep. Ik weet bijna zeker dat er dan in sommige vakgebieden niets of bijna niets hoeft te veranderen (wiskunde, natuurkunde, astronomie etc.) maar dat er binnen andere grote problemen te verwachten zijn. (Hoe pak je bijvoorbeeld de vraag aan: “Zijn we ons brein”, welke faculteit zou overigens bevoegd zijn zich hierover te buigen? de biologie? dat lijkt me stug). Die aanpak lijkt me een stuk veelbelovender.

Dat er dan misschien sommige faculteiten zijn die voorlopig hun zaakjes niet voor elkaar krijgen moeten we dan maar accepteren als een noodzakelijk kwaad. Maar die kunnen dan intern (maar wel in het openbaar, en dit waarschijnlijk tot groot genoegen van de geïnteresseerde toeschouwer) de discussies voeren die na de onvermijdelijke katharsis tot de gewenste verbeteringen leiden. Komt het niet onmiddellijk tot resultaten dan hebben we tenminste nog een maatschappelijke discussie waar het (anti) politiek correcte aspect eens niet de hoofdrol speelt.

#4 MrOoijer (Jan van Rongen) 28 juni 2012 , 17:48

Tijdens de affaire Stapel-Vonk heb ik een forse on-line discussie gehad met twee methodologen uit Nijmegen van de vakgroep van Vonk, waaronder de huidige, Jules Ellis. Zie hier.

Nu ik het nog eens teruglees valt het mij vooral op dat hij een dubieuze statistische methode (met veel argumenten) probeert goed te praten, maar dat ze allemaal eigenlijk neerkomen op “zo doen we dat nu eenmaal in de psychologie”, hetgeen dus eigenlijk alleen maar een beroep is op autoriteit. Als ik er dan op wijs dat andere disciplines zoals biologen er heel anders over denken, ontwijkt hij of gaat draaien.

Hoewel we toen niet hebben gesproken over het weglaten van “out-liers”, Bello’s dus, weten we uit ander onderzoek dat dat regelmatig gebeurt. Vaak staat er dan in het artikel zelf nog wel een wat cryptische opmerking, maar men geeft zelden nauwkeurig de reden.

In de sociale psychologie werkt men veel met zg Likert-schalen. Dat is een 5-, 7- of 9-punts schaal (bijv. Geheel eens, eens, neutraal, oneens, zeer oneens). Het hele vakgebied van de niet-parametrische statistiek is speciaal ontwikkeld om met dit soort enquetes om te kunnen gaan, maar de psychologen gebruiken liever de gewone toetsten die bij een benadering door de Normale verdeling horen: Student-T, anova, etc. Dat wordt gemotiveerd met het feit dat empirisch onderzoek heeft laten zien dat het kan (bij N>40).

Ellis schreef zelfs dat die laatste meer “power” heeft dan non-parametrisch, wat ook een andere manier is te zeggen dat je liever een vals-positief resultaat hebt dan een betere toets te gebruiken. Het ironische is overigens dat de wiskundige literatuur juist laat zien dat de Mann-Whitney-U toets nauwkeuriger is dan Student-T.

Waarom doen ze het dan niet op de juiste wijze? Mijn hypothese is dat ze het verkeerd geleerd hebben en, bij gebrek aan deskundige wiskundige inbreng in hun onderzoek, niets anders weten te doen dan de cijfertjes in SPSS te stoppen op de standaard plek van de variantie-analyse. Daar rollen dan automatisch alle p-, F- en andere waarden uit. Ofwel: ze weten hoe het moet, maar begrijpen doen ze het niet.

Fraude in dit soort onderzoeken is kinderspel. Stapel verzon de gegevens zelf, maar dat kun je ook door een computerprogramma laten doen, dat steekproeven met de gewenste correlaties produceert. Ik heb daar een paar voorbeelden van gemaakt, en het werkt uitstekend. Aan de data kun je niet zien dat die verzonnen is, want ze komen uit de juiste verdeling, ze zijn goed, maar niet te goed, etc. Voor een overschrijdingskans van minder dan 5% heb je maar twintig runs gemiddeld nodig, en zijn er meer dimensies 400, 8000, etc. Dat laat je gewoon een nachtje draaien.

Dus alleen het openbaar maken van data is niet genoeg.Er moet vooral een openbaar onderzoeksprotocol zijn. Dat is het hele zwakke punt in de Soc. Psych. – daar wordt het eigenlijke onderzoek als een soort bedrijfsgeheim beschermd en daardoor zijn manipulaties veel te makkelijk.

Artikelen zitten ook veel te vaak achter de betaalmuur van de uitgevers en zijn zonder betaling van ongeveer 35 euro per artikel on-line niet te vinden. Ik heb van Smeesters geen enkel artikel gratis kunnen vinden om eens na te rekenen – dus daar heb je al een fors gebrek in het business model. Als het niet echt nodig is betaal je ook niet voor zo’n artikel. Alleen het openbare abstract wordt gelezen, maar dan kun je het niet controleren.

#4.1 Satou - Reactie op #4 28 juni 2012 , 19:35

>Waarom doen ze het dan niet op de juiste wijze?
Ik kreeg een keer te horen dat het simpelweg lag aan het feit dat het makkelijker was om succesvol door peerreview vooraf aan publicatie te komen op het moment dat je een bekende(re) statistische toets gebruikt. Wat de boer niet kent… Dus inderdaad: zo doen we het nu eenmaal. In zo’n systeem worden ook diegenen die beter weten gedwongen om mee te doen.

#4.2 tim smits - Reactie op #4 28 juni 2012 , 21:24

Maak een onderscheid tussen twee situaties:
-analyse op basis van 1 Likertitem: non-parametrische toetsen zijn wellicht beter geschikt
-analyse van meerdere Likertitems waar het gemiddelde of een factorscore of zo gebruikt wordt om de items samen te vatten. Dat gemiddelde gedraagt zich meestal wel volgens een normale verdeling en dus kan je beter werken met typische t-toetsen.

PS Heb je Ellis verwittigd dat jij hier een eerdere discussie parafraseert en laat uitschijnen dat hij liegt of niet weet waarover hij spreekt? Want je eigen argumenten zijn incorrect en dan zo iemand publiek te kijken zetten en dat niet laten weten aan die persoon, dat is ook niet echt ethisch

#4.3 MrOoijer (Jan van Rongen) - Reactie op #4.2 28 juni 2012 , 23:25

“-analyse van meerdere Likertitems waar het gemiddelde of een factorscore of zo gebruikt wordt om de items samen te vatten. Dat gemiddelde gedraagt zich meestal wel volgens een normale verdeling en dus kan je beter werken met typische t-toetsen.”

Ja, dan moet je die discussie even beter lezen want ik bestrijd dat niet. Dat is de centrale limietstelling en de enige discussie is hoe groot N moet zijn voor een goede benadering. Dat zegt die stelling niet. Wil ik graag van je weten. Misschien hen je een leuk artikel dat ik over het hoofd heb gezien.

En dan punt 2. Of ik Ellis heb verteld dat ik dit schrijf. Nee, natuurlijk niet. Ik vat alleen maar samen wat we schreven op een blog en iedereen kan lezen wat dat was – ik geef een link. Wat je misschien over het hoofd hebt gezien is dat ik iedereen die het niet eens is met mijn visie heb uitgenodigd tot een openbaar debat, Dat staat wel degelijk in mijn link, en die uitdaging staat ook nog steeds. Dus kom maar op.

#4.4 gronk - Reactie op #4 29 juni 2012 , 14:05

Mijn hypothese is dat ze het verkeerd geleerd hebben en, bij gebrek aan deskundige wiskundige inbreng in hun onderzoek, niets anders weten te doen dan de cijfertjes in SPSS te stoppen op de standaard plek van de variantie-analyse.

Ik wil nog wel een stapje verder gaan: volgens mij zit d’r iets fundamenteel fout in de definitie en het gebruik van sommige statistische toetsen. Ik doe routinematig onderzoek op grote datasets (>1e6 records), en als ik daar een tweetal variabelen tegen elkaar uitzet kan ik een kneiterhard verband zien. D’r zit wel een relatief grote band ruis op — door de grote aantallen. Een standaard regressie geeft een R^2 van 0.30, of daaromtrent. Beperk je je data tot een honderdtal records, heb je opeens een R^2 van 0.9.

(en andersom ook: ik heb krugman -nota bene!- eens een keer een verband zien aantonen wat effectief bestond uit 3 uitbijters op een puntenwolk, met een R2 van 0.56 oid.)

#4.5 MrOoijer (Jan van Rongen) - Reactie op #4.4 29 juni 2012 , 23:24

Met de definities is niet veel mis maar wel met het gebruik. Of misschien is het probleem wel dat de beperkingen van de puur wiskundige definitie veel te weinig wordt begrepen.

Laten we niet vergeten dat we de keuze voor een 5% overschrijdingskans vooral danken aan de statistische kwaliteitscontrole: als je het 1 op 20 keer fout hebt dan is dat bedrijfseconomisch wel verantwoord. Maar als we dezelfde grens hanteren voor een wetenschappelijk “bewijs”, daar heb ik ook grote moeite mee. Maar dat is wel de praktijk. Pak een willekeurig psychologisch tijdschrift – veel conclusies met de hakken over de sloot. Dan is 1 op 20 onjuist. Als wetenschappers dan ook nog getallen gaan manipuleren om net onder die 5% te komen, dan is in werkelijkheid misschien wel 1:10 conclusies onjuist (of in ieder geval niet valide).

Hoe gevoelig dat is bij kleine steekproeven heb ik ook al eerder op mijn eigen website laten zien.

Dan nog eens Smeesters. Inmiddels is het hele rapport zonder zwarte blokjes beschikbaar. Smeesters haalde er echt niet een enkele rare meting uit. Het was tamelijk systematisch. Zie mijn bijdrage op Joop.

#4.6 J.Morika - Reactie op #4.5 1 juli 2012 , 05:29

Volgens mij laten de reacties op deze pagina nou net zien waar het fout gaat: ze gaan allemaal over statistiek. Maar wetenschap is nou net iets anders dan (alleen maar) statistiek. Wetenschap gaat over de relatie tussen de feiten en de theorie. Statistiek gaat alleen maar over de relaties (“associaties”) tussen feiten of zelfs slechts vermeende feiten onderling (ik bedoel, er worden zelfs metingen aan “geluk” gedaan). Maar als het alleen daar maar over gaat, dan zijn we de wetenschap al kwijt, en dan gaat iedereen vanuit zijn eigen vakgebied perfect langs iedereen anders heen praten die immers hetzelfde doet. En op dat soort perfectie zit niemand te wachten.

#4.7 servetius - Reactie op #4 1 juli 2012 , 09:57

dan de cijfertjes in SPSS te stoppen op de standaard plek van de variantie-analyse. Daar rollen dan automatisch alle p-, F- en andere waarden uit. Ofwel: ze weten hoe het moet, maar begrijpen doen ze het niet

Anders gezegd, ze weten niet hoe de uitkomsten te interpreteren.

#5 Marco de Baar 28 juni 2012 , 21:30

In mijn beleving is het allemaal terug te voeren op een gebrek aan proces bewaking. Het proces moet zo worden opgezet dat transparatie en kwaliteitsbewaking ingebakken zijn. Dat is normaal in de big science:
http://activescience.wordpress.com/2012/03/18/een-model-om-wetenschapsfraude-onmogelijk-te-maken-datavergaring-en-analyse-in-de-big-science/

#6 Paul van der Varst 28 juni 2012 , 22:26

Het weg masseren van uitschieters is geen gezonde zaak. Normaliter kun je uitschieters alleen zonder meer weg laten als ze evidente, fysische onzin zijn. B.v. een gemeten temperatuur van minus 100 kelvin of – om in het voorbeeld van Jona te blijven – als Bello een verdwaalde hond blijkt te zijn die in het kattenonderzoek terecht is gekomen. Verwijderen van dit soort uitschieters is geen massage van de data.

In alle andere, minder duidelijke gevallen, zijn er inmiddels voldoende statistische methoden ontwikkeld om deze data te beoordelen. Zie bijvoorbeeld de monografie:
Vic Barnett en Toby Lewis, Outliers in statistical data Second edition, John Wiley & Sons Ltd., Chichester 1984.

Toepassen van deze methoden moet men echter wel willen en het resultaat in een artikel expliciet verantwoorden. Uitgevers zouden kunnen beginnen met voor elk artikel te eisen dat er een methodologische verantwoording komt, zowel qua opzet van de experimenten als de verwerking van de data. Dit onderdeel kan gemakkelijk als supplementair materiaal in elektronische vorm op de website van de tijdschriften gezet worden. Nadeel is wel dat weer meer werk gevraagd wordt van de beoordelaars.

#7 frank 28 juni 2012 , 23:10

“Iedere wetenschapper masseert de bello’s weg. Dat is een gezonde manier van doen”
Niet mee eens. In veel papers van collega’s die kijken naar biologische en fossiele communities door middel van multivariate benaderingen worden outliyers juist wel getoond. Ze laten vaak precies zien wat het zijn, outliers. Geinig om over na te denken, niet van belang voor het grote beeld (als dat tenminste in de data aanwezig is).

#8 gronk 29 juni 2012 , 09:14

Smeets gaat begrijpen wat de werkelijke betekenis is van ‘eerlijk duurt het langst’.

#9 servetius 1 juli 2012 , 09:54

De CERN berichten over een neutrino wat sneller ging dan de lichtsnelheid tonen aan dat niet elke wetenschapper gegevens wegmasseert.
Later werd de meetfout ontdekt, en werd daarover gepubliceerd.

#10 Dr Banner 6 juli 2012 , 22:42

Smeesters wijs, Smeesters eer.