Data-scepticisme

ANALYSE - Wat vertellen data wel, en wat niet?  Stellen we data-analyses en visualisaties wel genoeg ter discussie, of zijn we een dergelijke manier van denken over data nog niet gewend? vraag Jelte Timmer, werkzaam bij het Rathenau Instituut, zich af.

We vertrouwen graag op de kracht van data. Data maken dingen inzichtelijk en overtuigen veelal beter dan verhalen.  En met de opkomst van goedkope sensortechnologie is er over steeds meer dingen data beschikbaar. Hoewel ik zelf ook graag een verhaal kracht bij zet met mooie gegevens en gek ben op visualisaties, vraag ik me af waar data hun autoriteit vandaan halen. En of we er soms niet te makkelijk op vertrouwen.

Kate Crawford waarschuwde laatst in een blog op Harvard Business Review voor de gevaren van data-fundamentalisme. Met data-fundamentalisme doelt zij op het onbetwiste vertrouwen in data dat zij steeds vaker tegenkomt. Het verzamelen, analyseren en visualiseren van gegevens is echter geen neutraal proces, stelt ze. In elke stap van dataverzameling tot aan datavisualisatie worden keuzes en interpretaties gemaakt, die beïnvloeden wat data uiteindelijk laat zien.

Mechanische objectiviteit een illusie

Wat voor een keuzes zijn dit, en waar komt het data-fundamentalisme vandaan? Om dat te begrijpen kunnen we het best beginnen bij het verzamelen van data. Sensoren lijken daarin een oplossing bieden voor het onbetrouwbare verzamelen van data door mensen. Menselijke onderzoekers of observatoren hebben bewust of onbewust een bias. Sensoren zijn nauwkeurig, hebben geen last van menselijke afwijkingen, en kunnen bovendien goedkoop en breed ingezet worden.

Wetenschap heeft een lange traditie van meetinstrumenten, die de onderzoeker op afstand plaatsen en ‘objectief’ data kunnen verzamelen. Maar deze mechanische objectiviteit is een illusie, met het meetinstrument wordt een keuze gemaakt welke gegevens wel en niet gemeten worden; hoe deze gekwantificeerd worden, etcetera. Er is een makkelijke parallel te trekken met de opkomst van fotografie. De foto werd in eerste instantie gezien als een manier om de werkelijkheid objectief te vangen, ten opzichte van teken en schilderkunst. Inmiddels zijn we ons ervan bewust dat we met elke foto een duidelijke selectie maken van het onderwerp (de data) en hoe die we vangen in de foto, en welke gegevens we hier bewust buiten laten.

Computationele objectiviteit

Met de opkomst van big data vervangen we de illusie van mechanische objectiviteit voor die van computationele objectiviteit. Niet alleen het verzamelen maar ook het analyseren van de gegevens kan meer en meer door machines worden uitgevoerd. Er kan gebruik gemaakt worden van bestaande datasets, of data die niet bewust verzameld wordt maar die we bijvoorbeeld automatisch genereren als we ons op het web begeven. Maar objectiviteit is hier net zo goed een illusie. Met de gegevens die beschikbaar zijn, de databronnen die geselecteerd worden, en hoe deze bronnen bewerkt worden voor ze geanalyseerd kunnen worden (data-scrubbing) worden bepalende keuzes gemaakt. Iets wat prachtig uitgewerkt wordt in het boek Raw Data is an Oxymoron. Er bestaat niet iets zoals rauwe data, zij is altijd geselecteerd en voorgekookt vanuit een bepaald doel; om iets zichtbaar te maken.

Daardoor zeggen data verschillende dingen. Afgelopen jaren oogstte Google veel bewondering met haar Google Flu Trends, waarmee nauwkeurige voorspellingen van het verloop van jaarlijkse griepepidemieën gemaakt worden. In 2012 zat Google er echter opeens goed naast. Ook de data van een gigant zoals Google zeggen niet altijd alles. Door veel media-aandacht werd er ongebruikelijk veel gezocht op griep-gerelateerde termen en gaven de gegevens van Google een verkeerd beeld van de werkelijkheid.

Visualiseren

Ook in het visualiseren van data loert data-fundamentalisme. Pete Warden verbaasde zich laatst over hoe makkelijk we vertrouwen in de plaatjes en gegevens die ons door commerciële bedrijven worden voorgeschoteld. In tegenstelling tot wetenschappelijke publicaties, is er geen peer review controle op het onderzoek en zijn de achterliggende data meestal ook niet openlijk beschikbaar.

The wonderful thing about being a data scientist is that I get all of the credibility of genuine science, with none of the irritating peer review or reproducibility worries.

Het voorbeeld waar Warden naar refereert is een datavisualisatie die hij heeft gemaakt van vriendennetwerken op Facebook in de Verenigde Staten.

The network visualization of drawing lines between the top ten links for each city had issues, but was defensible. The clustering was produced by me squinting at all the lines, coloring in some areas that seemed more connected in a paint program, and picking silly names for the areas.

De visualisatie van Warden werd door veel kranten overgenomen en zijn clustering werd gebruikt als bewijs voor sociale segregatie in de Verenigde Staten. Zonder dat er over na werd gedacht hoe deze clustering tot stand was gekomen. The Guardian bouwt voort op het stuk van Warden, maar stelt dat het probleem vooral ligt in de visualisaties. We zijn tot op zekere hoogte gewend om teksten kritisch te analyseren. Iets wat ons in scholen wordt aangeleerd. Maar tabellen, grafieken en visualisaties worden in onderwijs en daarna altijd gebruikt als een manier om eindresultaten te presenteren. We zijn niet getraind om hier kritisch naar te kijken, sterker nog: we zijn getraind om ze als duidelijke uitkomst te accepteren.

Er worden altijd keuzes gemaakt

Een aantal blogs van verschillende auteurs hebben zich hier in de afgelopen weken gewijd aan het kritisch denken over verschillende verhalen die datasets en analyses vertellen. Data worden daarin beschreven als een instrument en als kennis producerende technologie die vorm geeft aan wat ermee onderzocht wordt. Wat data representeren, hoe we het analyseren en visualiseren.

Het helpt niet om te denken dat als we de menselijke hand vervangen door algoritmen dat we dan tot ‘objectiever’ analyseproces kunnen komen. Keuzes worden altijd gemaakt, in de data of in het programmatuur van een algoritme. Wellicht kunnen we een stap maken van waarschuwen tegen data-fundamentalisme, naar het promoten van data-scepticisme. Opdat we ook analyses en visualisaties kritisch aan de kaak stellen. Naar mate meer beslissingen gedreven door data laten maken, wordt dit soort kritische data-geletterdheid belangrijker. Denk daar eens aan de volgende keer dat u een mooi plaatje ziet.

 

Toelichting: Bovenstaande visualisatie ‘map of the world’s most and least racially tolerant countries‘ werd door Washington Post gepubliceerd en werd kort daarna viraal verspreid via sociale media. Er bleek echter veel kritiek te zijn van verschillende sociale wetenschappers en journalisten op zowel de methodologie als de onderliggende data. Deze kritiek kreeg echter maar een honderdste van de aandacht op sociale media, aldus The Guardian.

Dit artikel van Jelte Timmer verscheen eerder op het blog Data Denkers.

  1. 2

    Als experimenteel natuurkundige zou ik willen voorstellen te spreken over ‘data amateurisme’. Bij het ontwerpen van een experiment is het uitermate belangrijk na te denken over de te veranderen en te meten variabelen, over al dan niet bestaande systeemtoestanden, verborgen variabelen, systeemparameters enzovoort. Experimentele resultaten kunnen slechts in een bepaalde context geldig zijn en hebben een beperkte precisie, dat geldt nog veel meer voor de parameters die eruit geextraheerd worden. De meeste mensen beschikken niet over de juiste kennis en vaardigheden om meetgegevens te analyseren. Daarom is het overgrote deel van de analyses in de niet-wetenschappelijke literatuur onzinnig. Het gebruik van meetgegevens op zich maakt iets niet ‘wetenschappelijk’. Ook de analyse, wiskunde, logica en interpretate moeten correct zijn. Door de overvloed aan data worden we overspoeld met amateurwetenschap, wen er maar aan.

  2. 3

    Ik zou je willen wijzen op de volgende video van Numberphile die 2 weken geleden verscheen: link

    en het bijbehorende artikel: link

    Onderzoekje over het analyseren van een tabel, gegeven een politieke voorkeur. Niet onverwacht resultaat, maar toch het vermelden waard :): Indien de data in eerste instantie niet overeenkomt met je verwachting (vanwege je politieke voorkeur) maak je extra denkstappen in de analyse van de cijfers, wat kan leiden tot een andere conclusie. Maar bekijk filmpje of paper voor uitgebreidere uitleg.

  3. 4

    Natuurlijk. Mijn keuzes en mijn interpretaties beïnvloeden of ik een voorwerp naar beneden dan wel naar boven zie vallen. Nog iemand die de waarnemer-afhankelijkheid uit de quantummechanica zonder meer transponeert naar onze dagelijkse schaal, zonder de effecten van die schaalvergroting mee te nemen. Zie verder Marius.

  4. 5

    Data, achter een computer zijn het slechts cijfers en/of letters. Dode cijfers en/of letters waar bijvoorbeeld door onze regering levende consequenties aan verbonden worden. Dat de consequenties steeds vaker desastreus blijken te zijn (kijk naar de huurmarkt met extreem hoge huren die volledig vast zit en muurvast zal blijven zitten) snappen ze niet in Den Haag. Hoe kan dat nou de data zeggen toch……. Ja maar dat zijn data, dode data en de levende praktijk blijkt totaal anders te werken dan die dode data. Wen er maar aan dat er in de toekomst nog heel veel zeer desastreuze uitwassen zullen gaan plaatsvinden………..

  5. 6

    Er bestaat niet iets zoals rauwe data, zij iszijn altijd geselecteerd en voorgekookt vanuit een bepaald doel; om iets zichtbaar te maken.

    ftfy

  6. 7

    @0 “Het helpt niet als we de menselijke hand vervangen door algoritmen om tot ‘objectiever’ analyseproces te komen”
    Op naar anti-data-fundamentalisme?

  7. 8

    In de laatste infographic waar het artikel aan refereert wordt het vóórkomen van “racisme” gelinkt aan het antwoord op de vraag : “wie zou u niet als buurman willen”. Dat zou een prima aanpak kunnen zijn (omdat er een eenduidige definitie van “racisme” aan ten grondslag ligt). Het probleem is echter dat het gebruik van de term “racisme” in de praktijk op heel andere dingen blijkt te duiden. Bepaalde vormen van ideologiekritiek en/of moraalfilosofie worden in de maatschappelijke praktijk vaak ook al als “racistisch” afgedaan. Het gaat er dus niet zozeer om of mechanische objectiviteit vervangen zou worden door computationele objectiviteit, het gaat er eerder om dat het ons aan een overkoepelende ideologie ontbreekt waarmee we systematisch kunnen omgaan met de verschillende soorten begrippen die we gebruiken, begrippen die slaan op een als (objectieve) werkelijkheid te interpreteren wereld waar je meer van te weten kan komen door beter te meten, en anderzijds begrippen die gebruikt worden als archetypen (“rechtvaardigheid”, “racisme”, “democratie”, “eerlijkheid”, “geweten” etc. etc.). Niet alle begrippen zitten immers in dezelfde “laag” van empirische objectiviteit, of meetbaarheid, of geef er maar een naam aan, en daar moeten we ons rekenschap geven wanneer we aan het filosoferen slaan. Desondanks een prima artikel verder, uitstekend geschikt om het gedachtenproces over dit soort dingen in gang te zetten. Ik heb het dus een welverdiend plusje gegeven.

    (Edit: PS Los van het bovenstaande, de onderhavige vraag: “wie/wat zou u niet als buren willen”, lijkt misschien wel objectief en eenduidig, maar hoeft dat niet te zijn. Het zou best kunnen dat bv Chinezen of Japanners andere mensen helemaal niet herkennen als mensen van “een ander ras”, omdat er eigenlijk geen “andere rassen” zijn omdat bijv. noord- en zuid – Chinezen allemaal als “” Chinees beschouwd wordt, terwijl mensen in Ruanda en Burundi de andere stam al als “ander ras” beschouwen, iets waarbij we ons in het westen weer weinig bij kunnen voorstellen want wij zien daar alleen maar negers. Dus nogmaals: de vraag lijkt misschien eenduidig, maar is dat daarom nog niet.)