ANALYSE - Wat vertellen data wel, en wat niet? Stellen we data-analyses en visualisaties wel genoeg ter discussie, of zijn we een dergelijke manier van denken over data nog niet gewend? vraag Jelte Timmer, werkzaam bij het Rathenau Instituut, zich af.
We vertrouwen graag op de kracht van data. Data maken dingen inzichtelijk en overtuigen veelal beter dan verhalen. En met de opkomst van goedkope sensortechnologie is er over steeds meer dingen data beschikbaar. Hoewel ik zelf ook graag een verhaal kracht bij zet met mooie gegevens en gek ben op visualisaties, vraag ik me af waar data hun autoriteit vandaan halen. En of we er soms niet te makkelijk op vertrouwen.
Kate Crawford waarschuwde laatst in een blog op Harvard Business Review voor de gevaren van data-fundamentalisme. Met data-fundamentalisme doelt zij op het onbetwiste vertrouwen in data dat zij steeds vaker tegenkomt. Het verzamelen, analyseren en visualiseren van gegevens is echter geen neutraal proces, stelt ze. In elke stap van dataverzameling tot aan datavisualisatie worden keuzes en interpretaties gemaakt, die beïnvloeden wat data uiteindelijk laat zien.
Mechanische objectiviteit een illusie
Wat voor een keuzes zijn dit, en waar komt het data-fundamentalisme vandaan? Om dat te begrijpen kunnen we het best beginnen bij het verzamelen van data. Sensoren lijken daarin een oplossing bieden voor het onbetrouwbare verzamelen van data door mensen. Menselijke onderzoekers of observatoren hebben bewust of onbewust een bias. Sensoren zijn nauwkeurig, hebben geen last van menselijke afwijkingen, en kunnen bovendien goedkoop en breed ingezet worden.
Wetenschap heeft een lange traditie van meetinstrumenten, die de onderzoeker op afstand plaatsen en ‘objectief’ data kunnen verzamelen. Maar deze mechanische objectiviteit is een illusie, met het meetinstrument wordt een keuze gemaakt welke gegevens wel en niet gemeten worden; hoe deze gekwantificeerd worden, etcetera. Er is een makkelijke parallel te trekken met de opkomst van fotografie. De foto werd in eerste instantie gezien als een manier om de werkelijkheid objectief te vangen, ten opzichte van teken en schilderkunst. Inmiddels zijn we ons ervan bewust dat we met elke foto een duidelijke selectie maken van het onderwerp (de data) en hoe die we vangen in de foto, en welke gegevens we hier bewust buiten laten.
Computationele objectiviteit
Met de opkomst van big data vervangen we de illusie van mechanische objectiviteit voor die van computationele objectiviteit. Niet alleen het verzamelen maar ook het analyseren van de gegevens kan meer en meer door machines worden uitgevoerd. Er kan gebruik gemaakt worden van bestaande datasets, of data die niet bewust verzameld wordt maar die we bijvoorbeeld automatisch genereren als we ons op het web begeven. Maar objectiviteit is hier net zo goed een illusie. Met de gegevens die beschikbaar zijn, de databronnen die geselecteerd worden, en hoe deze bronnen bewerkt worden voor ze geanalyseerd kunnen worden (data-scrubbing) worden bepalende keuzes gemaakt. Iets wat prachtig uitgewerkt wordt in het boek Raw Data is an Oxymoron. Er bestaat niet iets zoals rauwe data, zij is altijd geselecteerd en voorgekookt vanuit een bepaald doel; om iets zichtbaar te maken.
Daardoor zeggen data verschillende dingen. Afgelopen jaren oogstte Google veel bewondering met haar Google Flu Trends, waarmee nauwkeurige voorspellingen van het verloop van jaarlijkse griepepidemieën gemaakt worden. In 2012 zat Google er echter opeens goed naast. Ook de data van een gigant zoals Google zeggen niet altijd alles. Door veel media-aandacht werd er ongebruikelijk veel gezocht op griep-gerelateerde termen en gaven de gegevens van Google een verkeerd beeld van de werkelijkheid.
Visualiseren
Ook in het visualiseren van data loert data-fundamentalisme. Pete Warden verbaasde zich laatst over hoe makkelijk we vertrouwen in de plaatjes en gegevens die ons door commerciële bedrijven worden voorgeschoteld. In tegenstelling tot wetenschappelijke publicaties, is er geen peer review controle op het onderzoek en zijn de achterliggende data meestal ook niet openlijk beschikbaar.
The wonderful thing about being a data scientist is that I get all of the credibility of genuine science, with none of the irritating peer review or reproducibility worries.
Het voorbeeld waar Warden naar refereert is een datavisualisatie die hij heeft gemaakt van vriendennetwerken op Facebook in de Verenigde Staten.
The network visualization of drawing lines between the top ten links for each city had issues, but was defensible. The clustering was produced by me squinting at all the lines, coloring in some areas that seemed more connected in a paint program, and picking silly names for the areas.
De visualisatie van Warden werd door veel kranten overgenomen en zijn clustering werd gebruikt als bewijs voor sociale segregatie in de Verenigde Staten. Zonder dat er over na werd gedacht hoe deze clustering tot stand was gekomen. The Guardian bouwt voort op het stuk van Warden, maar stelt dat het probleem vooral ligt in de visualisaties. We zijn tot op zekere hoogte gewend om teksten kritisch te analyseren. Iets wat ons in scholen wordt aangeleerd. Maar tabellen, grafieken en visualisaties worden in onderwijs en daarna altijd gebruikt als een manier om eindresultaten te presenteren. We zijn niet getraind om hier kritisch naar te kijken, sterker nog: we zijn getraind om ze als duidelijke uitkomst te accepteren.
Er worden altijd keuzes gemaakt
Een aantal blogs van verschillende auteurs hebben zich hier in de afgelopen weken gewijd aan het kritisch denken over verschillende verhalen die datasets en analyses vertellen. Data worden daarin beschreven als een instrument en als kennis producerende technologie die vorm geeft aan wat ermee onderzocht wordt. Wat data representeren, hoe we het analyseren en visualiseren.
Het helpt niet om te denken dat als we de menselijke hand vervangen door algoritmen dat we dan tot ‘objectiever’ analyseproces kunnen komen. Keuzes worden altijd gemaakt, in de data of in het programmatuur van een algoritme. Wellicht kunnen we een stap maken van waarschuwen tegen data-fundamentalisme, naar het promoten van data-scepticisme. Opdat we ook analyses en visualisaties kritisch aan de kaak stellen. Naar mate meer beslissingen gedreven door data laten maken, wordt dit soort kritische data-geletterdheid belangrijker. Denk daar eens aan de volgende keer dat u een mooi plaatje ziet.
Toelichting: Bovenstaande visualisatie ‘map of the world’s most and least racially tolerant countries‘ werd door Washington Post gepubliceerd en werd kort daarna viraal verspreid via sociale media. Er bleek echter veel kritiek te zijn van verschillende sociale wetenschappers en journalisten op zowel de methodologie als de onderliggende data. Deze kritiek kreeg echter maar een honderdste van de aandacht op sociale media, aldus The Guardian.
Dit artikel van Jelte Timmer verscheen eerder op het blog Data Denkers.