Datamining: verborgen schatten en valkuilen

DATA - Vandaag een bijdrage van Peter van het weblog Codes, keuzes en maakbaarheid.

hond graaft een kuilZoekt en gij zult vinden. Het credo van datamining, het engelse woord voor spitten. Spitten in gegevens en gebeurtenissen. Met als doel er nuttige conclusies uit te trekken. Schatgraven in grote hoeveelheden informatie. Het geeft inzicht in wat er gebeurt. Het kan helpen antwoorden te geven op vragen als: waarom gebeurt iets of wat is er nodig om gebeurtenissen een andere wending te geven. Is datamining het ultieme hulpmiddel voor de maakbaarheid van de wereld?

Tussen 2002 en 2005 zond de NCRV de Amerikaanse politieserie The District uit. Daarin stuurde hoofdcommissaris Jack Mannion zijn mensen aan met nieuwlichterij: CompStat. Een computerprogramma dat de criminaliteit in Washington in beeld bracht en waarmee Jack Mannion precies wist waar hij zijn korps op af moest sturen. Datamining om criminaliteit aan te pakken.

Het is 2010. Wikileaks stort een immense hoeveelheid data de wereld in: cablegate. Berichten die Amerikaanse diplomatieke diensten opstelden en waar heel de wereld nu in kan graven om daar conclusies uit te trekken. De Amerikaanse overheid had de conclusie al klaar: die informatie brengt levens in gevaar. Anderen menen dat de openbaarheid van deze informatie de ware aard van de Amerikaanse diplomatie geduid kan worden.

Nu het met zoekmachines betrekkelijk snel en eenvoudig informatie vergaren is en met uitgekiende software het even betrekkelijk eenvoudig wordt verbanden te leggen, wordt datamining steeds meer en instrument om beleid te ontwikkelen. Stop de data in een beslissingsboom en de computer schotelt je een aantal oplossingen voor. Hou het gedrag van winkelend publiek bij en een supermarkt weet hoeveel bier het op vrijdag in voorraad moet hebben. Of bekijk de ongevallenstatistieken in de winter en je weet hoe druk het op de spoedhulp gaat worden en welke letsels het meest behandel zullen worden.

Dat is allemaal heel praktisch en tamelijk onschuldig. De hoeveelheid data is echter zo groot dat het nog een hele kunst is ze ook goed te interpreteren en te gebruiken. Niet alleen moeten de data zelf juist en volledig zijn, de vraag is ook of die interpretaties en dat gebruik net zo neutraal zijn als de koele cijfers op zich. En zelfs als dat allemaal in orde is, wat doe je er dan mee?

Op mijn werk sla ik de manager om zijn oren met groeiende bezoekersaantallen, data over de hoeveelheid en aard van incidenten. Met als doel een kwantitatieve en kwalitatieve bezetting van het personeel te eisen, om de veiligheid van collega’s en cliënten te waarborgen. De manager slaat terug met onderzoekscijfers die aantonen dat veiligheid in veel gevallen vooral een gevoel is en niet op werkelijke onveiligheid berust. Datamining als strategisch middel. Resultaat? Er verandert niets aan de personele bezetting. Of jawel, er wordt bezuinigd op personeel.

In de discussie over het klimaat gaat het er nog bonter aan toe. Data vliegen over en weer om aan te tonen dat de menselijke factor wel of niet relevant is voor de klimaatverandering. Hier moet dus eerst de opinie over de relevantie van data worden uitgevochten. Wie zich het rapport van de Club van Rome herinnert, weet dat de wereldwijde schok die deze gegevens veroorzaakte wel tot enig besef leidde over een ander rentmeesterschap over de aarde, maar dat we nu nog ver verwijderd zijn van definitief afdoende oplossingen.

Zolang de valkuilen van schatgraverij niet zijn gedicht, mogen we van datamining geen wonderen verwachten. Valkuilen als onvolledige data en software die verbeterd moet worden, zijn wellicht te vermijden door voortschrijdend inzicht en technologie. Maar hoe dicht je de valkuil van de menselijke factor? De factor die zo zijn eigen doelen kent. Die met zijn eigen opvattingen de interpretaties stuurt?

Naast de hoop data, is er nog altijd ook de hoop van de menselijke factor. De hoop dat we uiteindelijk beter van onze eigen data leren. Die hoop moet de collega’s van Sargasso hebben gedreven om tot het Dutch Open Data Lab te komen. Met zijn allen aan de slag met alle beschikbare data. Alleen al een mooi initiatief om dat je zo de beschikking kan krijgen over middelen om bijvoorbeeld “op humoristische wijze een punt te maken”, schrijft Sargasso.

In de maakbaarheid der dingen, hebben overheden, managers, marketingstrategen en “gewone mensen” één ding met elkaar gemeen: allemaal knutselaars. Knutselen met data om je punt te maken. Eens kijken wie er wint?

  1. 2

    Ook ‘objectieve’ gegevens hebben weinig waarde als de betrouwbaarheid, nauwkeurigheid en precisie van die gegevens niet gegeven wordt. Daarnaast is alles een interpretatie gebaseerd op aannames. Zonder dat kader van aannames en betrouwbaarheid etc. van gegevens kun je van alles roepen.

  2. 4

    @1: Verklaar je nader?

    @2: Er zijn mensen die beweren dat met een “kader van aannames en betrouwbaarheid, etc.” ook van alles geroepen wordt.

    Aanvulling op het artikel:
    In sommige soorten onderzoeken wordt de menselijke factor, of de wispelturigheid daarvan, meegemeten.
    Zou het mogelijk zijn een database te maken met daarin de reacties op onderzoeksresultaten en zouden die data dan als wispelturigheidsfactor zodanig op de feitelijke resultaten kunnen worden losgelaten, dat niemand er meer een speld tussen krijgt? (Even los van of dat wel wenselijk is).

  3. 5

    Leuk verhaal, bespeur ik daar een sarcastische ondertoon ?

    Persoonlijk geloof ik niet in datamining.
    We krijgen het al zwaar genoeg om de status quo te handhaven in ons knusse warme uithoekje van de wereld.
    Tenminste, als ik de Club van Rome goed begrepen heb.

  4. 6

    @Hans Verbeek: Sarcasme? Welnee. Wel de nodige twijfels over de impact van cijfers en feiten op de gemiddelde mens.
    Ik geloof wel dat er met dataminig prima dingen zijn te doen. Bijvoorbeeld “op humoristische wijze een punt te maken”, zoals ik Sargasso napraatte. En ook om serieus zaken op inzichtelijke rijtjes te krijgen.

    Daarbij maak ik me dan, zonder enig sarcasme, wel zorgen om de invloed van de menselijke factor. Overigens wordt die ook op tal van manieren gemeten en onderzocht, dus wie weet wat dat ooit nog oplevert.