Wat valt er te hacken aan armoede?

Weblog Sargasso houdt samen met ANP morgen (vrijdag 9 maart) een armoede-hackathon. Wat is dat en wat komt daarbij kijken?

Om meteen maar met de deur in huis te vallen: de armoede hackathon is in de eerste plaats een experiment. Is het mogelijk om met een diverse groep deskundigen – programmeurs, ontwerpers, journalisten en statistici – uit grote datasets te destilleren hoe de economische crisis in Nederland huishoudt?

De laatste maanden wordt veelvuldig gesproken over de beloften van datajournalistiek. En dat werd tijd. Daar waar haast iedere sector inmiddels heeft ontdekt dat het bedwingen van big data tot waardevolle inzichten leidt, raken journalisten – informatiebewerkers pur sang – al in paniek bij het openen van een spreadsheet.

Dat is jammer en onnodig. Er is ongelooflijk veel data beschikbaar en waarom zouden journalisten zelf er niet mee aan de slag gaan? Er zijn maar weinig journalisten die kunnen programmeren, of een database kunnen opzetten, maar dat hoeft ook niet, tenminste nog niet. Er zijn genoeg programmeurs die op zoek zijn naar een leuke klus of een mooi project. Sargasso maakt daar al vaker gebruik van. We brengen verschillende disciplines en groepen bij elkaar – hackers, academici, NGO’s -  zodat we gebruik kunnen maken van elkaars expertise.

Op zoek naar goede data

Hackathons worden al vaker georganiseerd, maar tot nu toe niet rondom een nieuwsthema. Meestal zijn de data leidend voor wat wordt gemaakt. Toen we besloten om een hackathon over armoede te houden, moesten we dus eerst op zoek naar goede data. Armoede is geen toevallig thema geweest: we wisten dat er veel over wordt vastgelegd.

Allereerst moet je natuurlijk je vraag beperken. We hebben ervoor gekozen om te proberen eenduidige informatie te krijgen over:

  • Economische indicatoren
  • Van 2005-2011
  • Op gemeenteniveau (liefst lager)
  • Naar geslacht, herkomstgroep (allochtoon, etc), CBS leeftijdscategorie, opleidingsniveau en beroepsgroep (ook CBS definitie)

Het verkrijgen van de data was relatief eenvoudig. Het CBS beschikt natuurlijk over veel. Maar we wilden de data op zo’n laag mogelijk aggregatieniveau – liefst postcodes, leeftijdsgroepen, herkomstgroepen, opleidingsniveau, etc. Het CBS levert vooral op gemeenteniveau, of nog hogere aggregaties.

Het UWV heeft meer. Die heeft zijn bronsystemen aangesloten op een online applicatie waarmee je zelf rapportages kunt maken op een zeer laag aggregatieniveau: je kunt zover doorklikken dat je bijna op het niveau van de werkzoekende kan komen.

Een nadeel van de applicatie is dat we de extractie niet kunnen automatiseren. Meestal werkt het zo. Je komt een mooie database tegen, schrijft een ‘scrape’ en laat een programmaatje de data naar binnen halen die je zoekt. Bij het Kadaster is dat gelukt, maar het UWV heeft een zeer ingewikkelde java applet die haast onscrapebaar is. Gelukkig heeft een ijverige vrijwilliger alle data handmatig van de site gehaald.

Privacybezwaren

We hebben ook toegang gekregen tot het insolventieregister. Hierin staan alle gerechtelijke uitspraken omtrent faillisementen en schuldsanering. De informatie wordt op individueel niveau geleverd. Dit is open data en dus voor iedereen beschikbaar. Er zijn echter wel privacybezwaren om dit zomaar open te stellen, dus werken we nog aan een manier om de data veilig en geanonimiseerd te ontsluiten, zonder dat de analyses eronder lijden.

Dit zijn maar een paar flinke databronnen. Als het ons lukt om de data goed schoon te maken, goed te bewaren in een database en goed te ontsluiten, kunnen we allerlei analyse s uitvoeren – dat is tenminste de hoop. We kunnen kijken hoe de economische situatie zich in een gebied heeft ontwikkeld en hoe het stemgedrag in de laatste verkiezingen is geweest. Levert dit nog een lead op voor een onderzoekverhaal?

Er zijn zeker beperkingen aan wat we met de data kunnen doen en het is goed om die van tevoren helder te hebben. Het belangrijkste is dat de data hooguit een correlatie laten zien. Er zal altijd aanvullend onderzoek nodig zijn om te zien of ook sprake is van een causale relatie tussen twee datasets. Het kan best zijn dat een regio ineens veel linkser is gaan stemmen en terzelfdertijd economisch harde klappen heeft gekregen. Maar er kunnen ook andere verklaringen zijn, lokale omstandigheden die grotere zeggingskracht hebben.

Niet alle datasets zijn gratis beschikbaar

Jammer genoeg hebben we niet alle data kunnen krijgen. Persoonlijk vond ik het teleurstellend dat een aantal datasets niet geleverd werden, met name door academici. Op zich was er wel de wil om data vrij te geven, maar daar moest dan wel flink voor betaald worden. We kunnen in ieder geval maar hele beperkte sets gratis krijgen. De data zijn bezit van onderzoeksgroepen of kennisinstituten, zoals het COELO (gemeentelijke lasten) en ROA (arbeidsmarktvoorspellingen). Ik begrijp dat die centra ook ergens hun geld vandaan moeten halen, maar in mijn bescheiden optiek dient alle data die met belastinggeld is geproduceerd openbaar te zijn.

Volgende week bericht ik over hoe de hackathon is verlopen en of het experiment is geslaagd.

Reacties zijn uitgeschakeld