Ga open RIVM

DATA - Het RIVM is heel druk bezig met hun centrale rol in de aanpak van de coronacrisis. En hoewel ik het, als leek, niet steeds eens ben met de keuzes die ze maken, ben ik wel blij dat er experts aan het roer staan en we in ieder geval een aanpak hebben die lijkt te werken. Dus ik doe mijn best om niet te hard te “zeuren” over hoe het beter zou kunnen. Maar nu we een andere fase in lijken te gaan, is het wel het moment om kritiek te uiten op een punt waar hun expertise kennelijk niet helemaal up to date is. En dat betreft het delen van data.

Hoewel het RIVM schoksgewijs inmiddels aardig gegroeid is in haar rol om de belangrijkste cijfers enigszins begrijpelijk te publiceren en transparanter te worden, verzaken ze structureel in het werkelijk beschikbaar maken van alle data die ze hebben. Voordat ik in ga op de tekortkomingen eerst even uitleggen waarom het belangrijk is dat alle beschikbare data als open data gepubliceerd wordt door het RIVM.

De rol van het RIVM is het bepalen van de beste aanpak in deze crisis, mijns inziens. Een deel van die aanpak bestaat uit het informeren van de bevolking. Maar ze hebben daar geen monopolie op. En het informeren is ook niet hun grootste expertise. In dit land zijn veel mensen (denk aan journalisten en wetenschappers) prima in staat om aan de hand van de gegevens de ontwikkeling te duiden en waarschijnlijk beter uit te leggen aan een breder publiek wat er gaande is. En daarbij ook kritisch moeten kunnen zijn omdat we immers geen onfeilbare instituten of bestuurders kennen in dit land.

Daarnaast is het juist in tijden van grote onzekerheid van groot belang de maximaal mogelijke transparantie te betrachten om niet de indruk te wekken dat je iets verborgen houdt. Er zouden toch zomaar mensen een complot kunnen gaan vermoeden (oh… wacht…). En door niet alle (ruwe) data ter beschikking te stellen en controle houden op de manier waarop de data gepresenteerd, wordt argwaan in de hand gewerkt.

En wat ook gebeurt, is dat anderen de data gaan verzamelen en mogelijk aanvullen. En omdat dat vaak beter beschikbaar is, gaan weer anderen daar op vertrouwen. Terwijl het RIVM eigenlijk de rol moet hebben van zijn van “single point of truth”. Het moet voor iedereen duidelijk zijn wat de correcte en actuele data is.

Komt nog bij dat het volgen van de aanbevelingen heel erg samenhangt met het vertrouwen dat men heeft in een instituut. En zoals bekend, vertrouwen komt te voet en vertrekt te paard. Het is kwetsbaar.

Ontoegankelijk

Goed, dat gezegd hebbende dan nu de kritiek. Dit is de belangrijkste pagina van het RIVM. Deze wordt dagelijks bijgewerkt en bevat aan het einde een link naar een uitgebreid rapport.

Nu is het fijn dat er wat handige grafiekjes in staan en dat je de data uit die grafieken kunt halen. Maar het is dan weer minder leuk als de opzet van die pagina regelmatig wijzigt en het dus niet mogelijk is om die data geautomatiseerd op te halen. Daar komt bij dat er maar van een deel van de gegevens grafieken gepresenteerd wordt. De rest van de data zit in het rapport. Een PDF bestand. Een PDF bestand… waardoor het praktisch gezien noodzakelijk is om iedere dag een aantal tabellen over te typen in een spreadsheet, met risico op fouten. En eigenlijk ook iedere dag weer vraagt om te kijken waar wat staat en of de data nog steeds dezelfde opzet heeft als de vorige dag. Ik kan u vertellen, ik word er gillend gek van iedere dag.

Een klein voorbeeld: gegevens over het testen wordt in een klein tabelletje bijgewerkt waarbij eigenlijk alleen de laatste 10 dagen staan. De periode daarvoor wordt samengevat in 1 getal. Maar met enige regelmaat blijkt die samenvatting niet meer overeen te komen met de totaaltelling van de cijfers uit die periode ervoor die ze eerder presenteerden. Dat komt omdat aanvulling soms tot ver terug gedaan worden. Maar voor mij is het onmogelijk geworden om te bepalen op welke dagen welke correcties zaten en daarmee onmogelijk geworden om een correcte versie van de data te visualiseren en te presenteren aan de lezers.

Dit is echt niet van deze tijd. En het kan echt anders. Heel veel landen bieden structureel alle data aan, soms zelfs via een Github. Heerlijk!

Aanbevelingen

Om een beetje te helpen de volgende stap in 1 keer goed te zetten hier wat aanbevelingen (geef gerust aanvullingen in de reacties, dan pas ik het lijstje aan):

  • Maak 1 pagina waarvan de URL niet meer wijzigt waarop alle databestanden gekoppeld staan.
  • Maak voor ieder databestand 1 unieke naam en link aan die blijft bestaan.
  • Stel de bestanden in een zo plat mogelijk formaat beschikbaar (bv CSV).
  • Zorg dat de bestanden de volledige historie bevatten. Dus alle data van alle dagen vanaf het begin van meten.
  • Actualiseer de bestanden op het moment dat nieuwe data beschikbaar is.
  • Meldt op de pagina wanneer wat geactualiseerd is.
  • Zet een aparte pagina op met toelichting van alle gegevens en types die gebruikt worden en alle veronderstellingen, mitsen en maren.

Op volgorde van wenselijkheid:

  • Alle bevestigde gevallen naar meldingsdatum landelijk.
  • Alle bevestigde doden naar meldingsdatum landelijk.
  • Alle gegevens over de uitgevoerde tests per dag, landelijk.
  • Alle gegevens over ziekenhuisopnames (naar ernst, zoals IC) per dag, landelijk.
  • Alle gegevens over aantal gevallen en aantal doden naar leeftijdsgroep en geslacht, liefst ook weer per dag.
  • Al het bovenstaande uitgesplitst naar provincie of gemeente (dan rekenen we het wel om naar provincie).
  • Alle gegevens over onderliggende aandoeningen bij overledenen. Voor alle leeftijdsgroepen en naar geslacht.

Dit alles met voorbehoud dat sommige details mogelijk niet gerapporteerd kunnen worden i.v.m. de regels rondom privacy.
Het RIVM zou er goed aan doen om op basis van bovenstaande een proces in te richten waarmee alle data structureel en duurzaam ter beschikking ter beschikking wordt gesteld. En dat ze daarbij ook aansluiten bij de rest van de open data trajecten binnen de overheid, zoals data.overheid.nl.

Bij voorbaat dank voor uw inspanning in deze.

  1. 1

    Een goede aanbeveling.

    Op moderne websites worden de data en de presentatie apart opgeslagen (op sargasso zien alle artikelen er hetzelfde uit, maar de inhoud is anders) dus dat zou het RIVM ook kunnen moeten.

  2. 5

    @4
    PDF/A is nu eenmaal de voorkeursstandaard voor documenten in het e-depot. Over honderd jaar moeten documenten nog leesbaar zijn en dan kan je onmogelijk tientallen formaten blijven volgen op updates.

  3. 7

    Fijn dat ik soms WhatsApp gebruik. Kan ik sommige dingen nazoeken wanneer ik wat besloten heb.

    Op 6 maart j.l. ben ik niet meer in een overdekte hal gaan sporten – op die dag heb ik afgezegd. Overdekt, veel mensen, ook uit Duitsland, dus het besmettingsgevaar leek me groot. Als praktiserend moslim op dezelfde dag besloten niet meer naar de moskee te gaan.

    En wat zeggen mensen van de RIVM en OMT rond 6 maart?

    https://www.youtube.com/watch?v=ugZh4xgzwh8

    Rotterdamse viroloog: coronavirus is helemaal niet zo besmettelijk:
    https://www.youtube.com/watch?v=efMcRS1JKog

    Nudging.

    Als ik hun adviezen zou hebben opgevolgd, was ik misschien al besmet (geweest) of gestorven – zit in een risicogroep. En die cijfers van het RIVM? Ik sluit me bij @6 aan.

  4. 8

    Het RIVM is voor mij meer een bron van irritatie dan informatie.
    De ene keer luidt het advies zus, dan weer zo, waarbij onduidelijk blijft waar ze hun adviezen op baseren. (Niet op de krantenberichten die ik lees.) Je moet ze maar geloven, not.

  5. 10

    Ah, vandaar dat sommige adviezen en maatregelen klinken alsof ze aan de keukentafel bedacht zijn.

    Dank voor het artikel in de Groene.

  6. 11

    @9 dank voor die link. Sluit aan bij een eerdere discussie (op Twitter) over testen testen testen. Toen kwam die reflex ook heel hard op mij en een aantal andere af…

  7. 12

    @9 Het artikel had ik gelezen. Goed artikel.

    Wir können nur sagen, was nicht machbar ist: eine aktive Durchseuchung der nicht-Risiko-Gruppen mit dem COVID-19-Virus ist mit Sicherheit ein absolutes Hirngespinst. Es kann nur Leuten in den Sinn kommen, die keine Ahnung von Biologie, Medizin und Ethik haben

    https://www.mittellaendische.ch/2020/04/07/covid-19-eine-zwischenbilanz-oder-eine-analyse-der-moral-der-medizinischen-fakten-sowie-der-aktuellen-und-zuk%C3%BCnftigen-politischen-entscheidungen/

  8. 13

    hear hear, goed artikel.

    Ik mis nog wel de definitie van de data. RIVM heeft er ook een handje van de meetmethode/definitie van een getal aan te passen. Waardoor je denkt hetzelfde te vergelijken, maar in feite vergelijk je appels met peren. De toelichting pagina is een must. Zo vermoed ik dat er periodes geweest zijn dat we op max capaciteit testen, en dan is de voorselectie van de testcases cruciaal om er iets over te kunnen zeggen.

    Waar ik me nog het meest aan stoor zijn de uitspraken van het RIVM die je niet kunt staven met hun eigen cijfers.

    We weten inmiddels van de ‘weekend dip’. Echter toen deze de eerste keer voorkwam, toen werd er niet over gesproken (mensen uitten hun vermoeden, maar RIVM bleef stil). Wel informeerde het RIVM die dinsdag de tweede kamer, met een ‘voorzichtig positieve’ boodschap….

    Later blijkt dat een weekend dip geweest te zijn, maar lult het RIVM zich er onder uit dat men rapporteert o.b.v. binnenkomst data….dus dat er nog cijfers van dagen ervoor bij gekomen zijn.

    Als dat zo is, dan kun je dus ook GEEN conclusies meer trekken over de data van de afgelopen 2 dagen, die zullen namelijk nog bijgesteld gaan worden. Dan vind ik het schandalig dat het RIVM de tweede kamer inlicht met ‘conclusies’ onderbouwt met grafieken die nog niet accuraat zijn. En de kwats dat men meer data heeft dus dat het publiek nu de verkeerde conclusie trekt is echt zuivere kwats. Zij leveren de data en het verhaal, en die zijn niet consistent en niet controleerbaar.

    CBS doet dat veel beter, en dankzij het CBS beginnen we inzicht te krijgen in de oversterfte, en die is toch naar het lijkt 2x groter dan wat het RIVM meldt (met disclaimer van RIVM).

    Star volhouden in huidige manier van data presenteren en communiceren staat voor mij gelijk aan manipulatie. En in dit dossier mag dat niet geaccepteerd worden.