Iedereen die iets weet van risicoselectie weet dat je alert moet zijn op selectiebias.
Cynthia Liem, universitair hoofddocent Kunstmatige Intelligentie aan de TU Delft, reageert op de nieuwste onthulling in de toeslagenaffaire. De Belastingdienst gebruikte een zelflerend algoritme om fraude op te sporen, en dat algoritme selecteerde vooral mensen met een lage inkomen voor controle. Hogere inkomens werden juist ontzien. Volgens de Belastingdienst bleek er ‘een statistisch verband tussen de hoogte van het inkomen en de kans op een (on)juiste aanvraag’.
Maar iedereen die claimt te weten iets van risicoselectie te weten, zoals de Belastingdienst, moet dus alert zijn op selectiebias.
Volgens Liem wijst de enorme oververtegenwoordiging van lage inkomens op zogeheten selectiebias in het model. Kort gezegd: als het model vermoedt dat bij lagere inkomens meer kans is op fraude, worden vooral die aanvragen gecontroleerd. Dat leidt ertoe dat vooral aanvragen van lage inkomens worden gecorrigeerd. Omdat het model weer getraind wordt met die uitkomsten, wordt er steeds verder ingezoomd op lage inkomens.
Hoe die 'feedback loop' uitpakt, legde wiskundige Ionica Smeets twee jaar geleden al goed uit, nadat bekend werd dat de Belastingdienst selecteerde op afkomst. Op basis van een fictief voorbeeld over een ver land waar de huffelpuffers en de ravenklauwen leven concludeerde ze zelf al: zo fictief was haar voorbeeld niet, want je hoeft niet lang te zoeken naar rampzalige voorbeelden van risicoprofielen die vanwege selectiebias leiden tot enorme discrepanties en discriminatie in controles.
Als de Belastingdienst dus claimt iets te weten over risicoselectie - anders gebruik je zo'n selectiesysteem immers niet - dan hadden ze geweten van al die niet-fictieve voorbeelden, dan had iedereen die bezig was met zelflerende algoritmen net als Smeets ook gedacht aan het boek Weapons of Math Destruction van Cathy O’ Neill (dat werd gepubliceerd in het jaar dat de Belastingdienst dit risicomodel ging gebruiken: 2016), en dan hadden ze hun zelflerende modellen gecontroleerd op selectiebias. Maar dat deed de Belastingdienst allemaal niet, want hun taak was om mensen te controleren, niet machines.