Iedereen die iets weet van risicoselectie weet dat je alert moet zijn op selectiebias.
Cynthia Liem, universitair hoofddocent Kunstmatige Intelligentie aan de TU Delft, reageert op de nieuwste onthulling in de toeslagenaffaire. De Belastingdienst gebruikte een zelflerend algoritme om fraude op te sporen, en dat algoritme selecteerde vooral mensen met een lage inkomen voor controle. Hogere inkomens werden juist ontzien. Volgens de Belastingdienst bleek er ‘een statistisch verband tussen de hoogte van het inkomen en de kans op een (on)juiste aanvraag’.
Maar iedereen die claimt te weten iets van risicoselectie te weten, zoals de Belastingdienst, moet dus alert zijn op selectiebias.
Volgens Liem wijst de enorme oververtegenwoordiging van lage inkomens op zogeheten selectiebias in het model. Kort gezegd: als het model vermoedt dat bij lagere inkomens meer kans is op fraude, worden vooral die aanvragen gecontroleerd. Dat leidt ertoe dat vooral aanvragen van lage inkomens worden gecorrigeerd. Omdat het model weer getraind wordt met die uitkomsten, wordt er steeds verder ingezoomd op lage inkomens.
Hoe die ‘feedback loop’ uitpakt, legde wiskundige Ionica Smeets twee jaar geleden al goed uit, nadat bekend werd dat de Belastingdienst selecteerde op afkomst. Op basis van een fictief voorbeeld over een ver land waar de huffelpuffers en de ravenklauwen leven concludeerde ze zelf al: zo fictief was haar voorbeeld niet, want je hoeft niet lang te zoeken naar rampzalige voorbeelden van risicoprofielen die vanwege selectiebias leiden tot enorme discrepanties en discriminatie in controles.
Als de Belastingdienst dus claimt iets te weten over risicoselectie – anders gebruik je zo’n selectiesysteem immers niet – dan hadden ze geweten van al die niet-fictieve voorbeelden, dan had iedereen die bezig was met zelflerende algoritmen net als Smeets ook gedacht aan het boek Weapons of Math Destruction van Cathy O’ Neill (dat werd gepubliceerd in het jaar dat de Belastingdienst dit risicomodel ging gebruiken: 2016), en dan hadden ze hun zelflerende modellen gecontroleerd op selectiebias. Maar dat deed de Belastingdienst allemaal niet, want hun taak was om mensen te controleren, niet machines.
Reacties (2)
De laatste zin vind ik een beetje zwak, want hij suggereert dat de belastingdienst machines controleren moet.
De taak van de belastingdienst blijft natuurlijk het controleren van mensen (en bedrijven).
Maar het is duidelijk dat de belastingdienst hierbij computersystemen raadpleegt alsof ze het orakel van Delphi zijn, terwijl de medewerkers nauwelijks benul hebben hoe het systeem werkt.
Sterker nog, ze maken systemen (machines) die mensen op basis van die gegevens in hokjes indelen (profileren). En ja, die machines moet de belastingdienst controleren. Het zou onethisch zijn als ze dat niet deed. Oh wacht.