Ondermijning als verdienmodel

COLUMN - Zijn telefoon bleef maar overgaan, vertelde dataspecialist Jesse Luk, nadat NRC Handelsblad een lang artikel publiceerde over zijn software om bijstandsfraude op te sporen. Drie Nederlandse gemeenten testen inmiddels of ze met het pakket van Totta Datalab de pakkans van fraudeurs kunnen vergroten.

Totta heeft zelflerende software ontwikkeld, die gevoed is met de gegevens van duizenden geregistreerde bijstandsfraudeurs. Hun datapatronen zijn in kaart gebracht, en daaruit is een algoritme gedestilleerd. Nu kan Totta’s model op basis van het verleden de huidige fraudeurs herkennen. Daarnaast kijkt de data-analyse naar uitschieters, via een zogeheten anomaliedetector: daarmee identificeren ze mensen die flink van het gemiddelde afwijken. Totta’s aanname is dat ook zij fraudeurs zijn.

Nadat Totta’s data-analyse mogelijke fraudeurs heeft aangewezen, zoeken controleurs uit of de verdenking terecht is. Dat moet ook wel: bij zulke beslissingen is de menselijke toets verplicht. Een computer mag niet zelfstandig beslissen dat iemands uitkering moet worden gestopt, noch vaststellen dat iemand een misdrijf heeft begaan.

Hoe accuraat is Totta’s analyse?

Luk is opgetogen: van de honderd mogelijke fraudeurs die zijn model aanwijst, stellen controleurs nadien bij de helft metterdaad fraude vast. Maar daarbij zitten ook gevallen die de gemeenten al ontdekt hadden. De toegevoegde waarde schat Luk op 25 tot 30 procent.

Maar dat betekent ook – en dat is vrij ernstig – dat Totta in de helft van de gevallen mensen als mogelijke fraudeurs aanwijst, terwijl er na uitgebreid onderzoek niets van die beschuldiging kan worden hardgemaakt. Daarover haalt Totta de schouders op: bij de helft waarbij nader onderzoek géén fraude aantoonde, konden toch nog best fraudeurs zitten, stelt Luk. Mogelijk was het menselijke onderzoek simpelweg minder effectief dan zijn algoritmes…?

Op een bijeenkomst met Totta afgelopen week in Pakhuis de Zwijger vroeg ik door. Is het niet vreemd dat zelfs nadat menselijk onderzoek – waarbij bovendien veel meer datasets in stelling kunnen worden gebracht dan Totta mag gebruiken – Totta eerder twijfelt aan de capaciteiten en middelen van de controleurs, dan aan zijn eigen algoritmes? Is het niet een schending van burgerrechten dat mensen nu worden aangemerkt als verdachten, op basis van gegevens over andermans gedrag in het verleden? En is het geen ondermijning van rechtsstatelijke principes, wanneer een invasief onderzoek – want invasief is het per definitie, wat die controleurs doen – nu niet langer worden getriggerd door daadwerkelijke, concrete aanwijzingen, maar op grond van een theoretisch vermoeden?

Daar had Luk niet echt antwoord op. Mooi toch dat we fraude zo beter kunnen opsporen? En hun datamodel was zelflerend, dan haal je die systeemfoutjes er toch uiteindelijk vanzelf uit? Maar een fijn verdienmodel is het wel, die ondermijning van de rechtsstaat.


Deze column van Karin Spaink verscheen eerder in Het Parool
. De hele bijeenkomst in Pakhuis de Zwijger is hier na te zien.

  1. 1

    Het is net als met etnisch profileren: het percentage foute positieven wordt met schouderophalen als een soort onvermijdelijk bijeffect beschouwd. In dit geval is het echter een keuze (en beperking) die ook nog in de software is ingebouwd, want er wordt kennelijk niet op gecontroleerd. Dat is ook lastig als je alleen gegevens van fraudeurs bijhoudt.

    Dit is echter wel les 1 in elk data mining handboek: dat heet de “objective function”, ofwel wat wil je bereiken en hoe moet de software dat waarderen? De algoritmes werken niet eens zonder de keuze van zo’n functie.

    Zouden we met een beroep op de WOB dezelfde data kunnen krijgen als deze firma? Zouden we met een beroep op de WOB kunnen afdwingen dat het algoritme wordt gepubliceerd?

  2. 3

    Helemaal schrijnend dat er ook nog eens een performance beloofd wordt. Zo ga je al helemaal het randje opzoeken. Bovendien zullen controleurs ook onder druk komen te staan als er een case opgeworpen wordt vanuit de software.

    Misschien moeten die mensen dan gaan werken met quota..
    Ja, ik zie inderdaad niet hoe dit ooit fout kan gaan. /s

  3. 4

    De kans op false positives is toch aanwezig in iedere controle? De vraag moet zijn of deze tool meer of minder false positives oplevert. Hij lijkt iig meer true positives op te leveren (maar ja, dat kan ook als je iedereen als verdacht aanmerkt).

  4. 5

    Uit de Panama Papers valt ook een heleboel fraudeursgedrag te analyseren; ga daar eens mee aan de slag, Jesse.
    Voordat iemand jou met die plank voor je kop ertegen slaat.

  5. 7

    @1: Op straat lopen en een uitkering gebruiken is niet hetzelfde. In het eerste geval ben je a priori een vrij burger. In het tweede geval heb je ingestemd met de voorwaarde van controle.

  6. 8

    @1:
    ” Zouden we met een beroep op de WOB kunnen afdwingen dat het algoritme wordt gepubliceerd?”

    Dat is een interressante gedachte. Ik denk het eigenlijk niet, want het zal wel om bedrijfsgeheim gaan. Maar het roept natuurlijk wel de vraag op, of het wel wenselijk is dat we dit soort algoritmes in private handen houden.

    Ik zie overigens, dat het vooral een marketingbedrijf lijkt te zijn. Dat verklaart misschien enigzins dat hij zo laconiek is over die 50%. Hij is waarschijnlijk gewend, om potentiele kopersgroepen te vinden. Als zo’n groep na advertenties voor de helft tot een koop overgaat, dan is dat een vrij goede score. Maar ja, fraudebestrijding is wel iets heel anders dan adverteren.

  7. 9

    @7 Inderdaad. De conclusie dat dit een “ondermijning van de rechtsstaat” voorstelt schiet wat mij betreft wat door.

    Wanneer denkt een ambtenaar dat hij/zij met een mogelijke fraudeur te maken heeft? Dat is evengoed een soort van “zelflerend algoritme” met false positives. Zoals @4 stelt gaat het vooral tussen het verschil van mens en machine hier, en het is niet ondenkbaar dat het algoritme met 25-30% wel eens betrouwbaarder zou kunnen blijken.

  8. 10

    Keer op keer komt in discussies over basisinkomen het argument terug dat het huidige programma van sociale uitkeringen te duur is om uit te voeren. En dan *maakt* iemand het goedkoper, is het *weer* niet goed!

  9. 11

    @10: Als je ervan uitgaat dat ook ambtenaren liever lui zijn dan moe (of in dit geval de verantwoordelijkheid op de software afschuiven), dan is de volgende stap dat het moeten* leven van een uitkering straks ook gecriminaliseerd wordt.

    *En kom niet aan dat het een keuze (#7) is; te vreten hebben maar als prijs daarvoor vernederd worden of creperen is geen keuze.

  10. 12

    @10: precies!

    Ik had een uitstekende manier gevonden om de tekorten in de gezondheidszorg en de pensioenen tegen te gaan:
    geef iedereen die 68 wordt, euthanasie!

    Toen bleek dat mensen wel kosten willen besparen, maar niet op die manier.

  11. 13

    @4: inderdaad.
    Het is de vraag hoeveel rechercheurs zouden vinden, als een willekeurige groep bijstands-ontvangers grondig gecontroleerd wordt.
    (al verwacht ik niet dat 50% van de bijstands-ontvangers iets onrechtmatigs doet).

  12. 14

    @4 Dat een vorm van controle false positives oplevert, zij zo… echter is ca. 50% nogal hoog en ik denk dat het algoritme flink bijgeschaafd zal moeten worden om dat percentage flink te verminderen.

    Bedenk dat je wel een onschuldige met een bedreigend en totaal zinloos onderzoek opzadelt. Ik kan me indenken dat menig “onschuldige” zich lam schrikt als hij aan een dergelijk onderzoek onderworpen wordt. Het zal je maar gebeuren.

  13. 16

    @10 Het probleem is dat de ontdekte fraude over alle uitkeringen momenteel rond de €150 miljoen per jaar schommelt. Dat is zeer weinig ten opzichte van de uitgekeerde som van ruim €70 miljard. De vraag is dus eigenlijk of er wel iets valt te besparen.

  14. 17

    @16: Als het puur om besparen gaat, kan het lonend zijn om meer in de belastingdienst te investeren.

    Vorig jaar accepteerde belastindienst zonder vragen dat ik het bruto-inkomen dat mijn werkgever opgaf, met een paar honderd euro verminderde.
    (daar had ik een goede reden voor, maar dat kon de belastingdienst niet weten).

  15. 18

    @15 “bij de helft waarbij nader onderzoek géén fraude aantoonde, konden toch nog best fraudeurs zitten, stelt Luk. ”

    De helft is dus 50% ;)

    Ik weet niet of u een dergelijke “score” als problematisch ziet, ik doe dat wel, gezien de impact van een dergelijk onderzoek.

  16. 19

    @16 je kunt je inderdaad afvragen of bij de huidige fraude omvang extra investeren in fraude bestrijding opweegt tegen de vermindering van de fraude. Dat is vanuit de burger natuurlijk lastig te duiden, maar zolang dat een positief resultaat oplevert is het te overwegen.

  17. 20

    @19 Investeren in uitkeringsfraudebestrijding is zeer effectief. Het rendement bestaat uit stemmen bij de volgende verkiezingen.

  18. 21

    @18: sorry ik bedoelde voor deze techniek. Dat is de juiste vergelijking. Anders heb je geen idee of 50% veel of weinig is

  19. 22

    Dit lijkt me geheel in tegenspraak met de AVG wetgeving die er aan komt.

    Voormalige bijstand ontvangers (en ook de fraudeurs) hebben geen inzicht/kennis/toestemming gegeven voor het gebruik van hun data.

    en 50% false positives is enorm en onacceptabel. Dit betekend dat 50% van de mensen kenmerk fraudeur mee krijgen, en maar moeten hopen dat dat kenmerk overal verwijderd wordt na de menselijke beoordeling. Ik vrees dat dat niet altijd zorgvuldig en volledig zal plaatsvinden.

  20. 23

    @11:

    dan is de volgende stap dat het moeten* leven van een uitkering straks ook gecriminaliseerd wordt.

    Dat is alleen maar jouw gevolgtrekking. Dat maakt het nog niet *waar*. Ik vind dit erg populistisch van je.

    @16:

    Dat is zeer weinig ten opzichte van de uitgekeerde som van ruim €70 miljard.

    Het feit dat dit bedrag 70 miljard groot is, toont alleen maar aan hoe verziekt dit land is, als het gaat om uitkeringen.

    Voor de rest: de belastingdienst doet dit al jaren. Maar nu er opeens misschien wel arme mensen worden getroffen, die belastinggeld ontvangen in ruil voor een pietsje minder privacy, gaan de linkse honden aan het huilen, WTF?

  21. 24

    @22: Dit lijkt me geheel in tegenspraak met de AVG wetgeving die er aan komt.

    Zeker niet. AVG maakt uitzondering voor overheden *en* fraudebestrijding.

    en 50% false positives is enorm en onacceptabel.

    hoeveel is het nu dan?

    Dit betekend dat 50% van de mensen kenmerk fraudeur mee krijgen,

    nee, alleen 50% van de mensen die onderzocht worden…

  22. 25

    @24: Dat is nog steeds de helft van alle bijstandsgerechtigden in gemeentes die met deze ‘pravda’ in zee gaan. Die kopen zo’n pakket niet om er slechts een selecte groep mee te onderzoeken. Ook Luk is erbij gebaat bij zoveel mogelijk gegevens door zijn algoritme te halen, dus die zal gemeenten vooral aanmoedigen zoveel mogelijk mensen ermee te onderzoeken.

  23. 26

    Dat het tegengaan van fraude de rechtstaat ondermijnd ontgaat mij volkomen, volgends mij is het precies andersom, maar goed.
    Dat de pakkans op fraude verhoogd wordt lijkt me prima. Dat maar liefst 50% van de verdachten ook dader zijn, zijn cijfers waar de politie en de belastingdienst alleen maar van kunnen dromen dat is extreem hoog.

  24. 28

    @1.

    Helemaal juist, het gaat om risicoprofielen, want de algoritmen moeten ingesteld worden. Interessant of je bij het indienden van een WOB resultaat zou boeken.

  25. 29

    Hoe is dit anders dan meld-misdaad-anoniem, meldingen bij de kinderbescherming? Van die meldingen is bij lange na niet de helft juist. Dit algoritme doet het dus beduidend beter dan de gangbare praktijk. Bovendien heeft ie hoogstwaarschijnlijk een punt als hij stelt dat bij de 50% niet-bewezen vermoedens waarschijnlijk nog een heleboel zitten die wel frauderen, maar waarvan het bewijs niet hardgemaakt kan worden. Dat probleem heb je altijd bij dit soort zaken; je ontdekt een patroon dat fraude impliceert, maar daarna moet je nog op zoek naar het bewijs en dan volstraat een patroon niet.

    Maargoed. De beste remedie tegen bijstandsfraude is natuurlijk een basisinkomen.