Tracking op basis van publieke data

ACHTERGROND - Jeroen van der Ham is onderzoeker en docent bij de opleiding System and Network Engineering van de Universiteit van Amsterdam. Hij schrijft voor het Rathenau Instituut een serie blogs over ethische vraagstukken bij data-onderzoeken. In deze bijdrage beschrijft hij hoe openbare data van een dienst zoals Twitter op meer manieren kan worden hergebruikt dan gebruikers veelal voorzien.

Twitter is een populair sociaal netwerk met 284 miljoen actieve gebruikers die volgens de makers 500 miljoen berichten per dag uitwisselen. Het kenmerk van Twitter is dat deze berichten (tweets) maximaal 140 karakters mogen bevatten en voor iedereen zichtbaar zijn, tenzij gebruikers expliciet de keuze maken om alles af te schermen.

Een gebruiker van Twitter kan door middel van zijn tweets gedachtes of plaatjes delen met zijn volgers, en potentiële toekomstige volgers. Dit kan weer verder gedeeld worden, om op die manier meer volgers en aanzien te krijgen. Het feit dat al deze berichten publiek zijn, maakt dat Twitter een populaire databron is voor onderzoekers. De publieke tweets worden ook nog eens allemaal opgeslagen door het Amerikaanse Library of Congress.

Hoewel de data op Twitter open is, kunnen gebruikers het soms toch oneens zijn met bepaald gebruik van die data. In september 2014 werd er een nieuwe dienst gelanceerd: Samaritans Radar. Deze dienst analyseert tweets en kan dan meldingen sturen als iemand een zorgelijke update op Twitter zet. Met het idee dat de gebruiker van Samaritans Radar de persoon die een zorgelijke update verstuurde daarna kan ondersteunen.

Er kwam al vrij snel veel ophef rond de dienst. Er werd immers geen toestemming aan de Twitter gebruikers gevraagd of ze gemonitord wilden worden. De enige manier om niet deel te nemen was een opt-out mogelijkheid bij Samaritans Radar. Naar aanleiding van de ophef is besloten om de dienst te stoppen en de aanpak te heroverwergen.

Duiding

Data op Twitter is standaard volledig open. Gebruikers van Twitter staan er echter vaak niet bij stil dat er heel veel meer kan met de data die Twitter gebruikers produceren. Adrian Short heeft een mooie opsomming van analyses die op Twitter-data kunnen worden uitgevoerd, hij beschrijft dingen als gevoelsanalyse, stylometrie (nieuwe teksten aan een persoon toe kunnen wijzen), gezichtsherkenning, locatie-analyse, sociaal netwerkanalyse, etc.

Gevoelsmatig wordt er toch een grens overtreden op het moment dat er een applicatie als Samaritans Radar wordt gemaakt op basis van publieke data. Het is een gebruik dat niet voorzien was op het moment dat de data gedeeld werd.

De dienst had ook alleen maar een opt-out optie, terwijl veel mensen niet eens van het bestaan van deze dienst afwisten. Na veel protest heeft Samaritans Radar besloten om de dienst voorlopig te stoppen en de aanpak te heroverwegen.

Vraagstukken over verantwoord gebruik van publieke data zien we ook op andere plaatsen terug. Een voorbeeld is de analyse van Twitter data om te zien of iemand frauduleus zou kunnen zijn (Been 2014). Zo’n systeem kan handig zijn bij het onderzoeken van fraude bij uitkeringen. Maar ook hier moet kritisch gekeken worden naar het gebruiken van deze data.

In het onderzoek van Been werd alleen gebruik gemaakt van data van een verzameling proefpersonen die daar vooraf toestemming voor hadden gegeven. Het onderzoek heeft ook de afweging gemaakt voor het bedoelde gebruik door de overheid. De Twitter data-analyse zou daar worden toegepast op mensen die een uitkering aanvragen en mogelijk anderen die per ongeluk matchen. In dit geval zou deze analyse slechts een van de vele indicatoren zijn, en er wordt pas bij meerdere signalen een echt onderzoek naar mogelijke fraude gestart. Desalniettemin geven de onderzoekers geven aan dat er voor elk gebruik van dit soort data opnieuw een afweging gemaakt moet worden of gebruik wel ethisch verantwoord is.

Conclusie

In het slotwoord van het artikel van Been wordt duidelijk aangegeven dat er goed over het gebruik van publieke data in dit soort onderzoeken nagedacht moet worden. Tijdens zijn onderzoek is er in samenwerking met een ethicus een framework opgezet om deze ethische afwegingen te kunnen maken (van Wynsberghe 2013). Met het framework worden richtlijnen aangegeven die onderzoekers kunnen gebruiken om een inschatting te maken of het gebruik van data van sociale netwerken verantwoord is of niet.

Samaritans Radar heeft deze les door schade en schande ook geleerd. Al snel nadat de dienst gelanceerd werd, kwam er fel protest, juist van de mensen die erbij gebaat zouden moeten zijn. Ook al wordt er gebruik gemaakt van publieke data, deze dienst doet daar iets heel anders mee dan men in eerste instantie bedacht had. Ook de keuze voor opt-out in plaats van opt-in kwam op veel kritiek te staan. Zoals eerder al aangegeven, is Samaritans Radar daarom momenteel gestopt en is men op dit moment aan het kijken hoe dit beter opgezet kan worden.

  • Van Wynsberghe, A., Been, H. & van Keulen, M. (2013) ‘To use or not to use: guidelines for researchers using data from online social networking sites,’ Rict Responsible Innovation
  • Been, H. & van Keulen, M. (2014) ‘Finding You on the Internet: an approach for finding on-line presences of people for fraud risk analysis, In: 16th International Conference on Enterprise Information Systems (ICEIS 2014), 27-30 Apr 2014, Lisbon, Portugal. pp. 697-706. SciTePress. ISBN 978-989-758-027-7
  • Friedman, B., Kahn Jr, P. H., & Borning, A. (2006). Value sensitive design and information systems Human-computer interaction,’ In: Management Information Systems: Foundations, 5:348-372.

Via Data Denkers

  1. 1

    Voor zover ik weet was het probleem bij Samaritans Radar niet dat er onverantwoord met data om werd gegaan, althans, niet in mijn boekje.

    Als er een dienst zou zijn (ongetwijfeld scant NCVT en politie op bepaalde woorden), die op een aankomende aanslag of moord zou scannen, dan zouden we dat ook accepteren. Samaritans Radar scande op een specifieke soort ‘moord’: zelfmoord. Het andere verschil is dat Samaritans privaat is, en de politie en de NCTV publiek.

    Het probleem met Samaritans Radar waren de vele false positives die de wijde wereld in werden gestuurd. Dingen als “9 uur, winkels dicht, koelkast leeg! Ik ga dood #FML” (of iets soortgelijks) werden aangemerkt als indicatief voor zelfmoord. Het is dan leuk, als er om half 10 nog iemand komt met een zak chips, die door jouw ‘zelfmoord’tweet is ‘gewaarschuwd’, maar dat was niet echt het doel van die dienst.

    Tussen een NCTV/politie-‘alarmbelletje’ en het handelen van die dienst zitten doorgaans nog wel wat mensen die verifiëren. Samaritans Radar heeft als private partij die luxe niet.

    Daarnaast is de opt-out strategie van Samaritans Radar echt niet zo raar. Als mensen echt last hebben van suicidale gedachten en handelingen daartoe, én dat door hadden (en dat een probleem vonden), hadden ze al elders hulp gevraagd. Een opt-in systeem zou alleen werken voor mensen die al weten dat als ze eenmaal in een suicideflow terechtkomen, ze geen hulp meer durven/kunnen zoeken. En dat zijn mensen die doorgaans al pogingen hebben ondernomen. En de mensen in hun omgeving weten vaak al wel dat er kans is op zelfmoord van die persoon (maar ‘ze wisten niet dat het nu weer zo erg was’), dus dan voeg je weinig nieuwe informatie toe.

    Het probleem was dat er een ondermaats algoritme was waarmee gescand werd. Ongetwijfeld heeft dat er mee te maken gehad dat het tweetgedrag van zelfmoordenaars in de uren/dagen voorafgaand aan hun zelfmoord niet (genoeg) bekend is.