ACHTERGROND - Jeroen van der Ham is onderzoeker en docent bij de opleiding System and Network Engineering van de Universiteit van Amsterdam. Hij schrijft voor het Rathenau Instituut een serie blogs over ethische vraagstukken bij data-onderzoeken. In deze bijdrage beschrijft hij hoe onderzoekers die gebruik maken van data over internetverkeer een zorgvuldige afweging moeten maken tussen het belang van hun onderzoek en privacy van hun gebruikers.
In januari 2012 is er een blokkade opgeworpen voor de webpagina van ThePirateBay. Stichting BREIN had toen een overwinning bereikt in haar strijd tegen illegaal downloaden. De providers Ziggo en XS4ALL moesten vanaf dat moment de website blokkeren voor haar klanten. Een aantal maanden later volgde een uitspraak voor de andere grote providers in Nederland en was de website in heel Nederland geblokkeerd.
Het was al vrij snel duidelijk dat er vele manieren waren om de blokkade te omzeilen. Proxies, mirrors en andere methoden schoten als paddenstoelen uit de grond, sneller dan BREIN ertegen kon vechten. Maar hoe bewijs je nu of zo’n blokkade ook daadwerkelijk effectief is?
Door de blokkade zelf en de vele manieren om deze te omzeilen was het niet mogelijk om de effectiviteit ervan direct te meten. Onderzoekers van de Universiteit van Amsterdam bedachten dat het wel mogelijk was om dit indirect te meten. Gebruikers van ThePirateBay halen daar links naar BitTorrent bestanden op, die ze dan gebruiken om gezamenlijk films of series binnen te halen. Om dit gezamenlijk te kunnen doen, worden er IP-adressen uitgewisseld van alle deelnemers. De onderzoekers vingen deze IP adressen op, om zo te kunnen achterhalen waar de downloaders vandaan kwamen.
Door steekproeven te nemen op verschillende momenten van de geleidelijke invoering van de blokkade, was het mogelijk om vergelijkingen te maken. Op die manier kon de verdeling van downloaders over de verschillende providers op verschillende tijden vergeleken worden, en kon er dus iets gezegd worden over de effectiviteit van de websiteblokkade (Van der Ham et al. 2012). Later zijn deze resultaten bevestigd door een herhaalde meting en een combinatie met een enquête (Poort et al. 2014).
Duiding
Voor het in kaart brengen van de effectiviteit zijn duizenden IP-adressen verzameld. Daar is een analyse op uitgevoerd om ze terug te leiden tot een internetprovider. IP-adressen kunnen aangemerkt worden als persoonsgegeven (Leenes, 2013). Bij deze studie zijn duizenden IP-adressen verzameld, en bij sommige downloads bracht de monitor bijna alle downloaders in kaart.
Een manier om persoonsgegevens verantwoordelijk te verzamelen is door vooraf toestemming te vragen voor de verzameling. Voor deze verwerking van IP-adressen was toestemming erg moeilijk, en vragen om toestemming zou mogelijk zelfs het gedrag van downloaders beïnvloeden. De IP-adressen zelf zijn in een beveiligde omgeving opgeslagen, waar alleen de onderzoekers toegang toe hadden. Data is alleen op een geaggregeerde manier gepubliceerd zodat die op geen enkele manier terug te herleiden was tot individuele gebruikers.
Op het moment van de eerste studie in 2012 was er in Nederland ook weinig besef van mogelijke ethische moeilijkheden rondom informatica-onderzoek. Hiervoor waren dus ook nog geen procedures, richtlijnen of ethische commissies opgezet. Tijdens het analyseren van de verzamelde data werden de mogelijke ethische bezwaren duidelijk en heeft de onderzoeker contact gezocht met een ethicus.
Voor dit onderzoek is de privacy van gebruikers geschaad om een wetenschappelijk onderzoek te kunnen doen. De wetenschapper heeft voor het doen van het onderzoek een ethische afweging gemaakt. Aan de ene kant moesten de gegevens van duizenden internetters verzameld worden zonder toestemming, en aan de andere kant stond de maatschappelijke discussie over de wenselijkheid en effectiviteit van de blokkade (waar nog geen wetenschappelijke meting van was gedaan).
Er is ook gekeken naar andere methoden om op een objectieve manier de effectiviteit te kunnen meten, maar die waren er niet. Er is uiteindelijk voor gekozen om de data op een veilige manier op te slaan, zo min mogelijk mensen toegang te geven, en alleen geaggregeerde resultaten te publiceren. De data is bewaard voor de review-periode, en is daarna vernietigd.
Door bovenstaande analyse is samen met de ethicus besloten dat dit onderzoek op een ethische manier is aangepakt. Een uitgebreidere discussie van deze ethische analyse is ook gepubliceerd (Wynsberghe 2014).
Conclusie
De ethische analyse heeft laten zien dat er ook bij informatica-onderzoek mogelijk ethische bezwaren kunnen bestaan. Deze factoren identificeren en meenemen in het ontwerp van een experiment of data-analyse is een eigenschap die nu begint te dagen bij de informatici.
Bij de Universiteit van Amsterdam en de Universiteit Twente zijn inmiddels ethische commissies opgezet die onderzoeksvoorstellen beoordelen. Bij de Universiteit van Amsterdam heeft het er ook toe geleid dat er bij de opleiding System and Network Engineering door de studenten nu ook uitgebreid aandacht aan wordt besteedt bij het schrijven van een onderzoeksvoorstel.
Doordat techniek en internet steeds meer in ons leven integreren, zullen informatici ook steeds meer met gebruikers te maken krijgen. Niet alleen direct met bijvoorbeeld interactie-design, maar ook indirect door het analyseren van data uit online experimenten, of met het analyseren van server-logbestanden. Ook hier kunnen ethische bezwaren kleven aan de onderzoeken en analyses die gedaan worden. Soms kunnen die ook op een andere, minder bezwaarlijke, manier opgezet worden, maar dan moeten de onderzoekers zich wel bewust zijn van de mogelijke bezwaren.
- Ham, J. van der et al. (2012). ‘Review en Herhaling BREIN Steekproeven 7 -9 april 2012,’ Technical Report UVA-SNE-2012-01.
- Leenes, R (2013). ‘Acties tegen botnets door SURFnet en bij SURFnet aangesloten instellingen: privacy & data protectie aspecten. Een expert opinion,’ Utrecht: SURFnet.
- Wynsberghe, A & J. van der Ham (2014) ‘Ethical Considerations of Using Information Obtained from Online File Sharing Sites: the Case of the Piratebay’ In: Proceedings of ETHICOMP2014.
Via Data Denkers
Reacties (11)
Ik vermoed dat de huidige inbeslagname van de piratebay wel redelijk effectief is qua het verminderen van netwerkverkeer. Maar dat is natuurlijk maar de helft van het verhaal.
Als de claims van de muziek- en filmindustrie ook maar enigszins kloppen, zou je nu, met de (tijdelijke) afname van het verkeer tegelijkertijd een toename moeten zien in het legaal consumeren van deze muziek en films. Dus DVD-verkoop en bioscoopbezoek omhoog.
Gezien de hoeveelheid schade die deze partijen zeggen te lijden moet het nu al significant in de omzet schelen.
https://oldpiratebay.org/
Qua IP-adres als persoonsgegeven: Nederland is wat dat betreft wat uniek. Een IP-adres is een persoonsgegeven, omdat het herleidbaar zou zijn tot een persoon.
In de praktijk is dat natuurlijk niet echt het geval. Het IP-adres van de meeste mensen is voor normale andere mensen helemaal niet makkelijk herleidbaar tot een persoon. Daarnaast verandert het IP-adres van de meeste mensen toch regelmatig, waardoor je nooit zo maar kan claimen dat iemand die nu IP X heeft dat adres een bepaalde termijn geleden ook had.
Als je een IP-adres zou willen herleiden tot een persoon dan heb je toegang nodig tot de provider, of tot de backoffice van grote internationale advertentienetwerken.
In de praktijk is het voor jou en mij – en de onderzoekers – lastig te doen.
De Nederlandse overheid daarentegen kan het in een handomdraai.
@2: Dat is gewoon een shell over de isohunt database. Een publiciteitsstunt.
@3: een IP is nooit herleidbaar tot een persoon, enkel tot een locatie. Dat de kans groot is dat er iemand woont op die locatie, is aannemelijk, maar het blijft een herleiding tot enkel de locatie.
Wat hield dat onderzoek naar die IP adressen in? Wanneer ik mijn torrent client gebruik krijg ik uiteraard te zien met welke IP adressen ik contact heb gemaakt. Sommige/de meeste clients laten dan ook nog netjes zien waar dat IP adres vandaan komt, geografisch gesproken. Mijn “onderzoek” zou dan bestaan uit het aanklikken van een tabje in mijn client GUI. Om die adressen op te slaan hoef je uiteindelijk niet meer te doen dan de stdout naar een logbestandje te laten schrijven, eventuele troep eruit filteren en klaar (of je filtert met een pipe voor het wegschrijven naar een bestand).
IP adressen kunnen je iets vertellen over locatie. Niet over “gebruikers/personen”. Achter één enkel IP-adres kan een half studentenhuis hangen. Daarnaast, IP adressen kunnen vrij gemakkelijk gefingeerd worden. Mocht fingeren (spoofing) niet je “cup of tea” zijn, dan volstaat een enkele of meerdere proxies om de IP-informatie praktisch nutteloos te maken. En dan laat ik het onderwerp VPN nog maar even buiten beschouwing.
Lulkoek. Iedere gebruiker roeptoetert zijn “persoonsgegeven” naar heel veel mede-torrenters. Wettelijk gezien is het opbouwen van een database met die persoonsgegevens dan wel niet toegestaan, maar ethisch gezien natuurlijk niet. Wat wellicht kwalijk is, is dat bittorrent-clients hun gebruikers er niet expliciet op wijzen dat hun IP-adres expliciet en met de intentie dat de andere partij daar ook wat mee doet de halve wereld over wordt geroeptoetert. Maar dat er mensen zijn die ook echt wat doen met die IP-adressen, ook al is dat niet het downloaden van dezelfde file, zou wat mij betreft absoluut als “fair use” beschouwd moeten worden en niet als privacyschending.
Idem voor de logfile van sargasso, hoewel uw IP-adres daar enkel als “bijzaak” terecht is gekomen.
Ik heb het al vaker gezegd en zeg het nog maar eens: het wordt hoog tijd voor wat gezond verstand in toepassing en invulling van privacy-wetgeving, want dit gezanik is van de zotte. Net als, trouwens, het gezanik over wifi “afluisteren”; blijkbaar mag iedere jan-boeren-lul wel zijn radiostraling dwars door mijn lichaam sturen en dan zou ik er niet naar mogen luisteren?!?! Idioot. Net als dit gezeur dus.
Iemand een koekje?
Allebei grotendeels niet helemaal waar. Een IP-adres is doorgaans hoogstens te herleiden met de precisie van een stad, en zelfs dat klopt meestal niet. Maar een IP-adres is voor degenen met toegang tot de juiste data buitengewoon eenvoudig te herleiden tot een persoon. Je hoeft maar ergens in te loggen of je gegevens achter te laten en de koppeling is gelegd. Facebook, Google en uw bank hebben heus al wel door dat u voor de deur staat voordat u inlogt. En vooral Facebook heeft ondertussen – grotendeels via uw IP-adres – precies in de smiezen gehouden waar u tussendoor bent geweest. De gemiddelde webshop waar u ooit uw gegevens hebt achtergelaten ook. Ga er maar gewoon vanuit dat eenieder gewoon weet wie u bent.
Overigens: IP adressen vertellen je niks over wat er daadwerkelijk wordt gedownload. Zoals het hebben van twee telefoonnummers je ook niks zegt over de inhoud van het gesprek dat middels die twee nummers wordt gevoerd.
Met andere woorden: Om werkelijk iets te kunnen zeggen over de content, de inhoud, zul je de pakketjes zelf moeten gaan inspecteren.
http://tweakers.net/nieuws/100342/anonieme-torrentclient-tribler-krijgt-end-to-end-encryptie.html
Er wordt in dit verband leuk werk verricht op onze universiteiten. Niet voor het eerst dat de TUD mooie dingen doet met techniek!
@10: “Daarnaast moeten we als wetenschappers uit onze ivoren toren komen.” Prachtig.