Veel gejuich rondom Big Data, maar beperkingen zijn nog groot

Goed stuk over de opkomst en problemen rond Big Data.

Open waanlink

  1. 1

    Wel lullig dat je juist bij dit artikel een account moet maken. Maar goed, ik heb al zo’n 100 accounts her en der dus waarom niet bij FP. Zou best kunnen dat ik er daar al dertig heb dus een extra kan geen kwaad om de verwarring in Big Data groter te maken :)

    Ik had onlangs een commentaar op een ander artikel over veel data. Iets met geen vragen bij teveel antwoorden en verkeerde antwoorden bij teveel vragen. Of zoiets. Maar ben dat linkje alweer kwijt. Kan niet alles bewaren nietwaar. Ziedaar het lokale privéprobleem van teveel data.

    Goed onderwerp trouwens.
    Heeft zijdelings iets met onberekenbaarheid en zo.
    Oude hobby van me.

  2. 4

    @#1 Zou best kunnen dat ik er daar al dertig heb dus een extra kan geen kwaad om de verwarring in Big Data groter te maken :)

    BigData betekent ook dat ze heus wel weten dat jij 30 keer dezelfde persoon bent. Of in ieder geval zouden moeten kunnen weten als ze hun bezoekersprofileringssoftware bij een kundige partij afnemen;-)

  3. 7

    @6: en @1 @2 en @3: Met de reader-functie in mijn browser (safari) hoefde ik ook niet in te loggen om het artikel te kunnen lezen.

  4. 8

    @6: @7: Ik weet het jongens, ik ben een achterlijke gladiool, een technische minkukel die achter de technische feiten aanloopt. Maar ik gebruik nu eenmaal andere tools en heb geen zin mijn hele machine overhoop te gooien om zoiets onbenulligs.

    Ik wil deel zijn van de Big Data, ik schrijf me in.
    Ik BEN deel van Big Data en ik onderwerp mij.
    Vluchten kan niet meer.

    Hmmm… dat ik zoiets nog eens zou schrijven.
    Meen ik dat nou?

  5. 12

    Ik zit eigenlijk te wachten op een stuk getiteld ‘Peak-data’.
    Er is nog nooit zoveel bijgehouden en geregistreerd als nu.
    Vrijwel elke transactie wordt in digitale vorm vastgelegd op een server.
    Vingerafdrukken worden gedigitaliseerd. Temperatuurreeksen worden overal ter wereld bijgewerkt. De dikte van boomringen wordt opgemeten, maar die data worden vervolgens niet gebruikt, maar weggelaten omdat anders de grafiek niet klopt.

    Niemand weet precies waarom. Het was geen vooropgezet plan (of complot) om alles te gaan vastleggen. Maar omdat niemand durft te zeggen dat het niet nodig is. Degenen, die dat wel zeggen worden uitgelachen en beschimpt.

  6. 14

    Hoe kan ik u nóg meer van dienst zijn? Het ultieme antwoord/ streven van Google (o.a.) is de “Star Trek computer” met spraakherkenning. Die niet alleen antwoord geeft op elk denkbaar probleem/ vraagstuk maar liefst ook anticipeert vóór de twijfel. Het is namelijk gewoon niet meer te doen ná de twijfel omdat vervolgens geheid de chaos toeslaat. En dat is voor het systeem een heel slecht ding de chaos..

    Nou, en voor het/ dat ultieme gebruiksgemak hebben ze daarvoor nog meer data nodig. ALLE data eigenlijk, ook de data die je misschien zélf al weer kwijt was of verdrongen had. Daarvoor lijkt het mij op zich handig als elk embryo eenmaal genesteld in de moederkoek op termijn meteen stekker-in-je-nek wordt ingeplugd op het Big data- net o.i.d. Zodat je middels algemeen aanvaarde en door overheid gestandaardiseerde tips & tricks, fijndankuwel en have-a-nice-day namens oom Big data, gelijk een mengpaneel in een professionele opnamestudio nog iets kan sleutelen/updaten of resetten aan de basisinstellingen van het liefst blauw beoogde modelkindje of zo en dergelijke dus…

  7. 15

    Ik kan me herinneren dat er ruwweg 20 jaar geleden een identieke hype was toen alle computertijdschriften de loftrompet staken over de fabuleuze vooruitzichten van ‘data mining’. En zoals dat gaat met hypes, kwam na een paar jaar de ontnuchtering. Het was toch allemaal best ingewikkeld en duur en de resultaten vielen tegen en je kon er lang niet zoveel mee als beloofd.
    Wel grappig dat een hype compleet gerecycled kan worden als je een nieuwe naam verzint.

  8. 16

    @15: Zou er toch maar vanuit gaan dat b.v. Echelon en Google aardig wat in kaart hebben gebracht.

    Ook bij het nieuwe toverwoord de Cloud blijkt het regelmatig voor te komen dat er in Amerika patenten worden aangevraagd op ontdekkingen van Europese universiteiten die deze data in een Cloud geparkeerd hadden en net voordat deze universiteiten zelf patent gingen aanvragen.

  9. 17

    Ik vind ’t maar een matig stuk. Het beschrijft twee risico’s van ‘big data’: gebruik van grote datasets voor ‘profiling’ en voor re-identificatie, dwz het achterhalen van identiteiten/sofinr’s uit datasets.

    Ik denk dat het gevaar van ‘profiling’ wordt opgeblazen. Om de simpele reden dat profiling vaak niet meer zegt dan wat iemand die een beetje bekend is in het terrein al wist (‘mensen bellen overdag vaker dan ’s nachts’), of dat het niets zegt, omdat je om die ‘profiles’ te kunnen duiden je toch ‘domain specific knowledge’ nodig hebt: hoe komt het dat er begin februari meer aziaten bellen rond schiphol? Is dat een reeel effect, of een artefact van de data?

    (Hetzelfde verschijnsel zie je ook bij google trends, waar je voor sommige zoekwoorden ieder jaar om dezelfde tijd een piek ziet verschijnen, zonder dat daar een voor de hand liggende reden voor is te geven).

    Een veel terugkerend voorbeeld zijn de verzekeraars die persoon-specifieke premies gaan bedenken aan de hand van een big-data profiel. Daarmee ondergraven verzekeraars alleen wel hun eigen bestaansmodel, want met persoon-specifieke premies kun je net zo goed zelf geld opzij zetten voor je eigen ziektes. De premie die je moet betalen zal namelijk aardig in de buurt liggen van wat je zelf had moeten betalen aan schadekosten (je ziet iets soortgelijks al met tandartsverzekeringen: je betaal 25 euro per maand voor een aanvullende verzekering waar je max 400 euro schade voor kunt claimen. Met dat soort premies kun je net zo goed zelf 400 euro opzij zetten voor tandartskosten. Bijkomend voordeel: je hoeft de kas van de verzekeraar niet te spekken. )

    ‘Maar risicoselectie dan? Dat verzekeraars je niet willen verzekeren omdat je een kans hebt op dure ziektes/schades?’ Ook overdreven: je weet dan dat als je wordt aangenomen voor een verzekering die X verzekert, je een verwaarloosbare kans hebt op gebeurtenis X. Dus hoef je daar ook geen verzekering voor af te sluiten. QED.

  10. 18

    re-identificatie: dat is wel een risico, zeker als ‘iedereen’ (of iedereen die bij een groot bedrijf werkt wat zo’n dataset kan betalen) door zo’n dataset heen kan browsen. Maar zoals Cory doctorow in ‘little brother’ uitlegt, is ’t probleem niet alleen dat er veel te veel identificerende bestanden zijn; het probleem is *ook* dat opsporingsinstanties/overheden zichzelf veel te veel bevoegdheden toeeigenen met die data in de hand, en ‘internet-mobs’ a-la 4-chan die online heksenjachten organizeren.

    Dat is geen data-probleem, maar een probleem wat bij mensen tussen de oren zit. Het lijkt me dat je *daar* iets aan zou moeten doen; de techniek is alleen maar een middel. In de middeleeuwen werden protestanten/hugenoten/jezuiten ook bij honderden tegelijkertijd over de kling gejaagd, en dat ging prima zonder ‘Big Data’.

  11. 20

    Overigens, de werkelijke schande is dat er zo weinig wordt *gedaan* met big data. D’r wordt wel heel veel gehyped en zo, maar alles wat een beetje interessant is blijft achter gesloten deuren, zowel in de private sector als bij de overheid. Je zou best hele gedetailleerde plaatjes / heatmaps kunnen maken van -bijvoorbeeld- onderwaarde van woningen naar leeftijd. Of ‘geld over aan het einde van de maand’ naar leeftijd. Of ziektekosten versus premiehoogte. Etcetera, bedenk maar wat.

    Instanties durven daar vaak niet aan uit een verkeerd soort schijterigheid, plus een ontzettend gebrek aan fantasie: ‘o jee, mag dat wel, straks krijgen we commentaar dat we oneigenlijk gebruik maken van de data die we wettelijk mogen vragen, wat nu als blijkt dat onze data niet klopt, waarom zouden we dit eigenlijk doen’.

    Van overheidsinstanties vind ik juist dat soort redenaties ‘oneigenlijk’. Want laat maar zien hoeveel data ze eigenlijk opvragen (en hebben), hoeveel data daarvan gebruikt wordt. Als overheidsorganisatie hoor je jezelf ook publiek te verantwoorden,en wat je met al die gegevens doet die je opvraagt.
    Maar ook: dat soort big-data-plaatjes geven een prima inzicht hoe hun eigen processen inelkaarzitten, en hoe nederland zelf inelkaarzit.

  12. 21

    Op de Nederland van Boven manier kreeg ik er erg jeuk van.

    Journalistiek onvermogen wordt pijnlijker duidelijk met big data.
    Het wordt al heel veel gedaan – maar niet publiek gepresenteerd.

    De media waarlangs dat zou kunnen gebeuren, zijn er slecht in (incapabel). De trend van infantilisering van informatieoverdracht is sterker dan de mediageniekheid van big data.

  13. 22

    Ik kan mij nog herinneren dat een kleine search engine in een vlaag van verstandsverbijstering een enorme dataset van zoekopdrachten vrijgaf (voor bedrijven bedoeld maar voor iedereen toegankelijk). Hierin waren de zoekopdrachten gegroepeerd per IP-adres (de adressen zelf stonden niet in de dataset). Al snel waren hele hordes internet-gebruikers hier doorheen aan het spitten en flink wat mensen werden achterhaald op basis van hun zoekopdrachten. Al was het maar omdat veel gebruikers regelmatig op hun eigen naam zoeken… er stond in ieder geval ontzettend veel bijzonder privacy-gevoelige informatie tussen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

| Registreren