Datawaarde en cloudgarantie

Als journalist zit ik volop in de cloud. Al mijn zakelijke files (zowel content als administratie) staan in de cloud, mijn mail verloopt via de cloud en zowel mijn zakelijke als mijn privé-netwerk bevinden zich in de cloud. Ikzelf zit in de driver seat: ik kan via ieder device overal en altijd gemakkelijk bij, ik kan de capaciteit uitbreiden en ik heb zicht op de kosten. Zo lang mijn leveranciers zorgvuldig omgaan met hun klanten – en daar vertrouw ik op – maak ik mij geen zorgen over beveiliging en uptime. Mijn overstap naar de cloud is geleidelijk verlopen. Eerst ben ik gestopt met het gebruik van Microsoft Outlook; dat werd vervangen door Gmail. Daarna ben ik gevallen voor de lol van Facebook, het nut van Linkedin en het gemak van Dropbox. Van die clouds – lees: servers – heb ik geen idee waar ze zich bevinden en wat voor soort mensen aan de knoppen zit. Ook hier is het een kwestie van vertrouwen.

Foto: Tom Woodward (cc)

Data-scepticisme

ANALYSE - Wat vertellen data wel, en wat niet?  Stellen we data-analyses en visualisaties wel genoeg ter discussie, of zijn we een dergelijke manier van denken over data nog niet gewend? vraag Jelte Timmer, werkzaam bij het Rathenau Instituut, zich af.

We vertrouwen graag op de kracht van data. Data maken dingen inzichtelijk en overtuigen veelal beter dan verhalen.  En met de opkomst van goedkope sensortechnologie is er over steeds meer dingen data beschikbaar. Hoewel ik zelf ook graag een verhaal kracht bij zet met mooie gegevens en gek ben op visualisaties, vraag ik me af waar data hun autoriteit vandaan halen. En of we er soms niet te makkelijk op vertrouwen.

Kate Crawford waarschuwde laatst in een blog op Harvard Business Review voor de gevaren van data-fundamentalisme. Met data-fundamentalisme doelt zij op het onbetwiste vertrouwen in data dat zij steeds vaker tegenkomt. Het verzamelen, analyseren en visualiseren van gegevens is echter geen neutraal proces, stelt ze. In elke stap van dataverzameling tot aan datavisualisatie worden keuzes en interpretaties gemaakt, die beïnvloeden wat data uiteindelijk laat zien.

Mechanische objectiviteit een illusie

Wat voor een keuzes zijn dit, en waar komt het data-fundamentalisme vandaan? Om dat te begrijpen kunnen we het best beginnen bij het verzamelen van data. Sensoren lijken daarin een oplossing bieden voor het onbetrouwbare verzamelen van data door mensen. Menselijke onderzoekers of observatoren hebben bewust of onbewust een bias. Sensoren zijn nauwkeurig, hebben geen last van menselijke afwijkingen, en kunnen bovendien goedkoop en breed ingezet worden.

Wetenschap heeft een lange traditie van meetinstrumenten, die de onderzoeker op afstand plaatsen en ‘objectief’ data kunnen verzamelen. Maar deze mechanische objectiviteit is een illusie, met het meetinstrument wordt een keuze gemaakt welke gegevens wel en niet gemeten worden; hoe deze gekwantificeerd worden, etcetera. Er is een makkelijke parallel te trekken met de opkomst van fotografie. De foto werd in eerste instantie gezien als een manier om de werkelijkheid objectief te vangen, ten opzichte van teken en schilderkunst. Inmiddels zijn we ons ervan bewust dat we met elke foto een duidelijke selectie maken van het onderwerp (de data) en hoe die we vangen in de foto, en welke gegevens we hier bewust buiten laten.

Computationele objectiviteit

Met de opkomst van big data vervangen we de illusie van mechanische objectiviteit voor die van computationele objectiviteit. Niet alleen het verzamelen maar ook het analyseren van de gegevens kan meer en meer door machines worden uitgevoerd. Er kan gebruik gemaakt worden van bestaande datasets, of data die niet bewust verzameld wordt maar die we bijvoorbeeld automatisch genereren als we ons op het web begeven. Maar objectiviteit is hier net zo goed een illusie. Met de gegevens die beschikbaar zijn, de databronnen die geselecteerd worden, en hoe deze bronnen bewerkt worden voor ze geanalyseerd kunnen worden (data-scrubbing) worden bepalende keuzes gemaakt. Iets wat prachtig uitgewerkt wordt in het boek Raw Data is an Oxymoron. Er bestaat niet iets zoals rauwe data, zij is altijd geselecteerd en voorgekookt vanuit een bepaald doel; om iets zichtbaar te maken.

Daardoor zeggen data verschillende dingen. Afgelopen jaren oogstte Google veel bewondering met haar Google Flu Trends, waarmee nauwkeurige voorspellingen van het verloop van jaarlijkse griepepidemieën gemaakt worden. In 2012 zat Google er echter opeens goed naast. Ook de data van een gigant zoals Google zeggen niet altijd alles. Door veel media-aandacht werd er ongebruikelijk veel gezocht op griep-gerelateerde termen en gaven de gegevens van Google een verkeerd beeld van de werkelijkheid.

Visualiseren

Ook in het visualiseren van data loert data-fundamentalisme. Pete Warden verbaasde zich laatst over hoe makkelijk we vertrouwen in de plaatjes en gegevens die ons door commerciële bedrijven worden voorgeschoteld. In tegenstelling tot wetenschappelijke publicaties, is er geen peer review controle op het onderzoek en zijn de achterliggende data meestal ook niet openlijk beschikbaar.

The wonderful thing about being a data scientist is that I get all of the credibility of genuine science, with none of the irritating peer review or reproducibility worries.

Het voorbeeld waar Warden naar refereert is een datavisualisatie die hij heeft gemaakt van vriendennetwerken op Facebook in de Verenigde Staten.

The network visualization of drawing lines between the top ten links for each city had issues, but was defensible. The clustering was produced by me squinting at all the lines, coloring in some areas that seemed more connected in a paint program, and picking silly names for the areas.

De visualisatie van Warden werd door veel kranten overgenomen en zijn clustering werd gebruikt als bewijs voor sociale segregatie in de Verenigde Staten. Zonder dat er over na werd gedacht hoe deze clustering tot stand was gekomen. The Guardian bouwt voort op het stuk van Warden, maar stelt dat het probleem vooral ligt in de visualisaties. We zijn tot op zekere hoogte gewend om teksten kritisch te analyseren. Iets wat ons in scholen wordt aangeleerd. Maar tabellen, grafieken en visualisaties worden in onderwijs en daarna altijd gebruikt als een manier om eindresultaten te presenteren. We zijn niet getraind om hier kritisch naar te kijken, sterker nog: we zijn getraind om ze als duidelijke uitkomst te accepteren.

Er worden altijd keuzes gemaakt

Een aantal blogs van verschillende auteurs hebben zich hier in de afgelopen weken gewijd aan het kritisch denken over verschillende verhalen die datasets en analyses vertellen. Data worden daarin beschreven als een instrument en als kennis producerende technologie die vorm geeft aan wat ermee onderzocht wordt. Wat data representeren, hoe we het analyseren en visualiseren.

Het helpt niet om te denken dat als we de menselijke hand vervangen door algoritmen dat we dan tot ‘objectiever’ analyseproces kunnen komen. Keuzes worden altijd gemaakt, in de data of in het programmatuur van een algoritme. Wellicht kunnen we een stap maken van waarschuwen tegen data-fundamentalisme, naar het promoten van data-scepticisme. Opdat we ook analyses en visualisaties kritisch aan de kaak stellen. Naar mate meer beslissingen gedreven door data laten maken, wordt dit soort kritische data-geletterdheid belangrijker. Denk daar eens aan de volgende keer dat u een mooi plaatje ziet.

 

Toelichting: Bovenstaande visualisatie ‘map of the world’s most and least racially tolerant countries‘ werd door Washington Post gepubliceerd en werd kort daarna viraal verspreid via sociale media. Er bleek echter veel kritiek te zijn van verschillende sociale wetenschappers en journalisten op zowel de methodologie als de onderliggende data. Deze kritiek kreeg echter maar een honderdste van de aandacht op sociale media, aldus The Guardian.

Dit artikel van Jelte Timmer verscheen eerder op het blog Data Denkers.

Doe het veilig met NordVPN

Sargasso heeft privacy hoog in het vaandel staan. Nu we allemaal meer dingen online doen is een goede VPN-service belangrijk om je privacy te beschermen. Volgens techsite CNET is NordVPN de meest betrouwbare en veilige VPN-service. De app is makkelijk in gebruik en je kunt tot zes verbindingen tegelijk tot stand brengen. NordVPN kwam bij een speedtest als pijlsnel uit de bus en is dus ook geschikt als je wil gamen, Netflixen of downloaden.

Foto: mattdork (cc)

Knoop

COLUMN - In de Watergraafsmeer staat de Amsterdam Internet Exchange, een verdeelcentrum voor het internet. Zelf genereert het geen verkeer: ze hosten geen websites en verzorgen geen e-mail.

AMS-IX is een gigantische verkeersagent die miljoenen datapakketjes de weg wijst: jij gaat naar links, jij naar rechts, jij rechtdoor. Per seconde verwerkt het centrum tot wel 2,5 terabit; per dag 16 petabyte – getallen waarbij je je eigenlijk niets meer kunt voorstellen. In rangordes spreken is wellicht duidelijker: AMS-IX is het grootste internetverdeelpunt van Europa, en het op een na grootste ter wereld.

AMS-IX wil een divisie in Amerika beginnen. Tot voor kort zou zo’n plan met gejuich zijn onthaald, maar na de afluister- en tapschandalen die Edward Snowden de afgelopen maanden heeft onthuld, lag de zaak anders. De Amerikaanse geheime diensten graaien waar ze kunnen; zou Nederland de gegevens van zijn eigen burgers zo niet op een presenteerblaadje aanbieden?

De zaak ligt gecompliceerder: afluisteren op dat niveau kan niet zomaar. Bij individuele mensen of bedrijven kun je een tap instellen, maar op het exchange-niveau komt de data in brokstukken voorbij, en bovendien niet sequentieel. Je kunt zulke data niet zomaar ‘uitlezen’, temeer daar de brokjes wellicht via meerdere Internet Exchanges naar hun eindbestemming worden gestuurd. Datapakketjes op internet leggen immers geen vaste routes af. De Exchanges dienen er juist om continue en razendsnel de op dat moment kortste weg te berekenen.

Foto: mooste (cc)

Toeristen en autobezitters spekken gemeentekas

DATA - Gemeenten halen sinds 2008 25 procent meer aan belastingen binnen. De grootste stijgers binnen de gemeentelijke belastingen zijn de toeristenbelasting en de parkeerbelasting. Maar de OZB blijft de belangrijkste belasting voor gemeenten. 

In 2008 haalden gemeenten in totaal 3536 miljoen euro binnen aan gemeentelijke belastingen, in 2013 verwachten zij in totaal 4449 miljoen euro binnen te halen. Dat is een stijging van 25 procent, terwijl in die periode de inflatie ongeveer 7 procent was. Dat blijkt uit cijfers van het CBS. De grootste bijdrager aan die totale inkomsten is de onroerendezaakbelasting voor eigenaren (2738 miljoen in 2013). Parkeerbelasting (inclusief parkeerboetes) staat met 645 miljoen in 2013 op nummer 3, toeristenbelasting met 162 miljoen in 2013 op nummer 4.

Snelste stijger

De toeristenbelasting is van alle ‘belangrijke gemeentelijke heffingen’ het snelst gestegen de afgelopen vijf jaar, meldt het CBS. In 2013 halen gemeenten naar verwachting 36 procent meer binnen aan toeristenbelasting dan in 2008. Dat komt vooral door tariefverhogingen, maar ook doordat méér gemeenten toeristenbelasting zijn gaan heffen. Toename van hotelovernachtingen door toeristen speelt slechts een beperkte rol in de toename van de gemeentelijke inkomsten, volgens het CBS.

Amsterdam heeft van alle gemeenten de hoogste inkomsten uit toeristenbelasting, bijna 37 miljoen euro in 2013. Dat is ook niet zo gek, want van Amsterdam heeft ook de grootste toeristenstroom van Nederland. Jaarlijks bezoeken zo’n 5 miljoen toeristen de stad.

Steun ons!

De redactie van Sargasso bestaat uit een club vrijwilligers. Naast zelf artikelen schrijven struinen we het internet af om interessante artikelen en nieuwswaardige inhoud met lezers te delen. We onderhouden zelf de site en houden als moderator een oogje op de discussies. Je kunt op Sargasso terecht voor artikelen over privacy, klimaat, biodiversiteit, duurzaamheid, politiek, buitenland, religie, economie, wetenschap en het leven van alle dag.

Om Sargasso in stand te houden hebben we wel wat geld nodig. Zodat we de site in de lucht kunnen houden, we af en toe kunnen vergaderen (en borrelen) en om nieuwe dingen te kunnen proberen.

Stijgende prijs pop- en rockconcertkaartjes bevestigd

DATA - Precies een half jaar geleden publiceerden we hier een overzicht van de prijs van concertkaartjes vanaf 1975 tot en met 2012. Voor inflatie gecorrigeerd was er een duidelijke stijging zichtbaar. Nadien hebben we nog ruim honderd nieuwe tickets ontvangen. Die hebben we verwerkt in een nieuw overzicht.

Ook uit het nieuwe overzicht blijkt dat de stijging er inderdaad is. Sterker nog, hij is iets steviger geworden. Er is sprake van een ruime verdubbeling van de prijs:
concertkaartjes_revis_1976-2012_470

Dit keer hebben we ook de podia uitgesplitst naar klein en groot om te zien of er nog verschil in trends was. Die is er, maar het scheelt niet veel. Bij grote podia (>500 bezoekers) stijgt de prijs net een fractie sneller.
concert_kaartjes_klein_groot_470

Wederom dank aan een aantal lezers die de moeite hebben genomen hun concertkaartjes te scannen en op te sturen. Ze zijn nog steeds welkom, maar een update verwachten we pas over ruim een jaar weer.

Foto: Partij van de Arbeid (cc)

PvdA in 2014 partij met de meeste leden

DATA - Als er geen trendbreuk optreedt in de jaarlijkse cijfers over het ledental van politieke partijen, zal de PvdA komend jaar voor het eerst het CDA in ledental overtroeven. Niet omdat de PvdA nou zo hard groeit, maar vooral omdat het CDA zo ver inzakt.

Zoals ieder jaar presenteerde het Documentatiecentrum Nederlandse Politieke Partijen (DNPP) de jaarlijkse telling van het aantal leden per politieke partij. En zoals ieder jaar geven wij daar nog een beetje extra duiding bij.

Eerst maar eens de ledentallen per partij.
ledenperpartij2013_475

Het kan ook zomaar zo zijn dat de VVD onder de SGP uitkomt.

Dan nog even de lichte stijging van het ledental in het perspectief van de totale volwassen bevolking van Nederland geplaatst.
ledenpolpartijen_2013_475
Die stijging is marginaal. Ik heb de jaren volgend op een verkiezingsjaar (want eigenlijk gaat die telling over de jaren ervoor) even een donkere tint gegeven. De laatste periode valt op dat bij verkiezingen het ledental een beetje opleeft om dan vervolgens weer verder weg te zakken. Al lijkt de sterkste daling nu wel ten einde te zijn.

Lezen: Venus in het gras, door Christian Jongeneel

Op een vroege zomerochtend loopt de negentienjarige Simone naakt weg van haar vaders boerderij. Ze overtuigt een passerende automobiliste ervan om haar mee te nemen naar een afgelegen vakantiehuis in het zuiden van Frankrijk. Daar ontwikkelt zich een fragiele verstandhouding tussen de twee vrouwen.

Wat een fijne roman is Venus in het gras! Nog nooit kon ik zoveel scènes tijdens het lezen bijna ruiken: de Franse tuin vol kruiden, de schapen in de stal, het versgemaaide gras. – Ionica Smeets, voorzitter Libris Literatuurprijs 2020.

Foto: martha_chapa95 (cc)

Average goals scored in top football divisions

DATA - One month ago we showed what the data of one million football (soccer) games tell us. Some people complained that the competitions were not comparable. So here’s an addition to the post with only data from the top divisions of eleven countries.

Two graphs. The first shows the average score per game per year for the last twenty years. You can see that the Dutch competition (Eredivisie) is doing well. The French and Portugese were outliers, but are now catching up.
avg_goals_top1_countries_soccer_475
Would have loved to do it per season, but this proved to be a bit too time consuming.

The next graphs are the average scores per game per month of the year. Interesting thing to see, in line with the previous post, is the jump in April/May. This marks the end of most competitions. Check the difference with the Brazilian line.
top1_avg_goals_month_475

And for dessert I’ve created a map (thx Esri!) with all the top three best scoring stadiums mentioned in the previous post. Have fun clicking!

(Or use the full screen version)

All data: Footballfans.eu
Competitions:
BE – Belgium – Pro League
BR – Brazil – Serie A
DE – Germany – Bundesliga
ENG – England – Premier League
ES – Spain – Primera División
FR – France – Ligue 1
IT – Italy – Seria A
NL – Netherlands – Eredivisie
PT – Portugal – Portuguese Liga
TR – Turkey – Süper Lig
US – United States – MLS

Foto: martha_chapa95 (cc)

What does data of a million football games tell us?

DATA - By digging through the basic data of one million football (soccer) games, going back to 1901, you can distill some interesting trends. The average goals scored per game is 2,77. But there’s a lot more to it.

Courtesy of the people of Footballfans.eu, a groundhopping community, I was able to analyse the outcomes of a million football games. The oldest games are from the English First Division in 1901. The database now contains competitions and cups from over 75 countries and most international championships. It’s a wealth of data, that shows for instance that the home game advantage has been declining over time. Or that players in the northern hemisphere score more goals during the summer, but players in the southern hemisphere do not. And that Morocco is the country where the least goals are scored on average.

But first, let’s look at the distributions of the scores from all the games in the data set. As you can see, 1-1 is the most common score, 11 percent of the games end that way after regular playing time.

distr_all_scores_475

In the section “other scores”, we find some pretty exotic results. How about 0-31 in the game between Snæfell and Haukar in Iceland? Or 24-0 in a game in Estonia between Levadia and FC Soccernet? Also worth mentioning are two very old friendly games. In 1908 Denmark defeated France with 17 to 1! More recently in 2011 San Rafael lost to Atlético Madrid with 1 to 19.

Lezen: De BVD in de politiek, door Jos van Dijk

Tot het eind van de Koude Oorlog heeft de BVD de CPN in de gaten gehouden. Maar de dienst deed veel meer dan spioneren. Op basis van nieuw archiefmateriaal van de AIVD laat dit boek zien hoe de geheime dienst in de jaren vijftig en zestig het communisme in Nederland probeerde te ondermijnen. De BVD zette tot tweemaal toe personeel en financiële middelen in voor een concurrerende communistische partij. BVD-agenten hielpen actief mee met geld inzamelen voor de verkiezingscampagne. De regering liet deze operaties oogluikend toe. Het parlement wist van niets.

Uitgaven aan onderwijs per type

ANALYSE, DATA - Het onderwijs krijgt er als één van de weinige sectoren geld erbij van Rutte II. Daar is al veel over gezegd en geschreven. Maar hoeveel krijgt elke onderwijslaag in Nederland eigenlijk? Reinout van Brakel zocht het uit.

“Hey @onderwysgrafiek of @hminkema , hebben jullie een linkje naar hoeveel NL qua BNP in % aan onderwijslagen uitgeeft, liefst in vergelijk?”

Deze tweet leidde tot een aantal reacties, waarbij de twitteraars de vraagsteller @Denkfiguren wezen op twee goede databases: van de OESO en CBS.

CBS rapporteert het percentage onderwijsuitgaven als % van het bbp, o.a. volgens de definities van OESO. De vraag leek dus beantwoord, maar het bijzinnetje “in vergelijk”, maakt dit toch tot een puzzel.

Want de database van OESO laat wel zien wat de totale uitgaven zijn van onderwijs per laag, maar niet als % van bbp per land. Ik wilde zelf de berekening maken, maar moet dan wel weten welk BBP cijfer ik mag gebruiken uit de OESO database. Dat cijfer komt weer van het CBS, dus daar eerst maar even gekeken.

Omdat ik wil weten hoe CBS de cijfers voor Nederland berekent, probeerde ik de cijfers van CBS te reproduceren. Daarvoor zijn twee tabellen nodig: de tabel met onderwijsuitgaven, en de tabel waarin het BBP is weergegeven. Die laatste tabel bevat nogal wat kolommen, dus het was even zoeken welke men gebruikt om uiteindelijk tot het OESO getal te komen. Uiteindelijk vond ik deze gegevens (gekozen voor “Werkelijke prijzen, seizoengecorrigeerd”). Na afronding zijn deze cijfers identiek aan de percentages die CBS laat zien in de tabel met OESO definities.

Vorige Volgende