DATA - Malcolm Gladwell beschreef in een van zijn boeken hoe Amerikaanse inlichtingendiensten te werk gaan bij het “profilen” van mogelijke verdachten. Banktransacties schijnen daarbij een grote rol te spelen. Een combinatie van slechts vijf indicatoren zou voldoende zijn om “afwijkend gedrag” te signaleren. Hij mocht in het boek niet opschrijven welke variabelen daarvoor gebruikt worden, en welke “red flags” gehanteerd worden.
Een enigszins beangstigend maar ook zeer fascinerend fenomeen. Wie grote bakken met data op een slimme manier analyseert, kan patronen herkennen die anders verborgen blijven.
Ook in het onderwijs wordt steeds meer data geproduceerd.
Een gemiddeld ROC waar bijvoorbeeld toegangspasjes worden gebruikt, produceert gemakkelijk duizenden “datapoints” per dag. Sommige onderwijsinstellingen verkennen de mogelijkheden om daar zinvolle analyses op te doen die kunnen helpen het onderwijs te verbeteren.
Bron: Joël de Bruin (2016). Student Analytics: van Big Data naar begeleiding op maat.
Via een tip van @blogisch kreeg ik deze plaat te zien. Het is onderdeel van een presentatie over Student Analytics, een dienst die wordt aangeboden door Deloitte (zie presentatie). De plaat laat een segmentatie zien van studenten van een ROC, die de begeleiding van studenten aanpassen al naar gelang het profiel.
Fascinerend zijn de combinaties van variabelen die blijkbaar enige voorspellende waarde hebben. Plattelanders, studenten die geen interesse hadden in de voorlichting, iets oudere studenten met lagere inkomens, hobbyisten: het zijn “red flags” waar je als school extra in moet investeren.
De benamingen zijn her en der nogal denigrerend en staan denk ik in schril contrast met de juichende ontvangst die veel studenten krijgen bij open dagen. Als dit echt een segmentatie is die klopt, dan kun je 12 poortjes neerzetten bij zo’n open dag. Poort 5 en 10 staan open, bij de rest moet je eerst wat moeite doen om binnen te komen.
Mits met wijsheid gebruikt ben ik overigens voorstander van dit soort analyses: het kan patronen zichtbaar maken die in 1-op-1 contact met studenten niet evident zijn.
Reacties (6)
Ten eerste: ik ben toch benieuwd wat de opzet van de studie was die de Amerikaanse inlichtingendiensten uitvoerden om tot deze vijf indicatoren te komen, wat de sensitiviteit en specificiteit van deze profileringstest is en hoe ze de controle-metingen hadden uitgevoerd. En vooral: wat is het percentage fout-positieven in deze test? Met andere woorden: hoeveel onschuldigen krijgen dankzij deze test een natte lap en een plens water over het gezicht? Aangezien het gebruik van een polygraaf nog steeds bon ton is binnen deze kringen, vrees ik het ergste.
Ten tweede, t.a.v. de Student Analytics-grafiek: Ik heb een vaag vermoeden dat de ‘slechten’ in de rechter onderhoek worden gedrukt en de ‘goeden’ min of meer in de linker bovenhoek. Maar wat staat er op de x- en y-assen? En waarom zijn de strata/clusters/groepen met hexagonalen in onregelmatige vormen gerangschikt? Waarom zien die plattelanders er bijvoorbeeld uit als een groene Barbapappa en de gele hakken-over-de-sloters als een omgedraaide buttplug?
Ik moest wel grinniken om het vergelijken van studenten met terroristen.
Het is weer een doel en middel discussie. Zolang het doel is om studenten zo goed mogelijk hun talenten te laten gebruiken, en voor wat mij betreft is dit ook ze een andere studie aanraden, is dit prima. Als het doel wordt hiermee studenten weghouden om te voorkomen dat het studierendement te laag wordt, is dit twijfelachtig.
Helaas hebben (dit soort) adviesbureaus veelal de neiging een modieus onderwerp te pakken en er theoretisch slecht onderbouwde adviesproducten van te maken.
Bovenstaande plaatje gaat helemaal niet over “Big Data”. De aantallen die er staan zijn klein grut. Nog minder dab je op het eerste gezicht denkt, want de categorieën zijn overlappend. Er zijn ook veel goede VWO-ers onder de plattelanders tenslotte.
Met een zo beperkte populatie is de kans op een toevallige “fit” heel erg groot. Dan zou je dus kunnen vinden dat “plattelanders” een lage kans van slagen hebben op opleiding A, maar dat het bij een andere opleiding heel anders is.
Wanneer is “Big Data” echt groot genoeg? Als je er een steekproef (van ongeveer de helft) uit kunt nemen om een hypothese te ontwikkelen, en vervolgens met de andere helft die hypothese kunt toetsen.
@3: [ Wanneer is “Big Data” echt groot genoeg? Als je er een steekproef (van ongeveer de helft) uit kunt nemen om een hypothese te ontwikkelen, en vervolgens met de andere helft die hypothese kunt toetsen. ]
Heb ik een wijziging in de statistiek gemist? Waarom moet je de helft nemen? Alles hangt toch af van welke variabele en hoeveel variabelen je wilt onderzoeken?
In de Groene van deze week staat een leuk artikel over Big Data: Niet alles wat mogelijk is moet je willen
Subtitel ‘Soft sister’, waarmee men aangeeft dat het een ‘zachte vorm’ van Big Brother is. Je kan big data gebruiken bijvoorbeeld voor het voorspellen van crimineel gedrag, op basis van geregistreerde gegevens – en we registreren veel in Nederland. ‘Predictive policing’ en dergelijke termen worden dan gebruikt. De wetenschap en de algoritmen lijken neutraal, maar kunnen makkelijk verkeerd gebruikt worden.
@5: Die wetenschappers zullen vroeg of Einstein achterna gaan. Niet omdat ze zo geniaal zijn, maar omdat ze hun variant van zijn oproep zullen hebben: ‘We scientists, whose tragic destiny it has been to help make the methods of annihilation ever more gruesome and more effective, must consider it our solemn and transcendent duty to do all in our power in preventing these weapons from being used…. What task could possibly be more important to us?’