ACHTERGROND - Zijn hypothesen passé? Volgens schrijver en voormalig hoofdredacteur van het magazine WIRED, Chris Anderson, zal Big Data de wetenschap revolutionair veranderen.
Dankzij Big Data hoeven we geen hypothesen meer te stellen en theorieën te onderzoeken, maar laten we computers de correlaties bepalen. Bijvoorbeeld door je boodschappenbonnetjes te koppelen aan de medische gegevens van alle Nederlanders. Hierdoor kunnen we kijken welke aankopen met bepaalde ziekten correleren. Bovendien kunnen supermarkten met deze informatie hun marketing toespitsen op individuele groepen.
Wat betekent dit voor disciplines? Kunnen we al onze theorieën overboord gooien en gaan we een nieuw tijdperk tegemoet?
De waaromvraag
Tegenwoordig kunnen we oneindig veel informatie opslaan in zogenaamde clouds. We zijn aangekomen in het petabyte-tijdperk. Een petabyte aan informatie komt ongeveer overeen met een 1,8 km hoge toren van gestapelde cd-romschijven zonder doosje.
Wat kunnen we met zoveel informatie? Google maakt goed gebruik van Big Data. Hun filosofie is dan ook: “We don’t know why this page is better than that one: If the statistics of incoming links say it is, that’s good enough.”
We hoeven niet overal een oorzaak-gevolg analyse uit te voeren, want deze informatie heb je niet nodig om juist te kunnen handelen, aldus een goedlopend bedrijf als Google. De data spreekt de waarheid, terwijl theorieën altijd afwijken van de werkelijkheid.
Het is weliswaar een nobel streven van wetenschappers om te zoeken naar modellen die de werkelijkheid schematisch weergeven, maar zoals Chris Anderson betoogt, blijken modellen vaak niet te kloppen; de wereld waarin wij leven is veel complexer. Op zoek gaan naar correlatie. Dat is de oplossing.
Verder kijken dan de data
Niet iedereen is het met Anderson eens. Mark Graham, onderzoeker aan het Oxford Internet Institute denkt dat er belangrijke kennis verloren gaat als we alleen gebruik maken van Big Data.
Immers, daarmee ga je voorbij aan de context van een probleem. Stel, je hebt ergens veel criminaliteit en uit de data blijkt dat camera’s criminaliteit kunnen verminderen. Wanneer je camera’s plaatst dan weet je nog niks over wáárom mensen crimineel verdrag vertonen. Dit is een complexer probleem, waarbij je verder moet kijken dan alleen maar cijfertjes. Bovendien is data ook niet altijd even betrouwbaar, waardoor ook vertekeningen ontstaan.
Journalist Evgeny Morozov vindt het een groot gevaar als niemand zich bekommert om de achterliggende motieven: “Bij alledaagse kwesties wordt duidelijk dat Big Data een tamelijk slap instrument is dat problemen vrij fantasieloos en weinig ambitieus aanpakt. Sterker nog het belet ons tal van belangrijke publieke discussie te voeren.”
Misschien is het stellen van een hypothese en het vormen van theorieën toch niet zo passé. Maar wiskundige Arno Siebes, hoogleraar algoritmische data-nalyse, wil benadrukken dat datasets meer aanname-vrij zijn dan hypothesen en dat Big Data patronen kan blootleggen die hypothese en theorieën niet kunnen. Maar er moet wel genoeg informatie beschikbaar zijn om patronen te kunnen ontdekken, anders kan je niks met Big Data.
Nieuwe opleidingen
Big Data kan dus hypothesen en theorieën niet vervangen, maar het fenomeen Big Data zelf is wel een nieuw onderzoeksgebied. Hoe gaat de wetenschap hier mee om? De TU/e en Tilburg University beginnen een academisch opleidingscentrum in Den Bosch waarbij gegevensonderzoek centraal zal staan.
Big Data-onderzoek als een extra tak van wetenschap lijkt het toekomstbeeld, maar het kan nog niet onze huidige manier van onderzoek doen vervangen.
Door Iris Korvemaker
Reacties (11)
Het artikel lijkt in eerste instantie in alles een lofzang op big data en komt pas laat met de echte boodschap, waarbij de zin Bij alledaagse kwesties wordt duidelijk dat Big Data een tamelijk slap instrument is dat problemen vrij fantasieloos en weinig ambitieus aanpakt wat mij betreft een uitstekende samenvatting is. Ja er wordt geweldige voortgang gemaakt (verwantschapsanalysen op hele genomen bv zijn nu mogelijk) maar er wordt ook zo ontzettend veel zooi geproduceerd.
Als mensen die zich met big data bezighouden geen kritische beschouwing kunnen maken wat de data betekenen, wat hun beperking is gezien de manier van verzamelen, wat de variatie van betrouwbaarheid is, dan is het niet meer dan een geval pseudocorrelaties. Echte wetenschap begint in mijn ogen met echte correlaties en zoekt naar oorzaken en gevolgen. Wetenschap is overigens ook veel meer dan hypothesen testen en theorieën poneren, maar dat is weer een andere discussie.
… maar laten we computers de correlaties bepalen. Bijvoorbeeld door je boodschappenbonnetjes te koppelen aan de medische gegevens van alle Nederlanders. Hierdoor kunnen we kijken welke aankopen met bepaalde ziekten correleren.
Volgens mij ligt hier een hypothese aan ten grondslag nl. dat verkeerde voeding ziekten genereert. Of shampoo huidziekte etc…
Anders gezegd: je kunt niet ‘ins blaue hinein’ data gaan correleren, daar moet je toch even over nadenken. Hypothese formuleren. Er zijn meer data dan je denkt.
Maar misschien gaat AI ons nog verslaan, het zou kunnen.
Als mensen die zich met big data bezighouden geen kritische beschouwing kunnen maken wat de data betekenen,
Exact hetzelfde kan je zeggen over de modelmatige wetenschap. Je lijkt het verschil tussen “modelwetenschap” en “data-wetenschap” volledig te missen.
Wat een marketingspeak weer. De wetenschap??? Bepaalde vormen van gedragswetenschap misschien. (ten behoeve van marketing). Halloo! Er bestaan nog meer vormen van wetenschap, hoor. Ik zie Big Data nog niet zo gauw fundamentele wetenschappen als kwantumfysica of moleculaire biologie ‘veranderen’.
Tsja. Ik kan zo een dijk van een correlatie aantonen tussen de afname van het aantal geboorten bij mensen in Nederland tussen zeg 1880 en 1980, en de afname van het aantal ooievaars in Nederland. Maar dit voorbeeld toont aan dat correlaties maar al te makkelijk tot verkeerde conclusies leiden.
Analist Je lijkt het verschil tussen “modelwetenschap” en “data-wetenschap” volledig te missen.
Jammer joh. De klimaatwetenschap, die zo enorm op modellen leunt, is zo sterk aan het worden omdat ze (1) steeds meer hun modellen testen aan de hand van echte data (tijdseries), (2) steeds vaker alle onderliggende aannames van modellen bediscussiëren en testen en (3) steeds meer in staat zijn trends te voorspellen die lijken te kloppen.
Big data is hot. Maar veel mensen met mooie praatjes over big data hebben werkelijk geen idee wat de onderliggende data werkelijk inhouden.
Arduenn, de moleculaire biologie is nou een van de weinige wetenschappen waar op dit moment al veranderingen gaande zijn dankzij big data (al kan het zijn dat we over verschillende moleculaire biologie-en praten). Goede verwantschaps analyses gebaseerd op sequences van complete genomen b.v.
Waar een te grote focus op correlatie toe kan leiden kun je hier nalezen:
http://www.tylervigen.com/
@2: voeding ziekten genereert. Of shampoo huidziekte
Dat hoeft helemaal niet. Het kan net zo goed omgekeerd zijn (als je een bepaalde ziekte krijgt, ga je bepaalde voeding/shampoo kopen).
Ik denk dat analyse technieken die op big data* zullen worden toegepast uiteindelijk ook om theorievorming zal gaan. Ik verbaas me er wel eens over dat mensen denken dat het stopt bij alleen het doen van correlaties op grote datasets. Je ziet nu al dat er datamining technieken worden toegepast op ‘big data’* die juist een conceptueel model vormen van de werkelijkheid / of op zijn minst helpen vormen, zoals bijvoorbeeld Process Mining (= ook TuE). Het is wel logisch dat het met correlaties begint. Dat is namelijk een van de eerste dingen die je bij statistiek leert. Dus wat doe je dan als je nieuwe datasets hebt, dan ga je eens kijken middels correlaties wat er te zien is. Maar daarna volgen andere stappen. Dat is (/ zal) met ‘Big data’* niet anders (worden)
* Big data is m.i. niets meer en niets minder dan (het gebruiken van) veel data. Iets wat in het SQL-tijdperk voor technieken als hadoop heel veel tijd kostte en tegenwoordig gewoon veel sneller kan. ‘ Big data’ zegt nog niets over de techniek zelf die je er op toepast.
@0: “Big Data-onderzoek als extra tak van wetenschap”
– Dat geeft big data aan publicaties, waarbij de computor nodig is om de onbruikbare uit te filteren uit de kwantiteit die de kwaliteit vervangt.
@0: “dat Big Data patronen kan blootleggen die hypothese en theorieën niet kunnen”
– Vreemde opvatting van theorieën / modellen. Modellen voorspellen mogelijke patronen, die in big data ontbreken
Correlation does not imply causation
Het rücksichtlos zoeken naar correlatie leidt tot een hoop onzin zoals @7 laat zien, maar reken maar dat een aantal daarvan toch zal aanslaan bij het doorsnee publiek.
Maar er zijn ook kwaadaardige suggesties van verbanden te maken zoals tussen vaccinaties en autisme. Dat autisme vooral toeneemt sinds het aantal ooievaars weer toeneemt, dat horen ze dan liever niet.