Culturomics 2.0 voorspelt revoluties en oorlogen (achteraf)

Carlos 8 september 2011 , 14:30 Algemeen, Wetenschap & Onderwijs

Ze noemen het Culturomics 2.0: verbanden zoeken tussen de toon van nieuwsberichten, de lokatie en de uiteindelijke politieke gebeurtenissen. De supercomputer Nautilus op de universiteit van Illinois analyseerde drie immense nieuwsarchieven voor een periode van dertig jaar: het New York Times archief (1945-2005), de Summary of World Broadcasts (1979-2010) en het engelstalige archief van Google News (2006-2011). Meer dan 100 miljoen artikelen en radio transcripties in allerlei talen werden doorgewerkt. Het model zocht op woorden die een stemming uitdrukken, bijvoorbeeld: vreselijk, gruwelijk, hoopvol, trots en woede. Het resultaat: achteraf kan op basis van de toon in nieuwsberichten nauwkeurig worden aangewezen wanneer revoluties en oorlogen uitbreken (en wanneer net niet). De Balkan Oorlog, de Arabische Lente, maar ook de Japanse aanval op Pearl Harbour zijn met terugwerkende kracht duidelijk te herkennen aan een scherpe daling in de toon van het nieuws. Hoe negatiever en hoe sneller de daling voor een bepaalde lokatie hoe groter de kans op wapengekletter aldaar. De studie laat ook zien dat de afgelopen 30 jaar de media wereldwijd negatiever zijn geworden, een trend die doemdenkers hoop moet geven.

Naast analyse van de toon in nieuwsberichten is er ook gekeken naar de geografische verbanden. Het model zou zo uit de nieuwsarchieven de verblijfplaats van Osama Bin Laden op 200km nauwkeurig hebben bepaald. Terwijl de bewuste stad Abbottabad voordat Bin Laden daadwerkelijk gepakt werd maar één keer genoemd is in al die artikelen ligt de lokatie precies tussen twee grote Pakistaanse steden: Islamabad en Peshawar die vaak genoemd werden samen met Osama Bin Laden. Maar volgens het model was er ook gerede kans dat ‘de grootste terrorist ooit’ in de Verenigde Staten (38 %), Iran (33% ), Afghanistan (28%) en de Filippijnen (20 %) verbleef.

Het meest onverwachte resultaat van deze studie is de poging om op basis van steden die samen in nieuwsberichten worden genoemd beschavingen te definiëren. Iedereen kent wel het controversiële model van Samuel Huntington met zijn ‘The clash of civilizations and the remaking of world order’ en wereldbeschavingen die elkaar bestrijden. Maar supercomputer Nautilus komt op een enigszins gewijzigd beeld. Spanje hangt meer naar Latijns-Amerika dan naar Europa en Nederland vormt een blok met Rusland. Tenminste als de database van de Summary of World Broadcasts wordt geanalyseerd. Wanneer de duizenden artikelen van de New York Times worden gecruncht dan is Nederland samen met Canada en Zuid-Afrika een aparte beschaving. Maakt u er zelf even chocolade van?

Reacties (32)

#1 Prediker 8 september 2011 , 14:28

1. Een voorspelling ‘achteraf’ is geen voorspelling.

2. Als er een oorlog woedt, dan is er een toeloop naar die oorlog en een piek en naarmate de oorlog wereldomvattender is een hoop krantenberichten over die oorlog. Heel raar, inderdaad, dat je dan ‘achteraf’ daar een curve op kunt zetten.

3. Misschien zijn er leuke toepassingen met die computer te maken, maar dit verhaal lijkt me een hoop flauwekul en spektakel om nieuwe geldstromen los te maken.

#1.1 Carlos - Reactie op #1 8 september 2011 , 16:27

Het is inderdaad vooral een hoogstandje dataverwerking, het voorspellende karakter wordt niet aangetoond. Toch is nu wel bewezen dat de media steeds zuurder worden.

#1.2 Prediker - Reactie op #1.1 8 september 2011 , 16:34

Als je begint te kijken vanaf 1945, waarin het Westen net de nazi’s en de japanners heeft verslagen, tot 2011 waarbij de laatste 60 jaar atoomoorlog dreigde, olievoorraden opraken, er een wereldwijd voedseltekort ontstaat en de VS in de laatste tien jaar zijn werelddominantie heeft verspeeld, dan is dat ook niet zo vreemd.

Als ze indruk willen maken, moeten ze krantenarchieven vanaf 1900 invoeren. Dan krijg je de toeloop naar de eerste wereldoorlog, de depressie van de jaren dertig en de toeloop naar de tweede wereldoorlog erbij. Als dan blijkt dat kranten daar toen toch stukken optimistischer over schreven, dan heb je een mooi uitgangspunt voor een onderzoeksvraag: hoe komt dat?

#1.3 Carlos - Reactie op #1.2 8 september 2011 , 16:35

iemand moet maar eens rap gaan inscannen

#1.4 Furby - Reactie op #1.3 9 september 2011 , 08:03

Dat doen ze voor Nederland iig al, en ze gaan een stuk verder terug dan 1900: http://kranten.kb.nl

#1.5 qwerty - Reactie op #1 8 september 2011 , 17:11

Als je het model laat rekenen voordat de gebeurtenis plaats vindt heb je het dus over een modelvoorspelling. Het is een calibratie exercitie en omdat het een modelvoorspelling is is het wel degelijk een voorspelling.

Je zou het model kunnen laten draaien op tijd en plaats waarvan je vermoedt dat er iets zou kunnen gebeuren en kijken wat de modeluitkomst is om zo iets te roepen over de echte plaats en tijd.

Modelrun voor periode tot 2001 gedraaid in 2011 maar met een simulatie die stopt in juni 2001 geeft een voorspelling voor de periode van na juni 2001.

Maar OK, jij vindt het flauwekul dus IS het flauwekul.
Ik stop hier maar met het commentaar voordat het uit de hand loopt.

#1.6 Prediker - Reactie op #1.5 8 september 2011 , 18:05

Ja, het idee er achter was me wel duidelijk. Maar ik vind het nep, omdat die stijgende crisistoon van de berichten meestal vlak voor de crisis ligt. Om dan achteraf in te vullen dat het model de uitkomst kan voorspellen, lijkt me flauwekul. Eerder is het zo dat escalerende situaties lijden tot een hoop negatieve ‘buzz’ en steeds scherpere crisistoon.

Als dat model met de input van krantenberichten uit de financiële katernen en economiepagina’s tussen 1990 en 2005 de crisis en jarenlange recessie vanaf 2008 kan voorspellen, dan ben ik onder de indruk. Vooral als ze dat met de berichtgeving van 1990 t/m 2000 zouden kunnen. Maar dat kunnen ze niet.

Maar dit lijkt me gewoon gelul:

“De Balkan Oorlog, de Arabische Lente, maar ook de Japanse aanval op Pearl Harbour zijn met terugwerkende kracht duidelijk te herkennen aan een scherpe daling in de toon van het nieuws. Hoe negatiever en hoe sneller de daling voor een bepaalde lokatie hoe groter de kans op wapengekletter aldaar. “

Laten we eens aannemen dat de Cubaanse raketcrisis was uitgemond in een Amerikaanse invasie van Cuba en een oorlog tussen de VS en de Sovjet-Unie. Dat had gemakkelijk gekund: het was een hoogoplopend conflict, en Kennedy dreigde zelfs met oorlog – wat uitgelopen zou zijn op een atoomoorlog. Dan zou het model alle bijkomende negatieve berichten tijdens die escalatie ook meenemen en verwerken, en de onderzoekers zouden concluderen dat het model de uitkomst virtueel kan voorspellen. Nu is het allemaal met een sisser afgelopen – wat weer z’n weerslag heeft op de berichtgeving, en vervolgens beweren de onderzoekers eveneens dat het model de uitkomst kan voorspellen.

Het model voorspelt dus helemaal niks. Het model volgt gewoon het aantal berichten en de toon van die berichten en concludeert dan dat er wel iets heel ernstigs aan de hand moet zijn. Ja, logisch, want anders zou men er niet zo vaak en verhit over schrijven. En als het dan uitloopt op een oorlog, zeggen de onderzoekers: het model voorspelde dat al!

Had het model naar aanleiding van alle negatieve en kritische reacties op het vleesonderzoek door Stapel en Vonk kunnen ‘voorspellen’ dat de eerste ontmaskerd zou worden als fraudeur? Kan het model naar aanleiding van alle berichten over de Euro voorspellen of die gaat vallen of blijft bestaan? Of Turkije nog bij de Europese Unie komt of niet? Welk klimaatmodel het juiste zal blijken te zijn?

Kan het model op grond van de berichtgeving in 1987 voorspellen dat twee jaar later de Berlijnse muur gaat vallen? Kan het model op grond van de berichtgeving rond 9-11 voorspellen dat George Bush twee jaar later Irak binnen zal vallen? Nee natuurlijk niet, want niemand zag dat aankomen, en er werd dus ook niet over geschreven. Pas als mensen doorkrijgen dat het die richting uitgaat (en de Arabische lente heeft niemand zien aankomen) gaan ze er immers over schrijven. En hoe sterker de aanwijzingen worden dat het wel eens uit de hand zou kunnen lopen en hoe omvattender de situatie, des te luider de toon.

#1.7 qwerty - Reactie op #1.6 8 september 2011 , 21:23

De titel van het stuk is: Forecasting large–scale human behavior using global news media tone in time and space.

Alleen daar al uit blijkt dat jij vragen stelt – m.n. in je laatste alinea – aan een model waarvan iedereen weet dat het model die niet kan en dus ook niet gaat beantwoorden. Garbage in, garbage out geldt voor elk model. Je kunt alleen vragen stellen waar het model voor gemaakt is. Details vragen aan een “large-scale human behaviour” model over hoe een persoon gaat handelen is dus niet zinvol.

De relativering van dit wetenschappelijke artikel staat in de conclusie zelf : The findings of this study suggest that Culturomics, […]. […] applying data mining approaches to the vast historical archive of the news media offers promise of new approaches to measuring and understanding human society on a global scale.

Niet alleen toon je @prediker, weer eens aan dat je niet kunt lezen, je laat ook zien dat je geen wetenschappelijke achtergrond hebt en dat je werkelijk geen reet verstand hebt van modellering, laat staan van de interpretatie van de resultaten daarvan.

Het is uiterst irritant als een wetenschappelijke poging via andere data, een andere invalshoek van de samenleving te krijgen, door blaaskaken zoals jij zo afgeserveerd worden. Vooral als diezelfde blaaskaak het afserveren eigenlijk als basistechniek in het discussiëren gebruikt.

Een beetje lezen en een beetje bescheidenheid zou je sieren.
Maar het is waarschijnlijk teveel gevraagd.

#1.8 Prediker - Reactie op #1.7 8 september 2011 , 22:46

Je citeert die conclusie wel heel selectief, Qwerty. Dit is de hele alinea die je citeert, nu zonder de twee nogal substantiële zinsdelen die jij welbewust weglaat:

“The findings of this study suggest that Culturomics, which has thus far focused on the digested history of books, [can yield intriguing new understandings of human society when applied to the real–time data of news.

From forecasting impending conflict to offering insights on the locations of wanted fugitives,] applying data mining approaches to the vast historical archive of the news media offers promise of new approaches to measuring and understanding human society on a global scale.”

Niks relativering dus. De auteur van de studie belooft “intrigerende nieuwe inzichtigen in de mensenmaatschappij” en stelt glashard dat het onderzoek conflicten die er aan zitten te komen kan voorspellen en inzicht kan verlenen in waar gezochte misdadigers en terroristen zich bevinden, en de belofte van hele nieuwe benaderingen in het kwantificeren en begrijpen van de maatschappij op wereldomspannend niveau.

#1.9 qwerty - Reactie op #1.6 8 september 2011 , 21:30

Overigens komt Pearl Harbor (!) in het stuk niet voor (weet niet hoe Carlos er aan komt) en dat kan ook niet want de dataserie begint in 1945.

Of heb ik iets gemist?

#2 gronk 8 september 2011 , 19:14

Samenvatting van dit onderzoek: ‘als je de krant leest weet je wat er in de wereld gebeurt’.

Dooddoener van formaat.

#3 qwerty 8 september 2011 , 21:25

Overigens doet het hele verhaal mij een beetje denken aan Hari Seldon. U weet wel, die van de Psychohistorie. Verhaald door Asimov.

#4 qwerty 8 september 2011 , 23:08

Ehmm… waarom kan ik niet reageren op Prediker | 8 september 2011 | 22:46? Zeker uitgezet.

Goed hier dan maar : de toevoegingen in de alinea die je bold erbij zet heb ik idd weggelaten. Ze wijzigen mijn commentaar en conclusie nl niet. Sterker, jou stelling en bold weergave onderschrijven mijn stelling dat je niet kunt lezen, geen wetenschapper bent en dat je dit soort draadjes zou moeten mijden met jou soort commentaar.

#4.1 Prediker - Reactie op #4 8 september 2011 , 23:23

Omdat anders de kolom te dun wordt, vermoed ik. Je moet dan één stapje hoger, en reageren op de post er net boven (je eigen post dus – ik weet het, het is contra-intuïtief).

Verder lever je geen argumenten. Je beweert gewoon dat de zinnen uit die alinea die je zelf welbewust weglaat en die van alles beloven, je commentaar en conclusie niet wijzigen. Maar als dat zo is, waarom liet je ze dan weg?

Is dat niet toevallig, dat je in je juist in die ene alinea die je citeert om je punt te maken, uitgerekend die twee zinsdelen uit twee (!) zinnen knipt die mijn interpretatie van het onderzoek lijken te staven. Hoe integer is dat?

#4.2 qwerty - Reactie op #4.1 9 september 2011 , 07:57

Je bent echt gestoord.
Lever nu maar het laatste woord.

#4.3 benjbenj - Reactie op #4.2 10 september 2011 , 01:15

@qwerty
Mag ik het laatste woord leveren? De door Prediker aangehaalde passage ondersteunt inderdaad zijn interpretatie, niet die van jou. Voor het overige staat er niets in zijn reactie waaruit valt op te maken dat hij “echt gestoord” is. Ik ben benieuwd hoe je tot die conclusie bent gekomen.

#4.4 qwerty - Reactie op #4.3 10 september 2011 , 07:46

Ah weer een nieuwe nick, leuk al die oude bekenden met nieuwe nicks.
Wie zou dit nou weer wezen.

Iemand die als hij de weg kwijt is, altijd begint met ‘je geeft geen argumenten’, zit zelf zonder argumenten. En de dwangmatigheid waarmee hij dat mantra gebruikt is een duiding van zijn gestoordheid.

I rest my case.

#4.5 benjbenj - Reactie op #4.3 10 september 2011 , 12:27

Niks nieuwe nick. Heb ik vanaf het begin.

Een discussie loopt vast als een van de twee geen argumenten meer aandraagt. De ander, Prediker in dit geval, rest niet veel meer dan daarop te wijzen. Daar is niets gestoords aan. Als iemand persisteert in argumentloos reageren, zoals jij doet, zal het ongetwijfeld raadzamer zijn er op een gegeven moment het zwijgen toe te doen. Het punt is gemaakt, de buit is binnen, genieten maar.

#4.6 qwerty - Reactie op #4.3 10 september 2011 , 17:26

Beginnen jij en Prediker mij dan eerst maar eens omstandig uit te leggen WAAROM het fragment uit de alinea die ik heb weggelaten en die Prediker weer toont de relativering, die ik lees in die paragraaf, teniet doet.

Want we hebben het hier over het lezen van de relativering waar de ontsporing van de discussie plaatsvindt. Prediker leest die relativering niet, ik wel.

De botheid van die afwijzing en zijn weigering mijn argument te lezen en alleen maar om argumenten te vragen heb ik ondertussen al zo vaak gezien dat ik die graag typeer als gestoordheid. Maakt mij niets uit als je het daar niet mee eens bent hoor. Moet jij weten.

Jij zegt dat de discussie vastloopt als een van de twee geen argumenten meer aandraagt. Het kan ook zijn dat een punt gewoon begrepen wordt door de ander en dat een argument wordt gezien en geaccepteerd. Een discussie kan gewoon afgelopen zijn. Dat is iets wat ik bij Prediker nog niet heb meegemaakt. Ik zeg niet voor niets in een rijmpje (bedoeld als spot, oh ironie) dat hij het laatste woord mag hebben.

Prediker heeft ook nog de neiging argumenten te negeren en maar op een ander detail te gaan zeuren om vervolgens te roepen dat je met argumenten moet komen. Rot op, de vent wil gewoon gelijk hebben en aandacht krijgen en zijn grote bek roeptoeteren. En heel soms schrijft hij een goed stukkie. Maar discussiëren en argumenten? M’n reet.

#4.7 Prediker - Reactie op #4.3 10 september 2011 , 18:08

Nog maar een keer dan, aangezien jij dit op jouw beurt compleet negeert:

De auteur van de studie belooft in die alinea “intrigerende nieuwe inzichten in de mensenmaatschappij” en stelt glashard dat het onderzoek conflicten die er aan zitten te komen kan voorspellen en inzicht kan verlenen in waar gezochte misdadigers en terroristen zich bevinden, en de belofte van hele nieuwe benaderingen in het kwantificeren en begrijpen van de maatschappij op wereldomspannend niveau.

Als jij dat een relativering wilt noemen…

#4.8 qwerty - Reactie op #4.3 10 september 2011 , 19:58

Nog maar een keer dan: can yield en offers promise.
Beide termen staan in de door mij oorspronkelijk weggelaten woorden, beide zijn relativerend bovenop de relativering die ik al eerder had aangegeven.

Jij ziet een absolutisme dat er gewoon niet staat. Dat is onwil, bijna morbide, malafide of wat voor kwalificaties ik er nog meer voor kan verzinnen. In elk geval toont het naar mijn mening, dat je geen wetenschappelijke achtergrond hebt en dat je werkelijk geen reet verstand hebt van modellering, laat staan van de interpretatie van de resultaten daarvan.

Ik zie nog steeds geen reden om mijn mening te herzien.

Het stuk is gewoon niet zo absoluut als jij claimt. Het is een wetenschappelijk stuk dat claimt dat het een model met voorspellende waarden heeft gevonden. Dat mag je bestrijden maar niet op de manier waarop jij dat doet.

#4.9 Prediker - Reactie op #4.3 10 september 2011 , 20:52

Wat jij doet is nu woordjes knippen uit een verkooppraatje (die wetenschapper moet ook nieuwe onderzoeksbeurzen zien los te peuteren, en dat lukt alleen als hij een mooi resultaat voor de neus van de commissies bungelt), en je krampachtig vastklampen aan het lichte voorbehoud dat die woorden behelzen, om de conclusie in zijn totaliteit te lezen als één grote relativering, terwijl het zich in werkelijkheid laat lezen als één grote gloedvolle aanbeveling.

“De bevindingen van deze studie wijzen erop* dat Culturonomie (dat zich tot dusverre heeft gericht op de geconsumeerde geschiedenis van boeken) intrigerende nieuwe inzichten van de menselijke maatschappij kan opleveren, wanneer het wordt toegepast op gegevens, ontleend aan real-time nieuwsvoorziening.

Van het voorspellen van op handend zijnde conflicten tot het bieden van inzichten in de locaties van gezochte vluchtelingen, het toepassen van benaderingen in data mining op het enorme historische archief van de nieuwsmedia houdt de belofte in van nieuwe benaderingen in het meten en begrijpen van de menselijke maatschappij op wereldwijde schaal.”

Jij grijpt nu het woordje ‘kan’ aan als bewijs dat de auteur bedoelt te zeggen dat het natuurlijk net zo goed zo kan uitvallen, dat het niet zo blijkt te zijn. Maar dat slaat in deze gloedvolle presentatie van zijn onderzoek en de beloften die het inhoudt, natuurlijk nergens op. De betekenis van ‘kan’ hier, is dat het daadwerkelijk wel eens in staat zou kunnen zijn om “intrigerende nieuwe inzichten” op te leveren.

* ‘suggest‘ = ‘aanleiding geven te denken’; ‘erop wijzen’; ‘impliceren’. Dat is geen relativering, dat is een verkapte bewering.

#4.10 qwerty - Reactie op #4.3 10 september 2011 , 22:35

Wat jij doet is nu woordjes knippen…

Tering, de nieuwe hufterigheid slaat ook hier toe. Lees jij je eigen werk wel eens terug?
Je bent werkelijk een lul @Prediker en je zoekt het verder maar uit jochie.

#4.11 Prediker - Reactie op #4.3 10 september 2011 , 22:52

Klopt, Qwerty. Ik ben een enorme lul, eikel, klootzak, hond, schoft, smeerlap, teringlijder, met een reusachtige bek en evenredig groot ego. Allemaal waar.

Kunnen we het nu over de argumenten hebben die ik inbreng?

#4.12 qwerty - Reactie op #4.3 10 september 2011 , 23:05

Mooi, blij dat we het over dat ding iig eens zijn.

En wat betreft het artikel is het interpretatie van woorden.
Er is geen argument meer in deze, het is interpretatie van taal.
Van Engelse taal wel te verstaan.

Zoek het dus verder maar uit.

#4.13 Prediker - Reactie op #4.3 10 september 2011 , 23:34

Interpretaties zijn niet willekeurig en de mogelijkheden tot interpretaties zijn niet oneindig. Interpretaties zijn niet maar een kwestie van smaak. Sommige interpretaties zijn waarschijnlijker dan anderen, en er vallen argumenten te geven voor interpretaties.

Bijvoorbeeld als iemand zegt: ‘Ik vind Prediker ook een lul, maar hier heeft hij wel gelijk’, dan kun je – zoals jij hierboven doet – hameren op het feit dat de spreker stelt dat Prediker een lul is (“Hij vindt ‘m een lul, dat stáát er toch”); maar er vallen goede argumenten te geven waarom het hoofdpunt in die zin iets anders is: namelijk dat Prediker gelijk heeft, ondanks het feit dat hij misschien wel een lul is.

#4.14 qwerty - Reactie op #4.3 11 september 2011 , 08:24

Hoofdzaak is dat ik vindt dat onze interpretaties verschillen en dat jij geen sluitend argument hebt om mij van een andere interpretatie te overtuigen.

Interpretaties kunnen verschillen. Ik constateer, dat jij claimt dat de onderzoeker claimt de absolute waarheid te bezitten en ik claim dat hij dat niet doet. Die interpretaties staan haaks op elkaar. Jij accepteert geen ruimte voor dat verschil. Jij vindt blijkbaar dat jouw argument (jouw vertaling) eindeloos veel sterker is dan mijn lezing van de Engelstalige conclusie. De interpretaties staan haaks op elkaar maar zijn noch willekeurig, noch smaak.

Dat jij dat weigert te accepteren is jouw probleem.
Dat jij een lul bent ook, maar dat staat er verder buiten.

En misschien is Prediker wel een lul EN heeft hij ongelijk.

En nu mag je echt het laatste woord hebben dat je – gegeven je persoonlijkheidsstoornis – ongetwijfeld daadwerkelijk neemt.

#4.15 Prediker - Reactie op #4.3 11 september 2011 , 08:32

“Ik constateer, dat jij claimt dat de onderzoeker claimt de absolute waarheid te bezitten”

Daar heb je vast wel een citaatje bij, waar dat dan uit blijkt; want ik herken me hier bepaald niet in.

#5 benjbenj 9 september 2011 , 02:01

Ja, het model zou pas echt interessant worden als het niet alleen terugblikkend voorspellingen doet, maar zich ook lekker stoutmoedig uitlaat over de ongewisse toekomst.

#6 Mark3000 9 september 2011 , 13:44

Maar volgens het model was er ook gerede kans dat ‘de grootste terrorist ooit’ in de Verenigde Staten (38 %), Iran (33% ), Afghanistan (28%) en de Filippijnen (20 %) verbleef.

Er is meer dan 100% kans dat de grootste terrorist ooit “ergens” verbleef. Ik denk dat er -16% kans is dat de terrorist in Nederland verbleef.

Ik ben zeer sceptisch over dit soort voorspellende modellen, aangezien dit op grote schaal wordt gedaan en de modellen vaak de meest uiteenlopende voorspellingen doen.

Er wordt naar verbanden gezocht in een chaos systeem en vervolgens worden deze verbanden dan gebruikt om voorspellingen te doen.. onzin.. vindt ik dan. En dan wordt dat tevens gekoppeld aan een of andere statistiek (%kans dat…), maar in feite zegt dat helemaal niks.

#7 NoName 9 september 2011 , 19:16

Google eens op “Half Past Human” of “Cliff High”

#8 qwerty 11 september 2011 , 10:33

Haha, kijk hier nou eens.
LOL, een analogon voor de beurs.