DATA - Ergens op het internet maakte iemand een heatmap van lettercombinaties op basis van een Engelse woordenlijst. Een tweet in Nederland hierover leverde per omgaande een bak met data om een soortgelijk iets te doen.
Alleen dan net anders.
Want het gaat in dit geval niet om een woordenboek, woordenlijst of iets anders gestructureerds. Het gaat om het taalgebruik op twee nogal omvangrijke fora. Eentje waarvan vast staat dat meer dan driekwart van de reaguurders vrouw is en eentje waar zeker driekwart man is.
Zou dat nog wat leuke inzichten opleveren?
We hebben het in drie stukken opgedeeld. Allereerst alle tweelettercombinaties op basis van alle unieke woorden die we konden vinden. Daarna op basis van alle tekst (minus dingen met accenten en zo). En tot slot even de unieke letters voor de verschillende varianten.
Laten we beginnen met de 2grammen voor de unieke woorden op respectievelijk het vrouwenforum en het mannenforum. Verticaal de eerste letter, waarbij ^ staat voor blanco (dus dan tweede letter gelijk beginletter woord). En horizontaal de tweede letter, waarbij $ staat voor blanco, oftewel einde woord.


Let op, de heat map is gemaakt op basis van logaritme van de getallen. Anders was er te groot verschil tussen de hoogfrequente combinaties en de weinig voorkomende.