Heatmap lettercombinaties uit taalgebruik reaguurders (m/v)

Foto: Sargasso achtergrond wereldbol

DATA - Ergens op het internet maakte iemand een heatmap van lettercombinaties op basis van een Engelse woordenlijst. Een tweet in Nederland hierover leverde per omgaande een bak met data om een soortgelijk iets te doen.

Alleen dan net anders.

Want het gaat in dit geval niet om een woordenboek, woordenlijst of iets anders gestructureerds. Het gaat om het taalgebruik op twee nogal omvangrijke fora. Eentje waarvan vast staat dat meer dan driekwart van de reaguurders vrouw is en eentje waar zeker driekwart man is.

Zou dat nog wat leuke inzichten opleveren?

We hebben het in drie stukken opgedeeld. Allereerst alle tweelettercombinaties op basis van alle unieke woorden die we konden vinden. Daarna op basis van alle tekst (minus dingen met accenten en zo). En tot slot even de unieke letters voor de verschillende varianten.

Laten we beginnen met de 2grammen voor de unieke woorden op respectievelijk het vrouwenforum en het mannenforum. Verticaal de eerste letter, waarbij ^ staat voor blanco (dus dan tweede letter gelijk beginletter woord). En horizontaal de tweede letter, waarbij $ staat voor blanco, oftewel einde woord.
v_uniek_475
m_uniek_475

Let op, de heat map is gemaakt op basis van logaritme van de getallen. Anders was er te groot verschil tussen de hoogfrequente combinaties en de weinig voorkomende.

Als je deze twee grafiekjes snel laat wisselen valt alleen op dat bij de vrouwen een iets grotere voorkeur is voor woorden met daarin dubbele letters (aa, bb, cc, etc..).

Gaan we kijken naar alle woorden (en dat zijn dan dus ook echt alle woorden, inclusief namen en straattaal, verbasteringen en zo voort). Dan ziet het er zo uit:
v_alles_475
m_alles_475
Ook hier is het moeilijk echt verschillen te zien. Maar na enig staren valt ook weer bij vrouwenmeerderheid op dat daar de combinatie “xx” vaker voorkomt. Net als “ik”.

Tot slot nog even voor de vier varianten de letterfrequenties zelf. Wederom op basis van logaritme (met grondtal 2).
letters_freq_475

Mocht iemand toevallig nog een platte lijst met alle unieke Nederlandse woorden hebben in digitaal formaat, maken we daar graag nog even een extra grafiekje van.

Voor nu wensen we u veel staarplezier. Hypnotiserende conclusies kunt u hieronder kwijt.

Heel veel dank aan Sjaalman voor het verzamelen en structureren van de data.

Reacties (7)

#1 aynranddebiel

Is het geen idee om een de grafieken over elkaar te leggen en een heatmap van de verschillen te maken?

Een digitale lijst met alle Nederlandse woorden is trouwens te vinden bij http://www.opentaal.org/.

  • Volgende discussie
#2 Steeph

@1: Geprobeerd, maar dat sprak ook onvoldoende.

  • Volgende discussie
  • Vorige discussie
#3 Inca

Wat zijn de databronnen eigenlijk? Ben nu wel nieuwsgierig :)

  • Volgende discussie
  • Vorige discussie
#4 Steeph

@3: Sorry, dat gaan we niet verklappen. Dan weten ze namelijk dat ze permanent gescraped worden :-)

  • Volgende discussie
  • Vorige discussie
#5 qwerty

Ik ben los van de zin, het nut en de conclusies.
Ligt dat aan mij? Zo ja dan graag wat achtergrondinfo over het waarom en over de gevolgtrekkingen.

  • Volgende discussie
  • Vorige discussie
#6 Vast Goed

@5: is toch helder?
“Maar na enig staren valt ook weer bij vrouwenmeerderheid op dat daar de combinatie “xx” vaker voorkomt. Net als “ik”.”
Vrouwen praten vaker over zichzelf en hun grote (XXL) kledingmaten. Of ze zeggen vaker ‘ik baal van mijn dikke man met maat XXL’, daar wil ik vanaf zijn.
Nu ga ik de 2grammen verder bestuderen, zodat ik voortaan altijd kan winnen met scrabble.

  • Volgende discussie
  • Vorige discussie
#7 Steeph

@5: Nut? Waarom moet iets toch altijd nut hebben? En wat is nut precies….

  • Vorige discussie