Trouwen verlaagt criminaliteit

In drie gastbijdragen presenteert Jasper Soetendal op verzoek van Sargasso enkele opvallende resultaten uit Weetwaar.com. Weetwaar.com is een onderzoeksinitiatief van Braxwell Labs waar geografische, demografische, politieke en economische informatie gecombineerd wordt in verrassende visualisaties.

Er zijn leugens, grove leugens en statistieken. In een serie van drie gastbijdragen wil ik graag inzoomen op de laatste uit het rijtje, door enkele verrassende visualisaties te tonen die voortkomen uit de combinatie van verschillende soorten informatie uit diverse, openbare bronnen. Vandaag de start met een opvallende constatering:
Sterke correlatie tussen criminaliteit en gescheiden inwoners

misdrijven_250Wanneer verschillende gegevens van Nederlandse gemeenten worden afgezet tegen de criminaliteit (aantal geregistreerde misdrijven per 1.000 inwoners), geeft onderstaand plaatje weer in welke mate er een statistische correlatie bestaat.
Hoe hoger een bolletje in deze grafiek staat, hoe sterker de correlatie. Aan de rechterkant staan positieve correlaties (hoe hoger de stedelijkheid, hoe hoger het aantal misdrijven), aan de linkerkant negatieve correlaties (hoe hoger het percentage gehuwden, hoe lager het aantal misdrijven).
Opvallend is dat het percentage gescheiden inwoners bovenaan staat in het lijstje: hoe meer gescheiden inwoners, des te hoger de criminaliteit in een gemeente.

Andersom blijkt dat in gemeenten waar relatief veel getrouwde mensen wonen, minder misdrijven plaatsvinden. Ook hebben gemeenten met een lage criminaliteit een relatief grote gemiddelde huishoudgrootte en veel landbouw, bosbouw en visserij.

Andere, meer voor de hand liggende factoren zoals besteedbaar inkomen, het aantal uitkeringsgerechtigden of de gemiddelde woningwaarde blijken juist helemaal geen correlatie te hebben met het aantal misdrijven in een gemeente.
Hoe sterk de betreffende relatie is, wordt goed weergegeven in onderstaande afbeelding, waar de gegevens van alle Nederlandse gemeenten in zijn opgenomen.
gescheidenvdmisdrijven_600
Niet alleen voor de grote steden en de kleine landelijke dorpen, waar de correlatie heel triviaal lijkt, maar juist ook in alle gemeenten daartussen is er overduidelijke sprake van een statistisch verband. Gemeenten met een lager dan gemiddeld aantal gescheiden inwoners hebben vrijwel altijd ook een lager dan gemiddeld aantal misdrijven.

Trouwen voor de veiligheid
Voor de christelijke coalitiepartijen moet het als muziek in de oren klinken: bruiloften als de ultieme vorm van crimefighting en gezinsuitbreiding voor de veiligheid van het vaderland.
Maar dat lijkt wat kort door de bocht; alhoewel er sprake is van een statistische correlatie, kan de vraag of er daadwerkelijk sprake is van een oorzaak en gevolg met deze grafieken niet beantwoord worden. Bovendien, wat zou in dit geval de oorzaak en wat het gevolg zijn?
Een veilige hypothese dat zowel criminaliteit als echtscheidingen het gevolg zijn van een vergelijkbare, complexe hoeveelheid oorzaken is snel gesteld, maar ik hoor graag meer verrassende alternatieven! Anyone?

N.B. De bronnen staan vermeld in de afbeeldingen en zijn steeds de meest recente: voor het aantal gescheiden inwoners zijn gegevens van het CBS uit 2008 gebruikt, het aantal geregistreerde misdrijven per 1.000 inwoners is in 2007 genoteerd door het CBS. In de tweede grafiek geeft de grootte van een bolletje het aantal inwoners van een gemeente aan, en de kleur de leefklimaatscore (van rood naar groen) zoals deze in Weetwaar.com is samengesteld op basis van tientallen factoren.

  1. 2

    Nu zeg je zelf in het artikel specifiek dat correlatie ongelijk causatie is, en dan nog is de kop “Trouwen verlaagt criminaliteit”. Dat zijn nu die “damndest lies” waar men het altijd over heeft…

    (en wat betreft je oproep zul je bijvoorbeeld ook erg waarschijnlijk een verband aantreffen tussen scheidingen en relaties waarbij één der partners de bak in gaat, die niet onafhankelijk van deze is)

  2. 5

    @1,3: Ik zal kijken welke data we kunnen vinden om deze hypothesen te ondersteunen.

    @2: Tja, damned lies verkopen nu eenmaal damned goed. :) Ik hoop overigens dat het aantal relaties waarvan één partner de bak in gaat statistisch te verwaarlozen is t.o.v. het totaal aantal huwelijken/scheidingen.

  3. 6

    De misdaden die traditioneel tot de misdaden gerekend worden — oplichting via al die gedoogde woekerwinstpolissen en andere financiële fraude hoort daar niet bij — worden voor het overgrote deel gepleegd door jonge mannen. Net als dat deze bovenmatig vaak auto-ongelukken hebben, of gewond raken door hun eigen schuld.

    Ik mis in uw staatjes derhalve conclusies als dat trouwen de autowegen een stuk veiliger maakt, of dat het huwelijk de natie enorm aan ziektekosten scheelt.

  4. 9

    Het is allemaal een kwestie van definities. Als de heersende moraal zou stellen dat huwelijk criminaliteit is, krijg je een heel ander plaatje.
    Maar goed zo’n opvatting bestaat niet. Wel dat je criminaliteit bestrijdt door mensen in de boeien te slaan. Het huwelijk is natuurlijk een stel boeien.

    Of het CDA dus blij zal zijn met de aangetroffen correlatie, is maar de vraag. Het CDA zal het huwelijk toch niet als straf willen zien?

  5. 10

    @ Jasper:

    Dan trekken we het niet meteen door naar “de bak” maar gewoon naar vrouwen die onzeker worden over de rol van manlief als kostwinnaar, door gevaar voor vrijheid of lijf & leden. Of we veronderstellen gewoon (voor de grap) een morele vrouw, die al dat gesteel niet zo ziet zitten.

    Punt blijft hetzelfde: een deel van het verband verloopt omgekeerd. Niet noodzakelijkerwijs via de hoeren (#3) maar dus wel nog steeds “criminaliteit verlaagt getrouwdheid” …

    Dezelfde onderliggende oorzaken voor zowel criminaliteit als scheiding geef je zelf al aan en dat is de belangrijke.

    En de gesuggereerde route bestaat natuurlijk ook wel, in ieder geval al via de tussenstap van ouderschap (vaders die zichzelf verantwoordelijker willen opstellen) maar deze kop irriteerde me mateloos. Dan hebben we een serie die iets statistisch leuks lijkt te gaan doen, is zin 1 van artikel 1 alweer meteen een primair voorbeeld van de reguliere flauwekul-met-kek-grafiekje…

  6. 11

    Overigens is het plaatje een voorbeeld van een geografische correlatiestudie. Daarin wordt niet de correlatie tussen scheiden en criminaliteit getoond, maar tussen proporties criminaliteit en scheidingen binnen bepaalde regio’s. Er is geen zekerheid dat de scheiding en criminaliteit dezelfde personen in elke regio betreft. Dit kan leiden tot de zogenaamde ecologische valkuil.

  7. 12

    Ik zie nog nergens: “criminele man gaat gevangenis in, ontdekt ware geaardheid en scheidt.” Wat mij betreft ook te overwegen.

  8. 13

    @Rene: ik zie niet in wat er mis is met de titel van de post. Het is tenslotte een blogpost, en geen wetenschappelijke studie. Aangezien het aantal mensen (meest mannen) dat zich inlaat met criminele activiteiten vele malen lager is dan het aantal scheidingen, zal het verband niet zo direct zijn.
    Dus: trouwen verlaagt criminaliteit is nog steeds een goede hypothese om de data te verklaren – hoewel zeker niet de enige (zie o.a. #11).
    Dat trouwen menig man op het rechte pad brengt lijkt me trouwens niet onwaarschijnlijk.

    (Overigens is de correlatie met allochtonen bijna even groot als die met trouwen. Op het gevaar af dat ik de beerput hiermee open trek, beter voor een andere post uiteraard).

  9. 14

    @12: Ik kon de correlatie tussen crimminaliteitscijfers en het percentage gelijkgeslachtelijke samenlevingscontracten/huwelijken ook niet ontwaren in figuur 1. Ik durf er trouwens wel wat onder te verwedden dat die vrij sterk positief is, hetgeen dan weer een verificatie voor jouw hypothese zou kunnen vormen.

  10. 16

    @ Cerridwen: Wat mis is met de titel is evident. De kop is “A veroorzaakt B” en de rest van het artikel bevat daar geen enkele onderbouwing voor, zoals het zelfs zelf later aangeeft. Het reguliere misbruik van statistiek.

    A en B hebben gemeenschappelijke oorzaken (man verliest baan, bijvoorbeeld), voor een ander deel veroorzaakt B juist A (zie #10) en voor slechts een ander deel veroorzaakt A B (zie ook #10).

    Dat zijn fundamentele issues, niet iets dat je afdoet als “het is geen wetenschappelijke studie”. Niet enkel in wetenschappelijke studies is onzin iets slechts en dat vinden is alleen een excuus voor een eigen falen correlatie en causatie uit elkaar te houden.

    (En inderdaad ja. Bedenk maar eens wat voor een leuke koppen je zou kunnen bedenken voor die correlatie als je hetzelfde systeem volgt en de threads die hier daarop zouden volgen.)

  11. 17

    Trouwen? Verantwoordelijkheidsgevoel. Bijv bij een baan, of iets anders wat je zou verliezen als je een strafblad had.

    Wat eigenlijk ook niet helemaal waar is want die zwembadinstructeur uit Den Bosch hield ook zijn baantje, ondanks verschillende indicaties over zijn onzedelijk gedrag.

    Maar een kennis van mij is ontslagen omdat na een incidentje zijn verklaring omtrent goed gedrag niet is verlengd.

    Ook ‘leuk’ is de film Lord of War. De vrouw weet wel dat het niet klopt wat haar man doet, maar wil het in het begin domweg niet weten.

  12. 18

    @11: inderdaad, dat is een heel belangrijk punt, een valkuil waar het heel erg druk is. Er is niets in de gegevens dat een conclusie over individuen rechtvaardigd.
    Een hypothese die niet verondersteld dat de gescheiden individu vaker crimineel is: bij gescheiden inwoners is aantrekkelijker inbreken, omdat de woning vaker verlaten is.

  13. 19

    Volgens mij snap ik de grafiek niet; allochtonen worden 3x genoemd: het totaal, en uitgesplitst naar westers en niet-westers. De correlatie tussen allochtoon-zijn en crimineel zijn is voor de totale groep groter dan de correlatie voor BEIDE deelgroepen. Rara hoe kan dat? Is er geknoeid met de cijfers (om ‘gescheiden’ bovenaan te krijgen:P)? Of snap ik de grafiek/werkwijze niet? Of is er wellicht gewoon sprake van een slordigheidje?

  14. 21

    @Rene: dat snap ik allemaal wel. Maar juist doordat het artikel zelf de nuance wel maakt is de kop niet erg. Het is een provocerende kop die de aandacht trekt, en gegeven de nuance die er later aan gegeven wordt, een mooi startpunt van de discussie.

    Als alles wat geschreven wordt letterlijk waar moest zijn wordt het leeg en saai op internet en in de boekhandel.

    @Jb: en inderdaad, de correlatie met eenpersoonshuishoudens en criminaliteit is ook heel hoog. Wat niet wil zeggen dat jouw verklaring de juiste is, maar wel dat het iets te maken kan hebben met het éénpersoonshuishoudens element van gescheiden zijn.

  15. 22

    @21.1: Goed. Dus we zijn in één stap gegaan van “ik zie niet in wat er mis is met” naar “ik begrijp dat het onzin is maar dat vind ik niet erg”. Ik voel me begrepen.

    @21.2: Het is vooral gewoon een heel mooie illustratie van hoe een cijfer over een groep niet iets zegt over individuen.

  16. 25

    Ik wist trouwens ook nog niet dat stemmen op D66 je zo crimineel maakt. Maar nu ik erover nadenk…

    (voor de erg slechte verstaander: dit dus ter illustratie van het onzin gehalte)

  17. 26

    @zmc: Gelukkig is er niet geknoeid met de cijfers. Het is heel goed mogelijk dat de correlatie voor een gehele groep groter is dan die voor de deelgroepen.

    Neem het volgende voorbeeld: stel dat er een zeer sterke correlatie is tussen een eigenschap A en percentage mannen. De ‘bolletjes/gemeenten’ liggen dan op één lijn (de correlatiecoëfficient is dan 1). Wanneer je de groep mannen dan in twee groepen verdeeld, willekeurig op welke eigenschap, zal voor beide groepen de correlatie afnemen: er zal meer spreiding in de ‘puntenwolk’ zijn omdat de verdeling van de mannen op de betreffende eigenschap in iedere gemeente verschillend zal zijn.

    @Rene: ik zal de titels nog eens goed heroverwegen voor de volgende artikelen :) De statistische correlatie an sich is overigens geen “Onzin”.

  18. 29

    @24: Ik ga er van uit dat mensen zich toch op zijn minst over de basis van materie informeren, voor ze bepaalde conclusies gaan trekken uit de materie. Als je geen idee hebt hoe een correlatie tot stand komt, dan ga je toch niet zeggen dat er met de cijfers geknoeid is om een bepaalde correlatie te verkrijgen? Je kunt die uitspraak namelijk op geen enkele wijze staven.

    Maar als je het leuk vindt hier een rekensommetje. Ik heb van vier vrouwen en vier mannen lengte (cm) en inkomen (€) gemeten, de vrouwen:
    160 20000
    165 22000
    165 19000
    170 20000
    de mannen:
    180 30000
    185 28000
    185 35000
    190 30000
    Wat is de correlatie tussen lengte en inkomen voor de vrouwen? Voor de mannen? Voor mijn hele steekproef van acht?

  19. 30

    Ik veronderstel dat er in steden meer homo’s wonen, dus dan kan het plaatje ook met homo’s maken. Nog meer leuke dingen voor het CDA.
    Maak hem dan ook nog voor openbare en bijzondere scholen en criminaliteit.

  20. 33

    Ik ben benieuwd hoe de correlaties eruit zien op buurtniveau. Het aantal GroenLinks-stemmers correleert bijvoorbeeld sterk met de criminaliteit. Het zou natuurlijk kunnen dat GL politiek hiervoor verantwoordelijk is, maar het lijkt mij waarschijnlijker dat dit komt omdat er gewoon meer criminaliteit is in de grote steden, waar GroenLinks ook sterk is.

  21. 34

    @Bram, #33: Haha, op de lijst staan bij D66 en dan GroenLinks de schuld geven van de criminaliteit ;)
    Klopt, een correlatie op buurtniveau zou nog veel interessanter zijn, maar de vraag is in hoeverre de gegevens hiervoor beschikbaar zijn.

  22. 37

    Verbindende faktor voor al deze correlaties lijkt me: de sterkte van sociale verbanden.

    Steden: minder sociale verbanden, meer criminaliteit. En dus een correlatie met typisch stedelijke zaken als echtscheiding, allochtonen, dienstverlening, D66, hangjongeren, banen etc.

    Platteland: meer sociale verbanden, minder criminaliteit. En dus een correlatie met typische plattelandszaken als huwelijken, bosbouw, visserij, CDA etc.

    @zmc: correlaties van de som van samenhangende deelverzamelingen met een andere grootheid worden meestal sterker. Kleine deelverzamelingen vertonen meer ruis, en geven dus een kleinere correlatie.

  23. 38

    @34: M’n punt was juist dat dat niet zo was ;), zowel niet voor GroenLinks als voor D66. Ik denk namelijk dat als je naar buurtniveau kijkt het anders is (en in Utrecht weet ik zeker dat dat zo is). De GL- en D66-stemmers wonen veelal in de ‘betere’ wijken met lagere criminaliteit.

    Verder een erg coole site!

  24. 39

    @Jasper, een interessante manier van kijken naar je data, een klein punt van kritiek is de term statistische correlatie, dat betekend niets. Correlatie is een statistiek, deze statistiek kan significant zijn en als dat zo is dan noem je het een significante correlatie. Significant (belangrijk, echt) moet goed gedefinieerd zijn en dus gebruik je statistisch significante correlatie. Het is interessant om aan te geven of dat laatste het geval is. De curve waarop de gepresenteerde correlatie waarden liggen doet sterk vermoeden dat ook de plaatsing van de punten deels naar visueel inzicht is gedaan of dat de correlatie statistieken gefit zijn aan zo’n curve en dat dit model resultaat wordt gepresenteerd. Het is overigens niet heel vreemd een veronderstelling te maken over correlatie statistiek, maar het fitten aan zo’n parametrische vorm geeft wel informatie verlies en versterkt het vertrouwen in de aanpak. In het geval dat dit gebeurd is, ben ik benieuwd naar het origineel en het percentage variatie verlies.

  25. 40

    @DJ, wat in de grafiek wordt getoond is de correlatiecoëfficiënt (R) en het kwadraat daarvan (R^2), deze liggen dus per definitie in een parametrische vorm.
    Een relatief eendimensionaal gegeven wordt hierbij tweedimensionaal gepresenteerd, waarbij de hoogte de significantie van de correlatie aangeeft, en de plaatsing links of rechts of het een negatieve resp. positieve correlatie is.

  26. 41

    @Jasper, deze statistics verdelen zich niet per definitie volgens een parametrische vorm, zeker niet als er niet oneindig veel correlatie statistics worden gegeven. Dit is eenvoudig te controleren door 100 correlatie coeffs. te berekenen uit vectoren met 1miljoen random (normal) getallen. Dit is duidelijk niet zo consistent in verdeling als de plot suggereert.

  27. 42

    @41: Dit figuur had net zo goed vervangen kunnen worden door een lijn, aangezien er hier bij elke correlatie met een even grote “steekproef” (in feite de hele populatie aan gemeentes, dus significantie is hier toch al een zinloos begrip) gewerkt wordt en de (rekenkundige) significantie dus volledig afhangt van de sterkte van de correlatie. Het figuur heeft dus inderdaad maar 1 dimensie.

  28. 43

    @42, mss wat onduidelijk verwoord, ik had het over dat kleine grafiekje met die parabool. De grote grafiek is duidelijk idd gewoon een lijn.

  29. 45

    @44 ;), dat is juist, maar dat verklaart niet waarom de punten op een parabool liggen zonder daar van af te wijken, vandaar dat ik denk dat de correlaties aan een curve gefit zijn. Nog even een simulatie voorbeeldje geprobeerd hier en dat ligt aanmerkelijk minder glad. En waarom een parabool, tangent ligt meer voor de hand. Significantie is verder afhankelijk van hoe je dit bepaald en vereist normale data bij gebruik van een t-test (dit wordt te technisch denk ik … veel te lekker weer…)

  30. 46

    @45: Dat verklaart het wel. Bij een constante N is de significantie van een correlatie een exponentiële functie van de correlatie. Ik doe hier de aanname dat gebruik is gemaakt van de Pearson-correlatie en dat voor de berekening van de significantie uit is gegaan van normaliteit. Of dat correct is, is een tweede, maar geheid dat het gedaan is in dit geval (zoals in 99% van de gevallen waarin een correlatie berekend wordt).

    gevolg is dat de X-as en de Y-as eigenlijk eenzelfde dimensie weergeven, zoals #40 aangeeft.

  31. 47

    Ik zit trouwens niet op te letten, de X-as geeft de invloed aan (inderdaad R^2), daarmee is de functie nog simpeler, maar hetzelfde blijft opgaan, X en Y-as geven dezelfde dimensie weer. De functie wordt dan: Y=X^2, een parabolische functie.

  32. 48

    Ah, ik snap dat x=r en y=r2 in deze grafiek. Significantie (als in p waarde) wordt hier nergens gegeven. Normaliteit speelt hier geen rol, ik dacht dat y=abs(r). my bad ;)

  33. 49

    @47, ja, deze functie is triviaal, zat veel te ingewikkeld te doen hier (voor mij is dit figuur nodeloos ingewikkeld) … moet nodig eens op vakantie ;) … Ik refresh ook te langzaam zie ik …

  34. 50

    @DJ en Bismarck, goed dat jullie er samen zijn uitgekomen! Bismarck, dank voor de uitleg, ik had het zelf niet beter kunnen doen.

    Er wordt idd gebruik gemaakt van de Pearson-correlatie. Daarbij meteen de aantekening dat het dus niet uit te sluiten is dat er sterkere verbanden bestaan dan de lineaire die hier zijn aangegeven. Zo zal er ongetwijfeld een zeer sterke logaritmische samenhang zijn tussen aantal inwoners en criminaliteit. Maar dan verlaten we het terrein van het populair-wetenschappelijk blog… (Waar niets mis mee is, uiteraard, maar alles kent z’n tijd en plek)

    Eens te meer blijkt dat statistiek meer vragen oproept dan het beantwoord. Gelukkig komen er nog twee artikelen en dus nog meer vragen! :)

  35. 51

    @Jasper, dan neem ik een voorschot op de eerste vraag: mag er een kleine legenda + as beschrijving bij in formeel jargon :) *gaat van het weer genieten*