Modellen van Stemgedrag

Simon Otjes 26 juni 2011 , 14:00 Algemeen, GeenCommentaar

Eigenlijk weten we het allemaal wel: in de Biblebelt stemt men SGP, in studentensteden als Nijmegen wordt er veel GroenLinks gestemd en op het platteland wordt er bovengemiddeld veel CDA gestemd. Maar toch: de geografische patronen in stemgedrag zijn, steeds meer onderwerp van wetenschappelijk onderzoek. Kan een analyse van de geografische patronen in stemgedrag ons informeren over de recente verkiezingen? En over de nieuwe tegenstelling tussen populistische (SP en PVV) en progressieve partijen (GL en D66) die steeds meer opgeld doet in de media en de wetenschap? Recent gaf de Kiesraad het boek uit “Verkiezingen op de kaart 1848-2010. Tweede Kamerverkiezingen vanuit geografisch perspectief“. Prachtig kaartmateriaal, waarvan de data voor iedereen toegankelijk is op internet. Neem de verkiezingen van 2010. Welke patronen liggen daar in het stemgedrag? Wonen mensen die op verschillende partijen stemmen in verschillende plaatsen?

In het hiernaast staande model (klik voor vergroting) zijn de geografische verschillen in stemgedrag zichtbaar gemaakt met correspondentie analyse voor zeven partijen: als partijen dicht bijelkaar staan wonen hun stemmers in dezelfde gemeenten. Stemmers op de SP en de PVV wonen vaak in dezelfde gemeenten, namelijk in krimpende gemeenten in de periferie (Boxmeer of Kerkrade). GroenLinks en D66 stemmers wonen ook vaak in dezelfde gemeenten: denk aan studentensteden als Utrecht. De VVD en de PvdA staan ver uit elkaar, ze spreken kiezers aan die in verschillende plaatsten wonen: in Wassenaar en Blaricum wordt bovengemiddeld vaak VVD gestemd, maar weinig PvdA. Kortom correspondentie analyse construeert zelf een model van verschillen in (in dit geval) stemgedrag tussen gemeenten op basis waar er relatief vaak op de ene of op de andere partij wordt gestemd. De assen hebben a priori geen betekenis, dat is een kwestie van wetenschappelijke interpretatie.

Hoe kunnen we deze patronen interpreteren? Er is een sterke tegenstelling tussen de VVD en de rest. Dit lijkt een links/rechts tegenstelling te zijn, met D66, de PvdD en de PVV in een middenpositie, en GL, PvdA en SP aan de linkerkant. Een tweede tegenstelling is tussen GL en D66 aan de ene kant en SP en PVV aan de andere kant, de VVD, PvdA en de PvdD nemen hier een middenpositie in. Dit lijkt de tegenstelling tussen progressieve-hervormingsgezinde partijen en conservatieve-populistische partijen te bevatten. Het PvdA electoraat neigt aan de ene kant naar GL en D66, aan de andere kant naar SP of PVV.

Dit bevestigt een groeiend beeld in de media en de politicologie dat er twee tegenstellingen zijn in de Nederlandse politiek: die tussen links en rechts, maar in de tweede plaats ook tussen de winnaars van de globalisering (die in Wassenaar wonen en hun kinderen in Amsterdam laten studeren) en tussen de verliezers van de globalisering (in de krimpende periferie). Links en rechts speelt nog steeds een rol in het stemgedrag want GL, PvdA en SP staan aan een kant in het figuur, maar er is duidelijk ook een band tussen een partij als de SP en de PVV.

Echter er zit hier wel een addertje onder het gras: want waar zijn het CDA, de CU en de SGP gebleven? Een model van de werkelijkheid, zoals deze, is altijd een constructie, waarbij de keuzes van de makers een invloed heeft: keuze voor methoden, de keuze voor de data, maar ook de keuze voor welke selecties hij of zij maakt. Ik heb het CDA, de CU en de SGP er hier uitgegooid. Als (relatief) kleine partijen hebben zij een grote invloed op het stemgedrag omdat met name SGP en CU stemmers op heel andere plaatsen in Nederland wonen dan stemmers op andere partijen. En dan wordt plotseling een verhaal over de erg modern klinkende tegenstelling tussen winnaars en verliezers van globalisering en de 20ste eeuws links/rechts tegenstelling een verhaal over de tegenstelling tussen katholieken en protestanten, over de winnaars en de verliezers van de Tachtigjarige oorlog.

In de figuur links (klik voor vergroting) zijn alle partijen meegenomen: ook de hele kleine zoals de Evangelische Partij Nederland. De tegenstelling tussen de SGP (2 zetels) en de andere partijen (148) zetels is dominant. Kortom: in Urk stemmen mensen anders dan in Tubbergen en Amsterdam. SGP’ers zijn zo geconcentreerd dat ze een grote invloed op de analyse hebben. Binnen de andere partijen is er een grote tegenstelling tussen GL/D66/PvdA/PvdD in de linkerbovenhoek en VVD/PVV/SP/CDA in de linkeronderhoek. Deze links-progressieve partijen staan tegenover de rest. In electoraat opzicht spreekt de SP dus een heel ander electoraat aan dan GroenLinks.

Er hier echter wel in hoge mate sprake van constructie. In het naïef, ongecorrigeerd model waarin alle data is opgenomen (het tweede figuur) is een heel ander patroon waarneembaar dan in het eerste figuur. Dat is een patroon dat wel waarneembaar is in het stemgedrag maar niet per se als eerste naar bovenkomt. Het is de vraag in hoeverre je bij dit soort inductieve modellen, waarbij je kijkt naar patronen in stemgedrag, je kan, mag en moet corrigeren, om ‘interessante’ patronen waar te nemen.
[cmon]

Reacties (4)

#1 Michel 26 juni 2011 , 17:16

Simon, ik heb grote moeite om je verhaal te begrijpen. Ik zal proberen mijn kritiek te formuleren.

Je schrijft dat je wilt kijken of de bekende verdeling van kiezers zichtbaar is als je een ‘correspondentieanalyse’ toepast op de verkiezingsuitslagen. En inderdaad: wat vooral opvalt in de tweede figuur is dat alle partijen bij elkaar zitten op een lijn en dat de orthodox-christelijke daar ver vanaf zitten. Hiermee wordt aangetoond dat zwaar gereformeerd Nederland op een kluitje woont, niet zo bijzonder, maar dat kan met een correspondentieanalyse dus goed zichtbaar gemakt worden. So far so good.

Maar dan: je stelt dat dat er een interessant patroon zichtbaar is als je zeven partijen selecteert in tegenstelling tot het “naïeve model”.

Waarom mag je een deel van je input weglaten? Waarom deze partijen en niet andere? Omdat er dan een interessant patroon uit komt? Maar ben je dan niet bezig met het zodanig rangschikken van je gegevens en de keuze van je analyse zodanig dat er een interessant patroon uit komt?

Maar wat is eigenlijk een model in dit verband? Is een model niet iets waarmee je een bepaald patroon verklaard? Het lijkt er op dat jij onder ‘model’ een meting verstaat, en wel op een heel bijzonder manier. Je verwerkt je data in analyse A en je laat een arbitrair deel van je gegevens weg zodanig dat uit de analyse A iets komt dat lijkt op patronen die we al kennen. Ik begrijp dit ook helemaal niet:

[…] correspondentie analyse construeert zelf een model van verschillen in (in dit geval) stemgedrag tussen gemeenten op basis waar er relatief vaak op de ene of op de andere partij wordt gestemd. De assen hebben a priori geen betekenis, dat is een kwestie van wetenschappelijke interpretatie.

Hoe construeert een analyse een model? Een analyse construeert geen model maar meet iets. De uitslag van die meting probeer je te begrijpen met op basis van modellen, b.v. “links/rechts tegenstellingen” of “progressief/hervormingsgezind” en dat doe je dan ook in de volgende alinea’s, maar de analyse zelf construeert zelf geen model.

Ook begrijp ik niets van de statistiek die wordt toegepast. In de wiki over correspondentieanalyse staat:

CA decomposes the chi-square statistic associated with this table into orthogonal factors

Het kan natuurlijk aan mij liggen, maar ik kan hier geen brood van bakken. Misschien kun je het uitleggen, dan trek ik mijn kritiek in. Totdat ik dat begrepen heb waar het addertje zit begeef ik me liever niet op jou grasveld.

#2 Bismarck 27 juni 2011 , 08:25

@1: Ik kan die lijn wel volgen. Er is niet zoveel wetenschappelijks aan cherry picking. Volgende keer eerst een hypothese en methoden, dan de data.

Verder vallen de assen van het eerste figuur aanmerkelijk makkelijker te verklaren door te kijken welke gemeentes het zijn (het gaat immers ook om gemeentes, niet om mensen). Het zou me niets verbazen als de verticale as vooral overeen komt met de rijkdom van de gemeente en de horizontale sterk correleert met het inwonertal. Daarnaast is het woord periferie (ik neem maar even aan vanuit de Randstad gezien) niet precies genoeg: Voor zowel PVV als SP geldt dat letterlijk de aanhang vooral woont in het Zuiden/Zuid-Oosten (misschien toch de verliezers van de 80-jarige oorlog?). Een beetje jammer dat je CDA weglaat, ik vermoed dat die redelijk naar dezelfde hoek was getrokken.

#3 Michel 27 juni 2011 , 11:02

@2 Ik begrijp de analyse niet en kan dus ook niet inschatten wat er op die assen moet staan. Ik denk dat het gaat om maat voor “verschil/overeenkomst” in stemgedrag waarbij je twee assen nodig hebt omdat gaat om verschillen tussen partij en verschillen tussen gemeentes. Een soort correlatie dus, maar ik denk dat dat te simpel geredeneerd is.

Er is overigens wel voor te zeggen om te spelen met data en dan eens te kijken wat er uit komt als je er wat in veranderd, dat is wat Simon hier doet. Maar dan wil ik weten: waarom die 6 en wat gebeurt er als je andere partijen in andere combinaties weg laat. Op grond daarvan kun je misschien een hypothese (of model dus) formuleren en dat testen op een onafhankelijke dataset uit andere verkiezingsjaren.

Alles staat en valt ook met de analyse die wordt gebruikt. Misschien dat een theoretisch statisticus er wat van kan maken, maar ik niet.

#4 Bismarck 27 juni 2011 , 12:06

@3: Zover ik het begrijp heeft Simon iets vergelijkbaars gedaan als een factor-analyse (of eigenlijk PCA). In dat geval staat er een nietszeggende factor op elke as (als je kiest voor 2 assen, wat Simon blijkbaar nogal graag doet, gezien ook eerdere analyses). Deze factoren worden in feite willekeurig geconstrueerd (normaal gesproken uit combinaties van vragen uit vragenlijsten), waarna een soort correlatie van individuele vragen (in dit geval, gemeentes) met de factoren wordt berekend. Vervolgens wordt gekeken welke van deze factoren de meeste variantie in de vragen kunnen verklaren.

Normaal gesproken wordt in zo’n analyse ook vermeld welk deel van de variantie verklaard wordt (of, als maat daarvan, er wordt een Eigenvalue per factor gegeven), zodat je ook weet hoeveel zeggend de factoren zijn en wordt op grond daarvan besloten hoeveel factoren gebruikt worden (maar zoals gezegd, Simon kiest graag voor 2, ongeacht de Eigenvalues).

Het zou zomaar kunnen dat de horizontale as stiekem drie keer zoveel verklaart als de verticale, of omgekeerd. Je moet dus altijd erg voorzichtig zijn als politicologen met dit soort kaartjes bij je aankloppen (sowieso altijd naar de cijfers vragen) en ze nooit geloven als ze op de assen er iets bij gezet hebben, want dat kan niet anders dan eigen interpretatie zijn.