Niet links, niet rechts, maar wat dan wel?

Hieronder volgt een gastbijdrage van Jasper Soetendal, hij is initiatiefnemer van Weetmeer.nl. Weetmeer.nl publiceerde eerder de Politieke Landkaart 2010. Dit artikel publiceert hij op persoonlijke titel.

De krantenkoppen op de dag na de Tweede Kamerverkiezingen spraken eensgezind over een ‘ruk naar rechts’ in het Nederlandse politieke landschap: “Nederland maakt ruk naar rechts” (Parool), “Ruk naar rechts komt uit zuiden” (Volkskrant) en “Buitenland: Ruk naar rechts in Nederland” (Spits)

Maar in hoeverre is er daadwerkelijk sprake van een ruk naar rechts? Kan de PVV als ‘rechts’ gezien worden wanneer zij zich op sociaal-economisch gebied verzet tegen ‘rechtse’ standpunten als het verhogen van de AOW-leeftijd, het versoepelen van het ontslagrecht en het verlagen van de uitkeringen? En in hoeverre is er überhaupt sprake van een links-rechts verdeling als er een grote groep kiezers zweeft en switcht tussen SP en PVV, traditioneel de beide uitersten op het links-rechts-spectrum?

Wanneer beschrijvende statistiek wordt toegepast op de verkiezingsuitslagen, is daarin geen duidelijke links-rechts tegenstelling terug te vinden. Naast de primaire verdeling in het Nederlandse politieke landschap, van christelijk-conservatief tot seculier-progressief, is er echter wel een belangrijke secundaire verdeling waarop de grootste verschuivingen hebben plaatsgevonden.

Dat de reguliere indelingen als ‘links’ en ‘rechts’ niet voldoen bleek bij de samenstelling van de Politieke Landkaart 2010 (www.politiekelandkaart.nl); Daarbij is uitgegaan van de links-rechts/conservatief-progressieve politieke matrix zoals deze voor de verkiezingen is samengesteld door Kieskompas. Hierin neemt de PVV door eerder genoemde kwesties een linkse noch rechtse positie in. Dit leidde tot interessante plaatjes en analyses, maar deed op sommige punten tekort aan de politieke aardverschuiving die in het hele land en met name in het zuiden heeft plaatsgevonden.

Door bij de indeling geen gebruik te maken van subjectieve begrippen als ‘links’ of ‘conservatief’ kan een zuiverder, objectief beeld gecreëerd worden. Met hoofdcomponentenanlyse, een techniek uit de beschrijvende statistiek, kan uit een grote hoeveelheid data de meest relevante grootheden berekend worden. Op basis van de verkiezingsuitslagen per gemeente van de tien grootste partijen kunnen zo ‘hoofdcomponenten’ worden berekend, die als assen in een grafiek het meest informatieve beeld van de verspreiding van de data geven.

Bijgaand diagram toont een dergelijke weergave van de verkiezingsuitslagen aan de hand van de twee sterkste hoofdcomponenten, hoofdcomponent 1 en hoofdcomponent 2. Zowel de gemeentes als de politieke partijen zijn in het diagram weergegeven. De hoofdcomponenten, oftewel de assen, representeren hierbij geen subjectieve mening, maar een objectieve berekening. Toch zijn deze hoofdcomponenten vaak wel te relateren aan een bepaalde waarde, eigenschap of principe.

Zo is de de duiding van hoofdcomponent 1, de horizontale as, snel op te maken uit de afbeelding. Deze geeft de christelijk-seculiere verdeling van Nederland weer, met de meest christelijke gemeentes aan de linkerkant en de meest seculiere gemeentes aan de rechterkant. Deze hoofdcomponent heeft een sterke statistische correlatie met de conservatieve-progressieve indeling zoals deze door Kieskompas is gedefinieerd.

Minder duidelijk is wat hoofdcomponent 2, de verticale as, weergeeft. Links (boven) en rechts (onder) valt direct af door de positie van o.a. GroenLinks, CDA en ChristenUnie. Ook een verdeling van arm naar rijk lijkt weliswaar aanwezig in de ‘rechterzijde’ van de grafiek, van Kerkrade tot Bloemendaal en Rozendaal, maar deze gaat niet op voor de ‘linkerzijde’ met gemeentes als Urk, Staphorst en Nunspeet.
Ook al is de betekenis van deze as niet direct duidelijk, in het totaalbeeld zijn drie herkenbare hoeken zichtbaar: de christelijke hoek (linksonder), de welgestelde hoek (rechtsonder) en de hoek waar de PVV zijn grootste slag heeft geslagen (middenboven).

De grootste verschuivingen hebben plaats gevonden op de verticale as. Vergeleken met dezelfde analyse op basis van de vorige Tweede Kamerverkiezingen (2006) zijn de PVV en de SP dichter bij elkaar komen te staan en hebben zij zich samen verder verwijderd van de andere partijen. Waar zij in 2006 nog vergezeld werden door de PvdA, zijn zij in 2010 ‘omhoog’ geschoten en vond de PvdA aansluiting bij de ‘lager’ gelegen partijen als GroenLinks en D66.

Zo bekeken lijkt er niet zozeer sprake van een “ruk naar rechts” als wel van een volksverhuizing op de verticale as. Maar waar staat deze as voor? Vergeleken met een scala aan gegevens over de Nederlandse gemeentes, valt een sterke correlatie op met eerdere opkomstpercentages. Voor zowel de opkomst in 2006 als voor de laatste Europese verkiezingen in 2009 en 2004 geldt in hoge mate: hoe lager de opkomst in een gemeente, hoe hoger de positie op de verticale as. Opvallend is ook een duidelijke correlatie met een laag percentage hoge inkomens en een lage arbeidsparticipatie.

De primaire indeling van het Nederlands politieke landschap, van christelijk-conservatief tot seculier-progressief, is slechts beperkt gewijzigd. Op de secundaire indeling heeft echter een flinke verschuiving plaats gevonden. Deze is niet in termen van ‘links’ of ‘rechts’ te vangen. Hiervoor komen eerder kwalificaties in aanmerking als ‘betrokken’ versus ‘passief’, ‘elitair’ versus ‘populistisch’ of misschien zelfs wel ‘tevreden’ versus ‘ontevreden’. Een exacte duiding van deze tegenstelling kan niet worden gevonden in de beschrijvende statistiek, maar is stof ter discussie voor politicologen.

Jasper Soetendal
Jasper Soetendal (1980) is initiatiefnemer van Weetmeer.nl. Weetmeer.nl publiceerde eerder de Politieke Landkaart 2010. Dit artikel publiceert hij op persoonlijke titel.

Toelichting hoofdcomponentenanalyse
Wanneer van alle Nederlandse gemeentes de verkiezingsuitslagen van de 10 grootste partijen worden verzameld, levert dit een grote tabel op. Deze tabel is door het aantal variabelen, 10 per gemeente, niet eenvoudig weer te geven in een grafiek.
De hoofdcomponentenanalyse is een techniek uit de beschrijvende statistiek die in een dergelijk geval gebruikt kan worden om de gegevens te beschrijven met een kleiner aantal relevante variabelen, de hoofdcomponenten. Deze hoofdcomponenten bestaan uit niets anders dan een optelsom van alle variabelen, waarbij iedere variabele een gewicht heeft (Bijvoorbeeld hoofdcomponent 1 = 0,2 x VVD + 0,3 x PvdA + -0,01 x PVV + -0,4 x CDA , etc.).

De gewichten worden zodanig samengesteld dat de hoofdcomponenten de originele gegevens het beste beschrijven. Door het aantal variabelen te beperken (van 10 naar 2) gaan weliswaar gegevens verloren, maar de hoofdcomponentenanalyse zorgt ervoor dat dit verlies zo klein mogelijk is. Met andere woorden: de op deze manier samengestelde grafiek geeft het meest informatieve beeld van de originele gegevens.

De in het diagram gebruikte hoofdcomponenten worden samengesteld uit niets anders dan de beschikbare, objectieve gegevens. De betekenis van de assen is dus niets meer dan de eerder genoemde optelsom van gewogen variabelen. Interessant is nu dat deze hoofdcomponenten vaak wel een diepere betekenis representeren, zoals in dit geval de duidelijke christelijk-seculiere verdeling op de horizontale as. In dit artikel bekijken we de betekenis van de hoofdcomponenten en wat dat over de verkiezingsuitslag duidelijk kan maken.
Zie ook: http://nl.wikipedia.org/wiki/Hoofdcomponenten

  1. 1

    Is het niet interessanter om, a la bij het IQ, gewoon eerst vast te stellen dat de scheidings-lijn dwars door het midden gaat voor wat betreft de stemmen, en *daarna* pas vast te stellen wat dan, volgens datzelfde volk, kennelijk ‘links’ en ‘rechts’ is ?

    Dat is niet zo leuk voor de onderzoekers, die dan niet hun eigen politieke voorkeuren kunnen projecteren op de resultaten, maar wel objectiever.

  2. 2

    Mooi plaatje. Dappere poging de beschrijvende (exploratieve) techniek uit te leggen.

    Technische vraag: Je zegt dat je dezelfde analyse ook op 2006 hebt los gelaten. Heb je de analyse ook op (2006+2010) tegelijk los gelaten? anders zijn de scores op 2010hoofdcomponent2 en 2006hoofdcomponent2 en de afstanden tussen partijen in de 2010 resp. 2006 biplot niet te vergelijken.

  3. 3

    @1 welke scheidingslijn bedoel je? de horizontale as? de verticale as? een willekeurige scheve as door de oorsprong? de overige hoofdcomponenten, niet aftebeelden in een plat plaatje, ook nog meenemen?

    In je tweede zin kan je ‘onderzoekers’ beter vervangen door ‘het volk’/’het electoraat’/’de politiek’. Laat onderzoekers er eens een keer buiten – de poster doet juist zijn best geen voorkeuren in zijn indeling te projecteren – het kan niet objectiever dan zijn plaatje – subjectiviteit over onderzoekers zit in jouw hoofd – slik dat eens in, om te beginnen, als je objectiviteit nastreeft.

  4. 4

    Is de meest logische verklaring niet dat het willekeurig gekozen aantal van 2 variabelen geen recht doet aan de onderliggende werkelijkheid? Dat in de horizontale as een aantal variabelen op een rare manier geaggregeerd wordt?

  5. 5

    Wonderlijk dat in dit hele verhaal over links vs rechts niet wordt gekeken naar hoe de partijen tegenover immigratie en openbare veiligheid staan. Dat lijkt me een veel interessantere hoofdcomponent dan de religieuze verdeling of die tweede hc, die ik niet goed begrijp.

    Verder ontbreekt elke vorm van dynamiek in de grafiek. Het laat niet zien welke partijen er wonnen of verloren, en zelfs het relatief aantal zetels in de TK is niet op te maken uit de grafiek.

  6. 6

    Lijkt in zoverre te kloppen dat de bevolking al een jaar of 10 het idee heeft dat links en rechts de lading niet meer dekt. Hoe dan ook, dit soort statistiek is niet mogelijk helemaal niet verkeerd voor ons Geert. Jasper bedankt.

  7. 8

    “Een ruk naar rechts” is een term die beweging weergeeft
    Een kaart doet het voorkomen alsof iets dat in beweging is toch als iets statisch kan worden onderzocht.

    Wat is er statisch aan de snelheid waarmee de PVV haar verkiezings thema’s opgeeft?
    Zijn formatie onderhandelingen niet precies een bewegings proces?

    Verder zou ik wel een verdere uitleg willen waarom het geloof een belangrijke invloed op de horizontale as heeft.

    De plaats van de verticale as op de horizontale as lijkt mij qua gewicht (in aantal stemmen) ver uit het middel te liggen.

  8. 9

    @4 De derde en vierde etc zijn ook uitgerekend, dat is integraal onderdeel van een hoofdcomponenten analyse. Alleen je kan er maar twee tegelijk plotten.
    – De keuze voor de eerste twee is niet willekeurig: er is gekozen voor de eerste twee omdat deze grotere aandelen van de totale spreiding verklaren (#7 wil graag weten hoeveel), dan volgende hoofdcomponenten.
    – Alle overgebleven variatie zit net zoveel op de verticale als op de horizontale as geaggregeerd (loodrecht het beeldscherm in en van je af).

  9. 10

    Eens met @5 ook.
    De as hoofdcomponent 2 is onbegrijpelijk. En van hoofdcomponent 1 snap ik niet waarom links en rechts niet andersom staan, zodat “linkse” en “rechtse” partijen op zijn minst ook links en rechts op een as staan.
    Ik vind het onbegrijpelijk dat PVV “links” wordt genoemd, bijv vanwege het AOW standpunt, als dat nou net het eerste standpunt is dat Wilders sowieso al liet vallen. En dat Wilders met 2 rechtse partijen in zee gaat, is bijzonder vreemd voor linkse partij. Als je het partijprogramma van PVV leest, komt het ook niet over als een linkse partij, maar als een partij die maar wat kletst.

  10. 11

    Aangenomen dat de methode statistisch correct is uitgevoerd, geeft het wel een interessant beeld over de formatie: in tegenstelling tot wat veel VVD-stemmers denken, heeft de VVD veel meer overlap in programmapunten met de Paars+ partijen PvdA/D66/GL dan met de PVV en het CDA. Een ‘middenkabinet’ VVD/PvdA/CDA zou trouwens wel echt behoorlijk dicht bij het midden van de plot liggen.

  11. 12

    @10: lees de uitleg van @9. Er valt niks te kiezen over welke componenten je krijgt; het wordt volledig gebaseerd op de data.

    Ook @10: het plaatje mag je spiegelen (zowel door de x- als de y-as). Er verandert dan niks aan je interpretatie, want met een pca kan je alleen afstanden interpreteren, en die blijven gelijk onder spiegelingen.

  12. 13

    Misschien moet ik het beter lezen, maar ik vind het vrij betekenisloos om stemvoorkeur te ontleden op gemeenteniveau. Bijvoorbeeld: als in Almere 20% PVV stemt, 15% VVD en PvdA en 10% CDA, GL, SP, D66 en CU (ik noem maar wat) betekent dat *niet* dat de gemiddelde “Almerenaar” PVV op 1 zet, VVD op 2, etc. Dus het gegeven dat percentage VVD-stemmers ruimtelijk correleren met PvdA-stemmers houdt niet in de dat gemiddelde VVD-stemmer bovengemiddeld graag een VVD-PvdA coalitie ziet. Fallacy of composition dus.

  13. 14

    @JSk: ik heb je opmerking tussen haakjes gelezen maar als je een specifieke plaats noemt in je voorbeeld, geef er dan wel de juiste cijfers bij:
    Uitslag tk 2010 Almere:
    17.9% PVV stemt, 25.5% VVD, 23.8% PvdA en 5.1% CDA

    De PVV is in Almere dus net iets groter dan landelijk maar zeker niet de grootste partij.
    (Misschien wil ik gewoon ontzenuwen dat Almere een PVV bolwerk is)

  14. 15

    @13: Er wordt niet geranked, het percentage is de schaal voor elk van de 10 variabelen (tenminste dat neem ik aan, zou anders volkomen onlogisch zijn).

  15. 16

    Interessante analyse.

    Zwak punt is echter dat niet duidelijk is wat het doel van de exercitie eigenlijk is; wat probeert het artikel precies te verklaren?

    Voor zover ik het begrijp vertelt dit iets over het soort mensen dat op een politieke partij heeft gestemd. Politieke partijen worden hier geordend naar waar hun kiezers wonen. Aan de hand van de kenmerken van die plaatsen kan je dan iets zeggen over wat voor kiezers op een partij hebben gestemd. Probleem blijft wel dat je nooit precies weet welke mensen in een bepaalde gemeente op een partij hebben gestemd. Je zou bijvoorbeeld kunnen vinden dat in een rijke gemeente de PVV veel stemmen heeft gehaald, maar het zijn niet noodzakelijkerwijs de rijke mensen in die gemeente die op de PVV gestemd hebben.

    Wat de analyse nadrukkelijk niet doet, en dit had wel duidelijker gesteld mogen worden, is iets vertellen over de politieke inhoud van de partijen, en de inhoudelijke verdeling van die partijen op een assenstelsel. VVD en CDA staan op beide componenten bijvoorbeeld ver van elkaar verwijderd, maar qua inhoudelijke politiek is dit overduidelijk niet het geval; als ze samen een meerderheid hadden gehaald was er nu al lang een kabinet geweest. Wel interessant om te zien dat de plaatsen waar op CDA danwel VVD gestemd wordt erg verschillen.

  16. 17

    Interessant artikel.

    Het valt me wel op dat veel reageerders geen benul hebben van wat deze methode doet en wat de uitkomst betekent.

    ‘links en rechts zijn omgedraaid’
    – Links? Rechts? Daar gaat het dus niet om. (Bovendien: dan spiegel je de grafiek toch?)

    ‘de as ligt niet in het midden’
    – Dit is niet zo relevant.

    ‘je weet niet welke mensen in een plaats op een partij hebben gestemd.’
    – Inderdaad. We hebben alleen stemgegevens per gemeente, dus dat is alles dat we kunnen gebruiken.

    ‘dit zegt helemaal niets over de politieke inhoud.’
    – Inderdaad.

    Nog afgezien van #5 #8 en #10, die het artikel helemaal niet gelezen lijken te hebben, maar het toch nodig vinden commentaar te geven.

    Voor de duidelijkheid: de hoofdcomponenten betekenen dus in zichzelf niets, de betekenis mag je er zelf aan geven. Zoals de schrijver zelf ook al stelt aan het eind van zijn tekst.

    Gelukkig betekenen ‘links’ of ‘rechts’ ook niets; dit zijn ook verzamelbegrippen die we de afgelopen decennia hebben gebruikt om de verdeling van het Nederlandse politieke landschap te beschrijven. Dat ging lang goed, maar tegenwoordig is de situatie dermate veranderd/complexer dat links-rechts niet meer voldoet. Op zoek dus naar een betere beschrijving, met andere verzamelbegrippen.

    De 2 hoofdcomponenten beschrijven de verdeling het beste. Hoe je ze noemt mag iedereen zelf weten.

    Verder wat #2 zegt. Ik ben erg benieuwd naar een vergelijking met de uitslag in 2006.

  17. 18

    @17: Uit eerdere analyses die hier de revue gepasseerd zijn bleek een matige tot sterke correlatie tussen wat traditioneel de assen links-rechts en conservatief-progessief genoemd worden. Is het mogelijk dat de eerste hoofdcomponent (delen van) beide heeft gevangen?

  18. 19

    @18: Daar lijkt het wel op.

    De verticale as is wat mij betreft praatvoer voor in de kroeg komend weekend. Ik vond tevreden/ontevreden wel een mooie typering, of iets met verontwaardigd (Wat is daar het tegenovergestelde van? Rustig? Berustend? Gelaten? Stoïcijns?)

  19. 20

    @15: De factor loadings kan je toch interpreteren als partiele correlaties?

    @17: Uhm.. tegenwoordig is een cursus Statistiek voor Psychologen niet voorbehouden aan de genieen waarvan jij ongetwijfeld eentje bent. Mensen snappen de methode best, ze zoeken het punt. Anders is het niet veel meer dan op een gelikte wijze correlaties in stemgedrag weergeven.

    @19: Je zegt dat er geen politieke interpretatie aan de methode te verbinden is, maar je hebt het wel over een “tevredenheids”-as. Hallo, is daar iemand?

  20. 22

    @20: Maar wat heeft dat met rangen te maken?

    @19: Zou je voor de volledigheid van je respons toch ook de Eigenwaardes kunnen geven van de 1e vier hoofdcomponenten?

    slijm
    Alsjeblieft?
    /slijm

  21. 23

    @20 Hoofdcomponentenanalyse werkt ‘andersom’ vergeleken bij veel andere analyses. Bij een ‘gewone’ analyse, stel je bepaalde hypothesen op, en vervolgens kijk je in hoeverre deze overeenkomen met de data.
    Bij hoofdcomponentenanalyse laat je – zonder enige vorm van inhoudelijk argument – de computer (op een slimme manier) voor je berekenen welk plaatje de meeste informatie geeft. Vervolgens ga je kijken of er toevallig ook een soort van interpretatie aan het plaatje te hangen is, die verder gaat dan “Urk en Amsterdam gedragen zich flink anders”. Een interpretatie van de assen die dan mogelijk lijkt te zijn, is iets als gelovig vs niet-gelovig op de horizontale as en de verticale as is iets lastiger te interpreteren. Iets als de populisme-as, tevredenheids-as, etc. dekt de lading een beetje.

  22. 26

    Interessante discussie, dank u allen.
    Ik ga later vandaag zeker nog uitgebreider terugkomen op een aantal interessante vraagstukken in de comments.

    @22 OK, OK :) De Eigenwaardes zijn: 3,86 – 2,04 – 1,51 en 1,14. Daarna doken ze onder de 0,5.
    Dit is op basis van de percentages (0-100) en de correlatiematrix (niet de covariantiematrix).

  23. 27

    De statistische methode claimt dat er geen informatie verloren gaat, maar alleen het plaatje wordt als relevante uitkomst gepresenteerd.
    daarmee de andere, ook relevante uitkomsten negerend, zo introduceer je een niet lineaire “totaal” resultaat, dat wel degelijk allerlei informatie negeert.

    Omdat de verkiezingen een eigen betekenis hebben, is het maar de vraag of deze betekenisloos genoemde componenten in dit geval wel zin hebben.
    Bij verkiezingen hebben ze alleen waarde als er wel betekenis aan kan worden ontleend.

    Zo stelt de auteur dat horizontaal vooral de schaal christelijk- seculier lijkt aan te geven.
    Mooi, maar voor de verkiezing in een land waar kerk en staat gescheiden zijn, is dat niet zo relevant
    Daarom noemt hij dat de horizontale schaal schaal weer correleert met de conservatief progressief.
    Dat is wel interessant, maar haal dat dan uit de statistische bewerking.

    Door ook nog namen te geven aan de stippels in een verder betekenisloos quadrant, ontstaat een schijn werkelijkheid.

    Mijn conclusie is dat deze statistiek alleen maar een aardig, betekenisloos plaatje oplevert

  24. 28

    @24 ik bedoelde natuurlijk “inwoners van Urk en Amsterdam vertonen een totaal ander stemgedrag, gemiddeld gesproken dan, waarbij opgemerkt kan worden dat er in Amsterdam óók SGP-stemmers wonen en in Urk óók mensen die niet op een christelijke partij stemmen”. Ik heb dat blijkbaar wat ongelukkig samengevat.

  25. 29

    @2 De vergelijking in het document is op basis van de aparte hoofdcomponentenanalyses van 2006 en 2010. Deze liggen zo dicht bij elkaar dat ik zo vrij ben geweest deze te vergelijken.

    Maar de vergelijking zoals jullie deze voorstellen is ook heel goed mogelijk, en ziet zo uit: http://www.weetmeer.nl/wp-content/uploads/2010/08/PCA2006-2010×1500.png. Hierbij is een hoofdcomponentenanalyse uitgevoerd op 20 variabelen (de 10 partijen in 2006 en 2010) en worden in rood de gemeenten in 2010 weergegeven, en in grijs de positie in 2006. Niet heel overzichtelijk, maar wellicht interessant.

    @18 Dat zou kunnen, maar er is geen noemenswaardige correlatie tussen hoofdcomponent 1 en de ‘Links-Rechts’ zoals opgesteld door Kieskompas. Er is wel een matige correlatie met ‘Links’, niet met ‘Rechts’.

    @19 Ik hoor het graag als jullie er in de kroeg uitgekomen zijn!

    @17 dank voor de duidelijke toelichting, ik had het zelf niet beter kunnen verwoorden :)

  26. 30

    Is er niet een relatie met economische ontwikkeling op de verticale as? De boven-gelegen gemeentes lijken alle in gebieden te liggen met moeizame economische ontwikkeling, (en achteruitlopende bevolking) zoals Limburg en noord-oost Groningen. Meer mannen dan vrouwen?

  27. 31

    @26: Nou is mijn PCA-analyse kennis wat roestig, maar rechtvaardigt dat niet om dan ook die 3e en 4e component te includeren (of anders de 2e ook te excluderen)? Ja ik weet dat dat het kaart-idee om zeep helpt, maar je bent nu eenmaal begonnen aan een objectieve exercitie.

    Het bevestigt in ieder geval het vermoeden dat er in de eerste component iets meer verborgen zit dan alleen of christelijk-seculier.

  28. 33

    @31: in principe is elke component met een eigenwaarde boven 1 “interessant”. Daarnaast zijn de hogere componenten grafisch vrij makkelijk weer te geven door er een 1d-grafiek van te maken (door aan te geven welke gemeentes laag scoren op de 3e resp. 4e component, en welke hoog). Dan mis je de ‘interactie’ tussen dimensies, maar heb je wel tenminste iets.
    @32: klopt. Zoals o.a. @31 al aangeeft, is dit (minimaal) een vierdimensionaal probleem. Dan gaat het je nooit lukken om alle nuances mooi in 1 zin vast te leggen.

  29. 34

    @31/32/33: Het liefst zou ik natuurlijk een 4D-plaatje laten zien, maar daar zijn nog geen brilletjes voor. Eventueel zou de grootte en de kleur van de cirkels nog componenten kunnen bevatten, maar daar wordt het niet duidelijker van.

    Beste alternatief voor de liefhebbers: eenzelfde diagram met de derde en vierde hoofdcomponent, en indien gewenst ook met een willekeurige andere tweedimensionale combinatie van hoofdcomponenten.

    @31: Het eerste component zal inderdaad ongetwijfeld meer ‘verbergen’ dan alleen de christelijk-seculiere verdeling. Deze correlatie is wel het sterkst (correlatiecoefficient van >0.8). Vergeleken met 300+ gegevens over gemeentes zijn er bijvoorbeeld ook sterke en matige correlaties met specifieke partijen (CU, GL, etc.), demografische (huishoudensgrootte, leefsituatie,etc.) en economische kenmerken (inkomen, bedrijfsactiviteiten, etc.).
    Het blijft natuurlijk een grote puzzel waarin het moeilijk/onmogelijk is een goed onderscheid te maken tussen statistische correlaties en daadwerkelijke causaliteit.

  30. 35

    @CaAl33, Nee, voor eigenwaarden bestaat er geen absolute grenswaarde mbt wat wel en niet interessant is, dit is nl afhankelijk van de totale kwadratensom van de data matrix. Je kunt aan de hand van een plot van de eigenwaarden (een zgn scree plot [x]) wel bepalen hoeveel componenten ‘interessant’ zijn, maar het bepalen van dat aantal is in hoge mate een kust ipv harde mathematiek. Eigenlijk ben ik meer geïnteresseerd in het totale percentage variatie verklaard door PC1,2,3 dan in de EV zelf.

    @Jasper, mooie plaatjes, goed werk, interessant om deze info zo te presenteren. Wat ik echter iets minder voor de hand vind liggen is dat de analyse op niet gecentreerde kolommen lijkt te zijn uitgevoerd (centrum is niet 0.0, z.o. [x]), nu lijkt component 1 hoofdzakelijk de beschrijving van het gemiddelde vanaf de origin (0,0) te zijn. Dit maakt de interpretatie er niet eenvoudiger op, maar mogelijk maakt het in dit geval niet veel uit en is het resultaat van de analyse op gecentreerde data een rotatie van deze resultaten.

  31. 36

    @35: de eigenwaarden zijn berekend aan de hand van de correlatiematrix, zie @26. De tien eigenwaarden tellen dus op tot tien. Het is een vrij veel gebruikte vuistregel om alleen de variabelen te beschouwen die een eigenwaarde boven de een hebben (oftewel: die variabelen die bovengemiddeld veel verklaren). In het geval van 10 variabelen komt dit trouwens exact overeen met de vuistregel om alleen de variabelen te gebruiken die minimaal 10% variantie verklaren in de link die jij gaf.

    Percentages verklaarde variantie zijn direct te berekenen: variabele 1 verklaart 38.6%, variabele 2 20.4%, var.3 15.1% en var.4 11.4%.
    Het twee-dimensionale plotje bovenaan deze pagina geeft dus informatie over 59% van de variatie in de data. Gebruiken we ook de volgende 2 variabelen, dan zitten we boven de 85%.

  32. 37

    @35: Met een scree-plot krijg je ook na de 4e variabele een knik (althans dat valt te reconstrueren uit de info van #26), al zit er ook een knik na de 1e variabele. De Eigenwaardes kun je zien als een maat voor verklaarde variatie, dus of je nu in de één of de ander werkt maakt niet zoveel verschil (al helemaal als je het aantal variabelen kent, zoals #36 beschrijft).

  33. 38

    @Bismarck37, onder het artikel staat een wiki link naar de analyse, zoals gebruikelijk is het Engelse artikel meer volledig. De beschrijving van de methode in het artikel zelf komt ook overeen met de theorie van PCA. Echter, de eigenvalues van de correlatie (itt covar) matrix hebben geen enkele relatie met de methode en zeggen daarom niets.

    Als hoofdcomponenten berekent de methode de eigenvectoren van de covariantiematrix van de gegevens en kiest daaruit de belangrijkste. Deze eigenvectoren zijn de hoofdassen van de ellipsoïde die door de covariantiematrix wordt beschreven en die min of meer de “puntenwolk” van de data voorstelt.(wiki)

    Alleen wanneer alle variabelen gecentreerd worden en unit variance hebben is cov(x)=corr(x).

    @CaAl, ok, ik had idd niet door dat het hier Eigenvalues van de corr matrix betrof en ging uit van de covar matrix. Je verhaal klopt wanneer het een correlatiematrix betreft, maar dat is geen standaard hoofdcomponenten analyse, Het aantal ev>1 in een matrix van witte ruis (x=randn(300,10)) is echter ongeveer de helft (4-6).