Onzeker en overschat: waarom peilingen maar peilingen zijn

Tom Louwerse 19 november 2010 , 09:50 Algemeen, GeenCommentaar

Zelfs nu er van Tweede Kamerverkiezingen voorlopig geen sprake is, berichten vrijwel alle nieuwsmedia over de (twee)wekelijkse peilingen van de Politieke Barometer en Peil.nl. Ze leggen graag alle verschillen tussen die peilingen onder het vergrootglas. Elke week schrijven kranten en websites over de verschuivingen van één of enkele zetels. Politicologen wijzen er terecht op dit soort conclusies op op drijfzand zijn gebouwd. Peilingen hebben foutmarges, zo wordt terecht opgemerkt. Hoe groot zijn die foutmarges nu precies?

De peilers kunnen het u niet vertellen. In de onderzoeksverantwoording van Peil.nl noch Politieke Barometer staat niets over de onzekerheid van de gepeilde zetelaantallen. Terwijl die onzekerheid er weldegelijk is. Je ondervraagt immers hooguit een paar duizend mensen. Als je een paar duizend andere mensen vraagt, is de uitkomst waarschijnlijk net anders. Dit wordt ook wel de foutmarge of het betrouwbaarheidsinterval genoemd. Je kunt eenvoudig berekenen hoe groot die betrouwbaarheidsinterval is, ingeval je een willekeurige (aselecte) steekproef trekt.

In een peiling met 1000 respondenten (zoals bij de Politieke Barometer), is er een (95%) foutmarge van plus of min 3,7 zetels voor een partij die dertig zetels krijgt in de peiling. Die partij kan dus in werkelijkheid een steun hebben van tussen de ruim 26 en bijna 34 zetels. Beter gezegd: je kunt er 95% zeker van zijn dat het werkelijke zetelaantal tussen de 26 en 34 zetels ligt. Met meer respondenten wordt de foutmarge kleiner, hoewel het verschil tussen 3000 en 4000 mensen niet meer zo groot is. Voor kleinere partijen is de foutmarge natuurlijk ook kleiner, maar toch nog rond de twee zetels voor een partij die tien zetels peilt. Verschuivingen tussen peilingen die binnen deze foutmarges liggen, zeggen dus niets. Ze kunnen net zo goed toevallig zijn, als ze een gevolg van een ‘echte’ kiezersverschuiving. Het is dus zeer opvallend dat de SGP in sommige peilingen altijd twee zetels scoort, zoals Joop van Holsteyn opmerkte. Als de peilers een echte willekeurige steekproef zouden trekken, zou dat zeer onwaarschijnlijk zijn: het zouden er ook regelmatig 1 of 3 moeten zijn.

Foutmarge in aselecte peilingen

Wegen
Bovenstaande foutmarges gelden voor een willekeurig getrokken steekproef. Maar het is heel lastig om een willekeurige steekproef te trekken. Niet iedereen staat in het telefoonboek of heeft internet. En als je met een klembord in het winkelcentrum gaat staan, kom je zeker geen doorsnee van de bevolking tegen. In de veelgebruikte internetpanels zijn daardoor bijvoorbeeld ouderen ondervertegenwoordigd. De peilingbureaus corrigeren hiervoor door middel van het ‘wegen’ van de resultaten. De ouderen die wél in de steekproef zitten, wegen dan bijvoorbeeld zwaarder mee in de zetelberekening, want het zijn er relatief weinig. Van kenmerken zoals leeftijd, geslacht en inkomen weet je ook precies hoe die voorkomen onder de gehele bevolking en je kunt op die manier goed wegen. Wél een probleem is het als bepaalde mensen maar heel weinig in de steekproef voorkomen: hun wegingsfactor wordt dan zo hoog, dat de resultaten nog steeds erg onzeker zijn. Wegen helpt dus wel, maar het geen perfect oplossing. Het zorgt er meestal voor dat de schatting gemiddeld beter klopt, maar de foutmarges worden er over het algemeen eerder groter dan kleiner door.

Je kunt ook weging ook proberen toe te passen om de foutmarges wat kleiner te maken. Als je bijvoorbeeld weet dat alle protestanten op het CDA stemmen, dan kun je het zetelaantal van het CDA beter voorspellen als je het aantal protestanten in de steekproef precies gelijk stelt aan het aantal protestanten in het hele land. Zulke voorspellers zijn er niet veel en ze voorspellen niet perfect. Maar het kan helpen. Eén van de voorspellende factoren is het stemgedrag in de vorige verkiezingen: een grote groep mensen stemt immers meestal op dezelfde partij. De voorspelling is niet perfect, maar het helpt wel.

Een weging naar stemgedrag in vorige verkiezingen verkleint de foutmarges, zo leert een simulatie op basis van het Nationaal Kiezers Onderzoek van 2006. Hierbij trok ik duizend keer een steekproef van 1000 mensen uit de database van dit onderzoek. Dit simuleert de mogelijke ‘peilingen’ die uit een hele bevolking zouden kunnen worden getrokken. De groene balken geven de gemiddelde verwachting van het stemmenpercentage in een ongewogen aselecte steekproef; de zwarte lijnen geven de onzekerheid van de verwachting aan. De blauwe balken geven de verwachting en onzekerheid aan van een gewogen steekproef, naar stemgedrag 2003. De gemiddelde verwachting is praktisch hetzelfde, maar de foutmarges zijn iets kleiner, met name voor de christelijke partijen die een vaste aanhang hebben. Dergelijke wegingen kunnen dus de foutmarges verkleinen, maar dat hangt sterk af van de voorspellende waarde van de wegingsvariabele. Als je weegt aan de hand van een variabele die kiesgedrag juist slecht voorspeelt, gaat de onzekerheid van de peiling alleen maar omhoog. De peilingsbureaus geven niet precies aan hoe ze wegen, dus het is lastig om te bepalen of en in hoeverre hun foutmarges worden beperkt door het wegen.

Wat beter kan
Allereerst moeten peilingbureaus duidelijk aangeven onder hoeveel mensen zijn ondervraagd en wat (bij benadering) de onzekerheid van de verwachting is. Vervolgens zou het enorm helpen als media geen onzin meer uitkramen op basis van verschuivingen tussen twee peilingen. Als trends over meerdere peilingen doorzetten, kun je met redelijke zekerheid iets zeggen. Maar als een partij van maandag op dinsdag twee zetels daalt in de peiling, hoeft dat niets te betekenen. Peilingen kunnen nuttige instrumenten zijn voor kiezers en politici. Maar wie de foutmarges vergeet, geeft geen cijfers, maar verkoopt praatjes.

Reacties (6)

#1 Jos 19 november 2010 , 10:34

Bij tussentijdse peilingen missen we het effect van een verkiezingscampagne. Peilingen in de aanloop van een verkiezing zijn daarom ook heel anders dan peilingen als er geen campagne wordt gevoerd. Wel kan er bij tussentijdse peilingen een effect optreden van (de publiciteit over) actualiteiten in een bepaalde week. Je zou de uitslag van die peiling dus niet moeten presenteren zoals nu gebeurt (..als er deze week verkiezingen zouden zijn gehouden, dan is de uitslag…) maar als een populariteitspoll die voor dit moment geldt.

Het meewegen van de vorige verkiezingsuitslag lijkt me wel te verdedigen omdat kiezers bij elke stem die ze uitbrengen hun vorige keuze ook wel zullen meewegen (al ken ik geen onderzoek waaruit dit echt zou blijken, het lijkt me wel een redelijke aanname). Anderzijds vraag ik me of of dit voor alle kiezers even zwaar telt. Bij de huidige ‘floating vote’ gaat dit misschien wel helemaal niet op.
Verder geheel eens met je pleidooi om verschuivingen in tussentijdse peilingen niet quasi diepzinnig te gaan duiden. Ik heb me altijd vreselijk geërgerd aan de volkomen vrijblijvende commentaren van Maurice de Hond.

#2 Martijn 19 november 2010 , 11:08

Misschien kunnen de peilers de wetenschappelijke conventie overnemen: “De PvdA staat op 25 [95%CI 22-28] zetels.”

#3 Paul 19 november 2010 , 11:19

De grote waarde die men hecht aan peilingen komt door een voorkeur voor tellen boven denken. Misschien is dit een variabele binnen de heersende mening dat marktwerking waardoor alles in cijfers weergegeven kan worden onontkoombaar tot een betere en transparantere etc. wereld leidt. Het aansturen van de hele wereld door te doen alsof de enige motivator hebzucht is heeft al veel goeds gebracht.

#4 Chris 19 november 2010 , 12:11

Goed punt, die foutmarge is zelfs nog alleen de 95% zekerheid. Zo bezien moet een Maurice de Hond met zn wekelijkse peiling, er jaarlijks bij elke partij 2x een echte uitschieter hebben :-)

@Tom

Zou even mn oude statistiek aantekeningen moet bekijken, maar heb daar even geen zin in, dus vraag aan jou: als je nu een voortschrijdend gemiddelde neemt van bijvoorbeeld de laatste 4 peilingen (onder 1000 mensen), heb je dan de facto hetzelfde effect als een steekproef met 4000 mensen?

#5 Cerridwen 19 november 2010 , 13:10

Goed artikel!

Ik vind al langer dat er in Nederland meer aandacht mag zijn voor peilingen en wat ze wel of niet zeggen. Ook aandacht voor hoe de peilers tot hun keuze komen mag onder het vergrootglas.

In de VS heb je veel meer peilingen waar precies dezelfde problemen spelen, maar inmiddels ook een uitgebreide internet infrastructuur die inzicht geeft in de peilingen, met lopende gemiddeldes tot complete modellen van de verwachte uitkomst. Modellen die aardig presteren wat betreft de verwachte uitslag.

In Nederland gebeurt er eigenlijk niets op dat gebied. En dat is zonde.

Mijn inschatting is dat zowel Peil als politieke barometer hun resultaten zwaar wegen om ze constant te houden. Peil gaat daarin verder wellicht, aangezien de PB springeriger is, met grotere verschillen. Peil lijkt primair op vorig stemgedrag te wegen, aangezien meningen altijd uitgesplitst worden in politieke partij, en niet in sekse, leeftijd of regio.

Een beetje meer competitie zou geen kwaad kunnen. We zitten met 3 peilers opgescheept, die er allemaal significant naast blijken te zitten op het moment dat de uitslag binnendruppelt. Het gaat dan niet om een zeteltje meer of minder. Het nederlandse politieke systeem is ook wel lastig, met die grote hoeveelheid partijen die allemaal communicerende vaten zijn.

#6 Tom Louwerse 19 november 2010 , 20:30

@4 Niet helemaal, want die peilingen zijn niet op hetzelfde moment gedaan, dus er kunnen zich ook verschuivingen in het electoraat hebben voorgedaan. Daarnaast is het lastig om peilingen van verschillende bureau’s samen te voegen, omdat ze op verschillende manieren verzameld zijn. Maar als een trend zich doorzet (bijvoorbeeld het verlies van de PVV in de recente Politieke Barometer) kun je wel met meer zekerheid zeggen dat zich echt een verschuiving heeft voorgedaan.