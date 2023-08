ANALYSE - Door Jelke Bethlehem (bijzonder hoogleraar in de survey-methodologie en verbonden aan het Instituut Politieke Wetenschap van Universiteit Leiden).

Op 22 november 2023 zijn er weer verkiezingen voor de Tweede Kamer. Dan wordt er weer volop gepeild. De vraag is of al die peilingen in staat zijn om te voorspellen hoe de uitslag van de verkiezingen eruit zal zien. Hoe accuraat zijn die peilingen eigenlijk? Om wat meer duidelijkheid te krijgen over de nauwkeurigheid van peilingen, kijken we terug naar de Tweede Kamerverkiezingen van 15 maart 2017. Voor die verkiezingen hebben we alle cijfers beschikbaar en kunnen we dus peilingen en verkiezingsuitslag met elkaar vergelijken. Zo kunnen we vaststellen hoe goed de prognoses waren.

Tijdens de verkiezingscampagne in 2017 waren verschillende peilers actief. Het LISS-Panel van de Tilburg University kwam elke dag met een nieuwe peiling. Peil van Maurice de Hond deed het elke week en de Politieke Barometer van Ipsos elke twee weken. De Stemming van GfK en de peilingen van I&O Research en Kantar TNS hadden een lagere frequentie. Al die peilingen beoogden hetzelfde te meten: het stemgedrag als er op dat moment verkiezingen zouden zijn. Peilingen die op hetzelfde moment werden uitgevoerd, zouden dus dezelfde prognose moeten opleveren. Helaas was dat niet het geval.

De grafiek hieronder laat de prognoses voor de PVV zien waarmee de peilingen eind januari / begin februari 2017 kwamen. Er blijken nogal wat verschillen tussen die peilingen te zitten. De prognoses voor de PVV lopen uiteen van 24 zetels (door het LISS-Panel) tot 35 (door Kantar TNS). Dat is een verschil van maar liefst 11 zetels. Waar komen deze verschillen vandaan?



In het ideale geval zou je voor een peiling alle pakweg ruim 13 miljoen stemgerechtigden om hun mening willen vragen. Dit is te tijdrovend en te kostbaar. Daarom beperken peilers zich tot een steekproef van een paar duizend mensen. Hun conclusies zijn dus gebaseerd op een steekproef. Die conclusies zijn alleen dan juist als die steekproef een goede afspiegeling is van de gehele populatie van kiesgerechtigden. De steekproef moet representatief zijn. Daarvoor moet je de steekproef loten uit de populatie. Zo’n steekproef noemen we een aselecte steekproef.

Als je een steekproef netjes (aselect) hebt getrokken, dan kun je de ruis in de uitkomsten kwantificeren. Dat wil zeggen dat je de maximale afwijking van de prognose kunt berekenen. Die afwijking noemen we de onzekerheidsmarge. De grafiek toont de onzekerheidsmarges in de vorm van foutbalken aan de uiteindes van de staven.

De foutbalken van, bijvoorbeeld, Peil en De Stemming overlappen elkaar. Daarom kun je niet de conclusie trekken dat de uitkomsten van de peilingen echt van elkaar verschillen. Het is de ruis die nu eenmaal in de steekproef zit. Bij het LISS-Panel en Kantar TNS is het anders. De foutbalken overlappen elkaar niet. Ze zijn duidelijk gescheiden. Er is dus een significant verschil tussen beide peilingen dat je niet kunt verklaren door de ruis van de steekproef. We moeten dan ook concluderen dat er sprake is van ‘echte’ verschillen tussen de peilingen.

Om de uitkomsten van peilingen goed te kunnen analyseren, moet je dus aselecte steekproeven gebruiken. Dat is lang niet altijd mogelijk. Dan zoeken peilers hun heil in het toepassen van zelfselectie. Ze zetten de vragenlijst van de peiling voor iedereen vrij beschikbaar op het internet. Dus iedereen die dat wil, kan meedoen. Dus ook personen die niet behoren tot de doelgroep. Soms kun je de vragenlijst zelfs meer dan één keer invullen. Dit leidt allemaal tot steekproeven die meestal verre van representatief zijn. Maar misschien nog belangrijker is het dat groepjes personen de uitkomsten van de peiling kunnen manipuleren. Zie Bethlehem (2023a) voor een aantal voorbeelden van gemanipuleerde zelfselectie-peilingen.

Als een peiling is gebaseerd op een aselecte steekproef, dan nog is dit geen garantie dat prognoses altijd nauwkeurig zijn. Een belangrijk aspect is het tijdstip van de peiling. Naarmate er meer tijd zit tussen de peiling en de verkiezingen zelf, kun je verwachten dat de prognoses minder nauwkeurig zijn. De prognoses in de tabel zijn daarvan een voorbeeld. De peilingen vonden een week of zes voor de verkiezingen plaats. De werkelijke verkiezingsuitslag voor de PVV was 20 zetels. Er zaten dus grote verschillen tussen de prognoses (variërend van 24 tot 35 zetels) en de werkelijke uitslag. De peilingen gingen door tot twee dagen voor de verkiezingen. De prognoses voor deze laatste peilingen waren een stuk beter. De afwijkingen kwamen niet boven de negen zetels uit. Zie Bethlehem (2017).

Ook Paul Whiteley (2022) beschrijft de problemen van peilen ver voor de verkiezingen. Voor een grote reeks Britse peilingen berekende hij de correlatie (samenhang) tussen prognoses en werkelijke verkiezingsuitslag. Is de correlatie gelijk aan 1, dan kun je de uitslag exact voorspellen. En een correlatie van 0 betekent dat er totaal geen verband is tussen prognose en uitslag. Whiteley toonde aan dat de correlatie lager werd naarmate er meer tijd zat tussen peiling en verkiezingsuitslag. Twee jaar voor de verkiezingen was de correlatie met een waarde van rond de 0,5 laag. En één maand voor de verkiezingen was de correlatie gestegen tot boven de 0,8. Een stuk beter dus. Ook hier moet de conclusie luiden dat het weinig zinvol is om ver voor de verkiezingen te peilen.

Peilen ver voor de dag van de verkiezingen is dus niet zo’n goed idee. Waarom zijn die vroege peilingen zo onnauwkeurig? Er zijn diverse mogelijke oorzaken. Die liggen deels bij de partijen. Het kan nog niet duidelijk zijn welke partijen wel of niet meedoen. Er kunnen na de peiling nog partijen bijkomen. Of misschien besluit een partij wel om juist niet mee te doen. De oorzaken kunnen ook bij de stemgerechtigden liggen. Die weten vaak nog niet of ze gaan stemmen en als ze denken te gaan stemmen, dan weten ze misschien nog niet op welke partij. En als ze het wel weten dan kunnen gebeurtenissen (bijvoorbeeld een verkiezingsdebat op tv) ertoe leiden dat ze van mening veranderen (een late swing).

Het zal duidelijk zijn dat peilingen niet goed bruikbaar zijn als deze ver voor de verkiezingen worden gehouden. Het is beter om niet te veel waarde te hechten aan losstaande prognoses. Beperk je hooguit tot een globale inschatting van de trend in de cijfers. Meer over de praktijk van het peilen is te vinden in Bethlehem (2023b).



Literatuur:

– Bethlehem, Jelke (2017), Hoe deden de peilers het bij de verkiezingen

– Bethlehem, Jelke (2023a), Peilingpraktijken: Over de gevaren van zelfselectie. Stator, jaargang 24, nr. 1, blz. 32-35.

– Bethlehem, Jelke (2023b), Peilingen in de praktijk. Zebra Reeks 68, Epsilon Uitgaven, Amsterdam.

– Whiteley, Paul (2022), How accurate are the polls when forecasting election outcomes well into the future? British Politics and Policy at LSE (12 July 2022).

Dit artikel verscheen eerder in De Hofvijver, de maandelijkse uitgave van het Montesquieu Instituut met beschouwingen, opinies, columns en achtergronden uit Den Haag en Brussel.