DATA - Daar we hier met regelmaat aandacht besteden aan de beroerde toegankelijkheid van de parlementaire documentatie, plaatsen we hier een bijdrage van Maarten Marx door van Political Mashup.
Elsevier heeft in 2009 een mooie verzameling met alle 30 troonredes van Koningin Beatrix tot dan toe uitgegeven, getiteld Redes van de Troon. Tijdens de feestelijke opening van statengeneraaldigitaal.nl vertelde Elsevier’s hoofdredacteur Arendo Joustra hoe eenvoudig het was om met die zoekmachine de troonredes bij elkaar te verzamelen.
Dat is zeker het geval voor de “oude” Handelingen. Dat is alles van voor 1 Januari 1995. Dat staat bij statengeneraaldigitaal.nl en is daar prima te vinden. Jammer genoeg geldt niet hetzelfde voor het “moderne” deel van de Handelingen, alles vanaf 1 Januari 1995 tot zo’n drie weken geleden. Die staan op de opvolger van Parlando, https://zoek.officielebekendmakingen.nl/.
Wij hebben op 29 November 2010 de proef op de som genomen, en gingen op zoek naar de 16 troonredes uitgesproken vanaf 1995. We konden er slechts 13 van de 16 vinden, een recall van 81%. Vijf van de 16 troonredes hebben verkeerde of missende metadata waardoor ze niet of moeilijker te vinden zijn. Met 37.5% van de troonredes is dus iets mis.
De precieze beschrijving van ons onderzoekje staat hieronder. Dit is niet de enige ommissie binnen https://zoek.officielebekendmakingen.nl/.
In een volgende blogpost zullen we nog wat meer missende gegevens laten zien.
Precieze beschrijving van het zoekproces
De Handelingen der Staten Generaal zijn na 1 Januari 1995 te vinden op https://zoek.officielebekendmakingen.nl/.
Wij hebben gezocht met troonrede als trefwoord voorkomend in de titel, met als restrictie alleen Handelingen, en alleen uit de Verenigde Vergadering. Deze zoekvraag leverde 11 hits op. Dit zijn er 5 te weinig. De volgende jaren hebben geen troonrede:
2010, 2009, 1998, 1997, 1995
Misschien hebben we onze zoekvraag teveel beperkt met de beperking tot Verenigde Vergadering. Inderdaad, dezelfde zoekvraag zonder die beperking levert 13 hits op. De jaren 2010 en 1998 worden nu opeens wel gevonden. Nog steeds mist dus 2009, 1997 en 1995.
Verder zoeken
Hoe kom je er nu achter of iets wel bestaat als je het niet kan vinden?
Als we zoeken op alles van de Verenigde Vergadering krijgen we 60 hits. Dit is de zoekvraag. De bovenste is gek genoeg uit 2009, en inderdaad, een troonrede, zij het alleen in PDF formaat.
Het is handig dat we op datum kunnen sorteren, en dat doen we, met de oudste bovenaan. Dan zien we het volgende.
De troonrede uit 1995 zit er niet bij, want de eerste hit komt uit 1996-09-17.
Er zijn wel erg veel hits op die dag, en ze zien er niet als gebruikelijke agendapunten van de Verenigde Vergadering uit. Inderdaad, de eerste hit is al meteen fout, dit zijn Handelingen uit de Tweede Kamer.
Na 32 stukken uit de Tweede Kamer uit 1996 komen we bij de stukken uit 1997, en daar zit warempel de troonrede verstopt tussen, getiteld “Presentie en Opening“. De eerste hit uit 1997 is weer een stuk uit de Eerste Kamer, net als het stuk uit 1997 volgend op de troonrede.
Met een flinke portie geluk hebben we toch nog 2 van de laatste 3 missende troonredes gevonden.
Of die van 1995 er wel inzit weten we niet. En of die ooit in Parlando zat? Jahoor, als document HAN3135.pdf, en met als bibliografische omschrijving Presentie en Troonrede 1995.
Voor de volledigheid hebben we die PDF hier maar bijgevoegd: han31351.pdf
Information Retrieval aspecten
Precisie is een maat voor de correctheid van de hits die je terugkrijgt van een zoekmachine. Google haalt vaak wel een precisie van 40% op de eerste pagina. Dat betekent dat 4 van de eerste 10 hits goed zijn.
We kunnen de precisie op onze zoekvraag ook makkelijk uitrekenen. We hebben gevraagd naar alle documenten uit de Verenigde Vergadering (VV), en alleen naar die.
Uit 1996 hadden we 32 hits, waarvan er 1 uit de VV kwam, een precisie van 3%. In 1997 waren er 9 hits, waarvan 1 uit de VV, een precisie van 11%. De rest van de hits leek wel correct. Dus 21 van de 60 hits zijn correct. Dat is één op de drie.
Recall is een maat voor de volledigheid van een zoeksysteem. Het begin van dit stuk ging daar steeds over. Geeft onze zoekvraag alle relevante documenten terug? Na een hoop rommelen kregen we de recall omhoog van 11 van de 16, via 13 van de 16, naar uiteindelijk 15 van de 16.
Daarbij is aangetekend dat de precisie enorm naar beneden kelderde. Op onze eerste vraag naar “troonredes uit de VV” hadden we 11 hits, en die waren allemaal goed. Een precisie van 100% dus.
De prijs voor het behalen van een recall van 15/16 (= 94%) was een precisie van 21/60 (= 35%).
Concreet betekent dat dat een gebruiker zelf door allemaal niet-relevante resultaten moet vlooien om die paar juiste boven water te halen. Een vervelende klus, en bevreemdend want daar hebben we computers toch juist voor?
Reacties (6)
Nrc Archieven ? Sinds 1991.
Vraag Wikileaks of er een archivaris wil lekken?
@2 Makkelijker en goedkoper: laten majesteit ze opnieuw inspreken.
Is het sowieso niet de makke van ALLE websites met interne zoekfunctie? Als het elders ook rammelt is het misschien toch ook een kwestie van slechte diagnostiek tussen IT- boer en betreffende slome duikelaar van een overheidsarchivaris…
Hoe-dan-ook, heb het stuk in 1 ruk uitgelezen. Verlang echter opeens heftig naar thee met een koekje of sjokoladedingetje of iets anders om de bloedsuikerspiegel weer wat op te krikken…