Chatbot fraudeert bij het eindexamen Fries

Marc van Oostendorp 1 juni 2023 , 08:00 Wetenschap & Onderwijs

Nadat ik eerder de eindexamens Nederlands (havo en vwo) en vwo-Frans door chatbots heb laten maken – voor beide slaagden de chatbots ruimschoots – leek het me interessant om het ook nog eens met Fries te doen. Voor Fries is er veel minder elektronisch leesbaar materiaal voorhanden, en aangezien kunstmatige intelligentie afhankelijk is van heel veel voorbeelden, is te voorspellen dat dit type examen veel moeilijker zal blijken te zijn.

Dat kwam uit. ChatGPT wist met het examen niets te beginnen, ook na enkele pogingen kreeg ik er niet het begin van een antwoord uit. Ze begreep niet eens dat de vragen die ik stelde gingen over de tekst die ik eerder had gegeven, en klaagde dat ze niet begreep over welke tekst ik het had. Bij Nederlands en Frans was dat allemaal geen probleem geweest. ChatGPT is aldus gezakt met een 1.

Bing, de chatbot van Microsoft (ook gebaseerd op GPT4), deed het op het gezicht ietsjes beter, maar haalde ook duidelijk een onvoldoende (18 van de 48 te behalen punten). Bovendien vertoonde het heel bizar, en frauduleus gedrag. Vragen en correctiemodel voor het eindexamen zijn hier te vinden.

Er waren 39 vragen. Omdat je aan Bing maar 20 vragen per sessie mag stellen en omdat ik de teksten apart invoerde – dat telt ook als vraag – en af en toe tussendoor een extra aanwijzing bleek te moeten geven over in welke taal Bing moest communiceren, waren er 3 verschillende sessies nodig.

In alle drie de sessies bleek Bing een andere taal te gebruiken: in de eerste wilde hij, ondanks mijn extra aanwijzingen, alleen Engels gebruiken omdat hij beweerde dat hij geen Fries kan schrijven. In de tweede deed hij ineens alles wel in het Fries. En in de derde gebruikte hij juist Nederlands. (Overigens heb ik de antwoorden steeds goedgerekend naar de inhoud en niet naar de gebruikte taal; als ik daar wel rekening mee had gehouden was het punt nog veel lager geworden.

Dan de fraude: in het Engelstalige gedeelte gaf hij zelf voortdurend toe dat hij Google Translate gebruikte om het Fries naar het Engels te vertalen en dan zo tot de antwoorden te komen, In dit gedeelte ging overigens, enigszins voorspelbaar, het meeste fout. Toen hij eenmaal in Friestalige modus stond, ging het allemaal een stuk beter, al weet ik niet zeker of hij in dit deel wel een voldoende zou hebben gehaald.

Maar dan het Nederlandse gedeelte! Hier ging van alles mis. In de eerste plaats bleek dat ook hier stiekem gewerkt werd met vertalingen in het Engels. Waar in tekst 2 sprake is van te fjochtsjen, te ferstiivjen of út te naaien blijkt dat in het antwoord ineens te gaan over ‘fight, freeze of flight’.

Maar ernstiger nog is dat Bing – op zich goudeerlijk – haar bronnen noemt, en bij het Nederlandse deel van het examen blijkt een van die bronnen ineens te zijn examenblad.nl. Bovendien zegt ze steeds bij haar antwoorden dat deze gebaseerd zijn op ‘web zoekresultaten’. Maar Examenblad is de site waar het examen op staat – én het correctiemodel! Ja, zo kan ik het examen ook maken (overigens doet Bing het ook ondanks dit afkijken nog steeds niet heel erg goed).

Grappig is dat ook de DBNL als bron wordt genoemd, misschien omdat de eerste tekst ging over Friese literatuur, en daar besteedt de DBNL natuurlijk ook aandacht aan.

Het doet natuurlijk wel de vraag rijzen in hoeverre ook bij eerdere geslaagde examens al gebruik is gemaakt van die antwoordmodellen. ChatGPT schijnt niet op internet te kunnen kijken. In ieder geval beweren de makers dat, maar kunnen we daarop vertrouwen en geldt dat voor Bing ook?

Download: Antwoorden van Bing, de chatbot van Microsoft bij Centraal eindexamen Fries, vwo 2023.

Reacties (3)

#1 Onbekende 1 juni 2023 , 17:36

Chatgpt3 kan inderdaad niet actief het internet op.
Maar voor de trainingsets zullen sites als examenblad.nl gewoon zijn leeggetrokken. Dus hij hoeft ook niet actief het internet door te zoeken om de correctiemodellen te vinden, die zitten namelijk allang verweven in het model.

Dit is dan ook een van de voornaamste reden dat deze modellen het zo goed doet op gestandaardiseerde examens.

#1.1 Co Stuifbergen - Reactie op #1 2 juni 2023 , 10:21

Ik dacht dat ChatGPT zich baseerde op websites tot 2 jaar geleden.
(actuele vragen over de oorlog in Oekraïne zou hij dus niet goed beantwoorden).

Ik denk at correctiemodellen van oude examens niet heel veel helpen bij een nieuw examen.

#1.2 Onbekende - Reactie op #1.1 3 juni 2023 , 09:29

Klopt, als je je examen extreem toespits op actuele zaken zal chatGPT er niet uitkomen.

Maar, zoveel veranderen de meeste examens nu ook weer niet, plus, de focus voor examens roteert doorgaans (e.g. eens in de 5 jaar is Ovidius het onderwerp bij Latin o.i.d.). En chatGPT heeft toegang tot decenia aan lesmateriaal; van correctiemodellen, en lesboeken tot huiswerkbegeleidingsites en werkstukken die studenten zelf online delen.

Dus de kans is vrij groot dat hij ergens wel een correct voorbeeld vindt in een oud examen o.i.d.