Je weet niet wat de chatbot weet

Nooit zal het wonder van de taalmachine die mens heet bezongen zijn. Wat wij allemaal niet weten en kunnen! Een verschil maken tussen de volgende zinnen bijvoorbeeld: Dit is de man die de vrouw die wilde aanvallen weggejaagd had. Dit is de man die de vrouw die wilde aanvallen mij weggejaagd had. Als jij ook een Nederlandsetaalmachine bent, en dat ben je, anders zou je dit niet lezen, dan voel je meteen aan dat de eerste zin grammaticaal juist is, maar de tweede niet. Waarom? De tweede zin kan zelfs betekenis hebben. Zoals de eerste een andere vorm is van de zin: De vrouw die wilde aanvallen had de man weggejaagd. zo zou de tweede ongeveer kunnen betekenen: De vrouw die de man wilde aanvallen had mij weggejaagd. Materie Zoals uit de eerste zin de man naar voren is gehaald als lijdend voorwerp van wegjagen, zo zou het in de tweede naar voren zijn gehaald als lijdend voorwerp van aanvallen. Waarom kan dat tweede niet? En vooral: hoe weten wij dat die tweede zin niet kan? Nooit heeft iemand ons de reden verklaard – tenzij we behalve taalmachines ook docenten syntaxis zijn. Ook heeft niemand ons ooit op zo’n zin gewezen en gezegd: dat kun je dus niet zeggen, je kunt een zinsdeel zoals man wel naar voren halen als het lijdend voorwerp is van de hoofdzin, maar niet als het lijdend voorwerp is van een bijzin van het onderwerp. Als je niet diep in de materie zit, moet je de vorige zin misschien wel twee keer overlezen. Maar je voelt wat daar is uitgedrukt wel aan – je weet immers dat die zin niet goed is, ook al kun je niet uitdrukken hoe dat zit. Verbouwd Er is een oud, leuk boek over taalkunde dat Je weet niet wat je weet heet: we weten kennelijk dingen over de grammatica waarvan we niet eens weten dat we ze weten. Weet de chatbot die dingen ook? Daarover gaat een interessant artikel van de Utrechtse taalkundigen Iris Mulders en Eddy Ruys in het nieuwe Nederlandse taalkundige tijdschrift Nota Bene. Chatbots leren taal alleen maar op basis van voorbeelden. Heel veel voorbeelden, weliswaar, maar ook chatbots wordt er vermoedelijk nooit op gewezen dat de tweede hierboven genoemde zin weliswaar een logische structuur heeft, maar toch ongrammaticaal is. In hun artikel laten Mulders en Ruys zien dat ChatGPT desalniettemin, als je het op de juiste manier vraagt, verschil weet te maken tussen de genoemde zinnen. Dat wil zeggen: hij wijst de juiste zinnen als ongrammaticaal aan. Ik heb het geprobeerd met een andere truc, en daarin blijkt ook wel iets van datzelfde taalgevoel: de zin moet behoorlijk verbouwd worden om er iets van te maken: Het opwindende van de komst van chatbots is dat er voor het eerst in de geschiedenis van de mensheid andere objecten zijn die menselijke taal voortbrengen. Daar zullen we hopelijk veel van leren – zoals hoe dat nu kan, dat we dat zo abstracte verschil tussen zinnen kunnen vatten

Door: Foto: James grills, CC BY-SA 4.0 , via Wikimedia Commons.
Foto: ter illustratie Restaurant O'Panuozzo Utrecht, via Marc van Oostendorp op Neerlandistiek.

Waarheid voor chatbots

Wat is onwaar? De komst van chatbots heeft weer een nieuwe draai gegeven aan die vraag. Het is inmiddels vermoedelijk algemeen bekend dat chatbots niet altijd de waarheid zeggen. Maar wat is dat dan voor onwaarheid? Het is bijvoorbeeld geen leugen, aangezien een leugen altijd een intentie tot misleiden vereist, iets wat (vermoedelijk) afwezig is bij chatbots. We noemen het daarom vaak hallucinatie, al is ook dat een niet helemaal geschikte term, bijvoorbeeld omdat hij veronderstelt dat er voor de chatbot een verschil is tussen wakend en dromend denken, maar voor die chatbots is het (vermoedelijk) allemaal hetzelfde.

Voor zover we chatbots begrijpen, hebben ze helemaal geen notie van waarheid – of iets waar is of onwaar, speelt geen rol in hun overwegingen om iets te zeggen, andere criteria (hoevaak komen woorden in elkaars omgeving voor) zijn daarin veel belangrijker. Vandaar dat bots moeite hebben met het woord niet: de zin hij komt niet heeft ongeveer dezelfde plausibiliteit als hij komt.

Waterdruppels

Alleen willen menselijke gebruikers wel iets anders. ChatGPT is inmiddels bijna anderhalf jaar beschikbaar, en nog steeds vind je op sociale media mensen die geamuseerd of verontwaardigd voorbeelden geven van onzinnige chatbotantwoorden op zinnige vragen.

Een begrip van waarheid inbouwen in die chatbots staat daarom waarschijnlijk hoog op het lijstje van ontwikkelaars. Daarvoor is dan weer een goed criterium nodig om hallucinaties te classificeren. In het tijdschrift Computational linguistics komt Kees van Deemter met een oplossing: de klassieke logica. Dat is een vak dat al duizenden jaren nadenkt over wat een bewering wel of niet waar maakt, en Van Deemter zegt dat die hier ook al iets over kan zeggen.

Lezen: Venus in het gras, door Christian Jongeneel

Op een vroege zomerochtend loopt de negentienjarige Simone naakt weg van haar vaders boerderij. Ze overtuigt een passerende automobiliste ervan om haar mee te nemen naar een afgelegen vakantiehuis in het zuiden van Frankrijk. Daar ontwikkelt zich een fragiele verstandhouding tussen de twee vrouwen.

Wat een fijne roman is Venus in het gras! Nog nooit kon ik zoveel scènes tijdens het lezen bijna ruiken: de Franse tuin vol kruiden, de schapen in de stal, het versgemaaide gras. – Ionica Smeets, voorzitter Libris Literatuurprijs 2020.

Doneer voor ¡eXisto!, een boek over trans mannen in Colombia

Fotograaf Jasper Groen heeft jouw hulp nodig bij het maken van ¡eXisto! (“Ik besta!”). Voor dit project fotografeerde hij gedurende meerdere jaren Colombiaanse trans mannen en non-binaire personen. Deze twee groepen zijn veel minder zichtbaar dan trans vrouwen. Met dit boek wil hij hun bestaan onderstrepen.

De ruim dertig jongeren in ¡eXisto! kijken afwisselend trots, onzeker of strak in de camera. Het zijn indringende portretten die ook ontroeren. Naast de foto’s komen bovendien persoonlijke en vaak emotionele verhalen te staan, die door de jongeren zelf geschreven zijn. Zo wordt dit geen boek óver, maar mét en voor een belangrijk deel dóór trans personen.

Foto: James Royal-Lawson (cc)

AI als stemhulp

Met nog een week te gaan tot de Tweede Kamerverkiezingen, telt ons overzicht van stemwijzers en stemhulpen meer dan 30 tools en overzichten die je helpen je stem te bepalen. Naast de bekende StemWijzer en meerdere varianten van het Kieskompas, zijn er zeven kieswijzers met stellingen over specifieke onderwerpen en nog eens zeven stemhulpen die je stem bepalen op basis van historisch stemgedrag van partijen in de Tweede Kamer in de afgelopen jaren. We vonden daarnaast vijftien overzichten van standpunten op specifieke onderwerpen zoals klimaat, vrouwenrechten, duurzame economie, open overheid en mensenrechten.

De opkomst van generatieve AI die zelf teksten en beelden kan maken – denk aan ChatGPT en DALL-E – zorgt uiteraard voor een aantal nieuwe stemhulpen gebaseerd op AI. Kieswaizer, gemaakt door een softwarebedrijf, is de meest experimentele AI-tool die we tegenkwamen. Na het beantwoorden van tien door kunstmatige intelligentie gegenereerde vragen worden de antwoorden geanalyseerd met behulp van AI en rolt er een persoonlijke stemadvies uit. In de disclaimer lezen we: “geen garanties voor de juistheid, volledigheid of geschiktheid van de verstrekte informatie.” WijsStemmer [edit: is inmiddels offline] is een AI-chatbot die vragen beantwoordt over de verkiezingsprogramma’s, met verwijzingen naar de relevante passages in de verkiezingsprogramma’s. Je kunt ook kiezen voor ‘simpele taal’ maar ons viel op dat deze versie niet altijd het volledige standpunt weergeeft. De AI-stemwijzer is een simpele tool die je helpt met het doorzoeken en vergelijken van verkiezingsprogramma’s. Het meest verrassend is de AI-toepassing van de Stichting Politieke Academie die met behulp van DALL·E 3 – een AI die beelden creëert uit tekstuele beschrijvingen – verkiezingsprogramma’s visualiseert.

Foto: dcJohn (cc)

Chatbot fraudeert bij het eindexamen Fries

Nadat ik eerder de eindexamens Nederlands (havo en vwo) en vwo-Frans door chatbots heb laten maken – voor beide slaagden de chatbots ruimschoots – leek het me interessant om het ook nog eens met Fries te doen. Voor Fries is er veel minder elektronisch leesbaar materiaal voorhanden, en aangezien kunstmatige intelligentie afhankelijk is van heel veel voorbeelden, is te voorspellen dat dit type examen veel moeilijker zal blijken te zijn.

Dat kwam uit. ChatGPT wist met het examen niets te beginnen, ook na enkele pogingen kreeg ik er niet het begin van een antwoord uit. Ze begreep niet eens dat de vragen die ik stelde gingen over de tekst die ik eerder had gegeven, en klaagde dat ze niet begreep over welke tekst ik het had. Bij Nederlands en Frans was dat allemaal geen probleem geweest. ChatGPT is aldus gezakt met een 1.

Bing, de chatbot van Microsoft (ook gebaseerd op GPT4), deed het op het gezicht ietsjes beter, maar haalde ook duidelijk een onvoldoende (18 van de 48 te behalen punten). Bovendien vertoonde het heel bizar, en frauduleus gedrag. Vragen en correctiemodel voor het eindexamen zijn hier te vinden.

Er waren 39 vragen. Omdat je aan Bing maar 20 vragen per sessie mag stellen en omdat ik de teksten apart invoerde – dat telt ook als vraag – en af en toe tussendoor een extra aanwijzing bleek te moeten geven over in welke taal Bing moest communiceren, waren er 3 verschillende sessies nodig.

Doneer!

Sargasso is een laagdrempelig platform waarop mensen kunnen publiceren, reageren en discussiëren, vanuit de overtuiging dat bloggers en lezers elkaar aanvullen en versterken. Sargasso heeft een progressieve signatuur, maar is niet dogmatisch. We zijn onbeschaamd intellectueel en kosmopolitisch, maar tegelijkertijd hopeloos genuanceerd. Dat betekent dat we de wereld vanuit een bepaald perspectief bezien, maar openstaan voor andere zienswijzen.

In de rijke historie van Sargasso – een van de oudste blogs van Nederland – vind je onder meer de introductie van het liveblog in Nederland, het munten van de term reaguurder, het op de kaart zetten van datajournalistiek, de strijd voor meer transparantie in het openbaar bestuur (getuige de vele Wob-procedures die Sargasso gevoerd heeft) en de jaarlijkse uitreiking van de Gouden Hockeystick voor de klimaatontkenner van het jaar.

Lezen: Bedrieglijk echt, door Jona Lendering

Bedrieglijk echt gaat over papyrologie en dan vooral over de wedloop tussen wetenschappers en vervalsers. De aanleiding tot het schrijven van het boekje is het Evangelie van de Vrouw van Jezus, dat opdook in het najaar van 2012 en waarvan al na drie weken vaststond dat het een vervalsing was. Ik heb toen aangegeven dat het vreemd was dat de onderzoekster, toen eenmaal duidelijk was dat deze tekst met geen mogelijkheid antiek kon zijn, beweerde dat het lab uitsluitsel kon geven.

Foto: Gemaakt met DALL·E thinking fast and thinking slow

Chatbot kan niet langzaam denken

Het menselijk gedruis over tekst producerende kunstmatige intelligentie zal nog wel even voortduren. ChatGPT hielp me begin deze maand een artikel schrijven dat volgens sommigen behoorde tot het beste dat ik ooit schreef. Sindsdien ben ik ermee blijven experimenteren – vaak nog verbaasd over wat het systeem ineens bleek te kunnen bedenken, maar gaandeweg toch ook steeds meer vertrouwd met de beperkingen: de doodsheid van het geproduceerde proza (of van de geproduceerde plaatjes), de weigering om er ooit iets bij te leren.

Bijna 25 jaar geleden schreef ik een stuk, ‘grandeur en misère van de computertaalwetenschap‘. Ik weet niet of ik kan zeggen dat ik het toen goed zag; ik weet wel dat ik het nog op dezelfde manier zie. Aan het eind van het stuk wees ik er op dat dommekracht waarschijnlijk de toekomst was: computers die op basis van een enorme verzameling voorbeeldteksten aan de hand van statistiek steeds weer nieuwe teksten kunnen maken die op de oude lijken. Na “op een mooie” volgt meestal pinksterdag en dus schrijf je ‘op een mooie pinksterdag’.

Ratio

Dat is precies het principe waarop de systemen die nu furore maken gebouwd zijn. Ik voorzag dit indertijd niet omdat ik nu zo’n visionair was, maar omdat iedereen die zich er 25 jaar geleden een beetje in verdiepte het kon zien.

Foto: Jon Phillips (cc)

Wachten op kunstmatige intelligentie die context begrijpt

Hoe weinig ontwikkeld ze ook zijn, we kunnen de assistenten en bots op dit moment wel degelijk beschouwen als een soort robots waar we in de toekomst nauw mee gaan samenwerken, -wonen en –leven. Een update over chatbots en virtuele assistenten.

De afgelopen twee jaar zijn zowel spraakherkenning als spraaksynthese enorm verbeterd. Ook het aanbod aan spraakgestuurde systemen, dat twee jaar geleden nog werd gedomineerd door Siri, Cortana en Google Assistant, heeft zich verder ontwikkeld: zo is in twee jaar tijd Amazon’s Alexa marktleider geworden. Het enige wat nog ontbreekt is begrip van de context – een absolute voorwaarde om spraakbesturing echt tot een leidende technologie te maken.

Spraakherkenning heeft een nauwkeurigheid bereikt waarbij het verschil met mensen grotendeels is weggevallen. De Chinees-Engelse vertaalmachine iFlytek maakt minder dan 2 procent fouten, mede dankzij de 4,5 miljard spraakfiles die per dag aan het systeem worden toegevoegd. iFlytek is een startup uit 1999, opgezet door een doctoraalstudent van een regionale universiteit in Hefei, China. Ook Google haalt met gemak 95 procent. Maar de grootste stap voor spraaktechnologie moet nog gezet worden. En dat is de stap naar grootschalige toepassing door consumenten, bijvoorbeeld door het gebruik van virtuele assistenten.

Lezen: De BVD in de politiek, door Jos van Dijk

Tot het eind van de Koude Oorlog heeft de BVD de CPN in de gaten gehouden. Maar de dienst deed veel meer dan spioneren. Op basis van nieuw archiefmateriaal van de AIVD laat dit boek zien hoe de geheime dienst in de jaren vijftig en zestig het communisme in Nederland probeerde te ondermijnen. De BVD zette tot tweemaal toe personeel en financiële middelen in voor een concurrerende communistische partij. BVD-agenten hielpen actief mee met geld inzamelen voor de verkiezingscampagne. De regering liet deze operaties oogluikend toe. Het parlement wist van niets.

Foto: Sargasso achtergrond wereldbol

Chatbots gaan steeds meer op mensen lijken

Chatbots gaan steeds meer op échte mensen lijken, constateert Stijn Friederichs, PhD student Psychologie aan de Open Universiteit. Een nieuwe aflevering in de serie Intieme Technologie van het Rathenau Instituut.

Iedereen die wel eens op de website van een zeker Zweeds meubelbedrijf komt, zal haar kennen: Anna. Gehuld in het welbekende geel-blauw en met een uitnodigende glimlach op het gezicht staat ze altijd klaar om al je vragen over bureaus, kastjes en andere meubelstukken te beantwoorden. Ik heb haar kort geleden nog gesproken. In eerste instantie maakte Anna een robot-achtige indruk op me, maar naarmate het gesprek vorderde bespeurde ik steeds meer menselijke trekjes in deze virtuele dame.

Virtuele personen zoals Anna kom je steeds vaker tegen op internet. Volgens chatbots.org bestaan er momenteel al zo’n 100 Nederlandse exemplaren. Deze worden bijvoorbeeld gebruikt door bedrijven om vragen van klanten te beantwoorden om zo te kunnen besparen op de klantenservice. Maar vaak zijn ze tot veel meer in staat dan antwoord geven op domeinspecifieke vragen. Zo kan Anna bijvoorbeeld redelijk adequaat reageren op koetjes en kalfjes. Bovendien wordt haar kennis steeds verder uitgebreid op basis van nieuwe vragen en opmerkingen van klanten. Hierdoor gaat Anna steeds adequater, menselijker, reageren op alles wat je tegen haar zegt.