Waarheid voor chatbots

Wat is onwaar? De komst van chatbots heeft weer een nieuwe draai gegeven aan die vraag. Het is inmiddels vermoedelijk algemeen bekend dat chatbots niet altijd de waarheid zeggen. Maar wat is dat dan voor onwaarheid? Het is bijvoorbeeld geen leugen, aangezien een leugen altijd een intentie tot misleiden vereist, iets wat (vermoedelijk) afwezig is bij chatbots. We noemen het daarom vaak hallucinatie, al is ook dat een niet helemaal geschikte term, bijvoorbeeld omdat hij veronderstelt dat er voor de chatbot een verschil is tussen wakend en dromend denken, maar voor die chatbots is het (vermoedelijk) allemaal hetzelfde. Voor zover we chatbots begrijpen, hebben ze helemaal geen notie van waarheid – of iets waar is of onwaar, speelt geen rol in hun overwegingen om iets te zeggen, andere criteria (hoevaak komen woorden in elkaars omgeving voor) zijn daarin veel belangrijker. Vandaar dat bots moeite hebben met het woord niet: de zin hij komt niet heeft ongeveer dezelfde plausibiliteit als hij komt. Waterdruppels Alleen willen menselijke gebruikers wel iets anders. ChatGPT is inmiddels bijna anderhalf jaar beschikbaar, en nog steeds vind je op sociale media mensen die geamuseerd of verontwaardigd voorbeelden geven van onzinnige chatbotantwoorden op zinnige vragen. Een begrip van waarheid inbouwen in die chatbots staat daarom waarschijnlijk hoog op het lijstje van ontwikkelaars. Daarvoor is dan weer een goed criterium nodig om hallucinaties te classificeren. In het tijdschrift Computational linguistics komt Kees van Deemter met een oplossing: de klassieke logica. Dat is een vak dat al duizenden jaren nadenkt over wat een bewering wel of niet waar maakt, en Van Deemter zegt dat die hier ook al iets over kan zeggen. Een belangrijk begrip in de logica is ‘volgen uit’. Uit de bewering dat Marie zingt volgt dat Marie geluid maakt, maar het omgekeerde is niet waar: uit de bewering dat Marie geluid maakt volgt niet noodzakelijkerwijs dat ze ook zingt. Soms volgen twee beweringen wel uit elkaar dan zijn ze equivalent: uit de bewering dat het regent volgt dat er waterdruppels uit de hemel vallen, en het omgekeerde is ook waar. Omissies Dit begrip ‘volgen uit’ zou je ook kunnen gebruiken voor hallucinaties, zegt Van Deemter. Stel dat je weet dat de volgende drie zaken feiten zijn over Panuozzo: Panuozzo is Italiaans en Panuozzo is een restaurant en de prijzen bij Panuozzo zijn laag Verschillende chatbots wordt nu gevraagd iets te zeggen over Panuozzo. Dan kunnen zich onder andere de volgende beweringen voordoen: Panuozzo is een betaalbaar Italiaans restaurant. [waar] Panuozzo is een betaalbaar restaurant [weglating] Panuozzo is een betaalbaar veganistisch Italiaans restaurant [toevoeging] In het laatste geval zouden we zeggen dat de chatbot hallucineert: hij voegt iets toe aan de mededeling dat niet correspondeert met de bekende waarheid. Maar wat nu over de volgende mededeling: Panuozzo is een betaalbaar Frans restaurant. Je zou kunnen zeggen dat hier zowel een feit wordt weggelaten (dat het een Italiaans restaurant is) als wordt toegevoegd (dat het een Frans restaurant) zou zijn. Dit soort betrekkelijk eenvoudige bewerkingen maken het mogelijk om de afwijkingen van de waarheid, en dus de mate waarin een systeem hallucineert, te kwantificeren (‘een duur Frans restaurant’ zijn twee afwijkingen en ‘een duur veganistisch Italiaans restaurant’ is er één). In ieder geval in principe, want in werkelijkheid is de verzameling dingen die mogelijk wel of niet waar zijn over Panuozzo natuurlijk veel groter dan drie (het is gevestigd in Utrecht, het heeft zelfs twee vestigingen, er staan allerlei dingen op de menukaart die je kunt opsommen, enzovoort), dus met name het aantal omissies is in een willekeurige mededeling al snel heel groot. Output Zoals omgekeerd er natuurlijk feiten zijn die soms volgen uit elkaar. Als we weten dat Panuozzo een Italiaans restaurant is, weten we ook dat het een Mediterraan restaurant is. Dat te beweren is dus geen hallucinatie maar met de mededeling ‘Panuozzo is een betaalbaar Mediterraans Italiaans restaurant’ is wel weer iets anders mis: redundantie. We zijn er nog lang niet uit, maar het is interessant dat ook een van de oudste disciplines ter wereld – die van de logica – nog wat te zeggen heeft bij de beoordeling van de output van chatbots.

Door: Foto: ter illustratie Restaurant O'Panuozzo Utrecht, via Marc van Oostendorp op Neerlandistiek.
Foto: James Royal-Lawson (cc)

AI als stemhulp

Met nog een week te gaan tot de Tweede Kamerverkiezingen, telt ons overzicht van stemwijzers en stemhulpen meer dan 30 tools en overzichten die je helpen je stem te bepalen. Naast de bekende StemWijzer en meerdere varianten van het Kieskompas, zijn er zeven kieswijzers met stellingen over specifieke onderwerpen en nog eens zeven stemhulpen die je stem bepalen op basis van historisch stemgedrag van partijen in de Tweede Kamer in de afgelopen jaren. We vonden daarnaast vijftien overzichten van standpunten op specifieke onderwerpen zoals klimaat, vrouwenrechten, duurzame economie, open overheid en mensenrechten.

De opkomst van generatieve AI die zelf teksten en beelden kan maken – denk aan ChatGPT en DALL-E – zorgt uiteraard voor een aantal nieuwe stemhulpen gebaseerd op AI. Kieswaizer, gemaakt door een softwarebedrijf, is de meest experimentele AI-tool die we tegenkwamen. Na het beantwoorden van tien door kunstmatige intelligentie gegenereerde vragen worden de antwoorden geanalyseerd met behulp van AI en rolt er een persoonlijke stemadvies uit. In de disclaimer lezen we: “geen garanties voor de juistheid, volledigheid of geschiktheid van de verstrekte informatie.” WijsStemmer [edit: is inmiddels offline] is een AI-chatbot die vragen beantwoordt over de verkiezingsprogramma’s, met verwijzingen naar de relevante passages in de verkiezingsprogramma’s. Je kunt ook kiezen voor ‘simpele taal’ maar ons viel op dat deze versie niet altijd het volledige standpunt weergeeft. De AI-stemwijzer is een simpele tool die je helpt met het doorzoeken en vergelijken van verkiezingsprogramma’s. Het meest verrassend is de AI-toepassing van de Stichting Politieke Academie die met behulp van DALL·E 3 – een AI die beelden creëert uit tekstuele beschrijvingen – verkiezingsprogramma’s visualiseert.

Lezen: Venus in het gras, door Christian Jongeneel

Op een vroege zomerochtend loopt de negentienjarige Simone naakt weg van haar vaders boerderij. Ze overtuigt een passerende automobiliste ervan om haar mee te nemen naar een afgelegen vakantiehuis in het zuiden van Frankrijk. Daar ontwikkelt zich een fragiele verstandhouding tussen de twee vrouwen.

Wat een fijne roman is Venus in het gras! Nog nooit kon ik zoveel scènes tijdens het lezen bijna ruiken: de Franse tuin vol kruiden, de schapen in de stal, het versgemaaide gras. – Ionica Smeets, voorzitter Libris Literatuurprijs 2020.

Lezen: Het wereldrijk van het Tweestromenland, door Daan Nijssen

In Het wereldrijk van het Tweestromenland beschrijft Daan Nijssen, die op Sargasso de reeks ‘Verloren Oudheid‘ verzorgde, de geschiedenis van Mesopotamië. Rond 670 v.Chr. hadden de Assyriërs een groot deel van wat we nu het Midden-Oosten noemen verenigd in een wereldrijk, met Mesopotamië als kernland. In 612 v.Chr. brachten de Babyloniërs en de Meden deze grootmacht ten val en kwam onder illustere koningen als Nebukadnessar en Nabonidus het Babylonische Rijk tot bloei.

Foto: dcJohn (cc)

Chatbot fraudeert bij het eindexamen Fries

Nadat ik eerder de eindexamens Nederlands (havo en vwo) en vwo-Frans door chatbots heb laten maken – voor beide slaagden de chatbots ruimschoots – leek het me interessant om het ook nog eens met Fries te doen. Voor Fries is er veel minder elektronisch leesbaar materiaal voorhanden, en aangezien kunstmatige intelligentie afhankelijk is van heel veel voorbeelden, is te voorspellen dat dit type examen veel moeilijker zal blijken te zijn.

Dat kwam uit. ChatGPT wist met het examen niets te beginnen, ook na enkele pogingen kreeg ik er niet het begin van een antwoord uit. Ze begreep niet eens dat de vragen die ik stelde gingen over de tekst die ik eerder had gegeven, en klaagde dat ze niet begreep over welke tekst ik het had. Bij Nederlands en Frans was dat allemaal geen probleem geweest. ChatGPT is aldus gezakt met een 1.

Bing, de chatbot van Microsoft (ook gebaseerd op GPT4), deed het op het gezicht ietsjes beter, maar haalde ook duidelijk een onvoldoende (18 van de 48 te behalen punten). Bovendien vertoonde het heel bizar, en frauduleus gedrag. Vragen en correctiemodel voor het eindexamen zijn hier te vinden.

Er waren 39 vragen. Omdat je aan Bing maar 20 vragen per sessie mag stellen en omdat ik de teksten apart invoerde – dat telt ook als vraag – en af en toe tussendoor een extra aanwijzing bleek te moeten geven over in welke taal Bing moest communiceren, waren er 3 verschillende sessies nodig.

Foto: Gemaakt met DALL·E thinking fast and thinking slow

Chatbot kan niet langzaam denken

Het menselijk gedruis over tekst producerende kunstmatige intelligentie zal nog wel even voortduren. ChatGPT hielp me begin deze maand een artikel schrijven dat volgens sommigen behoorde tot het beste dat ik ooit schreef. Sindsdien ben ik ermee blijven experimenteren – vaak nog verbaasd over wat het systeem ineens bleek te kunnen bedenken, maar gaandeweg toch ook steeds meer vertrouwd met de beperkingen: de doodsheid van het geproduceerde proza (of van de geproduceerde plaatjes), de weigering om er ooit iets bij te leren.

Bijna 25 jaar geleden schreef ik een stuk, ‘grandeur en misère van de computertaalwetenschap‘. Ik weet niet of ik kan zeggen dat ik het toen goed zag; ik weet wel dat ik het nog op dezelfde manier zie. Aan het eind van het stuk wees ik er op dat dommekracht waarschijnlijk de toekomst was: computers die op basis van een enorme verzameling voorbeeldteksten aan de hand van statistiek steeds weer nieuwe teksten kunnen maken die op de oude lijken. Na “op een mooie” volgt meestal pinksterdag en dus schrijf je ‘op een mooie pinksterdag’.

Ratio

Dat is precies het principe waarop de systemen die nu furore maken gebouwd zijn. Ik voorzag dit indertijd niet omdat ik nu zo’n visionair was, maar omdat iedereen die zich er 25 jaar geleden een beetje in verdiepte het kon zien.

Steun ons!

De redactie van Sargasso bestaat uit een club vrijwilligers. Naast zelf artikelen schrijven struinen we het internet af om interessante artikelen en nieuwswaardige inhoud met lezers te delen. We onderhouden zelf de site en houden als moderator een oogje op de discussies. Je kunt op Sargasso terecht voor artikelen over privacy, klimaat, biodiversiteit, duurzaamheid, politiek, buitenland, religie, economie, wetenschap en het leven van alle dag.

Om Sargasso in stand te houden hebben we wel wat geld nodig. Zodat we de site in de lucht kunnen houden, we af en toe kunnen vergaderen (en borrelen) en om nieuwe dingen te kunnen proberen.

Lezen: Mohammed, door Marcel Hulspas

Wie was Mohammed? Wat dreef hem? In deze vlot geschreven biografie beschrijft Marcel Hulspas de carrière van de de Profeet Mohammed. Hoe hij uitgroeide van een eenvoudige lokale ‘waarschuwer’ die de Mekkanen opriep om terug te keren tot het ware geloof, tot een man die zichzelf beschouwde als de nieuwste door God gezonden profeet, vergelijkbaar met Mozes, Jesaja en Jezus.

Mohammed moest Mekka verlaten maar slaagde erin een machtige stammencoalitie bijeen te brengen die, geïnspireerd door het geloof in de ene God (en zijn Profeet) westelijk Arabië veroverde. En na zijn dood stroomden de Arabische legers oost- en noordwaarts, en schiepen een nieuw wereldrijk.

Foto: Jon Phillips (cc)

Wachten op kunstmatige intelligentie die context begrijpt

Hoe weinig ontwikkeld ze ook zijn, we kunnen de assistenten en bots op dit moment wel degelijk beschouwen als een soort robots waar we in de toekomst nauw mee gaan samenwerken, -wonen en –leven. Een update over chatbots en virtuele assistenten.

De afgelopen twee jaar zijn zowel spraakherkenning als spraaksynthese enorm verbeterd. Ook het aanbod aan spraakgestuurde systemen, dat twee jaar geleden nog werd gedomineerd door Siri, Cortana en Google Assistant, heeft zich verder ontwikkeld: zo is in twee jaar tijd Amazon’s Alexa marktleider geworden. Het enige wat nog ontbreekt is begrip van de context – een absolute voorwaarde om spraakbesturing echt tot een leidende technologie te maken.

Spraakherkenning heeft een nauwkeurigheid bereikt waarbij het verschil met mensen grotendeels is weggevallen. De Chinees-Engelse vertaalmachine iFlytek maakt minder dan 2 procent fouten, mede dankzij de 4,5 miljard spraakfiles die per dag aan het systeem worden toegevoegd. iFlytek is een startup uit 1999, opgezet door een doctoraalstudent van een regionale universiteit in Hefei, China. Ook Google haalt met gemak 95 procent. Maar de grootste stap voor spraaktechnologie moet nog gezet worden. En dat is de stap naar grootschalige toepassing door consumenten, bijvoorbeeld door het gebruik van virtuele assistenten.

Foto: Sargasso achtergrond wereldbol

Chatbots gaan steeds meer op mensen lijken

Chatbots gaan steeds meer op échte mensen lijken, constateert Stijn Friederichs, PhD student Psychologie aan de Open Universiteit. Een nieuwe aflevering in de serie Intieme Technologie van het Rathenau Instituut.

Iedereen die wel eens op de website van een zeker Zweeds meubelbedrijf komt, zal haar kennen: Anna. Gehuld in het welbekende geel-blauw en met een uitnodigende glimlach op het gezicht staat ze altijd klaar om al je vragen over bureaus, kastjes en andere meubelstukken te beantwoorden. Ik heb haar kort geleden nog gesproken. In eerste instantie maakte Anna een robot-achtige indruk op me, maar naarmate het gesprek vorderde bespeurde ik steeds meer menselijke trekjes in deze virtuele dame.

Virtuele personen zoals Anna kom je steeds vaker tegen op internet. Volgens chatbots.org bestaan er momenteel al zo’n 100 Nederlandse exemplaren. Deze worden bijvoorbeeld gebruikt door bedrijven om vragen van klanten te beantwoorden om zo te kunnen besparen op de klantenservice. Maar vaak zijn ze tot veel meer in staat dan antwoord geven op domeinspecifieke vragen. Zo kan Anna bijvoorbeeld redelijk adequaat reageren op koetjes en kalfjes. Bovendien wordt haar kennis steeds verder uitgebreid op basis van nieuwe vragen en opmerkingen van klanten. Hierdoor gaat Anna steeds adequater, menselijker, reageren op alles wat je tegen haar zegt.

Steun ons!

De redactie van Sargasso bestaat uit een club vrijwilligers. Naast zelf artikelen schrijven struinen we het internet af om interessante artikelen en nieuwswaardige inhoud met lezers te delen. We onderhouden zelf de site en houden als moderator een oogje op de discussies. Je kunt op Sargasso terecht voor artikelen over privacy, klimaat, biodiversiteit, duurzaamheid, politiek, buitenland, religie, economie, wetenschap en het leven van alle dag.

Om Sargasso in stand te houden hebben we wel wat geld nodig. Zodat we de site in de lucht kunnen houden, we af en toe kunnen vergaderen (en borrelen) en om nieuwe dingen te kunnen proberen.