COLUMN - Soms worden filosofische vragen na vele jaren ineens praktisch. Zoiets beleven we nu met het woord begrip. Filosofen hebben baden met bloed gevuld tijdens hun discussies over de vraag wat het precies wil zeggen dat we een bepaalde tekst begrijpen, en nu wordt de mensheid ineens geconfronteerd met een apparaat waarvan je je concreet kunt afvragen wat het begrijpt. De chatbot.
Neem dit artikel dat onlangs verscheen op de taalkunde-site LingBuzz. Een groep Amerikaanse taalkundigen laat er zien dat chatbots testjes zoals de volgende uitstekend kunnen doorstaan:
Flavia en Jack ontweken Mary en Franck werd ontweken door Lucy en Flavia. Heeft Franck in deze context iemand ontweken?
Het antwoord op deze vraag is natuurlijk nee. Een jaar geleden deden chatbots het niet altijd goed. Als ik het nu aan ChatGPT vraag, antwoordt deze:
Nee.
Er staat dat Franck werd ontweken door Lucy en Flavia — hij is dus het object van het ontwijken, niet degene die iemand anders ontweek.
Zelfs de fouten die de bots maakten lijken op die van mensen. Zo zeiden ze vaker ten onrechte ja op de volgende variant van deze vraag:
Cleo kuste Alice en Alice werd gekust door Mary. Cleo en Alice werden gekust door Mary. Werd Mary in deze context gekust?
Anders dan ontwijken is kussen vaak wederkerig. Je kunt je dus voorstellen dat Mary tijdens haar kusactiviteiten zelf ook een zoentje kreeg van Cleo en Alice. Mensen trappen daar weleens in, maar chatbots dus ook.
Reserveren
De vraag is nu: betekent dit dat chatbots dit alles ook begrijpen? Je kunt nog steeds zeggen: nee, zo’n chatbot heeft geen idee hoe het voelt om te kussen of gekust te worden, kent de horreurs niet van het ontweken worden. Die apparaten doen niet meer dan voorspellen welk woord gegeven een bepaalde context gezegd wordt. Ze manipuleren symbolen, en het lijkt daardoor alsof ze iets begrijpen, maar dat laat uiteindelijk alleen maar zien dat deze tests geen echt begrip meten.
De vraag is dan wat dan wél echt begrip is. Chatbots halen sinds een paar jaar ook sinds gemak allerlei examens, inclusief examens (voor Nederlands en de andere talen) die geacht worden ’tekstbegrip’ te toetsen. Hebben we ons daar dan al die jaren in vergist? En zo ja, zijn er dan toetsen te bedenken voor taalbegrip die mensen wel en chatbots niet kunnen doorstaan? Ook niet de mogelijk nog veel betere chatbots van over vijf jaar?
De Amerikanen maken overigens gebruik van een semantisch verschil in het Engels dat het Nederlands niet zo duidelijk maakt: dat tussen understand en comprehend. Het eerste is vele malen gebruikelijker, maar in dit artikel hebben ze het over het tweede. Een belangrijk verschil is dat comprehension veel analytischer is dan understanding. Het tweede kan ook gebruikt worden voor gevoelsmatig of vaag begrip of onvolledig begrip. Comprehension kun je ongeveer vertalen met vatten of doorgronden, maar die termen zijn niet helemaal precies.
Het Engels beschikt daardoor vooralsnog over de mogelijkheid om een bepaald type begrip te reserveren voor de mens. Maar het is niet duidelijk hoe lang dat nog blijft duren.
Reacties (16)
De afgelopen tijd zag ik een paar keer hoe ontkenners van de klimaatwetenschap naar programma’s als ChatGPT grijpen met het idee dat die kunnen vertellen hoe het echt zit met het klimaat. Ze denken dus dat een taalmodel betrouwbare informatie levert over het klimaat dan de klimaatmodellen die door de wetenschap worden gebruikt. Een beetje dom, zou ik denken.
Wat ik me nu afvraag is dit. We zeggen dat klimaatmodellen het klimaat simuleren. Zou je dan ook kunnen zeggen dat taalmodellen taal simuleren? Het grote verschil is dat bij een klimaatmodel het verschil tussen de simulatie (weergegeven in de vorm van tabellen, grafieken of kaartjes) en de fysieke realiteit duidelijk zichtbaar is. Bij een taalmodel is dat niet het geval: je ziet geen onderscheid tussen gesimuleerde taal en echte taal. Het onderscheid is de vorm. Een taalmodel gebruikt dezelfde vorm als de realiteit, terwijl een klimaatmodel dat niet doet. Maar dat een klimaatmodel veel meer van het klimaat ‘begrijpt’ dan een taalmodel, staat als een paal boven water. Die modellen ‘begrijpen’ het klimaat zelfs zo goed, dat ze de mensheid er een hele hoop over hebben geleerd. Zover zijn taalmodellen bij mijn weten nog niet. Toch zijn we veel minder geneigd om modellen van complexe fysica als intelligent te zien. Waarom?
Volgens mij doet een klimaatmodel niet veel anders dan rekenen, en gaat het niet op onvoorspelbare wijze de simulaties verbeteren.
Een taalmodel zal (in principe) erbij blijven leren, en zichzelf verbeteren veranderen.
Of dat echte intelligentie is, is nog een vraag.
De combinatie van klimaatmodel + onderzoeker is natuurlijk wel intelligent.
Nee, dat klopt niet. Principes van ‘machine learning’ werden al in de klimaatwetenschap (en allerlei andere natuurwetenschappelijke disciplines) gebruikt voor iemand ooit van ChatGPT had gehoord.
En taalmodellen hebben ook de hulp van mensen nodig die ze op fouten wijzen. Er worden een hele hoop mensen ingehuurd voor dat werk. Het principe van modelontwikkeling is in feite vergelijkbaar met hoe weer- en klimaatmodellen vanaf de jaren ’50 zijn verbeterd: de gesimuleerde uitkomst wordt vergeleken met de realiteit en de geconstateerde verschillen worden gebruikt om de modellen te verbeteren.
(Overigens komt ‘machine learning’ voor een heel groot deel neer op patroonherkenning. Dat werkt het beste als je heel veel data hebt om naar patronen te zoeken. Er zijn natuurlijk gigantische hoeveelheden taal beschikbaar om naar patronen te zoeken. In een vak als klimaatwetenschap is de toepasbaarheid wat beperkter, omdat beschikbaarheid van voldoende data een probleem kan zijn.)
Ik denk dat u gelijk heeft, bedankt voor de correctie.
Er bestaan overigens wel helemaal zelflerende programma’s. Bijvoorbeeld AlphaZero. Daar werkt dat, omdat het programma zelf kan bepalen of het wint of verliest.
AlphaZero is ondertussen veel sterker dan de allerbeste (intelligentste?) menselijke schakers.
Artificiële intelligentie lijkt op een omgekeerde ‘mechanische Turk’, een schaakmachine waar een mens in was verstopt.
Algoritmen kunnen door heel veel input sjabloontjes leren herkennen en interpreteren, maar er is geen bewustzijn aan verbonden. Er is dus niemand die ‘begrijpt’.
Maar het gaat er toch net over dat het nog niet zo eenvoudig is om zoiets als ‘begrip’ sluitend te definiëren? Laat staan ‘bewustzijn’.
Dat AlphaZero het schaakspel beter begrijpt dan de beste menselijke schakers is ondertussen lastig te ontkennen. Het programma analyseert stellingen anders dan mensen, maar dat is juist deel van de kracht ervan. Als een programma het spel beter speelt dan mensen via patroonherkenning, dan is die vorm van begrip dus superieur aan het menselijke begrip. (Al zou je nog kunnen denken dat neuronen in ons brein in feite ook werken via de vorming en herkenning van patronen.) AlphaZero zal geen oog hebben voor de schoonheid van het spel, en geen emoties voelen bij winst of verlies, maar dat heeft niks te maken met begrip van het spel zelf.
Je zegt ” AlphaZero zal geen oog hebben voor de schoonheid van het spel, en geen emoties voelen bij winst of verlies, maar dat heeft niks te maken met begrip van het spel zelf.”.
Bij AlphaZero is dat ongetwijfeld het geval; die kan immers alleen maar schaken. Maar als je ChatGPT schaak laat spelen, dan zou het gek zijn als er intern geen abstracte weergave van bijbehorende emoties aanwezig is in het systeem, waarbij de schoonheid van bepaalde patronen wordt herkend, de trots die hoort bij een slimme zet of de angst dat je gaat verliezen aanwezig is een of andere abstracte vorm. Hoe is dat fundamenteel anders dan hoe het bij mensen werkt?
Nee, volgens mij klopt dit niet. ChatGPT ziet dat mensen schaken soms verbinden met schoonheid, en kan de manier waarop mensen dat uiten heel goed imiteren. Het herkent alleen de verbanden, zonder enig benul van wat dat precies betekent.
ChatGPT kan ook helemaal niet schaken, trouwens. Op het meest elemenaire niveau: het snapt de regels van het spel soms niet, en doet dan illegale zetten. Uitgesloten dat zo’n programma zelf onderscheid zou kunnen maken tussen mooie en minder mooie zetten of combinaties.
Er schijnt wel een schaakplugin te zijn voor ChatGPT, inmiddels. Daarmee kun je het taalmodel laten samenwerken met schaaksoftware. Maar ook dan snapt het taalmodel zelf nog steeds bar weinig van het spel.
Ik bedoelde het ook meer conceptueel. Waarschijnlijk is ChatGPT niet op al te veel schaakcontent getrainet, maar dat is ongetwijfeld een kwestie van tijd en prioriteit. Het punt is: ook het abstracte generiekere begrip “een mooie zet” zou ie prima kunnen herkennen, óók voor posities die ie nog nooit heeft gezien. Hetzelfde kan ie ook prima voor onderwerpen waar ie wel voldoende training heeft gehad zoals programmeren of literatuur. Ik snap dan ook niet waar je het op baseert dat ie dat niet zou kunnen. Je zegt zelfs dat het “uitgesloten is”. Ondertussen zie ik het fundamentele verschil met mensen op dit vlak niet eens. Hetzelfde geldt voor de redenatie dat ChatGPT het fundamenteel anders zou aanvliegen dan mensen – waarom dan? Wat maakt ons zo anders?
Nee, ChatGPT is niet getraind op schaken, maar op het simuleren van menselijke taal. AlphaZero is getraind op schaken. Dat was het punt. AI kan heel goed getraind worden, of zichzelf trainen op specifieke taken (taal simuleren, schaken, het weer voorspellen), maar die verschillende zaken met elkaar in verband brengen is nog veel te hoog gegrepen.
Wat niet? We zijn veel complexer. Aan de ene kant bezig met ethiek en aan de andere kant met eigenbelang. We denken vaak chaotisch, van de hak op de tak, en maken vergissingen die soms heel goed uitpakken. We kunnen dingen met elkaar in verband brengen, zoals een houten dingetje verplaatsen op een bord met schoonheid. Om maar wat te noemen. Aan de andere kant heeft AI kwaliteiten die wij niet hebben: een feilloos geheugen, het vermogen om razendsnel enorme hoeveelheden gegevens te verwerken en daar patronen in te vinden, en natuurlijk gewoon een gigantische rekenkracht. Opnieuw, om maar wat te noemen.
‘Bevatten’ is een mooie vertaling voor ‘comprehend’. ‘Comprehension’ zou met ‘bevattingsvermogen’ of het minder gebruikelijke ‘bevatting’ vertaald kunnen worden. Anders dan bij ‘begrijpen’ en ‘begrip’ ontbreekt het gevoelsmatige aspect en blijf je met ‘bevatten’ in de verstandelijke sfeer.
Je zegt “Ze manipuleren symbolen, en het lijkt daardoor alsof ze iets begrijpen, maar dat laat uiteindelijk alleen maar zien dat deze tests geen echt begrip meten.” maar dat is veel te kort door de bocht. Bovendien roept het de vraag op waarom je denkt dat jouw brein anders zou werken. Ik zie daar geen duidelijk aanknopingspunt voor.
In moderne LLMs is het namelijk niet zo dat ze enkel symbolen manipuleren die overeenkomen met woorden. Hoewel hun output natuurlijk enkel een woord toevoegt aan een reeks woorden, gebeurt er intern veel meer; er wordt geabstraheerd en geredeneerd op manieren die zich niet eens in woorden of taal laten vatten. Er is geen enkele reden om aan te nemen dat het onderliggende model fundamenteel beperkter is dan ons brein. En vice versa: dat ons brein op de een of andere manier superieur zou zijn. Misschien ís dat wel zo, maar ik zie weinig redenen om daar vanuit te gaan.
Er wordt gezegd dat het gevoelsmatige aspect ontbreekt, maar dat is een betekenisloze stelling. Natuurlijk heeft een LLM zelf geen gevoel; het specifieke onderdeel dat gevoelens opwekt en ervaart ontbreekt immers. Maar dat wil nog niet zeggen dat ie zich niet kan inleven in de zin dat ie beseft dat – om in de termen van het artikel te blijven – gekust worden bepaalde gevoelens kan opwekken die zowel positief als negatief kunnen zijn. Het ligt voor de hand de gevoelens die mensen hebben bij bepaalde gebeurtenissen ook gewoon gerepresenteerd worden in de LLM, deel uitmaken van redenaties en mee worden gewogen bij wat er uit komt.
Overigens zijn dit sowieso woordenspelletjes; dat begint al bij de titel, die de termen “begrijpen” en “doorgronden” gebruikt. Dat zijn tamelijk abstracte begrippen die raken aan “bewustzijn”, whatever that may be, en waar we geen sluitende uitleg voor hebben en die we enkel indirect – op basis van de output van een systeem – kunnen beoordelen. En zo is praktisch iedere redenatie die impliceert dat het menselijk brein op de een of andere manier fundamenteel superieur zou zijn terug te voeren op het gebruik van begrippen die ronduit vaag zijn. Het doet vermoeden dat die vaagheid essentieel is voor de argumentatie :-p
Volgens mij zit hier nou juist de grote denkfout. Dat intelligentie zou moeten betekenen dat het hetzelfde werkt als ons brein.
Die een op een relatie die vaak wordt gelegd tussen intelligentie en ons brein is een erfenis van het christelijke dogma over een gescheiden lichaam en ziel. Intelligentie of bewustzijn zijn dan eigenschappen waar alleen de bezielde mens over zou kunnen beschikken. En intelligentie is dan een binair begrip, dat je wel of niet hebt. Die opvatting lijkt me ruimschoots achterhaald.
Je hebt allerlei vormen en gradaties van intelligentie. In sommige vormen kan AI absoluut nog niet aan ons tippen. Volgens mij is het nog steeds heel slecht in abstract denken. Maar in sommige andere vormen is het superieur aan ons. Vaak is het dat juist omdat het anders werkt dan ons eigen brein.
Ik heb het niet over intelligentie; dat is weer zo’n onbruikbaar vaag begrip waar we in deze discussie precies niks mee kunnen. Ik heb het over de onderliggende structuren die draaien om patroonherkenning, abstracte begrippen en daarover redeneren. Het idee dat ChatGPT dat fundamenteel anders zou doen dan ons brein is m.i. ongefundeerd terwijl zo’n beetje ieder comment hierboven uitgaat van het idee dát het zo is dat ons brein fundamenteel anders is. De “waarom dan?!”-vraag blijft echter onbeantwoord terwijl het idee dat het hetzelfde is m.i. juist veel meer voor de hand ligt én beter aansluit bij wat we in de praktijk zien gebeuren.
Ik zie dat in de praktijk helemaal niet gebeuren. Ik zie dat AI behoorlijk goed is geworden in het simuleren van menselijke taal. En dat dat zou impliceren dat AI net zo werkt als het menselijk brein lijkt me opnieuw een erfenis van het dogma over lichaam en ziel. Het idee dat alleen de ‘bezielde mens’ zou beschikken over taal.
Je noemt patroonherkenning als voorbeeld. Wat mij betreft is dat juist een van de bewijzen die laten zien dat AI heel anders denkt dan wij. AI is namelijk oneindig veel beter in het herkennen van patronen. Maar echt abstract denken en redeneren kan het absoluut niet. Het kan alleen vrij aardig reproduceren wat daar door anderen over is geschreven.