De auteur staat op van de doden

Het onderzoeken van de taalvermogens van grote taalmodellen is inmiddels een heuse eigen industrie. Kunnen we teksten van chatbots herkennen? En zo ja, waar ligt dat dan aan? We stuiten hier meteen op een pikant onderwerp: onderzoekers kunnen inderdaad verschillen vaststellen, maar tegelijkertijd lijkt het alsof menselijke lezers ongevoelig voor die verschillen zijn. Met andere woorden: computers lijken beter in het ontmaskeren van door computers geschreven teksten dan mensen. Hier zijn bijvoorbeeld twee recente artikelen (hier en hier) die min of meer dezelfde conclusies trekken. Chatbots schrijven over het algemeen wat formeler en daarnaast zijn ze geneigd wat meer informatie per vierkante centimeter te verwerken. Dat betekent dat ze bijvoorbeeld meer zelfstandig naamwoorden gebruiken – heel veel informatie zit in de zelfstandig naamwoorden – terwijl mensen percentueel wat meer lidwoorden, voorzetsels en andere betrekkelijk inhoudsloze woorden gebruiken. (Hier schreef ik over nóg een onderzoek meteen vergelijkbare conclusie.) De verschillen zijn meetbaar, al zijn ze ook statistisch (niet iedere door een chatbot of door een mens gemaakte tekst is op deze manier te herkennen). Maar met het blote oog op te merken zijn ze nauwelijks. Keurmerk Desalniettemin hebben met name ervaren redacteuren wel het gevoel dat ze de verschillen kunnen ontdekken. Chatbottekst voelt gladder aan, en cliché-matiger. Gek zou dat ook niet zijn: chatbots zijn als het ware gemaakt om gladde en cliché-matige teksten te maken. In essentie doen ze niet anders dan steeds het meest voor de hand liggende woord te gebruiken, dat wil zeggen het woord dat in het corpus het vaakst voorkomt in deze context. Als veel mensen ‘op een mooie pinksterdag’ geschreven hebben, zal de computer na ‘op een mooie…’ geneigd zijn pinksterdag te schrijven. Maar in de wetenschappelijke literatuur kan ik niet veel bewijs vinden dat mensen inderdaad verschil kunnen maken. In plaats daarvan zijn er veel studies waaruit blijkt dat de resultaten van experimenten waarbij mensen moesten kiezen niet veel anders zijn dan als die mensen zouden gokken (hier en hier bijvoorbeeld). Er blijkt vooral dat ze een voorkeur voor teksten hebben als ze denken dat die door mensen is geschreven. In dit onderzoek van vorig jaar kregen Engelse lezers bijvoorbeeld echte gedichten van bekende dichters te lezen én gedichten die chatbots hadden gegenereerd ‘in de stijl van’ die dichters. Ze konden de verschillen niet echt ontdekken, ze hadden over het algemeen een lichte voorkeur voor de chatbottekst, behalve als ze wisten dat deze door chatbots gemaakt was. Want als de onderzoekers over willekeurige tekst vertelde dat ze van een computer kwam, duikelde de waardering. Het geldt niet alleen voor gedichten: dit onderzoek laat zien dat het ook geldt voor marketingteksten. De auteurs noemen het ’t ‘AI-auteurschapseffect’ – mensen hebben een afkeer van tekst waarvan ze weten dat deze door computers is gegenereerd. Dat lijkt mij de redding voor de menselijke schrijver. Uiteindelijk lezen we teksten en geen tabellen of lijstjes ruwe feiten omdat we in contact willen staan met andere mensen. Het wordt dus zaak die garantie te bieden. Ik weet weliswaar ook niet hoe dat precies moet – misschien moet er een keurmerk komen. Authenticiteit wordt, zo vermoed ik, voor schrijvers van alle soorten een garantie. De auteur staat op van de doden.

Foto: Alex Knight on Unsplash

Chatbots gebruiken meer naamwoorden

COLUMN - Kun je herkennen of een tekst geschreven is door een computer? Ja, zegt een groep onderzoekers in een recent online geplaatst artikel. Tenminste, als je een computer hebt die het herkennen voor je kan doen.

De onderzoekers lieten mensen en chatbots een aantal taalopdrachten doen. Zo moesten ze teksten herschrijven in de stijl van een schoolopstel of een Wikipedia-artikel. Hoe succesvol waren ze erin? Chatbots bleken hun teksten wel licht aan te passen aan het genre, maar veel minder dan de mensen deden. Dat valt in ieder geval op een statistische manier vast te stellen: als je kijkt naar wat voor woorden er gebruikt worden, dan zit er bij de teksten van chatbots minder variatie.

Een belangrijk verschil tussen mensen en chatbots was, los van het gekozen genre, dat chatbots een veel ‘naamwoordelijker stijl’ hadden. Ze gebruikten meer zelfstandig naamwoorden (‘huis, genre, chatbot’), meer zogeheten nominalisaties (‘werken is een genot’ in plaats van ‘ik werk graag’) en bijvoeglijk naamwoorden werden vaker bij een zelfstandig naamwoord gezet (‘het mooie huis’) dan in het gezegde (‘het huis is mooi’). Mensen deden veel meer met werkwoorden (‘het huis schittert in de zon’).

Simuleren

Wat verklaart nu dit verschil? Die chatbots hebben de taal immers van ons geleerd, wat verklaart dan dat ze dingen op zo’n specifieke manier anders doen? De onderzoekers wijzen erop dat het gebruik van veel zelfstandig naamwoorden een tekst erg rijk aan informatie maakt: ieder zelfstandig naamwoord benoemt een zaak of een idee, hoe meer je daarvan geeft, hoe meer informatie in de tekst. Werkwoorden geven je zin wat dat betreft meer lucht.

Doe het veilig met NordVPN

Sargasso heeft privacy hoog in het vaandel staan. Nu we allemaal meer dingen online doen is een goede VPN-service belangrijk om je privacy te beschermen. Volgens techsite CNET is NordVPN de meest betrouwbare en veilige VPN-service. De app is makkelijk in gebruik en je kunt tot zes verbindingen tegelijk tot stand brengen. NordVPN kwam bij een speedtest als pijlsnel uit de bus en is dus ook geschikt als je wil gamen, Netflixen of downloaden.

Steun ons!

De redactie van Sargasso bestaat uit een club vrijwilligers. Naast zelf artikelen schrijven struinen we het internet af om interessante artikelen en nieuwswaardige inhoud met lezers te delen. We onderhouden zelf de site en houden als moderator een oogje op de discussies. Je kunt op Sargasso terecht voor artikelen over privacy, klimaat, biodiversiteit, duurzaamheid, politiek, buitenland, religie, economie, wetenschap en het leven van alle dag.

Om Sargasso in stand te houden hebben we wel wat geld nodig. Zodat we de site in de lucht kunnen houden, we af en toe kunnen vergaderen (en borrelen) en om nieuwe dingen te kunnen proberen.

Foto: Ulm choir stalls Quintilius, Rictor Norton & David Allen, CC BY 2.0, via Wikimedia Commons

Quintilianus for the millions!

RECENSIE - Hoe wij met elkaar communiceren is momenteel zo dramatisch aan het veranderen dat ik niet zou durven voorspellen hoe we er over pakweg vijf jaar voor staan. Alles is aan het veranderen. Je ziet dat aan de nieuwe, negende druk van het bekende leerboek Leren communiceren. In het voorwoord schrijven de auteurs dat ‘veel van de adviezen van de toenmalige communicatie-experts, de Griekse en Romeinse retorici, nog niets van hun betekenis verloren hebben’. Anderzijds kondigen ze in diezelfde inleiding aan dat ze in het boek adviezen geven voor ‘een verstandig en effectief gebruik van de nieuwe mogelijkheden’ van generatieve taalmodellen. Die idealen zijn, laat deze negende druk zien, heel lastig te verenigen.

Wie de geschiedenis van de talige communicatie in Nederland wil bestuderen, kan de negen drukken van Leren communiceren naast elkaar leggen. De eerste druk verscheen in 1979, dat is 46 jaar geleden, in de tijd dat je een betoog nog op een typemachine tikte en het heel modern was als die typemachine een bolletje had. Van het oorspronkelijke auteursteam is alleen Carel Jansen nog betrokken bij deze editie, als eindredacteur. Verder is alles anders, en de voortekenen zijn er dat de tiende druk misschien wel nog radicaler anders zal moeten zijn. (De auteurs zijn deze keer, naast Carel Jansen zelf, Aline Douma, Joyce Karreman en Jan Ravesteijn.)

Foto: XxXddddddddd, via Pixabay

Begrijpt de chatbot dit of doorgrondt hij het slechts?

COLUMN - Soms worden filosofische vragen na vele jaren ineens praktisch. Zoiets beleven we nu met het woord begrip. Filosofen hebben baden met bloed gevuld tijdens hun discussies over de vraag wat het precies wil zeggen dat we een bepaalde tekst begrijpen, en nu wordt de mensheid ineens geconfronteerd met een apparaat waarvan je je concreet kunt afvragen wat het begrijpt. De chatbot.

Neem dit artikel dat onlangs verscheen op de taalkunde-site LingBuzz. Een groep Amerikaanse taalkundigen laat er zien dat chatbots testjes zoals de volgende uitstekend kunnen doorstaan:

Flavia en Jack ontweken Mary en Franck werd ontweken door Lucy en Flavia. Heeft Franck in deze context iemand ontweken?

Het antwoord op deze vraag is natuurlijk nee. Een jaar geleden deden chatbots het niet altijd goed. Als ik het nu aan ChatGPT vraag, antwoordt deze:

Nee.
Er staat dat Franck werd ontweken door Lucy en Flavia — hij is dus het object van het ontwijken, niet degene die iemand anders ontweek.

Zelfs de fouten die de bots maakten lijken op die van mensen. Zo zeiden ze vaker ten onrechte ja op de volgende variant van deze vraag:

Cleo kuste Alice en Alice werd gekust door Mary. Cleo en Alice werden gekust door Mary. Werd Mary in deze context gekust?

Lezen: Venus in het gras, door Christian Jongeneel

Op een vroege zomerochtend loopt de negentienjarige Simone naakt weg van haar vaders boerderij. Ze overtuigt een passerende automobiliste ervan om haar mee te nemen naar een afgelegen vakantiehuis in het zuiden van Frankrijk. Daar ontwikkelt zich een fragiele verstandhouding tussen de twee vrouwen.

Wat een fijne roman is Venus in het gras! Nog nooit kon ik zoveel scènes tijdens het lezen bijna ruiken: de Franse tuin vol kruiden, de schapen in de stal, het versgemaaide gras. – Ionica Smeets, voorzitter Libris Literatuurprijs 2020.

Lezen: Bedrieglijk echt, door Jona Lendering

Bedrieglijk echt gaat over papyrologie en dan vooral over de wedloop tussen wetenschappers en vervalsers. De aanleiding tot het schrijven van het boekje is het Evangelie van de Vrouw van Jezus, dat opdook in het najaar van 2012 en waarvan al na drie weken vaststond dat het een vervalsing was. Ik heb toen aangegeven dat het vreemd was dat de onderzoekster, toen eenmaal duidelijk was dat deze tekst met geen mogelijkheid antiek kon zijn, beweerde dat het lab uitsluitsel kon geven.

Foto: James grills, CC BY-SA 4.0 , via Wikimedia Commons.

Je weet niet wat de chatbot weet

COLUMN - Nooit zal het wonder van de taalmachine die mens heet bezongen zijn. Wat wij allemaal niet weten en kunnen! Een verschil maken tussen de volgende zinnen bijvoorbeeld:

  • Dit is de man die de vrouw die wilde aanvallen weggejaagd had.
  • Dit is de man die de vrouw die wilde aanvallen mij weggejaagd had.

Als jij ook een Nederlandsetaalmachine bent, en dat ben je, anders zou je dit niet lezen, dan voel je meteen aan dat de eerste zin grammaticaal juist is, maar de tweede niet. Waarom?

De tweede zin kan zelfs betekenis hebben. Zoals de eerste een andere vorm is van de zin:

  • De vrouw die wilde aanvallen had de man weggejaagd.

zo zou de tweede ongeveer kunnen betekenen:

  • De vrouw die de man wilde aanvallen had mij weggejaagd.

Materie

Zoals uit de eerste zin de man naar voren is gehaald als lijdend voorwerp van wegjagen, zo zou het in de tweede naar voren zijn gehaald als lijdend voorwerp van aanvallen. Waarom kan dat tweede niet? En vooral: hoe weten wij dat die tweede zin niet kan? Nooit heeft iemand ons de reden verklaard – tenzij we behalve taalmachines ook docenten syntaxis zijn. Ook heeft niemand ons ooit op zo’n zin gewezen en gezegd: dat kun je dus niet zeggen, je kunt een zinsdeel zoals man wel naar voren halen als het lijdend voorwerp is van de hoofdzin, maar niet als het lijdend voorwerp is van een bijzin van het onderwerp.

Foto: ter illustratie Restaurant O'Panuozzo Utrecht, via Marc van Oostendorp op Neerlandistiek.

Waarheid voor chatbots

Wat is onwaar? De komst van chatbots heeft weer een nieuwe draai gegeven aan die vraag. Het is inmiddels vermoedelijk algemeen bekend dat chatbots niet altijd de waarheid zeggen. Maar wat is dat dan voor onwaarheid? Het is bijvoorbeeld geen leugen, aangezien een leugen altijd een intentie tot misleiden vereist, iets wat (vermoedelijk) afwezig is bij chatbots. We noemen het daarom vaak hallucinatie, al is ook dat een niet helemaal geschikte term, bijvoorbeeld omdat hij veronderstelt dat er voor de chatbot een verschil is tussen wakend en dromend denken, maar voor die chatbots is het (vermoedelijk) allemaal hetzelfde.

Voor zover we chatbots begrijpen, hebben ze helemaal geen notie van waarheid – of iets waar is of onwaar, speelt geen rol in hun overwegingen om iets te zeggen, andere criteria (hoevaak komen woorden in elkaars omgeving voor) zijn daarin veel belangrijker. Vandaar dat bots moeite hebben met het woord niet: de zin hij komt niet heeft ongeveer dezelfde plausibiliteit als hij komt.

Waterdruppels

Alleen willen menselijke gebruikers wel iets anders. ChatGPT is inmiddels bijna anderhalf jaar beschikbaar, en nog steeds vind je op sociale media mensen die geamuseerd of verontwaardigd voorbeelden geven van onzinnige chatbotantwoorden op zinnige vragen.

Een begrip van waarheid inbouwen in die chatbots staat daarom waarschijnlijk hoog op het lijstje van ontwikkelaars. Daarvoor is dan weer een goed criterium nodig om hallucinaties te classificeren. In het tijdschrift Computational linguistics komt Kees van Deemter met een oplossing: de klassieke logica. Dat is een vak dat al duizenden jaren nadenkt over wat een bewering wel of niet waar maakt, en Van Deemter zegt dat die hier ook al iets over kan zeggen.

Lezen: De BVD in de politiek, door Jos van Dijk

Tot het eind van de Koude Oorlog heeft de BVD de CPN in de gaten gehouden. Maar de dienst deed veel meer dan spioneren. Op basis van nieuw archiefmateriaal van de AIVD laat dit boek zien hoe de geheime dienst in de jaren vijftig en zestig het communisme in Nederland probeerde te ondermijnen. De BVD zette tot tweemaal toe personeel en financiële middelen in voor een concurrerende communistische partij. BVD-agenten hielpen actief mee met geld inzamelen voor de verkiezingscampagne. De regering liet deze operaties oogluikend toe. Het parlement wist van niets.

Foto: James Royal-Lawson (cc)

AI als stemhulp

Met nog een week te gaan tot de Tweede Kamerverkiezingen, telt ons overzicht van stemwijzers en stemhulpen meer dan 30 tools en overzichten die je helpen je stem te bepalen. Naast de bekende StemWijzer en meerdere varianten van het Kieskompas, zijn er zeven kieswijzers met stellingen over specifieke onderwerpen en nog eens zeven stemhulpen die je stem bepalen op basis van historisch stemgedrag van partijen in de Tweede Kamer in de afgelopen jaren. We vonden daarnaast vijftien overzichten van standpunten op specifieke onderwerpen zoals klimaat, vrouwenrechten, duurzame economie, open overheid en mensenrechten.

De opkomst van generatieve AI die zelf teksten en beelden kan maken – denk aan ChatGPT en DALL-E – zorgt uiteraard voor een aantal nieuwe stemhulpen gebaseerd op AI. Kieswaizer, gemaakt door een softwarebedrijf, is de meest experimentele AI-tool die we tegenkwamen. Na het beantwoorden van tien door kunstmatige intelligentie gegenereerde vragen worden de antwoorden geanalyseerd met behulp van AI en rolt er een persoonlijke stemadvies uit. In de disclaimer lezen we: “geen garanties voor de juistheid, volledigheid of geschiktheid van de verstrekte informatie.” WijsStemmer [edit: is inmiddels offline] is een AI-chatbot die vragen beantwoordt over de verkiezingsprogramma’s, met verwijzingen naar de relevante passages in de verkiezingsprogramma’s. Je kunt ook kiezen voor ‘simpele taal’ maar ons viel op dat deze versie niet altijd het volledige standpunt weergeeft. De AI-stemwijzer is een simpele tool die je helpt met het doorzoeken en vergelijken van verkiezingsprogramma’s. Het meest verrassend is de AI-toepassing van de Stichting Politieke Academie die met behulp van DALL·E 3 – een AI die beelden creëert uit tekstuele beschrijvingen – verkiezingsprogramma’s visualiseert.

Foto: dcJohn (cc)

Chatbot fraudeert bij het eindexamen Fries

Nadat ik eerder de eindexamens Nederlands (havo en vwo) en vwo-Frans door chatbots heb laten maken – voor beide slaagden de chatbots ruimschoots – leek het me interessant om het ook nog eens met Fries te doen. Voor Fries is er veel minder elektronisch leesbaar materiaal voorhanden, en aangezien kunstmatige intelligentie afhankelijk is van heel veel voorbeelden, is te voorspellen dat dit type examen veel moeilijker zal blijken te zijn.

Dat kwam uit. ChatGPT wist met het examen niets te beginnen, ook na enkele pogingen kreeg ik er niet het begin van een antwoord uit. Ze begreep niet eens dat de vragen die ik stelde gingen over de tekst die ik eerder had gegeven, en klaagde dat ze niet begreep over welke tekst ik het had. Bij Nederlands en Frans was dat allemaal geen probleem geweest. ChatGPT is aldus gezakt met een 1.

Bing, de chatbot van Microsoft (ook gebaseerd op GPT4), deed het op het gezicht ietsjes beter, maar haalde ook duidelijk een onvoldoende (18 van de 48 te behalen punten). Bovendien vertoonde het heel bizar, en frauduleus gedrag. Vragen en correctiemodel voor het eindexamen zijn hier te vinden.

Er waren 39 vragen. Omdat je aan Bing maar 20 vragen per sessie mag stellen en omdat ik de teksten apart invoerde – dat telt ook als vraag – en af en toe tussendoor een extra aanwijzing bleek te moeten geven over in welke taal Bing moest communiceren, waren er 3 verschillende sessies nodig.

Doneer!

Sargasso is een laagdrempelig platform waarop mensen kunnen publiceren, reageren en discussiëren, vanuit de overtuiging dat bloggers en lezers elkaar aanvullen en versterken. Sargasso heeft een progressieve signatuur, maar is niet dogmatisch. We zijn onbeschaamd intellectueel en kosmopolitisch, maar tegelijkertijd hopeloos genuanceerd. Dat betekent dat we de wereld vanuit een bepaald perspectief bezien, maar openstaan voor andere zienswijzen.

In de rijke historie van Sargasso – een van de oudste blogs van Nederland – vind je onder meer de introductie van het liveblog in Nederland, het munten van de term reaguurder, het op de kaart zetten van datajournalistiek, de strijd voor meer transparantie in het openbaar bestuur (getuige de vele Wob-procedures die Sargasso gevoerd heeft) en de jaarlijkse uitreiking van de Gouden Hockeystick voor de klimaatontkenner van het jaar.

Lezen: Venus in het gras, door Christian Jongeneel

Op een vroege zomerochtend loopt de negentienjarige Simone naakt weg van haar vaders boerderij. Ze overtuigt een passerende automobiliste ervan om haar mee te nemen naar een afgelegen vakantiehuis in het zuiden van Frankrijk. Daar ontwikkelt zich een fragiele verstandhouding tussen de twee vrouwen.

Wat een fijne roman is Venus in het gras! Nog nooit kon ik zoveel scènes tijdens het lezen bijna ruiken: de Franse tuin vol kruiden, de schapen in de stal, het versgemaaide gras. – Ionica Smeets, voorzitter Libris Literatuurprijs 2020.

Foto: Gemaakt met DALL·E thinking fast and thinking slow

Chatbot kan niet langzaam denken

Het menselijk gedruis over tekst producerende kunstmatige intelligentie zal nog wel even voortduren. ChatGPT hielp me begin deze maand een artikel schrijven dat volgens sommigen behoorde tot het beste dat ik ooit schreef. Sindsdien ben ik ermee blijven experimenteren – vaak nog verbaasd over wat het systeem ineens bleek te kunnen bedenken, maar gaandeweg toch ook steeds meer vertrouwd met de beperkingen: de doodsheid van het geproduceerde proza (of van de geproduceerde plaatjes), de weigering om er ooit iets bij te leren.

Bijna 25 jaar geleden schreef ik een stuk, ‘grandeur en misère van de computertaalwetenschap‘. Ik weet niet of ik kan zeggen dat ik het toen goed zag; ik weet wel dat ik het nog op dezelfde manier zie. Aan het eind van het stuk wees ik er op dat dommekracht waarschijnlijk de toekomst was: computers die op basis van een enorme verzameling voorbeeldteksten aan de hand van statistiek steeds weer nieuwe teksten kunnen maken die op de oude lijken. Na “op een mooie” volgt meestal pinksterdag en dus schrijf je ‘op een mooie pinksterdag’.

Ratio

Dat is precies het principe waarop de systemen die nu furore maken gebouwd zijn. Ik voorzag dit indertijd niet omdat ik nu zo’n visionair was, maar omdat iedereen die zich er 25 jaar geleden een beetje in verdiepte het kon zien.

Foto: Jon Phillips (cc)

Wachten op kunstmatige intelligentie die context begrijpt

Hoe weinig ontwikkeld ze ook zijn, we kunnen de assistenten en bots op dit moment wel degelijk beschouwen als een soort robots waar we in de toekomst nauw mee gaan samenwerken, -wonen en –leven. Een update over chatbots en virtuele assistenten.

De afgelopen twee jaar zijn zowel spraakherkenning als spraaksynthese enorm verbeterd. Ook het aanbod aan spraakgestuurde systemen, dat twee jaar geleden nog werd gedomineerd door Siri, Cortana en Google Assistant, heeft zich verder ontwikkeld: zo is in twee jaar tijd Amazon’s Alexa marktleider geworden. Het enige wat nog ontbreekt is begrip van de context – een absolute voorwaarde om spraakbesturing echt tot een leidende technologie te maken.

Spraakherkenning heeft een nauwkeurigheid bereikt waarbij het verschil met mensen grotendeels is weggevallen. De Chinees-Engelse vertaalmachine iFlytek maakt minder dan 2 procent fouten, mede dankzij de 4,5 miljard spraakfiles die per dag aan het systeem worden toegevoegd. iFlytek is een startup uit 1999, opgezet door een doctoraalstudent van een regionale universiteit in Hefei, China. Ook Google haalt met gemak 95 procent. Maar de grootste stap voor spraaktechnologie moet nog gezet worden. En dat is de stap naar grootschalige toepassing door consumenten, bijvoorbeeld door het gebruik van virtuele assistenten.

Volgende