Marc van Oostendorp

267 Artikelen
48 Reacties
Achtergrond: Jay Huang (cc)
Marc van Oostendorp is onderzoeker aan het Meertens Instituut (KNAW). Hij heeft een website, een YouTube-kanaal en een Twitter-account.
Foto: Illustratie gemaakt door DALL-E, een product van OpenAI copyright ok. Gecheckt 06-12-2022

Een reis naar de eenhoorns met ChatGPT

Vrijdag 2 december verscheen er een spectaculair nieuwe chatbot online: ChatGPT van het software-bedrijf OpenAI. Het is een systeem waarmee je gesprekken kunt voeren in ieder geval alle talen die ik enigszins beheers. Het is een systeem dat getraind is door honderden miljarden woorden – vermoedelijk vooral van het internet geschraapt – te lezen en zo te leren welke woorden vaak in de omgeving van welke andere woorden staan, en wat voor andere patronen de taal die ze lezen kenmerken.

Zo’n ’taalmodel’ kun je vervolgens op allerlei manieren gebruiken. Als je weet wat er vaak voorkomt, kun je dat inzetten om zelf taal voort te brengen die sterk lijkt op al die bestaande taal die je tot je hebt genomen. Automatische vertalers werken er bijvoorbeeld mee, en instrumenten die schrijvers kunnen bijstaan, maar OpenAI heeft het nu dus gebruikt om een chatbot te maken. Ik heb de indruk dat ChatGTP vooral geschikt is om zakelijke vragen te beantwoorden. Het kan putten uit allerlei encyclopedische kennis, maar kan bijvoorbeeld ook opdrachten uitvoeren zoals redactiesommen (‘Een boer heeft vijf kippen en iedere kip legt vijf eieren…’) of programmeertaken (‘Schrijf een Pythonscript dat telt hoe vaak de letter m voorkomt in een tekst”).

Dat werkt allemaal verbluffend goed. Nadat ik een en ander had geprobeerd, besloot ik ChatGTP tot enige fictie te verleiden. Mijn eerste vraag (mijn vragen staan steeds in vet) was geïnspireerd door een vraag die een paar jaar geleden aan een eerdere versie van ChatGTP was gesteld. Ik geef het hier weer als een soort documentatie van waar we met dit soort systemen nu staan. Je moet je voorstellen dat de antwoorden van ChatGTP er over het algemeen binnen een paar seconden waren.

Foto: Sagaru9535, CC BY-SA 4.0 , via Wikimedia Commons.

Python en poëzie

Een van de interessantste Nederlanders op dit moment is ongetwijfeld Guido van Rossum, de ontwerper van de programmeertaal Python. Het is niet overdreven om te zeggen dat dit inmiddels wereldwijd de populairste programmeertaal is – een taal die vrijwel iedere programmeur wel een beetje kent. Hij is bovendien iemand die over heel veel onderwerpen goed heeft nagedacht en zijn mening daarover eloquent kan verwoorden, zoals bijvoorbeeld blijkt uit het onderstaandre interview met Lex Fridman.

Dat soort interviews kom je in het Nederlands niet tegen. Ik vraag me af of Van Rossum ooit serieus in de Nederlandse media aan het woord is gekomen. Dat geldt zelfs niet voor podcasts of YouTube-kanalen of andere alternatieve kanalen. Wat zijn we toch ook een armoedige cultuur. Voor 99% procent van de Nederlanders bestaat Van Rossum helemaal niet.

(Even een rant. Het is in sommige kringen nog altijd sjiek om af te geven op de verengelsing: in zo’n vreemde taal kun je toch nooit een diepe gedachte uitdrukken? Wat die mensen nooit in de beschouwing betrekken is dat je in het Nederlands maar zelden een diepe gedachte hoort uitdrukken. Wie interessante hedendaagse intellectuele discussies wil horen, moet wel Engels leren. De verarming van het Nederlands komt niet door het Engels, maar door het gebrek aan intellectuele cultuur. Einde rant.)

Foto: Honden volgens Google Images copyright ok. Gecheckt 23-11-2022

Een plaatje zegt de computer meer dan duizend woorden

Kunnen computers taal leren? Het is een van de grote vragen van deze tijd en 7 november jl. legde Danny Merkx in Nijmegen een nieuw stukje van de puzzel. Hij promoveerde er op een proefschrift waarin hij onderzocht of het hielp als je computers plaatjes laat zien.

Merkx bood de computer daarvoor een verzameling plaatjes aan – bijvoorbeeld gehaald van de website Flickr – die beschreven waren door vrijwilligers: ‘een hond rent door het gras’, ‘een wit hondje in de sneeuw’, ’twee vrouwen op een tractor’. Als de computer hierdoor getraind was, bleek het in staat om ook op een nieuwe foto te zien of er een hond op voorkwam. En dat was niet alleen het geval als de beschrijving was uitgeschreven, maar ook als hij was ingesproken – terwijl gesproken taal veel moeilijker te analyseren is, bijvoorbeeld doordat er allerlei uitspraakvariatie is, of doordat we in gesproken taal geen pauzes leggen tussen woorden maar alles aan elkaar plakken. Bovendien wist de computer voor de training begon niets van taal: hij kende geen woorden, hij wist zelfs niet wat woorden waren.

Dat toevoegen van plaatjes om taal te leren is nieuw. De bestaande ’taalmodellen’ – ook die verantwoordelijk zijn voor de successen van chatbots of Google Translate – worden alleen maar getraind op tekst. Zij leren taal door heel veel heel grote verzamelingen teksten met elkaar te vergelijken. Dat is waarschijnlijk geen heel reële weerspiegeling van hoe kinderen woorden leren, zei Merkx tijdens zijn promotie. Zij hebben ook ouders die bijvoorbeeld op een hond wijzen en dan zeggen ‘hond’. Vandaar dat Merkx ook voor computers geïnteresseerd is in multimodaal leren. Nu zijn er ook andere ‘modaliteiten’ dan het zicht (het gehoor, de reuk, enzovoort), maar het visuele is voor de computer nu eenmaal het makkelijkst te analyseren. Er zijn wel databases van plaatjes, maar niet van geuren.

Foto: © Evelina Leivada et al Figure 5 from article DALL-E 2 fails to reliably capture common syntactic processes copyright ok. Gecheckt 15-11-2022

Computer begrijpt niet wat een vrouw zonder handtas is

COLUMN - Hoe goed kunnen computers menselijke taal begrijpen? Niet heel goed, laat de Catalaanse onderzoeker Evelina Leivada samen met Amerikaanse collega’s Elliot Murphy en Gary Marcus zien in een nieuw artikel.

Je hoort wel beweren dat het moment bijna daar is: computers kunnen denken en voelen en alles begrijpen wat we zeggen. Een paar jaar geleden sloot Elon Musk nog een project voor schrijvende computers omdat ze zo goed zouden zijn dat het eng werd. Eerder dit jaar werd een ingenieur bij Google ontslagen nadat hij een rapport had geschreven waarin hij beweerde dat een nieuwe chatbot van het bedrijf bewustzijn had, en mogelijk zelfs een ziel.

Van zielen hebben taalkundigen geen verstand, maar in ieder geval met het taalgevoel valt het voorlopig wel mee, zo laten Leivada en haar collega’s zien aan de hand van een aardig experimentje. Ze legden DALL-e, een van de bekendste AI-systemen van dit moment een aantal constructies voor waarvan bekend is dat ze kenmerkend zijn voor menselijke taal: mensen hebben er geen problemen mee en dieren (of computers) wel. Zou DALL-e dit wel begrijpen?

DALL-e is een van de voorbeelden van systemen die in het afgelopen jaar ineens in de belangstelling kwamen te staan: je kunt er een zinnetje intikken en de computer genereert een plaatje dat met het zinnetje correspondeert. Alleen blijken die plaatjes dus soms wel eigenaardig te zijn.

Foto: Vox España (cc)

Genderneutrale sjwa na het fascisme

Giorgia Meloni, een politica die wel ‘postfascistisch’ genoemd wordt, is de nieuwe premier van Italië, en een van haar eerste daden was dat ze aankondigde niet als ‘la presidente’ te willen worden benoemd, met een vrouwelijk lidwoord la, maar als ‘il presidente’. Het Italiaans telt traditioneel slechts twee grammaticale geslachten, en daarbij geldt de mannelijke vorm als neutraal, ongeveer zoals bakker in het Nederlands traditioneel als mannelijk en neutraal geldt.

Het leverde Meloni kritische commentaren op, bijvoorbeeld op Twitter:

(Meloni wil ‘il’ presidente genoemd worden. Nou, nee, mijn beste: alleen pronouns die corresponderen met wat je tussen je benen hebt, wij wijken niet voor gender-ideologie!)

De beslissing valt natuurlijk ook niet anders te zien dan als onderdeel van de discussie over genderneutrale taal die in grote delen van de wereld woedt, en zeker ook in Italië. Het is een eigenaardig kenmerk van al die discussies dat men nauwelijks over de taalgrenzen heen kijkt. Naar de discussie in Amerika wordt nog wel verwezen, maar dat overal in Europa over dit onderwerp gesproken wordt, daarvan lijkt vrijwel niemand zich bewust. Terwijl het, zou je zeggen, zowel voor voor- als tegenstanders interessant kan zijn kennis te nemen van wat er elders te berde wordt gebracht. (Voor de Italianen is het bijvoorbeeld potentieel interessant dat de Académie française enkele jaren geleden besloot dat naar vrouwelijke ministers verwezen moet worden met le ministre omdat ‘functie voor persoon gaat’; maar dat zelfs de Franse regering zich daar niet aan houdt.)

Foto: Floris van Dyck, Public domain, via Wikimedia Commons

Woorden doen ertoe (in onze kijk op de wereld)

COLUMN - Gelukkig klinkt af en toe het geluid van de rede. In het nieuwe nummer van het tijdschrift Cognition is Peter Hagoort, directeur van het Donders Instituut in Nijmegen de vertolker van dit geluid.

We komen uit een periode waarin het idee van embodied cognition sterk in de belangstelling: ons denken is niet abstract, maar wordt voortgebracht door ons lichaam. Hoe we de wereld zien, wordt bepaald door onze zintuigen, en door het functioneren van het menselijk lichaam. Dat klinkt allemaal heel plausibel en er zijn – natuurlijk – ook allerlei aanwijzingen dat inderdaad ons denken bepaald wordt door het feit dat we een lichaam hebben.

Het probleem is alleen dat sommige aanhangers van deze gedachte een en ander verkochten met de bewering dat deze bewijzen het einde zijn van het Cartesiaanse denken. Descartes had gesteld dat we een scheiding maken tussen lichaam en geest, maar zie eens aan! We hebben dat hele idee van een abstractere geest niet nodig.

Lichaamsgeur

Hagoort, iemand die een reusachtige reputatie heeft in het meten van hersenactiviteit bij taal, en die dus van alles weet over de rol van het lichaam in het denken (want neuronen horen ook bij het lichaam) keert zich in het nieuwe artikel tegen dit extremisme, door te laten zien dat ons denken en onze perceptie voor een deel óók bepaald worden door het abstracte systeem dat onze taal is.

Foto: Anthony Quintano (cc)

Voornaamwoorden en de blauwe ogen van Mark Zuckerberg

COLUMN - Een gedenkwaardige bijeenkomst, gisteren, in het Nederlandse hoofdkantoor van Meta. Instagram wil in de aanloop naar ‘International Pronouns Day’ op 3 oktober aanstaande voor een aantal talen waaronder het Nederlands (bij Meta noemen ze dat ‘Nederlands/Vlaams’) de mogelijkheid bieden dat gebruikers hun eigen voornaamwoorden mogen kiezen. Voor het Engels kan dat al sinds mei vorig jaar, en kennelijk vond men dat bij Instagram nu zo’n succes dat het ook voor het Nederlands gebeurde.

Opgetrommeld in een – verder overigens op maandagmiddag op het oog volkomen uitgestorven hoofdkantoor – waren vooral vertegenwoordigers van belangenverenigingen. Mij was de eer te beurt gevallen om deskundige te spelen.

Belachelijk

De sessie was nogal eigenaardig opgezet. De medewerkers van Meta toonden een lijstje van de ongeveer vijfenveertig voornaamwoorden die je kennelijk kunt kiezen in de Engelse versie (‘he/him/his/she/her/hers/they/them/theirs/ze/ve/thon’ en nog vele andere) en vroegen aan de aanwezigen of dit ook een goede lijst zou zijn ‘als deze vertaald zou worden’ in het Nederlands, alsof dat een eenduidige opgave zou zijn. De belangengroepen gaan nu de komende tijd een Nederlands lijstje maken.

Er was vervolgens ook wel discussie over de vraag waarom je als gebruiker beperkt wordt tot zo’n vaste lijst. Waarom kun je niet helemaal zelf kiezen welk voornaamwoord je wil gebruiken? Als Instagram inclusief wil zijn, waarom zou het dan bepalen welke voornaamwoorden mensen wel of niet mogen opnemen in hun lijstje (niet alleen maar hij of zij, maar nog meer dan veertig andere vormen, oké, maar wie weet of dat genoeg is?) De medewerkers van Meta zeiden dat de reden was dat mensen anders dat voornaamwoordenveld zouden misbruiken om er belachelijke dingen op te schrijven (nazi) hoe groot de kans daarop was en of je daar dan niet op kon filteren, werd niet duidelijk.

Foto: Elizabeth Hahn (cc)

Hoe uit taalcontact nieuwe taal ontstaat

COLUMN - Er is de laatste jaren in de taalkundige literatuur veel aandacht voor de gevolgen van taalcontact: wat gebeurt er als groepen sprekers van verschillende talen bij elkaar komen, bijvoorbeeld door migratie? Of wanneer sprekers meer dan één taal beheersen? Die talen beïnvloeden dan elkaar, en dit soort contact is waarschijnlijk een drijvende kracht achter veel taalveranderingen. Vooral als we in beschouwing nemen dat zulk contact zich ook kan afspelen tussen sprekers van sterk op elkaar lijkende taalsystemen, zoals dialecten. In dat geval spreken we wel van koinè-vorming, maar het is feitelijk hetzelfde verschijnsel op een kleinere schaal.

In een net verschenen artikel in de Language and Linguistic Compass geeft de Puertoricaanse auteur Cristopher Font-Santiago samen met twee Amerikaanse collega’s een overzicht over een verschijnsel in koinè-vorming dat pas de laatste jaren is opgemerkt. Zij noemen dat reallocatie: variatie die eerst puur regionaal was (in het ene dorp zei men iks in het andere eks) verdwijnt niet altijd per se als de sprekers uit die dorpen naar elkaar toe groeien en gaandeweg één taal of dialect spreken. Zowel iks als eks blijven bestaan, maar ze krijgen een verschillende functie: iks is bijvoorbeeld voortaan de deftige, geleerde vorm en eks de platte, boerse. De variatie is dus sociaal gemotiveerd geworden.

Boers Nederlands

Foto: Onderwijsgek, CC BY-SA 3.0 , via Wikimedia Commons.

Een zomer met Manon Uphoff

Terwijl door vakanties en warm weer bijna iedereen in ‘sloom zomeren’ vervalt, werkt Marc van Oostendorp op zijn eigen webstek aan een welhaast Olympische prestatie. Sinds 22 juni plaatst hij stukjes over auteur Manon Uphoff.

Hij voert drie redenen aan om gedurende deze zomer een groot deel van oeuvre van Manon Uphoff te lezen of herlezen. Hij vindt haar ‘een van de interessantste Nederlandse schrijvers van dit moment’, Uphoff wordt komende december zestig jaar en hij vermoed een ‘afsluiting van een schrijverschap’.

Tot 15 juli verscheen er negen stukjes. Sinds 17 juli is Marc van Oostendorp ‘goed op stoom’: tot nu toe elke dag een stukje!

Hieronder het stukje van gisteren (24 augustus): “Eindelijk heeft Uphoff een sprookje geschreven dat wél goed afloopt.”
(Redactie Sargasso)

-o-o-o-

Een mager verdrietig klein ding met slechte tanden

Een zomer met Manon Uphoff (49)

Voor januari 2023 staat een nieuwe verhalenbundel van Manon Uphoff gepland, haar eerste boekpublicatie na Vallen is als vliegen. Hoe zal haar schrijven er dan uit zien? Ik weet niet of ‘De wildernis waar jongens mannen worden’, een verhaal dat ze dit voorjaar plaatste op de website van ILFU, in die bundel komt, maar haar werkwijze kennende duikt het vast nog een keer in enige vorm ergens op.

Foto: Jim Surkamp (cc)

Wetenschapsdans

COLUMN - Ik heb even moeten nadenken over de bundel ‘wetenschapspoëzie’ En dat was kennis, zeg je dan die is samengesteld door de Vereniging voor Wetenschapscommunicatie en -journalistiek Nederland (VWN). Dat komt niet zozeer door de relatie tussen wetenschap en poëzie, want ik ben ervan overtuigd dat poëzie overal over kan gaan, en omgekeerd dat wetenschappelijk inzicht op allerlei manieren kan worden uitgedrukt.

Het raadsel betrof de relatie tussen (wetenschaps)communicatie en (wetenschaps)poëzie.

Ik begrijp natuurlijk dat de vereniging helemaal niet per se bedoelde om poëzie ineens tot het domein van de wetenschapscommunicatie te rekenen, ze noemen het genre zelf immers alleen maar wetenschapspoëzie. Maar de vraag is dan: hadden ze dat dan wel kunnen doen?

Briljante winnaar

Wetenschapscommunicatie gaat altijd over de inhoud. Je zorgt ervoor dat bepaalde inzichten of feiten of vragen worden overgedragen. Het is niet waar dat de vorm er niet toe doet, maar die vorm staat altijd ten dienste van het overdragen van de inhoud. Wetenschapscommunicatie die nadrukkelijk aandacht vraagt voor de eigen vorm, voor de virtuositeit van de maker, lijkt mij geen geschikte wetenschapscommunicatie.

Bij poëzie gaat het altijd minstens óók om de vorm, of dat nu rijm, ritme is of regelafbreking. Dingen worden anders gezegd dan in het dagelijks leven en dat leidt dusdanig af van de inhoud dat je je kunt afvragen of het wel een functie heeft. In het verleden is er natuurlijk didactische poëzie geschreven, maar toen had het rijm ook een functie, bijvoorbeeld om de inhoud makkelijker onthoudbaar te maken.

Foto: Foto Giammarco op Unsplash.

Zijn denken en communiceren hetzelfde?

Een van de vele discussies die de taalwetenschap al eeuwen splijt is die van de functie van taal. Dat de mens taal heeft, kost op zijn minst moeite – moeite om de taal te leren, moeite om de hersenen te pijnigen bij het zoeken van woorden, het plaatsen van die woorden in zinnen enzovoort. Waarom doen we dat?

Er zijn twee belangrijke kampen: taal is om in te denken, en taal is om te communiceren. De eerste school heeft evident het probleem dat we veel taal niet binnen in ons hoofd laten omgaan, maar dat we ook onze tong en lippen bewegen (of onze handen, in het geval van gebarentaal). De tweede school heeft het probleem dat er is aangetoond dat de structuur van taal minstens voor een deel lijkt te bepalen hoe we denken (zie bijvoorbeeld hier).

De Oostenrijkse taalkundige Martina Wiltschko komt nu in het tijdschrift Glossa met een mogelijke oplossing: taal is er zowel voor taal als voor denken.

Dat klinkt op het eerste oor wat flauw: de ene groep zegt A, de andere zegt B, en jij komt en zegt ‘het is allebei een beetje waar’. Maar Wiltschko biedt interessante argumenten. Ze laat bijvoorbeeld zien dat er in een zin vaak twee elementen zitten: elementen die een gedachte uitdrukken en elementen die gaan over de interactie met de gesprekspartner:

Foto: Sargasso achtergrond wereldbol

Ras, gender en het centrale dogma van de taalkunde

Boekomslag Dat mag je ook al niet meer zeggen © Onze Taal

Er woedt een belangrijke maatschappelijke discussie over taal waarover je maar weinig taalkundigen hoort in het publieke domein: de discussie over hoe we allerlei identiteiten benoemen – discussie over wit tegenover blank, over slaafgemaakte, over non-binair taalgebruik, enzovoort: over de vraag in hoeverre de taal moet worden aangepast aan een veranderende sociale werkelijkheid.

Een reden waarom je er zo weinig taalkundigen over hoort, heeft volgens mij te maken met wat ik beschouw als het centrale dogma van de taalwetenschap, iets waarover vrijwel alle taalkundigen het, ondanks enorme verschillen op allerlei gebied, eens zijn:

Het centrale dogma van de taalwetenschap. Taal is een natuurlijk fenomeen. Ze verandert voortdurend, maar het is niet mogelijk om haar te veranderen.

Het centrale dogma gaat in tegen de manier waarop de meeste niet-taalkundigen taal zien: als een cultuurproduct, een instrument dat we hebben gemaakt, en dat je als liefhebber van de traditie liever niet maar als pragmaticus liever wel verandert. Volgens het centrale dogma zijn huidige pogingen om bijvoorbeeld genderneutrale taal in te voeren, vrijwel zeker tot discussie gedoemd. En veel meer dan dat valt er volgens dat dogma dan ook niet over te zeggen.

De taalwetenschap heeft overigens ook veel te danken aan het centrale dogma. Het is de grondslag van het relatieve succes van het vak in de afgelopen twee eeuwen – de visie dat je taal kunt zien als iets dat op de een of andere manier onderhevig is aan natuurwetten heeft tot veel resultaten geleid. De menselijke wil met al zijn grilligheid heeft er niet zoveel mee te maken. Het is trouwens ook echt lastig om voorbeelden aan te wijzen waar de taal veranderd is omdat de taalgebruikers dat beter vonden, vooral als je meeneemt dat soms autoriteiten natuurlijk invloed kunnen hebben op hoe mensen in het openbare leven spreken, maar dat de meeste taal in kleine kring of de beslotenheid van het eigen huis wordt gebruikt.

Vorige Volgende