taalwetenchap Archives

Wat kan een computer het vermogen om te doen leren?

Er is belangrijk nieuws in een van de heftigste taalkundige discussies van de afgelopen vijftig jaar. We doen even een experiment met het taalmachientje onder je hersenpan. Wat betekent de volgende zin? Wat geloof jij dat de actrice gisteren gekocht heeft? De vraag is nu: wat is het lijdend voorwerp van gekocht? Dat is als je Nederlands spreekt hopelijk geen ingewikkelde vraag: dat is wat. Het staat weliswaar ver naar voren, maar vraagwoorden plaatsen we nu eenmaal naar voren in de zin. Maar neem nu de volgende zin: Wat deel jij de overtuiging dat de actrice gisteren gekocht heeft? De zin zou min of meer hetzelfde moeten betekenen als de vorige – de zinnen ‘ik geloof dat de actrice dit gekocht heeft’ en ‘ik deel de overtuiging dat de actrice dit gekocht heeft’ zijn parallel aan elkaar, en er wordt op parallelle manier een vraag van gemaakt– maar dat doet hij niet. Hij betekent niks. De reden daarvoor, ontdekten taalkundigen meer dan vijftig jaar geleden is dat ‘jouw overtuiging dat…’ een zelfstandignaamwoordgroep is, en ‘geloof jij dat..’ een werkwoordgroep. Om de een of andere reden kan er geen relatie bestaan tussen een werkwoord en zijn lijdend voorwerp als dat werkwoord ingebed is in een zelfstandignaamwoordgroep en het lijdend voorwerp niet. Ja, de vorige alinea is heel ingewikkeld. Bouwplan Maar dat is nu juist het punt: je taalintuïtie trekt zich weinig aan van die ingewikkeldheid. Je voelt dat de tweede zin niet kan en de eerste wel. De ingewikkelde alinea beschrijft waar dat gevoel vandaan komt, ook al ben je je daar niet van bewust. Je hebt dus op een bepaalde manier wel degelijk die ingewikkelde kennis. Maar dan komt de volgende vraag: waar komt die kennis vandaan? Die vraag is de inzet geweest van die discussie van de afgelopen halve eeuw: die over het aangeboren taalvermogen. In hoeverre begint de baby de ingewikkelde taak van het verwerven van haar moedertaal volkomen blanco en in hoeverre zijn er in haar hersenen al ideeën ingebakken over hoe de grammatica van taal eruit zou moeten zien: in hoeverre verwacht een kind bijvoorbeeld al werkwoorden en zelfstandig naamwoorden te moeten onderscheiden? Voor de aanhangers van dat aangeboren taalvermogen zijn de zinnen hierboven lang een gewichtig bewijsstuk geweest. Je leert nooit expliciet iets over het ingewikkelde verschil tussen die zinnen. Je ouders zeggen er niets over en op school wordt er ook niets over meegedeeld. Bovendien komen allebei de soorten zinnen niet erg veel voor, en zeker worden ze niet vaak tegen kinderen gezegd. Hoe komen die kinderen er dan achter dat de ene zin wel kan en de andere niet? Het antwoord van de aanhangers van aangeborenheid is: dat kan alleen maar zijn omdat we in ons hoofd bij geboorte een bouwplan hebben van hoe taal er in grote lijnen uitziet, en waar op de een of andere manier al de relatie in is opgenomen tussen vraagwoorden vooraan en het werkwoord verderop waarvan ze het lijdend voorwerp zijn. Onbewust Dat gold heel lang als een ijzersterk argument, maar een nieuw manuscript dat nu overal de ronde doet, slaat er wat gaten in: als je de heel krachtige software gebruikt die zichzelf taal kan leren (zoals GPT-3), dan kan die software ook dit soort verschillen oppikken. De computer wordt alleen gevoerd met grote hoeveelheden taal, bakken vol teksten, kasten vol, en past daar alleen maar statistiek op toe, zonder enige van te voren opgelegde kennis over vraagwoorden of naamwoorden of wat dan ook. En toch vindt die computer uiteindelijk de tweede zin hierboven vreemder dan de eerste. De onderzoekers zijn zelf enigszins bescheiden over hun bevinding. Ze wijzen er bijvoorbeeld op dat de hoeveelheid taal die GPT-3 nodig heeft om een taal te leren naar schatting evenveel is als een tachtigjarige mens gehoord heeft. Wij mensen leren dus wel wat sneller: we hebben minder gegevens nodig om het subtiele verschil op te pikken. We weten bovendien dat die modellen energie slurpen, en we doen het dus ook een stuk efficiënter. Aan de andere kant kun je zeggen: misschien kunnen er nog verfijndere modellen komen die het nog sneller en efficiënter leren. Dat je principieel niet het verschil tussen deze zinnen zou kunnen leren is in ieder geval weerlegd. Een blanco blad kan wel degelijk met dit soort subtiliteiten gevuld raken. Als het systeem het kan leren, is natuurlijk wel de vraag: hoe komt dat verschil dan in het taalmateriaal dat de computer gebruikt om dit te leren? Met andere woorden: waarom is dat verschil er überhaupt? De computer zou vast ook een taal kunnen leren waarin dat verschil niet wordt gemaakt; de hypothese is dat kinderen dat niet zouden kunnen. Waarom lijken alle talen een soortgelijk verschil dan toch te vertonen tussen zelfstandignaamwoordgroepen en werkwoordgroepen? Die patronen moeten er door mensen onbewust in gelegd zijn. Zou dat niet toch iets te maken kunnen hebben met hoe onze geest precies werkt?

Foto: Sargasso achtergrond wereldbol

Taal en het getal nul

13 augustus 2015 , 11:00 , door Marc van Oostendorp

COLUMN - Marc van Oostendorp gaat in op voor taalkundigen onverwachte vragen die ‘het publiek’ gesteld heeft aan de Nationale Wetenschapsagenda.

Sommige onderzoekers wezen er in de aanloop naar de Nationale Wetenschapsagenda op dat de initiatiefnemers van die agenda uitgingen van een verkeerd idee: dat onderzoekers er zijn om vragen te beantwoorden. Een belangrijk deel van hun werk bestaat er juist uit om de goede vragen te stellen: vragen die nog nooit gesteld zijn maar wel na onderzoek beantwoordbaar lijken, vragen die niet gaan over triviale details maar ook niet over al te grote dingen, vragen waarop het antwoord ons verder kan helpen.

De mogelijkheid zo’n vraag te vinden is een belangrijk deel van het ambacht van de wetenschapper.
Zo gezien is het de vraag of de wetenschap vooruit komt wanneer niet-onderzoekers hun vragen gaan bijdragen. Maar ik denk dat er meer te beleven is aan vragen, ook aan op het eerste gezicht volkomen beantwoordbare vragen die aan de Wetenschapsagenda gesteld zijn, vragen als:

Bestaat er iets voor taal wat vergelijkbaar is met het getal nul voor de wiskunde en exacte wetenschap?

Het getal nul verbind allerlei getallenstelsels met elkaar en maakt ze universeel, zodat er één krachtig instrument ontstaat, waarmee de wetenschap zijn vragen te lijf kan gaan. Bestaat er voor taal ook zo’n verbindend element, zodat je in staat bent om filosofieën te verbinden en daarmee de babylonische spraakverwarring van de wereld op te heffen?

Doneer!

Mededeling

Sargasso is een laagdrempelig platform waarop mensen kunnen publiceren, reageren en discussiëren, vanuit de overtuiging dat bloggers en lezers elkaar aanvullen en versterken. Sargasso heeft een progressieve signatuur, maar is niet dogmatisch. We zijn onbeschaamd intellectueel en kosmopolitisch, maar tegelijkertijd hopeloos genuanceerd. Dat betekent dat we de wereld vanuit een bepaald perspectief bezien, maar openstaan voor andere zienswijzen.

In de rijke historie van Sargasso – een van de oudste blogs van Nederland – vind je onder meer de introductie van het liveblog in Nederland, het munten van de term reaguurder, het op de kaart zetten van datajournalistiek, de strijd voor meer transparantie in het openbaar bestuur (getuige de vele Wob-procedures die Sargasso gevoerd heeft) en de jaarlijkse uitreiking van de Gouden Hockeystick voor de klimaatontkenner van het jaar.

Lezen: Bedrieglijk echt, door Jona Lendering

Mededeling

Bedrieglijk echt gaat over papyrologie en dan vooral over de wedloop tussen wetenschappers en vervalsers. De aanleiding tot het schrijven van het boekje is het Evangelie van de Vrouw van Jezus, dat opdook in het najaar van 2012 en waarvan al na drie weken vaststond dat het een vervalsing was. Ik heb toen aangegeven dat het vreemd was dat de onderzoekster, toen eenmaal duidelijk was dat deze tekst met geen mogelijkheid antiek kon zijn, beweerde dat het lab uitsluitsel kon geven.

Foto: Sargasso achtergrond wereldbol

Waarom heet een stoel een stoel?

6 augustus 2015 , 11:00 , door Marc van Oostendorp

COLUMN - Marc van Oostendorp gaat in op voor taalkundigen onverwachte vragen die ‘het publiek’ gesteld heeft aan de Nationale Wetenschapsagenda.

Misschien dat de oproep van de Nationale Wetenschapsagenda aan het publiek om vragen te stellen aan de wetenschap bedoeld was om vragen op te roepen die volkomen naïef zijn en juist daardoor de wetenschapper even terugbrengen naar zijn eigen oorspronkelijke enthousiasme voor het onderzoek. Ja! Dat is het soort dingen dat ik ooit wilde weten.

Vragen, kortom, als:

Waarom heet een stoel een stoel?

Ik vraag me dit soms af, iemand heeft ooit de “stoel” bedacht. Maar wat als een ander persoon ooit de “stoel” en de “tafel” door elkaar heeft gehaald? Dan is een “tafel” dus een “stoel” en andersom. Hoe kunnen we dit ooit weten?

Een taalkundige die ook maar een knip voor de neus waard is, roept dan:
maar in het Russisch wordt een tafel stol genoemd! En verwijst voor de rest van de vraag door naar het loket van de taalfilosoof. De vraag van deze vragensteller is namelijk al eerder gesteld, en wel door Plato in diens dialoog Cratylus. De conclusie daar was ongeveer dat er inderdaad iemand ooit een naam voor stoel heeft bedacht die een enorm logische en transparante naam was: aan die naam kon je al zien dat het stoel betekende. Sinds die Oorspronkelijke Naamgever is het woord wel steeds verder gedegenereerd in allerlei talen.