computert Archives

Wat kan een computer het vermogen om te doen leren?

Er is belangrijk nieuws in een van de heftigste taalkundige discussies van de afgelopen vijftig jaar. We doen even een experiment met het taalmachientje onder je hersenpan. Wat betekent de volgende zin? Wat geloof jij dat de actrice gisteren gekocht heeft? De vraag is nu: wat is het lijdend voorwerp van gekocht? Dat is als je Nederlands spreekt hopelijk geen ingewikkelde vraag: dat is wat. Het staat weliswaar ver naar voren, maar vraagwoorden plaatsen we nu eenmaal naar voren in de zin. Maar neem nu de volgende zin: Wat deel jij de overtuiging dat de actrice gisteren gekocht heeft? De zin zou min of meer hetzelfde moeten betekenen als de vorige – de zinnen ‘ik geloof dat de actrice dit gekocht heeft’ en ‘ik deel de overtuiging dat de actrice dit gekocht heeft’ zijn parallel aan elkaar, en er wordt op parallelle manier een vraag van gemaakt– maar dat doet hij niet. Hij betekent niks. De reden daarvoor, ontdekten taalkundigen meer dan vijftig jaar geleden is dat ‘jouw overtuiging dat…’ een zelfstandignaamwoordgroep is, en ‘geloof jij dat..’ een werkwoordgroep. Om de een of andere reden kan er geen relatie bestaan tussen een werkwoord en zijn lijdend voorwerp als dat werkwoord ingebed is in een zelfstandignaamwoordgroep en het lijdend voorwerp niet. Ja, de vorige alinea is heel ingewikkeld. Bouwplan Maar dat is nu juist het punt: je taalintuïtie trekt zich weinig aan van die ingewikkeldheid. Je voelt dat de tweede zin niet kan en de eerste wel. De ingewikkelde alinea beschrijft waar dat gevoel vandaan komt, ook al ben je je daar niet van bewust. Je hebt dus op een bepaalde manier wel degelijk die ingewikkelde kennis. Maar dan komt de volgende vraag: waar komt die kennis vandaan? Die vraag is de inzet geweest van die discussie van de afgelopen halve eeuw: die over het aangeboren taalvermogen. In hoeverre begint de baby de ingewikkelde taak van het verwerven van haar moedertaal volkomen blanco en in hoeverre zijn er in haar hersenen al ideeën ingebakken over hoe de grammatica van taal eruit zou moeten zien: in hoeverre verwacht een kind bijvoorbeeld al werkwoorden en zelfstandig naamwoorden te moeten onderscheiden? Voor de aanhangers van dat aangeboren taalvermogen zijn de zinnen hierboven lang een gewichtig bewijsstuk geweest. Je leert nooit expliciet iets over het ingewikkelde verschil tussen die zinnen. Je ouders zeggen er niets over en op school wordt er ook niets over meegedeeld. Bovendien komen allebei de soorten zinnen niet erg veel voor, en zeker worden ze niet vaak tegen kinderen gezegd. Hoe komen die kinderen er dan achter dat de ene zin wel kan en de andere niet? Het antwoord van de aanhangers van aangeborenheid is: dat kan alleen maar zijn omdat we in ons hoofd bij geboorte een bouwplan hebben van hoe taal er in grote lijnen uitziet, en waar op de een of andere manier al de relatie in is opgenomen tussen vraagwoorden vooraan en het werkwoord verderop waarvan ze het lijdend voorwerp zijn. Onbewust Dat gold heel lang als een ijzersterk argument, maar een nieuw manuscript dat nu overal de ronde doet, slaat er wat gaten in: als je de heel krachtige software gebruikt die zichzelf taal kan leren (zoals GPT-3), dan kan die software ook dit soort verschillen oppikken. De computer wordt alleen gevoerd met grote hoeveelheden taal, bakken vol teksten, kasten vol, en past daar alleen maar statistiek op toe, zonder enige van te voren opgelegde kennis over vraagwoorden of naamwoorden of wat dan ook. En toch vindt die computer uiteindelijk de tweede zin hierboven vreemder dan de eerste. De onderzoekers zijn zelf enigszins bescheiden over hun bevinding. Ze wijzen er bijvoorbeeld op dat de hoeveelheid taal die GPT-3 nodig heeft om een taal te leren naar schatting evenveel is als een tachtigjarige mens gehoord heeft. Wij mensen leren dus wel wat sneller: we hebben minder gegevens nodig om het subtiele verschil op te pikken. We weten bovendien dat die modellen energie slurpen, en we doen het dus ook een stuk efficiënter. Aan de andere kant kun je zeggen: misschien kunnen er nog verfijndere modellen komen die het nog sneller en efficiënter leren. Dat je principieel niet het verschil tussen deze zinnen zou kunnen leren is in ieder geval weerlegd. Een blanco blad kan wel degelijk met dit soort subtiliteiten gevuld raken. Als het systeem het kan leren, is natuurlijk wel de vraag: hoe komt dat verschil dan in het taalmateriaal dat de computer gebruikt om dit te leren? Met andere woorden: waarom is dat verschil er überhaupt? De computer zou vast ook een taal kunnen leren waarin dat verschil niet wordt gemaakt; de hypothese is dat kinderen dat niet zouden kunnen. Waarom lijken alle talen een soortgelijk verschil dan toch te vertonen tussen zelfstandignaamwoordgroepen en werkwoordgroepen? Die patronen moeten er door mensen onbewust in gelegd zijn. Zou dat niet toch iets te maken kunnen hebben met hoe onze geest precies werkt?

Steun ons!

Mededeling

De redactie van Sargasso bestaat uit een club vrijwilligers. Naast zelf artikelen schrijven struinen we het internet af om interessante artikelen en nieuwswaardige inhoud met lezers te delen. We onderhouden zelf de site en houden als moderator een oogje op de discussies. Je kunt op Sargasso terecht voor artikelen over privacy, klimaat, biodiversiteit, duurzaamheid, politiek, buitenland, religie, economie, wetenschap en het leven van alle dag.

Om Sargasso in stand te houden hebben we wel wat geld nodig. Zodat we de site in de lucht kunnen houden, we af en toe kunnen vergaderen (en borrelen) en om nieuwe dingen te kunnen proberen.

Doneer!

Mededeling

Sargasso is een laagdrempelig platform waarop mensen kunnen publiceren, reageren en discussiëren, vanuit de overtuiging dat bloggers en lezers elkaar aanvullen en versterken. Sargasso heeft een progressieve signatuur, maar is niet dogmatisch. We zijn onbeschaamd intellectueel en kosmopolitisch, maar tegelijkertijd hopeloos genuanceerd. Dat betekent dat we de wereld vanuit een bepaald perspectief bezien, maar openstaan voor andere zienswijzen.

In de rijke historie van Sargasso – een van de oudste blogs van Nederland – vind je onder meer de introductie van het liveblog in Nederland, het munten van de term reaguurder, het op de kaart zetten van datajournalistiek, de strijd voor meer transparantie in het openbaar bestuur (getuige de vele Wob-procedures die Sargasso gevoerd heeft) en de jaarlijkse uitreiking van de Gouden Hockeystick voor de klimaatontkenner van het jaar.

Lezen: Bedrieglijk echt, door Jona Lendering

Mededeling

Bedrieglijk echt gaat over papyrologie en dan vooral over de wedloop tussen wetenschappers en vervalsers. De aanleiding tot het schrijven van het boekje is het Evangelie van de Vrouw van Jezus, dat opdook in het najaar van 2012 en waarvan al na drie weken vaststond dat het een vervalsing was. Ik heb toen aangegeven dat het vreemd was dat de onderzoekster, toen eenmaal duidelijk was dat deze tekst met geen mogelijkheid antiek kon zijn, beweerde dat het lab uitsluitsel kon geven.