Een plaatje zegt de computer meer dan duizend woorden

Foto: Honden volgens Google Images copyright ok. Gecheckt 23-11-2022

Kunnen computers taal leren? Het is een van de grote vragen van deze tijd en 7 november jl. legde Danny Merkx in Nijmegen een nieuw stukje van de puzzel. Hij promoveerde er op een proefschrift waarin hij onderzocht of het hielp als je computers plaatjes laat zien.

Merkx bood de computer daarvoor een verzameling plaatjes aan – bijvoorbeeld gehaald van de website Flickr – die beschreven waren door vrijwilligers: ‘een hond rent door het gras’, ‘een wit hondje in de sneeuw’, ’twee vrouwen op een tractor’. Als de computer hierdoor getraind was, bleek het in staat om ook op een nieuwe foto te zien of er een hond op voorkwam. En dat was niet alleen het geval als de beschrijving was uitgeschreven, maar ook als hij was ingesproken – terwijl gesproken taal veel moeilijker te analyseren is, bijvoorbeeld doordat er allerlei uitspraakvariatie is, of doordat we in gesproken taal geen pauzes leggen tussen woorden maar alles aan elkaar plakken. Bovendien wist de computer voor de training begon niets van taal: hij kende geen woorden, hij wist zelfs niet wat woorden waren.

Dat toevoegen van plaatjes om taal te leren is nieuw. De bestaande ’taalmodellen’ – ook die verantwoordelijk zijn voor de successen van chatbots of Google Translate – worden alleen maar getraind op tekst. Zij leren taal door heel veel heel grote verzamelingen teksten met elkaar te vergelijken. Dat is waarschijnlijk geen heel reële weerspiegeling van hoe kinderen woorden leren, zei Merkx tijdens zijn promotie. Zij hebben ook ouders die bijvoorbeeld op een hond wijzen en dan zeggen ‘hond’. Vandaar dat Merkx ook voor computers geïnteresseerd is in multimodaal leren. Nu zijn er ook andere ‘modaliteiten’ dan het zicht (het gehoor, de reuk, enzovoort), maar het visuele is voor de computer nu eenmaal het makkelijkst te analyseren. Er zijn wel databases van plaatjes, maar niet van geuren.

Het blijkt in de praktijk ook te werken. De bestaande modellen met alléén taal worden getraind op onwaarschijnlijke hoeveelheden teksten – meer dan een mens in een tachtigjarig leven kan lezen, ook als ze permanent leest. Merkx laat in zijn proefschrift zien dat het ook met minder kan. Sterker nog, hij liet zien dat zijn model met plaatjes het in sommige opzichten beter deed dan modellen met alleen tekst. Bijvoorbeeld kan zijn systeem het verschil tussen enkelvoud en meervoud herkennen: het geeft andere plaatjes wanneer je om ‘hond’ vraagt dan om ‘honden’. Dat onderscheid is vaak te subtiel voor tekstmodellen.

Het is logisch en lijkt voor de hand te liggen, maar dat het niet eerder is geprobeerd heeft natuurlijk ook te maken met het feit dat computers steeds sneller worden, en dat er in de Kunstmatige Intelligentie nieuwe technieken gevonden zijn. Zoals er ooit een dag komt dat een robotje, behept met allerlei zintuigen, door de wereld mag scharrelen om woorden te leren. Dan gaan we wat zien!


Het proefschrift (Modelling multi-modal language learning: from sentence to words) van Danny Merkx is in te zien via pure.MPg, de publicatie repository van het Max Planck Instituut.

Reacties (4)

#1 Bismarck

“Als de computer hierdoor getraind was, bleek het in staat om ook op een nieuwe foto te zien of er een hond op voorkwam.”
Dus al die zogenaamde vragen met plaatjes om te bewijzen dat ik geen robot was (klik de plaatjes met stoplichten, bussen, zebrapaden, … aan) waren puur om mijn tijd te verdoen?

  • Volgende discussie
#1.1 Frank789 - Reactie op #1

De “I am not a robot” captcha analyseert de beweging van je muis, of die menselijk is en niet robotachtig.

Maar ik heb ook iemand horen beweren dat er dan in je browser history wordt gekeken of je menselijk bent.

  • Volgende reactie op #1
#1.2 Co Stuifbergen - Reactie op #1

Nee, daarmee verschafte u informatie waarmee Google zijn computers beter trainen kon.

Er was ook een tijd waarin Google vroeg het getal op de foto in te toetsen.
Daardoor wist Google welk huisnummer op welke plaats in Google maps verschijnen moest.

  • Vorige reactie op #1
#1.3 Frank789 - Reactie op #1.2

Nee, daarmee verschafte u informatie waarmee Google zijn computers beter trainen kon.

Nou, na 3 miljard keren het zebrapad of het stoplicht te hebben aangewezen…, dus dat dat nu nog steeds gebruikt wordt geeft aan dat het nu zeker niet meer gebruikt wordt voor training.
Je ziet ook steeds vaker dat je slechts een vinkje hoeft te plaatsen en geen foto’s meer hoeft te bekijken. Je gedrag rondom het vinkje zetten is al voldoende om je van een robot te onderscheiden.
Verder zou ik zeggen google op “what does a “I am not a robot” captcha”.

Daardoor wist Google welk huisnummer op welke plaats in Google maps verschijnen moest.

Je bedoelt hoe de streetview camera de nummers op de huizen moest lezen/ontcijferen voor Google maps?
Want “het getal op de foto” zal in principe niet jouw huisnummer zijn.