Waarheid voor chatbots

Wat is onwaar? De komst van chatbots heeft weer een nieuwe draai gegeven aan die vraag. Het is inmiddels vermoedelijk algemeen bekend dat chatbots niet altijd de waarheid zeggen. Maar wat is dat dan voor onwaarheid? Het is bijvoorbeeld geen leugen, aangezien een leugen altijd een intentie tot misleiden vereist, iets wat (vermoedelijk) afwezig is bij chatbots. We noemen het daarom vaak hallucinatie, al is ook dat een niet helemaal geschikte term, bijvoorbeeld omdat hij veronderstelt dat er voor de chatbot een verschil is tussen wakend en dromend denken, maar voor die chatbots is het (vermoedelijk) allemaal hetzelfde. Voor zover we chatbots begrijpen, hebben ze helemaal geen notie van waarheid – of iets waar is of onwaar, speelt geen rol in hun overwegingen om iets te zeggen, andere criteria (hoevaak komen woorden in elkaars omgeving voor) zijn daarin veel belangrijker. Vandaar dat bots moeite hebben met het woord niet: de zin hij komt niet heeft ongeveer dezelfde plausibiliteit als hij komt. Waterdruppels Alleen willen menselijke gebruikers wel iets anders. ChatGPT is inmiddels bijna anderhalf jaar beschikbaar, en nog steeds vind je op sociale media mensen die geamuseerd of verontwaardigd voorbeelden geven van onzinnige chatbotantwoorden op zinnige vragen. Een begrip van waarheid inbouwen in die chatbots staat daarom waarschijnlijk hoog op het lijstje van ontwikkelaars. Daarvoor is dan weer een goed criterium nodig om hallucinaties te classificeren. In het tijdschrift Computational linguistics komt Kees van Deemter met een oplossing: de klassieke logica. Dat is een vak dat al duizenden jaren nadenkt over wat een bewering wel of niet waar maakt, en Van Deemter zegt dat die hier ook al iets over kan zeggen. Een belangrijk begrip in de logica is ‘volgen uit’. Uit de bewering dat Marie zingt volgt dat Marie geluid maakt, maar het omgekeerde is niet waar: uit de bewering dat Marie geluid maakt volgt niet noodzakelijkerwijs dat ze ook zingt. Soms volgen twee beweringen wel uit elkaar dan zijn ze equivalent: uit de bewering dat het regent volgt dat er waterdruppels uit de hemel vallen, en het omgekeerde is ook waar. Omissies Dit begrip ‘volgen uit’ zou je ook kunnen gebruiken voor hallucinaties, zegt Van Deemter. Stel dat je weet dat de volgende drie zaken feiten zijn over Panuozzo: Panuozzo is Italiaans en Panuozzo is een restaurant en de prijzen bij Panuozzo zijn laag Verschillende chatbots wordt nu gevraagd iets te zeggen over Panuozzo. Dan kunnen zich onder andere de volgende beweringen voordoen: Panuozzo is een betaalbaar Italiaans restaurant. [waar] Panuozzo is een betaalbaar restaurant [weglating] Panuozzo is een betaalbaar veganistisch Italiaans restaurant [toevoeging] In het laatste geval zouden we zeggen dat de chatbot hallucineert: hij voegt iets toe aan de mededeling dat niet correspondeert met de bekende waarheid. Maar wat nu over de volgende mededeling: Panuozzo is een betaalbaar Frans restaurant. Je zou kunnen zeggen dat hier zowel een feit wordt weggelaten (dat het een Italiaans restaurant is) als wordt toegevoegd (dat het een Frans restaurant) zou zijn. Dit soort betrekkelijk eenvoudige bewerkingen maken het mogelijk om de afwijkingen van de waarheid, en dus de mate waarin een systeem hallucineert, te kwantificeren (‘een duur Frans restaurant’ zijn twee afwijkingen en ‘een duur veganistisch Italiaans restaurant’ is er één). In ieder geval in principe, want in werkelijkheid is de verzameling dingen die mogelijk wel of niet waar zijn over Panuozzo natuurlijk veel groter dan drie (het is gevestigd in Utrecht, het heeft zelfs twee vestigingen, er staan allerlei dingen op de menukaart die je kunt opsommen, enzovoort), dus met name het aantal omissies is in een willekeurige mededeling al snel heel groot. Output Zoals omgekeerd er natuurlijk feiten zijn die soms volgen uit elkaar. Als we weten dat Panuozzo een Italiaans restaurant is, weten we ook dat het een Mediterraan restaurant is. Dat te beweren is dus geen hallucinatie maar met de mededeling ‘Panuozzo is een betaalbaar Mediterraans Italiaans restaurant’ is wel weer iets anders mis: redundantie. We zijn er nog lang niet uit, maar het is interessant dat ook een van de oudste disciplines ter wereld – die van de logica – nog wat te zeggen heeft bij de beoordeling van de output van chatbots.

Door: Foto: ter illustratie Restaurant O'Panuozzo Utrecht, via Marc van Oostendorp op Neerlandistiek.
Foto: © Sargasso logo Kort copyright ok. Gecheckt 09-02-2022

Stuk is te lang

Je zal het maar hebben. Je stuk is te lang. Dat is onhandig, want het wetenschappelijk tijdschrift waar je ‘em wil indienen is Heel Streng wat betreft het maximale aantal woorden dat je mag gebruiken. En er komt een punt dat je je onderzoek en bevindingen niet in nóg minder tekens kan beschrijven zonder de inhoud geweld aan te doen. Of de leesbaarheid.

Maar daar zijn dus trucjes voor, heb ik geleerd. Je kan wat referenties weghalen – in plaats van je te beroepen op die drie teksten die je punt ondersteunen, verwijs je er slechts naar één. Lullig voor de schrijvers van die twee die je weglaat, want ook zij worden afgerekend op citaties en al wat dies meer zij. Maar het is niet anders. Je kan ook gewoon wat initialen weghalen uit iemands naam, of wat spaties verwijderen tussen de initialen, heb ik horen vertellen. Ook niet zo netjes, maar het zoeksysteem snapt toch wel wie het gaat dus de personen krijgen in ieder geval wel de verdiende credits. Of in het uiterste geval schrap je gewoon wat stukken die je later terugplaatst als je de drukproef krijgt, want daarna wordt niet meer gecontroleerd op aantal woorden.

Doe het veilig met NordVPN

Sargasso heeft privacy hoog in het vaandel staan. Nu we allemaal meer dingen online doen is een goede VPN-service belangrijk om je privacy te beschermen. Volgens techsite CNET is NordVPN de meest betrouwbare en veilige VPN-service. De app is makkelijk in gebruik en je kunt tot zes verbindingen tegelijk tot stand brengen. NordVPN kwam bij een speedtest als pijlsnel uit de bus en is dus ook geschikt als je wil gamen, Netflixen of downloaden.

Doneer!

Sargasso is een laagdrempelig platform waarop mensen kunnen publiceren, reageren en discussiëren, vanuit de overtuiging dat bloggers en lezers elkaar aanvullen en versterken. Sargasso heeft een progressieve signatuur, maar is niet dogmatisch. We zijn onbeschaamd intellectueel en kosmopolitisch, maar tegelijkertijd hopeloos genuanceerd. Dat betekent dat we de wereld vanuit een bepaald perspectief bezien, maar openstaan voor andere zienswijzen.

In de rijke historie van Sargasso – een van de oudste blogs van Nederland – vind je onder meer de introductie van het liveblog in Nederland, het munten van de term reaguurder, het op de kaart zetten van datajournalistiek, de strijd voor meer transparantie in het openbaar bestuur (getuige de vele Wob-procedures die Sargasso gevoerd heeft) en de jaarlijkse uitreiking van de Gouden Hockeystick voor de klimaatontkenner van het jaar.

Foto: Eigen foto Proefschrift bijstandsexperiment Nijmegen

Impact schmimpact – Citaties tellen en impact factor

ACHTERGROND - Dit stuk gaat over het tellen van hoe vaak wetenschappelijk werk geciteerd wordt, en over soortgelijke zaken. En dat is natuurlijk keimegasuperbelangrijk, dat snapt u. Niet? Maakt niet uit, ik heb er toch een uitgebreid stukje over getikt. Want hoe mooi en nuttig de wetenschap ook is: er valt ook genoeg over te zeuren.

Hoe meet je kwaliteit van wetenschap?

De kwaliteit van een wetenschapper en de impact van wetenschappelijk werk wordt vaak bepaald door ‘tellen’. Er is zelfs een heel veld ontstaan, de bibliometrie, dat zich bezig houdt met het meten van de kwaliteit van wetenschappelijk werk. Maar ja, dat gebeurt, zoals helaas wel vaker, vervolgens op basis van kwantitatieve indicatoren. En het kwantificeren van kwaliteit is zoals bekend heel erg lastig en gevaarlijk vanwege mogelijke (onvoorziene) perverse neveneffecten.

Er zijn een aantal indicatoren opgesteld waarop kwaliteit wordt beoordeeld. Sommige zijn vrij recht toe recht aan. Voor een wetenschapper wordt bijvoorbeeld vaak gekeken naar het aantal keer dat ‘ie geciteerd is, en hoeveel artikelen er zijn geschreven. En voor een artikel wordt hoe vaak het geciteerd is gezien als een aanduiding van kwaliteit. Daar even over nadenken zou al tot een opgetrokken wenkbrauw kunnen leiden, want laten we wel wezen: als iemand een artikel publiceert en vervolgens citeren 100 mensen dat artikel als voorbeeld van slecht onderzoek of ondeugdelijke methodes, dan lijkt het puur op basis van de cijfers (100x geciteerd!) heel wat.

Foto: Eigen foto Proefschrift bijstandsexperiment Nijmegen

Hoe nu verder met de bijstand?

Ja, wat nu? We hebben enorm veel informatie opgehaald in een aantal bijstandsexperimenten. Her en der heeft dat al geleid tot grotere of kleinere aanpassingen in het beleid van deelnemende gemeenten. Ook bij het Rijk is een omslag te zien, in het wetsvoorstel Participatiewet in Balans van minister Schouten. Daarin wordt erkend dat de Participatiewet op punten niet goed werkt, dat het mensbeeld dat er achter zit niet ok is, dat er minder moet worden uitgegaan van wantrouwen, en dat de menselijke maat terug moet. De concrete wijzigingen lijken, op basis van de beschikbare kennis goede, edoch vrij kleine aanpassingen in het bestaande systeem. Maar wat zou een goede weg zijn als je, op basis van de bekende wetenschappelijke inzichten, ons bijstandsbeleid (of wat breder, de hele sociale zekerheid) zou willen verbeteren?

We weten wat niet werkt

Want zoals ik al eerder schreef, we weten namelijk al ontzettend veel uit wetenschappelijk onderzoek over ons sociale stelsel. En heel veel van die kennis is dat wat we doen vrij beroerd werkt. Het stukje achter de link gaat over Nederland, maar ook uit onderzoek naar het Verenigd Koninkrijk weten we dat soortgelijke systemen als het onze voor veel problemen kunnen zorgen (van ‘material hardship and health problems’ tot ‘increased child maltreatment and poorer child well-being’). De nadruk op strenge sancties (aan kwetsbare mensen) zorgt voor schier oneindige maatschappelijke ellende. Op basis van de beschikbare wetenschappelijke kennis zou je dus best kunnen zeggen: het huidige systeem moet helemaal anders. Niet alleen in Nederland maar in de hele westerse wereld, van Australië via het UK tot de VS. Overal waar dogma’s rondom ‘zelfredzaamheid’ en ‘workfare’ decennialang het beleid hebben bepaald. En de mensen die het had moeten helpen in de ellende heeft gestort.

Lezen: De BVD in de politiek, door Jos van Dijk

Tot het eind van de Koude Oorlog heeft de BVD de CPN in de gaten gehouden. Maar de dienst deed veel meer dan spioneren. Op basis van nieuw archiefmateriaal van de AIVD laat dit boek zien hoe de geheime dienst in de jaren vijftig en zestig het communisme in Nederland probeerde te ondermijnen. De BVD zette tot tweemaal toe personeel en financiële middelen in voor een concurrerende communistische partij. BVD-agenten hielpen actief mee met geld inzamelen voor de verkiezingscampagne. De regering liet deze operaties oogluikend toe. Het parlement wist van niets.

Foto: Sandra Fauconnier (cc)

Spellinggeweten

Wat een vreselijk woord heb ik een tijdje geleerd door de – op zich lovenswaardige – kerndoelen Nederlands te lezen. Ik ben er nog steeds ontdaan van. Een woord dat me de haren te berge doet rijzen, al is het maar omdat het laat zien dat een strijd die ik inmiddels al decennia voer, echt nergens toe leidt, dat de hele wereld aanneemt dat het volkomen normaal is om kinderen op te zadelen met narigheid die nergens toe dient. Een woord dat mij treft in het diepst van mijn taalziel.

Spellinggeweten.

Het blijkt een woord te zijn dat, geïntroduceerd door de vakdidacticus Helge Bonset, al minstens vijftien jaar circuleert in kringen van het taalonderwijs. Het is, als ik bijvoorbeeld deze pagina goed begrijp, de wil om correct te spellen, maar dan ingebed in een moreel sausje, want geweten suggereert moraal. Het klinkt alsof je kinderen leert dat ze zich schuldig moeten voelen over spelfouten. Dat is, volgens bijvoorbeeld deze pagina ‘de basis van het spellingonderwijs’.

Ik weet niet of er elders in het onderwijs sprake is van een kerndoel waarin kinderen een ‘geweten’ moeten leren ontwikkelen op een bepaald gebied. Het lijkt me hoe dan ook nauwelijks een doel voor het onderwijs.

Foto: Eigen foto Proefschrift bijstandsexperiment Nijmegen

Peer review: ergernis en kwaliteitscontrole

ACHTERGROND - De afgelopen maanden heb ik het weer regelmatig met jullie gehad over de bijstandsexperimenten, en dan met name over de inhoud daarvan. En hoewel de inhoud natuurlijk het belangrijkst is, zou ik nu graag toch weer een moment nemen om het over ‘de wetenschap’ te hebben. En dan specifiek over mijn ervaringen tijdens mij promotietraject met het publicatieproces en peer review.

Peer review is, denk ik, vaak wel een nuttig iets. Zoals ik eerder in deze serie beschreef zit op de meeste wetenschappelijke publicaties wel een soort van een collegiale check. De strengheid van die check draagt vaak bij aan hoe serieus een wetenschappelijk artikel wordt genomen. De strengste vorm van zo’n collegiale check is de anonieme peer review, zoals gedaan bij wetenschappelijke tijdschriften. Die laten twee, drie of soms vier experts mee kijken naar een ingediend artikel. Die zorgen dat de echte rotzooi er tussenuit wordt gehaald, en dat de artikelen die uiteindelijk gepubliceerd worden naar een wat hoger niveau worden getild. De wederzijdse anonimiteit moet dan objectiviteit garanderen. Hier zitten wel de nodige haken en ogen aan. In semiwillekeurige volgorde een aantal waar ik me het meest aan stoor.

Hemeltergend traag

Geheel persoonlijk: wat duurt dat proces ongelooflijk irritant lang soms. Ik ben niet het geduldigste mens op aarde, dat speelt vast mee. Maar het proces van:

Lezen: Bedrieglijk echt, door Jona Lendering

Bedrieglijk echt gaat over papyrologie en dan vooral over de wedloop tussen wetenschappers en vervalsers. De aanleiding tot het schrijven van het boekje is het Evangelie van de Vrouw van Jezus, dat opdook in het najaar van 2012 en waarvan al na drie weken vaststond dat het een vervalsing was. Ik heb toen aangegeven dat het vreemd was dat de onderzoekster, toen eenmaal duidelijk was dat deze tekst met geen mogelijkheid antiek kon zijn, beweerde dat het lab uitsluitsel kon geven.

Lezen: Venus in het gras, door Christian Jongeneel

Op een vroege zomerochtend loopt de negentienjarige Simone naakt weg van haar vaders boerderij. Ze overtuigt een passerende automobiliste ervan om haar mee te nemen naar een afgelegen vakantiehuis in het zuiden van Frankrijk. Daar ontwikkelt zich een fragiele verstandhouding tussen de twee vrouwen.

Wat een fijne roman is Venus in het gras! Nog nooit kon ik zoveel scènes tijdens het lezen bijna ruiken: de Franse tuin vol kruiden, de schapen in de stal, het versgemaaide gras. – Ionica Smeets, voorzitter Libris Literatuurprijs 2020.

Foto: Eigen foto Proefschrift bijstandsexperiment Nijmegen

Naar nieuwe bijstandsexperimenten!

Het is een cliché, maar daarom niet minder waar, dat elk onderzoek eindigt met een roep om méér onderzoek. Voor een deel is die roep gewoon terecht. De wetenschap is nooit ‘af’, en dus is het niet meer dan logisch om als onderzoeker na te denken over wat een logisch vervolg zou zijn. Maar soms hebben wetenschappers ook belang bij vervolgonderzoek. Immers, veel geld komt onze hoger onderwijs- en onderzoeksinstellingen binnen door ‘onderzoek in opdracht’. En ja, als je van dat geld afhankelijk bent (voor je voortbestaan als onderzoekseenheid, of als wetenschapper voor je bevordering naar een betere functie of het behouden van je baan), dan is een vervolgopdracht natuurlijk wel erg prettig – niet anders dan bijvoorbeeld in de consultancy.

Meer onderzoek: verder met wat er al ligt

Dus, het risico nemend dat één of andere cynicus gaat roepen dat ik als onderzoeker natúúrlijk vervolgonderzoek wil, ga ik het hier hebben over mogelijke interessante paden voor méér onderzoek en experimenten naar de bijstand. Want die paden die zijn er, heel veel, zoals ik ook hier al aanstipte. De bijstandsexperimenten van de afgelopen jaren hebben een hoop opgeleverd. Zowel kennis over de bijstand, als over hoe je dit soort experimenten in de toekomst (nog) beter kan houden zodat er nog meer van geleerd kan worden. En op die kennis kan worden voortgebouwd.

Foto: Eigen foto Proefschrift bijstandsexperiment Nijmegen

Ere wie ere toekomt: de ‘niet-officiële’ bijstandsexperimenten

ACHTERGROND, LONGREAD - Er is inmiddels al een hoop geschreven over de bijstandsexperimenten, die gehouden zijn in Nederland, tussen 2017 en 2020. Hier op Sargasso, op andere blogs, in vaktijdschriften, wetenschappelijke artikelen en twee dissertaties. In veel van die teksten gaat het om (één van) de zes ‘officiële’ bijstandsexperimenten, die gehouden zijn met toestemming van het ministerie van SZW. Deze vonden plaats in Deventer, Groningen*, Nijmegen, Tilburg, Utrecht en Wageningen.

Echter: naast die zes waren er nog een aantal experimenten, die niet het officiële stempel van goedkeuring van SZW mochten dragen, maar qua inhoud toch behóórlijk veel lijken op de anderen. Ook ik heb me wel eens bezondigd aan het weglaten van deze ongestempelde broederexperimenten. In mijn proefschrift heb ik ze zelfs weggemoffeld in een voetnoot. Waarbij ik er, als insult to injury, nog eentje vergeten ben ook. Bij deze wil ik die omissie goedmaken, en wat extra aandacht geven aan deze andere experimenten.

Officieel en niet-officieel

Hoe zat het ook al weer? Heel beknopt: Rutte 2 voerde de Participatiewet in, in 2015. Daar waren heel veel mensen boos over. Waaronder veel gemeenten, die nog voor de daadwerkelijke invoering al in het wetsontwerp zagen dat het een ramp ging worden: te bureaucratisch, teveel gericht op verplichtingen en straffen, niet genoeg rekening houdend met kwetsbare mensen, et cetera. Dus wilden een aantal gemeenten experimenteren. Een vrij fors aantal, de schatting is dat ergens tussen de 50 en 80 gemeenten hier in eerste instantie wel oren naar hadden.

Steun ons!

De redactie van Sargasso bestaat uit een club vrijwilligers. Naast zelf artikelen schrijven struinen we het internet af om interessante artikelen en nieuwswaardige inhoud met lezers te delen. We onderhouden zelf de site en houden als moderator een oogje op de discussies. Je kunt op Sargasso terecht voor artikelen over privacy, klimaat, biodiversiteit, duurzaamheid, politiek, buitenland, religie, economie, wetenschap en het leven van alle dag.

Om Sargasso in stand te houden hebben we wel wat geld nodig. Zodat we de site in de lucht kunnen houden, we af en toe kunnen vergaderen (en borrelen) en om nieuwe dingen te kunnen proberen.

Foto: Still uit Youtube video Joe Bonomassa met The Ballad of John Henry

John Henry (steel-driving man) en de bijstandsproef

ACHTERGROND - Dit stukje heeft de tag ‘Closing Time’, maar dat is niet helemaal kloppend: eigenlijk is het een ‘opening time’ en gaat dit stuk over het Nijmeegse bijstandsexperiment, en al wat daar omheen hangt. Maar toch beginnen we met een stukje muziek. Joe Bonomassa kennen jullie natuurlijk allemaal, want die is hier al eens eerder langsgekomen. Het gaat hier echter niet om de artiest, maar om de tekst van het nummer The Ballad of John Henry. Want John Henry, geloof het of niet, was relevant voor de analyse van de bijstandsexperimenten hier in Nederland.

Wellicht komt de naam de gamers en poëzieliefhebbers ook bekend voor:

John Henry said to his Captain: ‘A man ain’t nothin’ but a man,/And before I’ll let your steam drill beat me down,/I’ll die with the hammer in my hand.

Iemand? Dit komt natuurlijk uit Civilization V, als je het staal hebt  uitgevonden. En die hebben het weer van het gedicht John Henry, van anoniem: The Ballad of John Henry, the Steel-Drivin’ Man. Potverdorie, deze post had zelfs als Kunst op Zondag gekund!

Het John Henry-effect in de wetenschap

Maar we gaan het toch hebben over wetenschap, in relatie tot de bijstandsexperimenten. Want naast John Henry, kennen we ook het ‘John Henry effect’, waar je rekening mee moet houden als je een experiment doet. Zo lang de mensen in het experiment weten dat ze in een experiment zitten – maar dat is natuurlijk wel zo ethisch. Eigenlijk is het John Henry effect een subset van het (bekendere) Hawthorne effect. Dit is de naam van het effect dat mensen zich soms anders gedragen wanneer ze weten dat ze deel uitmaken van een experiment. De term is bedacht naar aanleiding van een experiment in de Hawthorne fabriek, waar ze testten of de felheid van het licht in de fabriek gerelateerd was aan hoe hard er gewerkt werd. Resultaat was dat zolang de proef duurde, men productiever werd als er iets veranderde – ongeacht wat, of het licht nou feller of donkerder werd. En toen de proef weer voorbij was de arbeidsproductiviteit weer werd zoals voorheen.

Foto: Eigen foto Proefschrift bijstandsexperiment Nijmegen

Het leven als buitenpromovendus

ACHTERGROND - ‘Buitenpromovendus’, wat dat eigenlijk is en hoe dat gaat, vragen jullie? Geen probleem, ik vertel er graag wat over! Wie weet inspireert het deze of gene om zelf een aantal jaren te besteden aan het doen van een wetenschappelijk onderzoek.

De reguliere weg

Normaal gesproken promoveer je (haal je een PhD) aan de universiteit als aio, oftewel ‘assistent in opleiding’. Je krijgt dan een fulltime contract voor meestal vier, of soms ook drie, jaar. Die tijd moet je moet besteden aan het doen van onderzoek en het schrijven van een proefschrift. Je krijgt daarvoor ongeveer een modaal salaris, een hoeveelheid werk die flink groter is dan je redelijkerwijs af kan krijgen in de tijd die je hebt, een zeer afhankelijke positie ten opzichte van je begeleiders, en bij succes, en mazzel, een volgend tijdelijk contract als postdoc.

Mits je natuurlijk in de wetenschap wil blijven. Waarna soms nog één of twee tijdelijke contracten volgen, en je daarna, als alles goed gaat, eindelijk een eerste vast contract mag ontvangen als ‘UD’, of universitair docent. Als alles goed gaat, want de academie is een piramide, en er zijn minder postdoc plaatsen dan aio’s, en minder UD-plaatsen dan postdocs.

Vorige Volgende