Taking a Step Back: Measuring and Mitigating Bias in Language Models
(Een stap terugnemen: Het meten en verminderen van bias in taalmodellen)
Oskar van der Wal

Taalmodellen spelen een steeds grotere rol in hoe mensen informatie raadplegen, beslissingen nemen en maatschappelijke vraagstukken begrijpen.
Hoewel ze vaak worden gepresenteerd als neutrale hulpmiddelen, kunnen deze systemen op subtiele manieren sociale vooroordelen weerspiegelen en versterken, waardoor ze stereotypen, verwachtingen en oordelen over verschillende groepen beïnvloeden.
Wanneer een taalmodel wetenschappers consequent als mannen afbeeldt of zich baseert op historisch vertekende raciale informatie bij het verwerken van klinische teksten, doet het meer dan enkel patronen uit de trainingsdata weerspiegelen: het kan deze associaties normaliseren en bestendigen over miljoenen interacties. 
Een veelvoorkomende reactie op deze zorgen is de toename van biasbenchmarks en mitigatietechnieken.
Verbeterde benchmarkscores worden echter vaak geïnterpreteerd als bewijs van vooruitgang, zonder duidelijkheid over wat deze metingen daadwerkelijk vastleggen. 
Bovendien blijven mitigatiepogingen beperkt wanneer de onderliggende mechanismen van bias onvoldoende begrepen worden.

De centrale vraag van dit proefschrift is hoe representationele bias in taalmodellen -- systematische patronen in de manier waarop modellen informatie over sociale groepen en kenmerken coderen en gebruiken -- op rigoureuze wijze gemeten, begrepen en verminderd kan worden.
Effectieve mitigatie vereist inzicht in waar en hoe vertekende associaties ontstaan, wat op zijn beurt meetbenaderingen vereist die valide en betrouwbaar zijn, en die getoetst worden in realistische contexten.
Om deze samenhangende uitdagingen aan te pakken, neemt dit proefschrift eerst een stap terug en benadert het deze vraag vanuit vier complementaire richtingen.

Ten eerste ontwikkelt het een raamwerk ontleend aan de psychologie dat bias behandelt als een onderliggende eigenschap die niet direct waargenomen kan worden, maar indirect afgeleid moet worden uit meerdere metingen. 
Dit helpt te verklaren waarom bestaande metrieken vaak uiteenlopende resultaten geven en stelt criteria vast voor geloofwaardigere meetpraktijken.
Ten tweede documenteert het proefschrift, door middel van een pilotstudie naar klinische beslissingsondersteuning, vijf terugkerende faalpatronen wanneer modellen realistische patiëntendossiers verwerken. Dit toont aan dat het testen van modellen in realistische scenario's andere problemen aan het licht brengt dan vereenvoudigde meerkeuzevragen, en benadrukt de methodologische complexiteit van biasonderzoek in realistische contexten.
Ten derde, om de oorsprong van bias te begrijpen, maakt het proefschrift gebruik van methoden die het gedrag van modellen transparanter maken, waarbij wordt nagegaan hoe vertekende patronen tijdens de training ontstaan. 
Daarnaast wordt aangetoond dat genderinformatie zich steeds sterker concentreert in specifieke delen van het model, in verschillende modelarchitecturen.
Ten vierde, door te bestuderen waar bias is ingebed in het model, wordt vastgesteld welke specifieke interne onderdelen bijdragen aan vertekend gedrag. 
Daarnaast wordt aangetoond dat gerichte aanpassingen aan uitsluitend deze onderdelen bias kunnen verminderen terwijl de algehele modelprestaties beter behouden blijven dan bij aanpassing van het gehele model.
Deze onderzoeken richten zich voornamelijk op Engelstalige taalmodellen, met geselecteerde analyses in het Nederlands.

Samen bieden deze studies nieuwe perspectieven op het meten van bias en op hoe vertekende associaties zich tijdens de training ontwikkelen. 
Daarnaast illustreren ze hoe gerichte, op mechanismen gebaseerde interventies bepaalde vormen van bias onder specifieke omstandigheden kunnen verminderen.
In bredere zin betoogt dit proefschrift dat het begrijpen en verminderen van bias in taalmodellen zorgvuldig gevalideerde metingen in realistische contexten vereist en aandacht voor hoe modellen informatie intern coderen en gebruiken, in plaats van te vertrouwen op geïsoleerde benchmarktests.
Hoewel mechanistische analyse en gerichte interventies waardevolle instrumenten bieden, volstaan zij op zichzelf niet; het aanpakken van schade en leed in de praktijk vereist uiteindelijk de integratie ervan met scenariogebaseerde evaluatie en onderzoek naar geïmplementeerde systemen.