Dissecting Incongruity: Metaphor and Humor Understanding of Large Language Models
Xiaoyu Tong 

Deze scriptie onderzoekt de mogelijkheden van grote taalmodellen (LLM's) met betrekking tot de verwerking van metaforen en humor. Metaforen en humor zijn onmisbare onderdelen van menselijke cognitie en communicatie, maar ze kunnen uitdagingen vormen voor LLM's. Naarmate mensen over de hele wereld steeds vaker LLMs gebruiken, is het belangrijk te weten hoe goed de modellen metaforen en humor begrijpen en hoe ze verbeterd kunnen worden. Deze scriptie onderzoekt de verwerkingscapaciteiten van LLM's voor metaforen en humor in de volgende opzichten:

**Parafrasering van taalkundige metaforen.** Voortbouwend op eerder onderzoek naar automatische interpretatie van metaforen, beschouw ik het begrijpen van metaforen als een parafraseertaak. Ik selecteer zinnen met metaforen uit het VU Amsterdam Metaphor Corpus (VUA) en creëer een dataset met meer dan 10.000 handmatig gemaakte, passende parafrases voor deze metaforische zinnen. Daarnaast construeer ik handmatig 1.500 <referentiezin, parafrase 1, parafrase 2>-voorbeelden met ongeschikte parafrases; De paren van passende en ongepaste parafrases leggen de verschillen vast tussen een contextuele, metaforische interpretatie en een letterlijke interpretatie van de termen. Ik evalueer taalmodellen (LLM's) op twee taken: het genereren van parafrases (met behulp van alle passende parafrases in de dataset) en het beoordelen van parafrases (een meerkeuzetaak gebaseerd op de paren van passende en ongepaste parafrases). De experimenten tonen aan dat LLM's moeite hebben met het correct parafraseren van taalkundige metaforen.

**Intenties achter metafoorgebruik.** Ik ontwikkel samen met anderen een taxonomie met negen categorieën van mogelijke intenties achter metafoorgebruik. Op basis van deze taxonomie annoteer ik samen met anderen een dataset met intentie-annotaties voor 1000 metaforische zinnen uit VUA. Vervolgens gebruik ik deze dataset om de capaciteiten van LLM's te onderzoeken om de intenties achter taalkundige metaforen te voorspellen. Onze experimenten met zero- en few-shot voorbeelden laten zien dat het afleiden van de intenties achter taalkundige metaforen een uitdagende taak is voor de huidige LLM's.

**Humoristisch multimodaal metafoorgebruik.** Wat betreft het gebruik van multimodale metaforen, focus ik op de wisselwerking tussen metafoor en humor in multimodale communicatie: de twee fenomenen hebben gemeenschappelijke kenmerken en metafoor is een van de meest voorkomende humoristische mechanismen. Geïnspireerd door de incongruiteitstheorie van humor, de conceptuele metafoortheorie en het annotatieschema achter VUA, ontwikkel ik een nieuw annotatieschema voor humoristisch multimodaal metafoorgebruik in beeld-bijschriftparen. Ik annoteer 1000 beeld-bijschriftparen uit het corpus van de New Yorker Caption Contest. Op basis van deze dataset ontwerp ik een reeks taken om het vermogen van multimodale LLM's te testen om humoristisch multimodaal metafoorgebruik te detecteren en te begrijpen. De experimenten tonen aan dat huidige LLM's nog steeds moeite hebben met het verwerken van humoristische multimodale metaforen, met name wat betreft de integratie van visuele en tekstuele informatie.

**Culturele verschillen in humorwaardering.** Humor vertoont zowel universaliteit als culturele variatie. Het vermogen om aan te sluiten bij het 'gevoel voor humor' van individuele culturen is belangrijk in de interactie tussen mens en AI. Als eerste stap naar een raamwerk voor het evalueren van de culturele aansluiting van LLM's bij de verwerking van humor, beoogt deze studie menselijke basiswaarden vast te stellen die culturele verschillen in humorwaardering vertegenwoordigen. Specifiek onderzoek ik de associatie tussen humor, metafoor en emotie, en hoe deze verschilt per cultuur. Hiertoe rekruteer ik deelnemers uit de Chinese, Mexicaanse, Poolse en Amerikaanse cultuur en verzamel ik 25.600 beoordelingen van de grappigheid en annotaties van emotionele reacties voor 800 cartoons uit The New Yorker met bijschriften, waaronder 482 met gedetailleerde annotaties van humoristisch multimodale metaforen. Mijn kwantitatieve en kwalitatieve analyses onthullen zowel algemene patronen als de complexiteit van wat in verschillende culturen als humoristisch wordt beschouwd, hoe humorwaardering samenhangt met emotionele reacties en hoe metaforen de humorwaardering kunnen beïnvloeden, afhankelijk van de cultuur.