Op het gebied van multimodaal leren is de afgelopen jaren aanzienlijke vooruitgang geboekt, zowel wat betreft bereikte prestaties, als de verscheidenheid van taken. Echter blijven er nog steeds veel belangrijke uitdagingen over, zoals het integreren van externe kennis in multimodale modellen, wat snelle en efficiënte aanpassing aan nieuwe taken mogelijk maakt, en negatieve interferentie verminderd tijdens gezamenlijk leren. Bovendien, ondanks de brede toepasbaarheid van deze modellen, ontbreekt er inzicht in hun interne mechanisme, met name in hoe verschillende modaliteiten interageren in multimodale systemen. Dit proefschrift onderzoekt deze uitdagingen vanuit het perspectief van twee verschillende modaliteiten: taal en beeld, en hun combinatie. Ten eerste ontwikkelen we een methode om multimodaal redeneren te verbeteren door algemene kennis te integreren in de modellen. Dat wil zeggen, we integreren algemene kennis over objecten in een afbeelding in de representaties van die objecten. We evalueren deze techniek op basis van de "referring expression comprehension" taak, waarbij het doel is om de positie van het object in de afbeelding te vinden op basis van een taalbeschrijving en een afbeelding. Door externe kennis op te nemen, kunnen de modellen objectfuncties en contextuele relaties afleiden, waardoor ze kunnen redeneren over complexe scènes, en niet alleen visuele en ruimtelijke aanwijzingen waar nemen. Dit verbetert de toepasbaarheid van modellen voor realistische scenario's die ‘gezond verstand’ vereisen. Ten tweede stellen we een nieuwe ‘parameter-efficient fine-tuning’ (PEFT) methode voor, waarmee al getrainde modellen efficiënt aangepast kunnen worden aan nieuwe taken. In plaats van het hele model aan te passen, verfijnt onze aanpak slechts een klein, maar relevant deel van alle parameters. Hierdoor worden neuron excitaties gemoduleerd om zich effectief aan te passen aan nieuwe taken. Deze selectieve afstemming verlaagt de vereiste computerkracht, vermindert potentiële gradiëntconflicten tussen verschillende taken, en behoudt het model nuttige kennis die is opgedaan tijdens de eerste trainingsronde. We tonen aan dat onze methode de prestaties in verschillende visuele en taalkundige taken verbetert. Daarnaast introduceren we een nieuwe ‘sparse training’-benadering waarmee voorgetrainde modellen meerdere taken tegelijk kunnen uitvoeren. Deze methode vergemakkelijkt het delen van relevante informatie tussen taken tijdens het leerproces en vermindert tegelijkertijd gradiëntconflicten die vaak voorkomen bij het gezamenlijk leren van meerde taken. We tonen proefondervindelijk aan dat onze aanpak de prestaties aanzienlijk verbetert bij ‘dense vision prediction’ taken, wat wijst op foutbestendigheid en brede toepasbaarheid. Ten slotte onderzoeken we het interne werkingsmechanisme van multimodale ‘Large Language Models’ (MLLMs) bij het uitvoeren van multimodale taken, met name hoe taalkundige en visuele informatie in deze modellen op elkaar inwerken. Specifiek, gegeven een afbeelding en een vraag, onderzoeken we waar in het model en hoe beeld en tekst worden gecombineerd om de uiteindelijke voorspelling te genereren. Uitgebreide experimenten tonen aan dat er twee verschillende stadia zijn in het integratie proces van deze twee modaliteiten. In de onderste lagen zet het model eerst de meer algemene visuele kenmerken van het hele beeld om in de representaties van (tekstuele) vraagwoorden. In de middelste lagen wordt visuele informatie over specifieke objecten die relevant zijn voor de vraag nogmaals overgedragen naar de juiste woordenposities van de vraag. Tot slot wordt in de hogere lagen de resulterende multimodale representatie doorgegeven aan de laatste positie van de invoerreeks voor de uiteindelijke voorspelling. Onze bevindingen bieden, over het geheel genomen, een nieuw en uitgebreid perspectief op ruimtelijke en functionele aspecten van beeld- en taalverwerking in MLLMs, wat toekomstig onderzoek naar multimodale informatie lokalisatie en bewerking zal bevorderen. Globaal samengevat, dit proefschrift draagt bij aan de vooruitgang van beeld- en taalmodellen door fundamentele probleemstellingen in deze domeinen aan te pakken. De voorgestelde oplossingen en inzichten bieden een basis voor het ontwikkelen van meer kennisbewuste, efficiënte en interpreteerbare multimodale kunstmatige intelligentie systemen, toepasbaar in uiteenlopende realistische contexten.