Visual and Linguistic Processes in Deep Neural Networks: A Cognitive Perspective Ece Takmaz Samenvatting: Wanneer mensen een afbeelding beschrijven, zijn er complexe visuele en talige processen aan het werk. Sprekers hebben bijvoorbeeld de neiging om naar een object te kijken net voordat ze het benoemen, maar doen dat niet altijd. Ook kunnen sprekers tijdens een gesprek meerdere keren naar een entiteit verwijzen, waarbij ze uitdrukkingen gebruiken die in hun gedeelde kennis ontstaan en doorontwikkelen. In dit proefschrift ontwerp ik computationele modellen van zulke visuele en linguïstische processen, waarbij ik inspiratie haal uit theorieën en bevindingen uit de cognitiewetenschap en de psycholinguïstiek. Dit werk, waarin ik de ingewikkelde relatie tussen taal en buitentalige modaliteiten binnen diepe kunstmatige neurale netwerken wil vastleggen, draagt bij aan de onderzoekslijn naar multimodale natuurlijke taalverwerking. Dit proefschrift bestaat uit twee delen: (1) het modelleren van de menselijke blik in taalgebruik (productie en begrip), en (2) het modelleren van communicatiestrategieën in referentiële taken in visueel gebaseerde dialogen. In het eerste deel verdiep ik me in het verbeteren van modellen voor het beschrijven van afbeeldingen met behulp van oogbewegingsgegevens; het evalueren van de variatie in menselijke signalen tijdens het beschrijven van afbeeldingen; en het voorspellen van menselijk leesgedrag in de vorm van oogbewegingen. In het tweede deel bouw ik modellen voor het kwantificeren, genereren, oplossen en aanpassen van uitingen in referentiële taken die zich binnen visuele en conversationele contexten bevinden. De resultaten bevorderen ons begrip van menselijke visuo-linguïstische processen door de ingewikkelde strategieën te onthullen die bij dergelijke processen een rol spelen, en wijzen op het belang om hiermee rekening te houden bij het ontwikkelen en gebruiken van multimodale modellen. De bevindingen werpen licht op hoe de vooruitgang op het gebied van kunstmatige intelligentie zou kunnen bijdragen aan het bevorderen van het onderzoek naar crossmodale processen bij mensen en vice versa.