Multilinguality and Multiculturalism: Towards Effective and Inclusive Neural Language Models Rochelle Choenni Voor het trainen van taalmodellen hebben we enorme hoeveelheden tekts in een bepaalde taal nodig. Daardoor kunnen we dit soort trainings technieken slechts op een handvol talen toepassen. Om de inzetbaarheid van taalmodellen te vergroten hebben onderzoekers zich gericht op de ontwikkeling van modellen die in meerdere talen kunnen worden toegepast. Dit heeft geleid tot de ontwikkeling van meertalige taalmodellen (MLM's), oftewel modellen die afwisselend worden getraind op teksten uit meerdere talen. De intuïtie achter dit soort meertalige training is dat het informatie-uitwisseling tussen talen mogelijk maakt. Op deze manier kunnen verschillende talen elkaar leren ondersteunen door gebruik te maken van taalgemeenschappelijkheden in de training data. Ondanks het feit dat MLM's steeds meer talen weten te verwerken, hebben de nieuwe trainingstechnieken ook voor nieuwe technische en sociale uitdagingen gezorgd. In het bijzonder, meertalige training vermindert de modelcapaciteit per taal, en als gevolg daarvan kunnen de verschillende talen gaan strijden voor de beperkte capaciteit. Dit kan er op zijn beurt voor zorgen dat talen elkaar negatief gaan beïnvloeden, wat de voordelen van het meertalige trainen ondermijnd. Bovendien is vanuit sociaal perspectief een beperkende factor van MLM's dat, om ze in cultureel diverse gemeenschappen in te kunnen zetten, hun output ook kloppend moet zijn met de sociaal-culturele normen en vooroordelen van die gemeenschappen. Dit vereist dat MLMs ook inherent multicultureel worden. Daarom bestuderen we in dit proefschrift MLMs met betrekking tot zowel hun technische als sociale uitdagingen. We onderzoeken hoe effectievere MLMs kunnen worden ontwikkeld die de negatieve interactie tussen talen verminderd en bestuderen het effect dat gezamenlijke meertalige training heeft op de sociale vooroordelen en culturele waarden die in MLMs zijn gecodeerd.