Linguistic Variation in Online Communities: A Computational Perspective
Marco Del Tredici 

Één en hetzelfde woord kan verschillende dingen betekenen als het door verschillende mensen gebruikt wordt. De variatie die je ziet in betekenis is niet willekeurig, maar wordt bepaald door de sociale kenmerken van sprekers. Een cruciale factor bij het bepalen van de waargenomen variatie is de gemeenschap waartoe een individu behoort. Dit proefschrift onderzoekt betekenisvariatie van sprekers binnen internetgemeenschappen met een tweeledig doel: het geven van een empirische benadering van dit fenomeen in internetomgevingen, en de bevindingen gebruiken om de prestaties van natuurlijke-taalverwerkingsmodellen te verbeteren.
Ik bouw voort op theoretische raamwerken ontwikkeld binnen de taalkunde de socialelinguïstiek, die betekenisvariatie in niet-digitale gemeenschappen beschrijven. Om betekenisvariatie in digitale data van internetgemeenschappen te onderzoeken gebruik ik gereedschappen en methodes afkomstig uit de onderzoeksvelden natuurlijke-taalverwerking en computerlinguïstiek.
Het proefschrift bestaat uit twee hoofddelen. Het eerste deel legt de nadruk op de algemene onderzoeksvraag: hoe kunnen we betekenisvariatie in internetgemeenschappen identificeren en representeren? Dit deel omvat drie beschrijvende studies die deze vraag vanuit verschillende standpunten benadert.
Eerst onderzoek ik betekenisvariatie van een synchroon perspectief, en introduceer een methodologie om de wijze waarop woordbetekenis varieert binnen internetgemeenschappen te representeren. Vervolgens bekijk ik de diachrone dimensie, waar ik de nadruk leg op het proces van betekenisverandering die leidt tot de waargenomen variatie, en op de sociale dynamiek die dit proces ondersteunen.
In het tweede deel hanteer in een taakgerichte aanpak bij het behandelen van de onderzoeksvraag: hoe kan sociale informatie worden gebruikt om de prestaties van natuurlijke-taalverwerkingsmodellen te verhogen? Ik richt me op deze vraag met twee studies. In de eerste laat ik zien hoe het mogelijk is om informatie over verbindingen van een gebruiker op een social media platform te gebruiken om tot betere resultaten te komen voor het automatisch classificeren van door gebruikers gegenereerde teksten. In de tweede studie laat ik zien dat de taal die wordt gebruikt door gebruikers op social media erg waardevolle informatie bevat voor het automatisch detecteren van nepnieuws.
Over het geheel genomen presenteert dit proefschrift een uitgebreide studie naar betekenisvariatie tussen sprekers van internetgemeenschappen. Er worden twee belangrijke bijdragen geleverd: aan de ene kant levert het een empirische bevestiging van traditioneel onderzoek binnen de sociolinguistiek en biedt het nieuwe theoretisch inzichten over betekenisvariatie tussen sprekers van internetgemeenschappen. Aan de andere kant introduceeert het nieuwe modellen en methoden, die door gebruik te maken van informatie over de sociale context waar taal wordt gegenereerd, de prestaties van taaltechnologische systemen voor tekstclassificatie kunnen verhogen.