Decomposing and Regenerating Syntactic Trees Federico Sangati Samenvatting Deze dissertatie gaat over het leren van syntactische boomstructuren aan de hand van generalisaties over geannoteerde corpora. Verschillende probabilistische modellen worden onderzocht, met drie verschillende representaties. Corpora voor standaard zinsstructuur (phrase-structure) en afhankelijkheidsstructuur (dependency-structure) worden gebruikt om de modellen te trainen en te testen. Een derde representatie wordt geïntroduceerd, gebaseerd op een systematische maar compacte formulering van de originele afhankelijkheidstheorie zoals geïntroduceerd door Lucien Tesnière. Deze nieuwe representatie omvat alle voordelen van zinsstructuren en afhankelijkheidsstructuren, en is een toereikend compromis tussen adequaatheid en eenvoud van syntactische beschrijving. Eén van de belangrijkste bijdragen van deze dissertatie is de formulering van een algemeen kader ('framework') voor het definiëren van generatieve modellen van syntaxis. In elk model vallen de syntactische bomen uiteen in elementaire constructies welke opnieuw gecombineerd kunnen worden teneinde nieuwe syntactische structuren te genereren door middel van specifieke combinatieoperaties. Voor het leren van zinsstructuren wordt een nieuwe methode van Data-Georiën-teerd Ontleden (Data-Oriented Parsing; DOP) geïntroduceerd. In navolging van het originele DOP gedachtegoed worden constructies van willekeurige grootte gebruikt als bouwstenen van het model; echter, teneinde de grammatica te beperken tot een kleine doch representatieve verzameling van constructies worden alleen constructies die meerdere keren voorkomen gebruikt als verzameling van voorbeelden (exemplars). Voor het vinden van terugkerende fragmenten is een nieuwe efficiente 'tree-kernel'-algoritme ontworpen. Wat betreft de andere twee representaties: twee generatieve modellen worden geformuleerd en geëvalueerd met behulp van een systeem voor herordenen (re-ranking). Deze simpele methodologie wordt geïntroduceerd in dit werk en kan gebruikt worden bij het simuleren van alternatieve automatische ontleders en bij het (her)definiëren van syntactische modellen.