Decomposing and Regenerating Syntactic Trees
Federico Sangati

Samenvatting

Deze dissertatie gaat over het leren van syntactische boomstructuren
aan de hand van generalisaties over geannoteerde
corpora. Verschillende probabilistische modellen worden onderzocht,
met drie verschillende representaties.

Corpora voor standaard zinsstructuur (phrase-structure) en
afhankelijkheidsstructuur (dependency-structure) worden gebruikt om de
modellen te trainen en te testen. Een derde representatie wordt
geïntroduceerd, gebaseerd op een systematische maar compacte
formulering van de originele afhankelijkheidstheorie zoals
geïntroduceerd door Lucien Tesnière.  Deze nieuwe representatie omvat
alle voordelen van zinsstructuren en afhankelijkheidsstructuren, en is
een toereikend compromis tussen adequaatheid en eenvoud van
syntactische beschrijving.

Eén van de belangrijkste bijdragen van deze dissertatie is de
formulering van een algemeen kader ('framework') voor het definiëren
van generatieve modellen van syntaxis. In elk model vallen de
syntactische bomen uiteen in elementaire constructies welke opnieuw
gecombineerd kunnen worden teneinde nieuwe syntactische structuren te
genereren door middel van specifieke combinatieoperaties.

Voor het leren van zinsstructuren wordt een nieuwe methode van
Data-Georiën-teerd Ontleden (Data-Oriented Parsing; DOP)
geïntroduceerd. In navolging van het originele DOP gedachtegoed worden
constructies van willekeurige grootte gebruikt als bouwstenen van het
model; echter, teneinde de grammatica te beperken tot een kleine doch
representatieve verzameling van constructies worden alleen
constructies die meerdere keren voorkomen gebruikt als verzameling van
voorbeelden (exemplars). Voor het vinden van terugkerende fragmenten
is een nieuwe efficiente 'tree-kernel'-algoritme ontworpen.

Wat betreft de andere twee representaties: twee generatieve modellen
worden geformuleerd en geëvalueerd met behulp van een systeem voor
herordenen (re-ranking). Deze simpele methodologie wordt
geïntroduceerd in dit werk en kan gebruikt worden bij het simuleren
van alternatieve automatische ontleders en bij het (her)definiëren van
syntactische modellen.