Learning Syntactic Structure
Yoav Seginer

Samenvatting:

De syntactische structuur van taal is niet direct observeerbaar maar speelt een
belangrijke rol in de taalkunde. De vraag die dit proefschrift probeert 
te beantwoorden is wat de relatie is tussen de observeerbare taal (de woorden 
en zinnen die wij horen en lezen en hun frequenties) en de syntactische 
structuur van taal. Dit is een belangrijke vraag in de taalkunde omdat 
ze sterk verbonden is met fundamentele vragen over de structuur van taal 
en de manier waarop kinderen hun moedertaal leren. Een manier om deze vraag
te beantwoorden is een algoritme te ontwerpen dat data aangaande zinnen 
in een taal bijhoudt en deze data gebruikt om de syntactische structuur 
van zinnen in de taal te bepalen. Dit proces leert de syntactische structuur 
van een taal aan de hand van niet-geannoteerde voorbeelden (voorbeelden zoals 
ze in de taal voorkomen zonder extra informatie). Het algoritme
codeert een relatie tussen de bijgehouden data van de observeerbare taal
en de syntactische structuur. Als het algoritme tenminste een deel van de
syntactische structuur van een taal weet te bepalen kunnen we zeggen dat
het algoritme een benadering is van de relatie tussen 
de observeerbare taal en haar syntactische structuur. Zo'n algoritme 
heet een unsupervised parser (letterlijk: niet-begeleide ontleder). 
Dit proefschrift gaat over een voorstel voor een bepaalde unsupervised parser.
Door de parser op corpora van verschillende talen te testen wordt aangetoond 
dat het algoritme een deel van de syntactische structuur van deze talen weet 
te ontdekken. 

De relatie beschreven door de unsupervised parser is niet alleen afhankelijk 
van de keuze van welke data worden bijgehouden maar ook van de keuze van een 
bepaalde representatie van de syntactische structuur. De juiste 
representatiekeuze is om die reden belangrijk voor het vereenvoudigen van 
de parser. Het eerste deel van het proefschrift beschrijft een volledig 
nieuwe representatie van syntactische structuur (common cover links) en een 
parseermethode geschikt voor deze nieuwe representatie.

De common cover links maken het gemakkelijk voor de parser gebruik te maken
van twee belangrijke eigenschappen van natuurlijke taal die ik vooronderstel: 
taal wordt door mensen incrementeel verwerkt en de syntactische structuren
van taal zijn scheef (elke deelboom van een ontledingsboom heeft een 
korte tak). Door het gebruik van common cover links kan er een incrementele 
parser worden gedefinieerd die de syntactische structuur geleidelijk opbouwt
terwijl de woorden van een zin een-voor-een worden ingelezen. Deze 
representatie zorgt er ook voor dat alleen scheve syntactische bomen 
kunnen worden geproduceerd door de parser. Als gevolg hiervan is
het aantal mogelijkheden dat de parser in beschouwing hoeft te nemen sterk 
beperkt. Dit maakt het parseren simpel en snel en maakt de relatie tussen 
de observaties van de taal en de beslissingen die de parser moet nemen 
eenvoudig. 

Het tweede deel van het proefschrift beschrijft de data die de parser bijhoudt 
en hoe deze worden gebruikt tijdens het parseren. Belangrijk is dat een nieuwe 
zin eerst wordt geparseerd en dat pas daarna de data van de zojuist geparseerde
zin worden bijgehouden. De parser wordt op deze wijze geleidelijk verbeterd: 
nieuwe data worden toegevoegd aan de oude data en samen worden ze gebruikt 
om de volgende zin te parseren en meer data te verzamelen.

De data worden voor ieder woord apart bijgehouden. Voor elk woord 
bestaan de data uit labels die de frequentie tellen van woorden die naast 
het woord voorkomen en van de labels van die woorden. Op basis van deze labels
worden simpele eigenschappen geinduceerd die bepalen hoe woorden met elkaar 
kunnen worden verbonden tijdens het parseren. Als gevolg van de Zipfdistributie
van woorden in natuurlijke talen hebben labels gebaseerd op frequente woorden 
de grootste invloed op de eigenschappen van alle woorden. Op deze manier 
vervangen de meest frequente labels de traditionele woordsoorten.
Het induceren van de eigenschappen van een woord wordt uitgevoerd
door het optellen van eigenschappen van andere woorden. Dat maakt het
leerproces net als het parseren simpel en snel.

De parser is getest op drie corpora, in het Engels, Duits en Chinees.
Bij ieder van deze drie talen weet de parser een deel van de syntactische 
structuur van de taal te ontdekken. De parser behaalt veel efficienter 
dan eerder geconstrueerde unsupervised parsers ongeveer even goede resultaten.