Learning Syntactic Structure Yoav Seginer Samenvatting: De syntactische structuur van taal is niet direct observeerbaar maar speelt een belangrijke rol in de taalkunde. De vraag die dit proefschrift probeert te beantwoorden is wat de relatie is tussen de observeerbare taal (de woorden en zinnen die wij horen en lezen en hun frequenties) en de syntactische structuur van taal. Dit is een belangrijke vraag in de taalkunde omdat ze sterk verbonden is met fundamentele vragen over de structuur van taal en de manier waarop kinderen hun moedertaal leren. Een manier om deze vraag te beantwoorden is een algoritme te ontwerpen dat data aangaande zinnen in een taal bijhoudt en deze data gebruikt om de syntactische structuur van zinnen in de taal te bepalen. Dit proces leert de syntactische structuur van een taal aan de hand van niet-geannoteerde voorbeelden (voorbeelden zoals ze in de taal voorkomen zonder extra informatie). Het algoritme codeert een relatie tussen de bijgehouden data van de observeerbare taal en de syntactische structuur. Als het algoritme tenminste een deel van de syntactische structuur van een taal weet te bepalen kunnen we zeggen dat het algoritme een benadering is van de relatie tussen de observeerbare taal en haar syntactische structuur. Zo'n algoritme heet een unsupervised parser (letterlijk: niet-begeleide ontleder). Dit proefschrift gaat over een voorstel voor een bepaalde unsupervised parser. Door de parser op corpora van verschillende talen te testen wordt aangetoond dat het algoritme een deel van de syntactische structuur van deze talen weet te ontdekken. De relatie beschreven door de unsupervised parser is niet alleen afhankelijk van de keuze van welke data worden bijgehouden maar ook van de keuze van een bepaalde representatie van de syntactische structuur. De juiste representatiekeuze is om die reden belangrijk voor het vereenvoudigen van de parser. Het eerste deel van het proefschrift beschrijft een volledig nieuwe representatie van syntactische structuur (common cover links) en een parseermethode geschikt voor deze nieuwe representatie. De common cover links maken het gemakkelijk voor de parser gebruik te maken van twee belangrijke eigenschappen van natuurlijke taal die ik vooronderstel: taal wordt door mensen incrementeel verwerkt en de syntactische structuren van taal zijn scheef (elke deelboom van een ontledingsboom heeft een korte tak). Door het gebruik van common cover links kan er een incrementele parser worden gedefinieerd die de syntactische structuur geleidelijk opbouwt terwijl de woorden van een zin een-voor-een worden ingelezen. Deze representatie zorgt er ook voor dat alleen scheve syntactische bomen kunnen worden geproduceerd door de parser. Als gevolg hiervan is het aantal mogelijkheden dat de parser in beschouwing hoeft te nemen sterk beperkt. Dit maakt het parseren simpel en snel en maakt de relatie tussen de observaties van de taal en de beslissingen die de parser moet nemen eenvoudig. Het tweede deel van het proefschrift beschrijft de data die de parser bijhoudt en hoe deze worden gebruikt tijdens het parseren. Belangrijk is dat een nieuwe zin eerst wordt geparseerd en dat pas daarna de data van de zojuist geparseerde zin worden bijgehouden. De parser wordt op deze wijze geleidelijk verbeterd: nieuwe data worden toegevoegd aan de oude data en samen worden ze gebruikt om de volgende zin te parseren en meer data te verzamelen. De data worden voor ieder woord apart bijgehouden. Voor elk woord bestaan de data uit labels die de frequentie tellen van woorden die naast het woord voorkomen en van de labels van die woorden. Op basis van deze labels worden simpele eigenschappen geinduceerd die bepalen hoe woorden met elkaar kunnen worden verbonden tijdens het parseren. Als gevolg van de Zipfdistributie van woorden in natuurlijke talen hebben labels gebaseerd op frequente woorden de grootste invloed op de eigenschappen van alle woorden. Op deze manier vervangen de meest frequente labels de traditionele woordsoorten. Het induceren van de eigenschappen van een woord wordt uitgevoerd door het optellen van eigenschappen van andere woorden. Dat maakt het leerproces net als het parseren simpel en snel. De parser is getest op drie corpora, in het Engels, Duits en Chinees. Bij ieder van deze drie talen weet de parser een deel van de syntactische structuur van de taal te ontdekken. De parser behaalt veel efficienter dan eerder geconstrueerde unsupervised parsers ongeveer even goede resultaten.