Relational-Realizational Parsing Reut Tsarfaty Samenvatting: Statistische methodes voor het syntactisch analyseren ("parseren") van zinnen in natuurlijke taal hebben tot doel om aan deze zinnen de meest waarschijnlijke syntactische structuur toe te kennen, op basis van de patronen en frequenties in geannoteerde data. Hedendaagse statistische parsers laten uitstekende prestaties zien bij het analyseren van Engelse zinnen. Bij het toepassen van dezelfde modellen op andere, minder configurationele talen, zijn de cijfers veel minder indrukwekkend. In linguïstisch opzicht is Engels een bijzondere taal, die opvalt door zijn sterk configurationele karakter. De belangrijkste uitdaging die nonconfigurationele talen stellen aan statistische parsers, is om uit corpusdata de complexe correspondentiepatronen te leren die zich kunnen voordoen tussen grammaticale functies en de verschillende vormen waarin deze gerealiseerd kunnen worden d.m.v. syntax en/of morfologie. Dit proefschrift stelt daarom een nieuw model voor, het zogeheten "Relational-Realisational Model" (RR-model), dat beter om kan gaan met flexibele woordvolgorde en rijke morfologische markering. We gebruiken dit model voor het parseren van zinnen uit het Modern Hebreeuws, en laten daarbij substantiële kwaliteitsverbeteringen zien ten opzichte van eerdere benaderingen. Verschillende manieren van realisatie ontstaan uit de interactie tussen twee typologische dimensies: woordvolgorde (Greenberg 1963) en morfologie (Greenberg 1954, Sapir 1921). Voor het modelleren van complexe vorm-functie correspondentiepatronen bekijken we in eerste instantie morfologische modellen die grammaticale eigenschappen van woorden afbeelden op een oppervlaktevorm die deze eigenschappen realiseert. Onze aanpak bouwt voort op de principes van "woord-en-paradigma”-morfologie (Anderson 1992, Stump 2001, Blevins 2006) en breidt deze uit voor het modelleren van correspondentiepatronen op syntactisch gebied. In het voorgestelde RR-model worden syntactische categorieën beschreven door middel van "syntactische paradigma's" (Pike 1962, 1963). Elke cel in een paradigma is geassocieerd met een Relationeel Netwerk (Postal en Perlmutter 1977) en een groep eigenschappen die samen de grammaticale functie van de constituent beschrijven. De vorm van een constituent wordt bepaald door (1) interne groepering, (2) lineaire ordening, en (3) morfologische markering van zijn subconstituenten. Het RR-model genereert daarom de vorm van elke constituent door de achtereenvolgende toepassing van drie soorten syntactische regels die respectievelijk de functionele, structurele, en morfologische eigenschappen van de constituent bepalen. Deze regels kunnen subconstituenten genereren die weer hun eigen relationele netwerken hebben, en zo verder, totdat volledig gespecificeerde morfosyntactische representaties afgebeeld worden op concrete woorden. Dit recursieve proces kan beschouwd worden als een stochastisch generatief model, waarvan de probabilistische parameters uit data geschat kunnen worden. Een computationele implementatie van de probabilistische versie van het RR-model is empirisch geëvalueerd door het parseren van zinnen in het Modern Hebreeuws, gebruikmakend van een klein geannoteerd corpus (Sima'an et al 2001). Uit een serie experimenten blijkt dat het RR-model de zinnen nauwkeuriger analyseert dan de alternatieve state-of-the-art benadering (Head-Driven Parsing), zonder dat hier computationele kosten tegenover staan. De typologische karakterisering van de statistische distributies van het RR-model suggereert dat dit model nuttig zou kunnen zijn voor het ontwikkelen van corpusgebaseerde kwantitatieve methoden voor de typologische classificatie van talen. Het proefschrift is als volgt georganiseerd: Hoofdstuk 1: Taalkundige Typologie. In dit hoofdstuk worden de basisbegrippen van de taalkundige typologie geïntroduceerd. Het bespreekt verder het begrip nonconfigurationaliteit in relatie met de wisselwerking tussen de morfologische en syntactische realisatie van grammaticale functies. Hoofdstuk 2: Parseertechnologie. Dit hoofdstuk geeft een overzicht van de bestaande generatieve en discriminatieve benaderingen van statistische syntactische analyse, die zijn ontwikkeld voor het Engels. Het hoofdstuk bespreekt de toepassing van deze benaderingen op Chinees, Duits en Arabisch. We concluderen dat minder configurationele talen moeilijker te analyseren zijn. Hoofdstuk 3: De Data. Dit hoofdstuk beschrijft de grammatica van het Modern Hebreeuws, en illustreert de verschillende gevallen waarin morfologische informatie nodig is voor de correcte analyse van Hebreeuwse zinnen. Hoofdstuk 4: Het Model. Dit hoofdstuk beschrijft de formele en computationele eigenschappen van het Relational-Realizational model. Het begint met morfologische modellering en breidt de beginselen daarvan uit tot het syntactische domein. Het RR-model wordt formeel beschreven als een generatief herschrijfsysteem. Een probabilistisch model dat hierop gebaseerd is wordt geïntroduceerd. Hoofdstuk 5: De Toepassing. Dit hoofdstuk past het RR-model uit het vorige hoofdstuk toe op de Hebreeuwse morfosyntactische verschijnselen beschreven in Hoofdstuk 3. Hoofdstuk 6: Experimenten. Dit hoofdstuk rapporteert de resultaten van experimenten met het probabilistische RR-model op Modern Hebreeuws. De uitkomsten worden nauwkeurig vergeleken met de resultaten van parallelle experimenten uitgevoerd met de state-of-the-art head-driven aanpak. Hoofdstuk 7: Uitbreidingen. Dit hoofdstuk beschrijft mogelijke uitbreidingen van het RR-model voor de uitvoering van gerelateerde taken zoals semantische modellering en morfologische desambiguering. Het suggereert ten slotte een mogelijke toepassing van het model ten behoeve van kwantitatieve, corpusgebaseerde typologie.