Enriching Linguistics with Statistics: Performance Models of Natural Language Rens Bod Een van de grootste problemen in de hedendaagse (computationele) linguistiek is de ambiguiteit van natuurlijke taal: zodra een grammatica een non­triviaal gedeelte van een natuurlijke taal karakteriseert, krijgt vrijwel elke zin van enige lengte zeer veel verschillende syntactische analyses (en bijbehorende semantische interpretaties). Dit is problematisch omdat het merendeel van deze interpretaties door een menselijke taalgebruiker helemaal niet als mogelijk wordt waargenomen. Een taalgebruiker neemt gewoonlijk niet meer dan een of twee interpretaties waar. In zekere zin is dit probleem niet verrassend: het is een onmiddellijk gevolg van het feit dat formele linguistische modellen direct aansluiten bij Chomsky's notie van een "competence grammatica". Chomsky heeft altijd nadrukkelijk onderscheid gemaakt tussen de "competence" van een taalgebruiker en diens "performance". De competence is de taalkennis waarover de taalgebruiker in principe beschikt; de performance is het psychologische proces dat die kennis gebruikt voor feitelijke taalproductie en ­perceptie. De voorkeuren die taalgebruikers hebben in het geval van meerduidige interpretaties behoren typisch tot het domein dat in een Chomskyaanse optiek tot de performance zou worden gerekend. Het doel van dit proefschrift is te laten zien hoe een statistische verrijking van een linguistisch "competence model" de invoer­uitvoer eigenschappen van menselijke taalwaarneming kan verantwoorden. Het resulterende "performance model" zal in staat zijn om uit alle mogelijke interpretaties van een zin de daadwerkelijk waargenomen interpretatie te kiezen. Dat zo'n performance model statistisch van aard dient te zijn, laten we zien aan de hand van een aantal resultaten uit de psycholinguistiek (§1.1). Dit leidt tot de stelling dat een taalgebruiker neigt naar het waarnemen van de meest waarschijnlijke interpretatie van een invoer­zin op basis van voorkomens van eerder waargenomen interpretaties. Deze stelling brengt ons tot de notie van een performance model dat een geanalyseerd taalcorpus gebruikt voor het berekenen van de meest waarschijnlijke analyse van een nieuwe invoer­zin middels combinaties van deel­analyses uit het corpus. In § 1.3 wordt onze notie van performance model in een breder kader geplaatst, het zgn. Data­Oriented Parsing (DOP) framework. In dit framework onderscheiden we vier parameters: (1) definitie van de zinsanalyses in het corpus, (2) definitie van de deel­analyses, (3) definitie van de combinatie­operaties tussen deel­analyses, en (4) definitie van de combinatie­kansen van deel­analyses. Middels dit framework kan een groot aantal performance modellen worden geinstantieerd. Wij leggen ons de beperking op dat we alleen die parameter­instellingen kiezen waarvan de resulterende performance modellen ook daadwerkelijk computationeel kunnen worden getest met beschikbare corpora. Als test­procedure wordt de zogenaamde "blind testing methode" voorgesteld (§1.4). Deze methode schrijft voor dat een geanalyseerd taalcorpus "at random" wordt verdeeld in een zogenaamde training­set en een test­set. Alleen de analyses van de training­set zinnen mogen worden gebruikt om het systeem te trainen (d.i. het schatten van de combinatie­kansen van de deel­analyses). De zinnen uit de test­set worden vervolgens automatisch geanalyseerd ("geparseerd") en vergeleken met de analyses uit de test­set. De mate waarin de meest waarschijnlijke analyses overeenkomen met de analyses uit de test­set geeft de parseer­nauwkeurigheid van het systeem aan. In het tweede hoofdstuk van dit proefschrift wordt een eerste realisatie van een performance model binnen het DOP­framework uitgewerkt, die we DOP1 noemen. DOP1 gebruikt "deelbomen" uit het corpus als deel­analyses en "compositie" als combinatie­operatie tussen deel­analyses. Voor het schatten van de compositie­ kansen van deelbomen wordt gebruik gemaakt van twee assumpties: (1) de deelbomen zijn statistisch onafhankelijk, en (2) de verzameling deelbomen representeert de totale populatie van deelbomen. Het belangrijkste kenmerk van DOP1 is het onderscheid tussen de kans van een derivatie (of afleiding) van een zin en de kans van een parseerboom (of analyse) van een zin. De kans van een derivatie is gelijk aan het product van de compositie­kansen van de gebruikte deelbomen, terwijl de kans van een parseerboom gelijk is aan de som van de kansen van de verschillende derivaties die deze boom genereren. Hoofdstuk 3 introduceert een Formele Talen Theorie van Stochastische Grammatica's waarbinnen verschillende stochastische taalmodellen kunnen worden gearticuleerd en vergeleken. We beschrijven DOP1 als een projectie van een boom­verzameling in een "Stochastic Tree­Substitution Grammar" (STSG), en vergelijken op formele wijze STSG met de bekende "Stochastic Context­Free Grammar" (SCFG). Een belangrijk resultaat van deze vergelijking is dat SCFGs stochastisch zwakker zijn dan STSGs: de verzameling van stochastische boom­ talen gegenereerd door SCFGs is een deelverzameling van de verzameling van stochastische boom­talen gegenereerd door STSGs. We vergelijken STSG ook met twee andere stochastische grammatica's die in de literatuur zijn voorgesteld om de statistische context­ongevoeligheid van SCFGs te boven te komen: "Stochastic History­Based Grammar" en "Stochastic Tree­Adjoining Grammar". Het blijkt dat deze stochastische grammatica's niet alle statistische afhankelijkheden kunnen beschrijven die kunnen worden beschreven door STSG. In hoofdstuk 4 wordt het probleem van het berekenen van de meest waarschijnlijke parseerboom van een zin in DOP1 behandeld. We maken onderscheid tussen parseren en disambigueren, en tonen aan dat het probleem niet zozeer ligt in de constructie van een zogenaamd "parse­forest" voor een zin, maar in de selectie van de meest waarschijnlijke parseerboom uit dit forest. We laten zien dat een Viterbi­optimalisatie niet toepasbaar is voor het vinden van de meest waarschijnlijke parseerboom. We stellen een iteratieve Monte Carlo procedure voor die de meest waarschijnlijke analyse kan schatten met een fout die willekeurig klein kan worden gemaakt in polynomiale tijd. Tenslotte, gaan we in op enige psychologisch interessante eigenschappen van Monte Carlo disambiguering. In hoofdstuk 5 testen we de verdiensten van DOP1 als performance model voor syntactische disambiguering. Experimenten op part­of­speech sequenties van het "Air­Travel Information System" (ATIS) corpus resulteren in 96% parseer­ nauwkeurigheid, hetgeen substantieel hoger is dan de parseer­nauwkeurigheid van andere systemen. Als de grootte van de corpus­deelbomen wordt beperkt, neemt de parseer­nauwkeurigheid af tot 52% bij een deelboom­diepte van één. Het blijkt dat predicties die zijn gebaseerd op de meest waarschijnlijke parseerboom zeer veel accurater zijn dan predicties gebaseerd op de parseerboom die wordt gegenereerd door de meest waarschijnlijke derivatie. We testen ook hoeveel de eliminatie van eenmaal­voorkomende deelbomen de parseer­nauwkeurigheid beinvloedt, en in welke mate de grootte van de training­set de nauwkeurigheid beinvloedt. Tenslotte stellen we vast dat DOP1 100% nauwkeurigheid haalt als de training­set en test­set worden samengevoegd, terwijl SCFG in dat geval slechts 59% nauwkeurigheid haalt. Hoofdstuk 6 begint met een onderzoek naar wat nodig is om DOP1 uit te breiden zodanig dat zinnen met onbekende woorden kunnen worden geparseerd. Het model DOP2 wordt voorgesteld als een zeer eenvoudige extensie van DOP1: onbekende woorden worden gelabeld met alle lexicale categorieen, waarna DOP1 wordt gebruikt voor het berekenen van de meest waarschijnlijke parseerboom. Experimenten met DOP2 op woord­sequenties uit het ATIS corpus, laten echter een teleurstellende parseer­nauwkeurigheid van 63% zien. Een kwalitatieve evaluatie van de testzinnen met onbekende woorden wijst uit dat DOP2 een afwijking heeft naar het gebruik van kleinere deelbomen. De evaluatie van testzinnen met alleen bekende woorden leidt tot de notie van "onbekende­categorie woord": een meerduidig woord dat in de training­set voorkomt, maar met een andere categorie dan nodig is om de test­zin met dit woord correct te parseren. Het blijkt dat DOP2 inadequaat is voor het resolveren van onbekende­categorie woorden. De resultaten van hoofdstuk 6 leiden tot het performance model DOP3. Het belangrijkste inzicht van DOP3 is dat de notie van "onbekende deelboom" de problemen met zowel onbekende woorden als onbekende­categorie woorden zou kunnen oplossen. Teneinde met onbekende deelbomen om te kunnen gaan, beperken we ons tot deelbomen waarvan de onbekendheid afhangt van onbekende terminale symbolen. Het voornaamste probleem blijkt dan de schatting te zijn van de frequenties van onbekende deelbomen. Om dit probleem op te lossen, laten we de assumptie vallen dat alle deelbomen zijn waargenomen, en behandelen we een corpus als een sample van een grotere populatie. We gebruiken de Good­Turing methode voor het schatten van de populatie­kansen van zowel onbekende als bekende deelbomen. Dit leidt tot de definitie van het performance model DOP3. Experimenten tonen aan dat DOP3 redelijk succesvol zinnen met onbekende (­categorie) woorden kan parseren en disambigueren: DOP3 behaalt 83% parseer­ nauwkeurigheid bij een deelboom­diepte £ 3. Bovendien lijdt DOP3 niet meer onder de afwijking in de richting van kleinere deelbomen als in DOP2. De Good­ Turing methode wordt vergeleken met de zgn. Add­k methode, resulterend in DOP4. Het blijkt dat DOP4 een slechtere parseer­nauwkeurigheid oplevert dan DOP3. Om de best mogelijke resultaten te verkrijgen, wordt DOP3 uiteindelijk verrijkt met een extern woordenboek (Longman), hetgeen het hybride model DOP5 oplevert, dat een nauwkeurigheid bereikt van 92% (voor deelboom­diepte <= 3). Het laatste hoofdstuk onderzoekt wat nodig is om een syntactisch geanalyseerd taalcorpus uit te breiden met semantische interpretaties. We laten zien dat als we "oppervlakte­compositionaliteit" aannemen, het syntactische annotatie probleem kan worden gegeneraliseerd naar het probleem van semantische annotatie. Voor het analyseren van echte tekst lijken partiele annotaties echter realistischer. We stellen het performance model DOP6 voor, waarin elke deelboom uit het corpus kan functioneren als productieve eenheid, ook als de semantiek ervan nog niet volledig is gespecificeerd, mits de semantiek uiteindelijk kan worden berekend middels het compositionaliteits­principe op een van de volgende twee manieren: (1) de betekenis kan worden geconstrueerd middels eenvoudige compositie van de constituenten of (2) de betekenis kan worden afgeleid middels het abstraheren van de contributie(s) van de zuster kno(o)p(en) uit de semantiek van de direct bovenliggende knoop. Het belangrijkste statistische kenmerk van DOP6 is de waarschijnlijkheid van een interpretatie I van een zin als de som van de kansen van alle parseerbomen die een top­knoop semantiek hebben die logisch equivalent is aan I. Tenslotte, als een belofte voor toekomstig onderzoek, behandelen we de invloed van discourse­ structuur en recentheid op de analyse van een