Enriching Linguistics with Statistics: Performance Models of Natural Language
Rens Bod

Een van de grootste problemen in de hedendaagse (computationele) linguistiek is
de ambiguiteit van natuurlijke taal: zodra een grammatica een non­triviaal 
gedeelte van een natuurlijke taal karakteriseert, krijgt vrijwel elke zin van 
enige lengte zeer veel verschillende syntactische analyses (en bijbehorende 
semantische interpretaties). Dit is problematisch omdat het merendeel van deze 
interpretaties door een menselijke taalgebruiker helemaal niet als mogelijk 
wordt waargenomen. Een taalgebruiker neemt gewoonlijk niet meer dan een of twee
interpretaties waar. In zekere zin is dit probleem niet verrassend: het is een
onmiddellijk gevolg van het feit dat formele linguistische modellen direct
aansluiten bij Chomsky's notie van een "competence grammatica". Chomsky
heeft altijd nadrukkelijk onderscheid gemaakt tussen de "competence" van een
taalgebruiker en diens "performance". De competence is de taalkennis waarover
de taalgebruiker in principe beschikt; de performance is het psychologische 
proces dat die kennis gebruikt voor feitelijke taalproductie en ­perceptie. De 
voorkeuren die taalgebruikers hebben in het geval van meerduidige 
interpretaties behoren typisch tot het domein dat in een Chomskyaanse optiek 
tot de performance zou worden gerekend.
Het doel van dit proefschrift is te laten zien hoe een statistische verrijking 
van een linguistisch "competence model" de invoer­uitvoer eigenschappen van 
menselijke taalwaarneming kan verantwoorden. Het resulterende "performance 
model" zal in staat zijn om uit alle mogelijke interpretaties van een zin de 
daadwerkelijk waargenomen interpretatie te kiezen. Dat zo'n performance model 
statistisch van aard dient te zijn, laten we zien aan de hand van een aantal 
resultaten uit de psycholinguistiek (§1.1). Dit leidt tot de stelling dat een 
taalgebruiker neigt naar het waarnemen van de meest waarschijnlijke 
interpretatie van een invoer­zin op basis van voorkomens van eerder waargenomen
interpretaties. Deze stelling brengt ons tot de notie van een performance model
dat een geanalyseerd taalcorpus gebruikt voor het berekenen van de meest 
waarschijnlijke analyse van een nieuwe invoer­zin middels combinaties van 
deel­analyses uit het corpus.
In § 1.3 wordt onze notie van performance model in een breder kader geplaatst,
het zgn. Data­Oriented Parsing (DOP) framework. In dit framework onderscheiden 
we vier parameters: (1) definitie van de zinsanalyses in het corpus, (2) 
definitie van de deel­analyses, (3) definitie van de combinatie­operaties 
tussen deel­analyses, en (4) definitie van de combinatie­kansen van 
deel­analyses. Middels dit framework kan een groot aantal performance modellen 
worden geinstantieerd. Wij leggen ons de beperking op dat we alleen die 
parameter­instellingen kiezen waarvan de resulterende performance modellen ook
daadwerkelijk computationeel kunnen worden getest met beschikbare corpora.
Als test­procedure wordt de zogenaamde "blind testing methode" voorgesteld
(§1.4). Deze methode schrijft voor dat een geanalyseerd taalcorpus "at random"
wordt verdeeld in een zogenaamde training­set en een test­set. Alleen de 
analyses van de training­set zinnen mogen worden gebruikt om het systeem te 
trainen (d.i. het schatten van de combinatie­kansen van de deel­analyses). De 
zinnen uit de test­set worden vervolgens automatisch geanalyseerd 
("geparseerd") en vergeleken met de analyses uit de test­set. De mate waarin 
de meest waarschijnlijke analyses overeenkomen met de analyses uit de test­set 
geeft de parseer­nauwkeurigheid van het systeem aan.
In het tweede hoofdstuk van dit proefschrift wordt een eerste realisatie van 
een performance model binnen het DOP­framework uitgewerkt, die we DOP1 noemen. 
DOP1 gebruikt "deelbomen" uit het corpus als deel­analyses en "compositie" als 
combinatie­operatie tussen deel­analyses. Voor het schatten van de compositie­
kansen van deelbomen wordt gebruik gemaakt van twee assumpties: (1) de 
deelbomen zijn statistisch onafhankelijk, en (2) de verzameling deelbomen 
representeert de totale populatie van deelbomen. Het belangrijkste kenmerk van 
DOP1 is het onderscheid tussen de kans van een derivatie (of afleiding) van een
zin en de kans van een parseerboom (of analyse) van een zin. De kans van een 
derivatie is gelijk aan het product van de compositie­kansen van de gebruikte 
deelbomen, terwijl de kans van een parseerboom gelijk is aan de som van de 
kansen van de verschillende derivaties die deze boom genereren.
Hoofdstuk 3 introduceert een Formele Talen Theorie van Stochastische
Grammatica's waarbinnen verschillende stochastische taalmodellen kunnen worden 
gearticuleerd en vergeleken. We beschrijven DOP1 als een projectie van een 
boom­verzameling in een "Stochastic Tree­Substitution Grammar" (STSG), en 
vergelijken op formele wijze STSG met de bekende "Stochastic Context­Free
Grammar" (SCFG). Een belangrijk resultaat van deze vergelijking is dat SCFGs
stochastisch zwakker zijn dan STSGs: de verzameling van stochastische boom­
talen gegenereerd door SCFGs is een deelverzameling van de verzameling van
stochastische boom­talen gegenereerd door STSGs. We vergelijken STSG ook met 
twee andere stochastische grammatica's die in de literatuur zijn voorgesteld om
de statistische context­ongevoeligheid van SCFGs te boven te komen:
"Stochastic History­Based Grammar" en "Stochastic Tree­Adjoining Grammar".
Het blijkt dat deze stochastische grammatica's niet alle statistische
afhankelijkheden kunnen beschrijven die kunnen worden beschreven door STSG.
In hoofdstuk 4 wordt het probleem van het berekenen van de meest  
waarschijnlijke parseerboom van een zin in DOP1 behandeld. We maken onderscheid
tussen parseren en disambigueren, en tonen aan dat het probleem niet zozeer 
ligt in de constructie van een zogenaamd "parse­forest" voor een zin, maar in 
de selectie van de meest waarschijnlijke parseerboom uit dit forest. We laten
zien dat een Viterbi­optimalisatie niet toepasbaar is voor het vinden van de 
meest waarschijnlijke parseerboom. We stellen een iteratieve Monte Carlo 
procedure voor die de meest waarschijnlijke analyse kan schatten met een fout 
die willekeurig klein kan worden gemaakt in polynomiale tijd. Tenslotte, gaan 
we in op enige psychologisch interessante eigenschappen van Monte Carlo
disambiguering.
In hoofdstuk 5 testen we de verdiensten van DOP1 als performance model voor
syntactische disambiguering. Experimenten op part­of­speech sequenties van het
"Air­Travel Information System" (ATIS) corpus resulteren in 96% parseer­
nauwkeurigheid, hetgeen substantieel hoger is dan de parseer­nauwkeurigheid van
andere systemen. Als de grootte van de corpus­deelbomen wordt beperkt, neemt
de parseer­nauwkeurigheid af tot 52% bij een deelboom­diepte van één. Het 
blijkt dat predicties die zijn gebaseerd op de meest waarschijnlijke parseerboom
zeer veel accurater zijn dan predicties gebaseerd op de parseerboom die wordt
gegenereerd door de meest waarschijnlijke derivatie. We testen ook hoeveel de
eliminatie van eenmaal­voorkomende deelbomen de parseer­nauwkeurigheid
beinvloedt, en in welke mate de grootte van de training­set de nauwkeurigheid
beinvloedt. Tenslotte stellen we vast dat DOP1 100% nauwkeurigheid haalt als de
training­set en test­set worden samengevoegd, terwijl SCFG in dat geval slechts
59% nauwkeurigheid haalt.
Hoofdstuk 6 begint met een onderzoek naar wat nodig is om DOP1 uit te breiden
zodanig dat zinnen met onbekende woorden kunnen worden geparseerd. Het model 
DOP2 wordt voorgesteld als een zeer eenvoudige extensie van DOP1: onbekende 
woorden worden gelabeld met alle lexicale categorieen, waarna DOP1 wordt 
gebruikt voor het berekenen van de meest waarschijnlijke parseerboom. 
Experimenten met DOP2 op woord­sequenties uit het ATIS corpus, laten echter een
teleurstellende parseer­nauwkeurigheid van 63% zien. Een kwalitatieve evaluatie
van de testzinnen met onbekende woorden wijst uit dat DOP2 een afwijking heeft 
naar het gebruik van kleinere deelbomen. De evaluatie van testzinnen met alleen
bekende woorden leidt tot de notie van "onbekende­categorie woord": een 
meerduidig woord dat in de training­set voorkomt, maar met een andere categorie
dan nodig is om de test­zin met dit woord correct te parseren. Het blijkt dat 
DOP2 inadequaat is voor het resolveren van onbekende­categorie woorden.
De resultaten van hoofdstuk 6 leiden tot het performance model DOP3. Het
belangrijkste inzicht van DOP3 is dat de notie van "onbekende deelboom" de
problemen met zowel onbekende woorden als onbekende­categorie woorden zou
kunnen oplossen. Teneinde met onbekende deelbomen om te kunnen gaan, beperken 
we ons tot deelbomen waarvan de onbekendheid afhangt van onbekende terminale 
symbolen. Het voornaamste probleem blijkt dan de schatting te zijn van de 
frequenties van onbekende deelbomen. Om dit probleem op te lossen, laten we
de assumptie vallen dat alle deelbomen zijn waargenomen, en behandelen we een
corpus als een sample van een grotere populatie. We gebruiken de Good­Turing
methode voor het schatten van de populatie­kansen van zowel onbekende als
bekende deelbomen. Dit leidt tot de definitie van het performance model DOP3.
Experimenten tonen aan dat DOP3 redelijk succesvol zinnen met onbekende 
(­categorie) woorden kan parseren en disambigueren: DOP3 behaalt 83% parseer­
nauwkeurigheid bij een deelboom­diepte £ 3. Bovendien lijdt DOP3 niet meer
onder de afwijking in de richting van kleinere deelbomen als in DOP2. De Good­
Turing methode wordt vergeleken met de zgn. Add­k methode, resulterend in DOP4.
Het blijkt dat DOP4 een slechtere parseer­nauwkeurigheid oplevert dan DOP3. Om 
de best mogelijke resultaten te verkrijgen, wordt DOP3 uiteindelijk verrijkt 
met een extern woordenboek (Longman), hetgeen het hybride model DOP5 oplevert, 
dat een nauwkeurigheid bereikt van 92% (voor deelboom­diepte <= 3).
Het laatste hoofdstuk onderzoekt wat nodig is om een syntactisch geanalyseerd
taalcorpus uit te breiden met semantische interpretaties. We laten zien dat als
we "oppervlakte­compositionaliteit" aannemen, het syntactische annotatie 
probleem kan worden gegeneraliseerd naar het probleem van semantische 
annotatie. Voor het analyseren van echte tekst lijken partiele annotaties 
echter realistischer. We stellen het performance model DOP6 voor, waarin elke 
deelboom uit het corpus kan functioneren als productieve eenheid, ook als de 
semantiek ervan nog niet volledig is gespecificeerd, mits de semantiek 
uiteindelijk kan worden berekend middels het compositionaliteits­principe op 
een van de volgende twee manieren: (1) de betekenis kan worden geconstrueerd 
middels eenvoudige compositie van de constituenten of (2) de betekenis kan 
worden afgeleid middels het abstraheren van de contributie(s) van de zuster 
kno(o)p(en) uit de semantiek van de direct bovenliggende knoop. Het 
belangrijkste statistische kenmerk van DOP6 is de waarschijnlijkheid van een 
interpretatie I van een zin als de som van de kansen van alle parseerbomen die 
een top­knoop semantiek hebben die logisch equivalent is aan I. Tenslotte, als 
een belofte voor toekomstig onderzoek, behandelen we de invloed van discourse­
structuur en recentheid op de analyse van een