%Nr: DS-1999-02
%Author: Khalil Sima'an
%Title: Learning Efficient Disambiguation

Dit proefschrift analyseert de computationele eigenschappen van 
hedendaagse performance-modellen van menselijke taalverwerking, zoals 
Data-Oriented Parsing (DOP) (Scha, 1990; Scha, 1992; Bod, 1995a). Het 
constateert enkele belangrijke beperkingen en tekortkomingen, en doet 
voorstellen voor verbeterde modellen en algorithmes, gebaseerd op technieken 
uit Explanation-Based Learning. Experimenten met implementaties van deze 
algorithmes leveren bemoedigende resultaten op.

Het is algemeen bekend dat formele grammatica's van natuurlijke talen zeer 
ambigu zijn. Vaak kennen deze grammatica's zeer veel analyses toe aan een 
uiting. Het overgrote deel van deze analyses wordt door een mens echter 
helemaal niet waargenomen. Desambigu"ering, het kiezen van die ene analyse die 
door een mens als meest plausibel wordt beschouwd, vormt een van de 
belangrijkste doelstellingen van de huidige performance modellen van 
natuurlijke taal parsering. Veel van deze modellen implementeren 
desambigu"ering door gebruik te maken van een probabilistische grammatica, die 
bestaat uit regels waaraan toepassings-waarschijnlijkheden zijn toegekend. Deze 
waarschijnlijkheden worden geschat op basis van een geannoteerd corpus (een 
tree-bank), dat bestaat uit een grote, representatieve hoeveelheid uitingen die 
elk voorzien is van een boomstruktuur die de juiste analyse van de uiting 
representeert. De toepassings-waarschijnlijkheden van de regels in een 
dergelijke probabilistische grammatica maken het mogelijk de verschillende 
analyses van een uiting te rangschikken op waarschijnlijkheid, zodat de analyse 
met de hoogste kans als de meest plausibele analyse uitgekozen kan worden.

Het Data-Oriented Parsing (DOP) model onderscheidt zich van andere 
performancemodellen doordat de "probabilistische grammatica" die gebruikt wordt 
een zeer redundant karakter heeft. In dit model wordt een tree-bank die iemands 
taal-ervaring representeert, in zijn geheel opgeslagen in het geheugen. 
Vervolgens dient dit geheugen als databank voor het parseren van nieuwe 
uitingen door middel van analogie. In de thans bestaande realisaties van dit 
model, wordt een nieuwe input-zin geanalyseerd doordat er nagegaan wordt op 
welke manieren deze zin gegenereerd had kunnen worden door het combineren van 
"parti"ele analyses" (brokstukken van de bomen in de tree-bank). De 
voorkomensfrequenties van de verschillende brokstukken in de databank kunnen 
dan gebruikt worden om de waarschijnlijkheden van de verschillende mogelijke 
analyses te berekenen.

Plausibele performance-modellen zijn erg ineffici"ent, en dat geldt in sterke 
mate voor DOP. Modellen die in zekere mate in staat zijn om input-zinnen 
suksesvol te desambigu"eren op basis van de informatie in een tree-bank, lijken 
wat betreft hun effici"entieeigenschappen helemaal niet op het menselijke 
taalverwerkings-vermogen. Het is evident dat effici"entie in menselijk gedrag 
in het algemeen en in taalkundig gedrag in het bijzonder, een essentieel 
kenmerk is van intelligentie. Bovendien vormen "echte" applicaties, waarin 
effici"entie altijd belangrijk is, het natuurlijke biotoop van 
performance-modellen.

Dit proefschrift betreft de computationele complexiteit en de effici"entie van 
probabilistische desambigu"erings-modellen in het algemeen en van het DOP model 
in het bijzonder. Allereerst presenteren we in een theoretisch geori"enteerd 
hoofdstuk een complexiteits-analyse van probabilistische desambigu"ering binnen 
het DOP model en soortgelijke modellen. Deze analyse impliceert dat effici"ente 
desambigu"ering met zulke modellen niet bereikt zal kunnen worden met behulp 
van uitsluitend conventionele optimalisatie-technieken. Daarom wordt in de 
volgende hoofdstukken een nieuwe aanpak van het ineffici"entie-probleem 
ontwikkeld. Deze aanpak integreert twee verschillende optimalisatie-methodes: 
een conventionele en een niet-conventionele. De conventionele optimalisatie 
richt zich op het bereiken van effici"ente deterministisch polynomiale-tijd 
desambigu"erings-algorithmes voor DOP. De niet-conventionele optimalisatie, die 
centraal staat in het proefschrift, richt zich op het specialiseren van 
performance modellen voor domeinen met een specifiek taalgebruik door middel 
van leren. Beide manieren van aanpak worden in dit proefschrift toegepast op 
het DOP model, en empirisch getoetst op bestaande, applicatie-gerichte, 
tree-banks.

De motivaties, methodes, en bijdragen van het proefschrift worden hieronder met 
betrekking tot ieder van deze onderwerpen samengevat.

Computationele complexiteit: De computationele complexiteits-studie 
gepresenteerd in hoofdstuk 3, bevat bewijzen dat verschillende problemen van 
probabilistische desambigu"ering NP-hard zijn. Dit betekent dat ze niet 
opgelost kunnen worden m.b.v. deterministische polynomiale-tijd algorithmes. 
Deze desambigu"erings-problemen worden hier beschouwd voor twee soorten 
grammatica's: het soort grammatica's dat door DOP wordt gebruikt, genaamd 
Stochastic Tree-Substitution Grammars (STSG's), en de "traditionele" Stochastic 
Context-Free Grammars (SCFGs). Voor STSG's wordt van de volgende problemen 
bewezen dat ze NP-hard zijn: (1) het berekenen van de meest waarschijnlijke 
parse (Most Probable Parse - MPP) van een uiting, (2) het berekenen van de MPP 
van een woord-graaf, en (3) het berekenen van de meest waarschijnlijke 
zin van een woord-graaf. We bewijzen tevens dat ook voor SCFGs het berekenen 
van de meest waarschijnlijke zin van een woord-graaf NP-hard is.

[Een woord-graaf wordt als output opgeleverd door een spraakherkenner die 
een gesproken uiting analyseert. Het is een Stochastic Finite State Transducer 
die de verschillende hypotheses van de spraakherkenner (en hun rangschikking) 
effici"ent representeert.]

Ge"optimaliseerde algorithmes: Voorafgaande aan het werk dat 
in dit proefschrift wordt gepresenteerd bestonden er slechts ineffici"ente 
non-deterministische exponenti"ele tijdscomplexiteit algorithmes voor het 
desambigu"eren onder DOP (Bod, 1995a). Deze situatie heeft vaak geresulteerd in 
onbetrouwbare en tijdrovende empirische experimenten. In dit proefschrift 
worden de eerste effici"ente deterministisch polynomiale-tijd algorithmes voor 
desambigu"eren onder het DOP model beschreven (hoofdstuk 5). Deze algorithmes 
richten zich op het berekenen van de meest waarschijnlijke derivatie (Most 
Probable Derivation - MPD). Een belangrijke bijdrage aan de effici"entie van 
desambigu"ering onder DOP wordt geleverd door het beperken van de invloed van 
de meest vertragende factor: de grootte van een DOP STSG. Dit wordt bereikt 
door twee methodes te combineren: (1) een conventionele optimalisatie van de 
algorithmes, zodat deze algorithmes een lineaire tijdscomplexiteit in de STSG 
grootte hebben, en (2) verschillende heuristieken die een DOP STSG reduceren 
tot een kleinere doch meer accurate grammatica. Samen resulteren deze twee 
optimalisaties in een versnelling van twee ordes van grootte, vergeleken met de 
algorithmes die gebruikt werden voorafgaande aan dit werk. Bovendien, omdat de 
grootte van een DOP STSG kleiner is geworden, is het effect van het 
"sparse-data" probleem veel kleiner geworden dan oorspronkelijk het geval was.

Specialisatie door middel van ambigu"iteits-reductie: Centraal in dit 
proefschrift staat een niet-conventionele optimalisatie methode die performance 
modellen specialiseert voor specifieke domeinen van taalgebruik (hoofdstuk 4). 
In veel taalverwerkings toepassingen is het taalgebruik op een of andere manier 
beperkt. Deze beperkingen worden bepaald door het systeem-ontwerp (bijvoorbeeld 
beperkte vrijheid in dialogen) en/of door de keuze van het domein van de 
applicatie, bijvoorbeeld openbaar vervoer informatie, ticket reserverings 
systemen en computer handleidingen. Een interessante eigenschap van menselijk 
taalbegruik in specifieke domeinen is dat het minder breed en minder ambigu is 
dan het taalgebruik dat verondersteld wordt door linguistische Broad-Coverage 
Grammatica's (BCGs). Deze eigenschap van menselijk taalgebruik heeft betrekking 
op hele domeinen, meer dan op individuele uitingen. Zulke eigenschappen kunnen 
worden gemeten als statistische biases in samples van geanalyseerde uitingen 
uit het domein. Wij menen de ineffici"entie van de huidige performance-modellen 
grotendeels te kunnen verklaren uit het feit dat ze geen rekening houden met 
zulke statistische biases in beperkte domeinen. Deze modellen maken gebruik van 
tree-banks die geannoteerd zijn onder linguistische BCGs, die juist gericht 
zijn op niet-beperkt taalgebruik. De desambigu"erings-algorithmes die door de 
huidige performance-modellen worden gebruikt, hebben daardoor een feitelijk 
tijdsverbruik dat onafhankelijk is van de eigenschappen van het domein. Het 
tijdsverbruik van deze algorithmes is alleen afhankelijk van de eigenschappen 
van individuele zinnen (b.v. zinslengte), en van de BCG (b.v. de ambiguiteit 
van de BCG). In dit proefschrift wordt een direkt verband gelegd tussen deze 
situatie en het ontbreken, in de huidige performance modellen, van een 
aantrekkelijke eigenschap van menselijke taalverwerking: frequente en minder 
ambigu"e uitingen worden door een mens effici"enter geanalyseerd. Volgens dit 
proefschrift kan deze eigenschap verkregen worden door het interpreteren van de 
statistische biases in beperkte domeinen binnen een Informatie-Theoretisch 
raamwerk, dat performance-modellen specialiseert voor beperkte domeinen.

Het proefschrift presenteert een raamwerk dat deze idee"en implementeert, 
genaamd het "Ambiguity-Reduction Specialization (ARS) framework". Het ARS 
framework incorporeert de bovengenoemde effici"entie eigenschappen in 
performance modellen, door middel van een "off-line" leeralgorithme dat gebruik 
maakt van een tree-bank. Het doel van dit leeralgorithme is het beperken van 
zowel de herkennings-kracht als de ambigu"iteit van de linguistische BCG die 
voor de annotatie van de tree-bank werd gebruikt, zodat er gespecialiseerd 
wordt voor het domein. Dit resulteert in een gespecialiseerde grammatica, en in 
een gespecialiseerde tree-bank geannoteerd onder deze grammatica. Deze nieuwe 
tree-bank kan dienen voor het verkrijgen van een kleinere en minder ambigu"e 
probabilistische grammatica onder een bepaald performance-model. In het ARS 
framework wordt (voor het eerst) deze specialisatie-taak uitgedrukt in termen 
van beperkte optimalisatie. De algorithmes voor de uitvoering van deze taak 
kunnen daardoor geformuleerd worden als leeralgorithmes die gebaseerd zijn op 
beperkte optimalisatie. Er worden twee verschillende specialisatie-algorithmes 
gepresenteerd. Het principi"elere algorithme is gebaseerd op de noties van 
entropie en Shannon's optimale codelengte, het practischere algorithme is 
gebaseerd op intu"itive statistische maten. Tevens presenteert dit proefschrift 
een nieuw parseer-algorithme dat de gespecialiseerde grammatica en de 
oorspronkelijke BCG integreert op een complementaire manier, zodat de parser 
geen tijdverlies lijdt wanneer de gespecialiseerde grammatica faalt in het 
herkennen van de input.

Empirisch onderzoek: De boven genoemde leer- en parseeralgorithmes zijn 
ge"implementeerd in computer programma's, en worden gebruikt in een project van 
de Nederlanse organisatie voor Wetenschappelijke Onderzoek (NWO). Het 
proefschrift rapporteert (hoofdstuk 6) uitgebreide empirische experimenten die 
de boven besproken theoretische idee"en testen op twee tree-banks, 
OpenbaarVervoer Informatie Systeem (OVIS) en Air Travel Inquiry System (ATIS). 
Deze tree-banks representeren twee domeinen, twee talen en twee 
desambigueertaken: het desambigueren van uitingen en het desambigueren van 
woord-grafen in een dialoogsysteem. In deze experimenten wordt het meer 
practische, maar minder optimale leeralgorithme, toegepast op het specialiseren 
van het DOP model voor gelimiteerde domeinen. De experimenten laten zien dat in 
beide domeinen de resulterende gespecialiseerde DOP STSG's (genaamd SDOP STSGs) 
substantieel kleiner zijn dan de oorspronkelijke DOP STSG's. Bovendien, in 
'e'en van de domeinen (OVIS) zijn, op beide desambigueertaken, de SDOP STSG's 
niet alleen minstens zo accuraat als de oorspronkelijke DOP STSG's, maar ook 
veel effici"enter. In het andere domein (ATIS) zijn de SDOP STSG's ook 
effici"enter dan de oorspronkelijke DOP STSG's, maar deze effici"entie 
verbetering wordt bereikt slechts voor DOP modellen die onbruikbaar zijn in de 
praktijk.

Tevens wordt de hypothese getoetst dat de gepresenteerde specialisatie-methode 
resulteert in effici"entere parsering van frequente en minder ambigu"e 
uitingen. Ondanks het feit dat dit wordt getest in een sub-optimaal experiment 
op het OVIS domein blijkt dat deze hypothese ondersteund wordt door de 
emipirische resultaten. De parseertijd van de SDOP STSGs is kleiner voor 
frequente invoer, dit in tegenstelling tot de parseertijd van DOP STSGs, die 
duidelijk onafhankelijk is van de frequentie van de invoer.

De conclusie heeft betrekking op beide onderzoeksonderwerpen die aan elkaar 
worden gerelateerd in dit proefschrift: enerzijds de computationele en 
effici"entie-aspecten van het DOP model, en anderzijds het specialiseren van 
performance-modellen voor beperkte domeinen. De studie naar de computationele 
aspecten van het DOP model levert een complexiteits-analyse en een effici"ent 
algorithme op. De empirische resultaten laten duidelijk zien dat het nieuwe 
algorithme een aanzienlijke effici"entie-verbetering oplevert. Deze resultaten 
maken echter ook duidelijk dat de computationele aspecten en de effici"entie 
van het DOP -model verdere onderzoek vereisen. De studie naar het specialiseren 
van performance modellen voor gelimiteerde domeinen heeft nieuwe inzichten 
omtrent het modelleren van effici"entie-eigenschappen van menselijk 
taalverwerking opgeleverd. Onze hypothese betreffende de relatie tussen 
statistische biases en deze eigenschappen blijkt ondersteund te worden door de 
empirische resultaten. Het zou echter voorbarig zijn te concluderen dat de 
gepresenteerde methode suksesvol toepasbaar is op elk beperkt domein. De studie 
in dit proefschrift is immers beperkt gebleven tot sub-optimale implementaties 
die verschillende approximaties bevatten, als gevolg van beperkingen in de tot 
nu toe beschikbare hardware. Het is daarom noodzakelijk om deze studie voort te 
zetten in toekomstig onderzoek.