%Nr: DS-1999-02 %Author: Khalil Sima'an %Title: Learning Efficient Disambiguation Dit proefschrift analyseert de computationele eigenschappen van hedendaagse performance-modellen van menselijke taalverwerking, zoals Data-Oriented Parsing (DOP) (Scha, 1990; Scha, 1992; Bod, 1995a). Het constateert enkele belangrijke beperkingen en tekortkomingen, en doet voorstellen voor verbeterde modellen en algorithmes, gebaseerd op technieken uit Explanation-Based Learning. Experimenten met implementaties van deze algorithmes leveren bemoedigende resultaten op. Het is algemeen bekend dat formele grammatica's van natuurlijke talen zeer ambigu zijn. Vaak kennen deze grammatica's zeer veel analyses toe aan een uiting. Het overgrote deel van deze analyses wordt door een mens echter helemaal niet waargenomen. Desambigu"ering, het kiezen van die ene analyse die door een mens als meest plausibel wordt beschouwd, vormt een van de belangrijkste doelstellingen van de huidige performance modellen van natuurlijke taal parsering. Veel van deze modellen implementeren desambigu"ering door gebruik te maken van een probabilistische grammatica, die bestaat uit regels waaraan toepassings-waarschijnlijkheden zijn toegekend. Deze waarschijnlijkheden worden geschat op basis van een geannoteerd corpus (een tree-bank), dat bestaat uit een grote, representatieve hoeveelheid uitingen die elk voorzien is van een boomstruktuur die de juiste analyse van de uiting representeert. De toepassings-waarschijnlijkheden van de regels in een dergelijke probabilistische grammatica maken het mogelijk de verschillende analyses van een uiting te rangschikken op waarschijnlijkheid, zodat de analyse met de hoogste kans als de meest plausibele analyse uitgekozen kan worden. Het Data-Oriented Parsing (DOP) model onderscheidt zich van andere performancemodellen doordat de "probabilistische grammatica" die gebruikt wordt een zeer redundant karakter heeft. In dit model wordt een tree-bank die iemands taal-ervaring representeert, in zijn geheel opgeslagen in het geheugen. Vervolgens dient dit geheugen als databank voor het parseren van nieuwe uitingen door middel van analogie. In de thans bestaande realisaties van dit model, wordt een nieuwe input-zin geanalyseerd doordat er nagegaan wordt op welke manieren deze zin gegenereerd had kunnen worden door het combineren van "parti"ele analyses" (brokstukken van de bomen in de tree-bank). De voorkomensfrequenties van de verschillende brokstukken in de databank kunnen dan gebruikt worden om de waarschijnlijkheden van de verschillende mogelijke analyses te berekenen. Plausibele performance-modellen zijn erg ineffici"ent, en dat geldt in sterke mate voor DOP. Modellen die in zekere mate in staat zijn om input-zinnen suksesvol te desambigu"eren op basis van de informatie in een tree-bank, lijken wat betreft hun effici"entieeigenschappen helemaal niet op het menselijke taalverwerkings-vermogen. Het is evident dat effici"entie in menselijk gedrag in het algemeen en in taalkundig gedrag in het bijzonder, een essentieel kenmerk is van intelligentie. Bovendien vormen "echte" applicaties, waarin effici"entie altijd belangrijk is, het natuurlijke biotoop van performance-modellen. Dit proefschrift betreft de computationele complexiteit en de effici"entie van probabilistische desambigu"erings-modellen in het algemeen en van het DOP model in het bijzonder. Allereerst presenteren we in een theoretisch geori"enteerd hoofdstuk een complexiteits-analyse van probabilistische desambigu"ering binnen het DOP model en soortgelijke modellen. Deze analyse impliceert dat effici"ente desambigu"ering met zulke modellen niet bereikt zal kunnen worden met behulp van uitsluitend conventionele optimalisatie-technieken. Daarom wordt in de volgende hoofdstukken een nieuwe aanpak van het ineffici"entie-probleem ontwikkeld. Deze aanpak integreert twee verschillende optimalisatie-methodes: een conventionele en een niet-conventionele. De conventionele optimalisatie richt zich op het bereiken van effici"ente deterministisch polynomiale-tijd desambigu"erings-algorithmes voor DOP. De niet-conventionele optimalisatie, die centraal staat in het proefschrift, richt zich op het specialiseren van performance modellen voor domeinen met een specifiek taalgebruik door middel van leren. Beide manieren van aanpak worden in dit proefschrift toegepast op het DOP model, en empirisch getoetst op bestaande, applicatie-gerichte, tree-banks. De motivaties, methodes, en bijdragen van het proefschrift worden hieronder met betrekking tot ieder van deze onderwerpen samengevat. Computationele complexiteit: De computationele complexiteits-studie gepresenteerd in hoofdstuk 3, bevat bewijzen dat verschillende problemen van probabilistische desambigu"ering NP-hard zijn. Dit betekent dat ze niet opgelost kunnen worden m.b.v. deterministische polynomiale-tijd algorithmes. Deze desambigu"erings-problemen worden hier beschouwd voor twee soorten grammatica's: het soort grammatica's dat door DOP wordt gebruikt, genaamd Stochastic Tree-Substitution Grammars (STSG's), en de "traditionele" Stochastic Context-Free Grammars (SCFGs). Voor STSG's wordt van de volgende problemen bewezen dat ze NP-hard zijn: (1) het berekenen van de meest waarschijnlijke parse (Most Probable Parse - MPP) van een uiting, (2) het berekenen van de MPP van een woord-graaf, en (3) het berekenen van de meest waarschijnlijke zin van een woord-graaf. We bewijzen tevens dat ook voor SCFGs het berekenen van de meest waarschijnlijke zin van een woord-graaf NP-hard is. [Een woord-graaf wordt als output opgeleverd door een spraakherkenner die een gesproken uiting analyseert. Het is een Stochastic Finite State Transducer die de verschillende hypotheses van de spraakherkenner (en hun rangschikking) effici"ent representeert.] Ge"optimaliseerde algorithmes: Voorafgaande aan het werk dat in dit proefschrift wordt gepresenteerd bestonden er slechts ineffici"ente non-deterministische exponenti"ele tijdscomplexiteit algorithmes voor het desambigu"eren onder DOP (Bod, 1995a). Deze situatie heeft vaak geresulteerd in onbetrouwbare en tijdrovende empirische experimenten. In dit proefschrift worden de eerste effici"ente deterministisch polynomiale-tijd algorithmes voor desambigu"eren onder het DOP model beschreven (hoofdstuk 5). Deze algorithmes richten zich op het berekenen van de meest waarschijnlijke derivatie (Most Probable Derivation - MPD). Een belangrijke bijdrage aan de effici"entie van desambigu"ering onder DOP wordt geleverd door het beperken van de invloed van de meest vertragende factor: de grootte van een DOP STSG. Dit wordt bereikt door twee methodes te combineren: (1) een conventionele optimalisatie van de algorithmes, zodat deze algorithmes een lineaire tijdscomplexiteit in de STSG grootte hebben, en (2) verschillende heuristieken die een DOP STSG reduceren tot een kleinere doch meer accurate grammatica. Samen resulteren deze twee optimalisaties in een versnelling van twee ordes van grootte, vergeleken met de algorithmes die gebruikt werden voorafgaande aan dit werk. Bovendien, omdat de grootte van een DOP STSG kleiner is geworden, is het effect van het "sparse-data" probleem veel kleiner geworden dan oorspronkelijk het geval was. Specialisatie door middel van ambigu"iteits-reductie: Centraal in dit proefschrift staat een niet-conventionele optimalisatie methode die performance modellen specialiseert voor specifieke domeinen van taalgebruik (hoofdstuk 4). In veel taalverwerkings toepassingen is het taalgebruik op een of andere manier beperkt. Deze beperkingen worden bepaald door het systeem-ontwerp (bijvoorbeeld beperkte vrijheid in dialogen) en/of door de keuze van het domein van de applicatie, bijvoorbeeld openbaar vervoer informatie, ticket reserverings systemen en computer handleidingen. Een interessante eigenschap van menselijk taalbegruik in specifieke domeinen is dat het minder breed en minder ambigu is dan het taalgebruik dat verondersteld wordt door linguistische Broad-Coverage Grammatica's (BCGs). Deze eigenschap van menselijk taalgebruik heeft betrekking op hele domeinen, meer dan op individuele uitingen. Zulke eigenschappen kunnen worden gemeten als statistische biases in samples van geanalyseerde uitingen uit het domein. Wij menen de ineffici"entie van de huidige performance-modellen grotendeels te kunnen verklaren uit het feit dat ze geen rekening houden met zulke statistische biases in beperkte domeinen. Deze modellen maken gebruik van tree-banks die geannoteerd zijn onder linguistische BCGs, die juist gericht zijn op niet-beperkt taalgebruik. De desambigu"erings-algorithmes die door de huidige performance-modellen worden gebruikt, hebben daardoor een feitelijk tijdsverbruik dat onafhankelijk is van de eigenschappen van het domein. Het tijdsverbruik van deze algorithmes is alleen afhankelijk van de eigenschappen van individuele zinnen (b.v. zinslengte), en van de BCG (b.v. de ambiguiteit van de BCG). In dit proefschrift wordt een direkt verband gelegd tussen deze situatie en het ontbreken, in de huidige performance modellen, van een aantrekkelijke eigenschap van menselijke taalverwerking: frequente en minder ambigu"e uitingen worden door een mens effici"enter geanalyseerd. Volgens dit proefschrift kan deze eigenschap verkregen worden door het interpreteren van de statistische biases in beperkte domeinen binnen een Informatie-Theoretisch raamwerk, dat performance-modellen specialiseert voor beperkte domeinen. Het proefschrift presenteert een raamwerk dat deze idee"en implementeert, genaamd het "Ambiguity-Reduction Specialization (ARS) framework". Het ARS framework incorporeert de bovengenoemde effici"entie eigenschappen in performance modellen, door middel van een "off-line" leeralgorithme dat gebruik maakt van een tree-bank. Het doel van dit leeralgorithme is het beperken van zowel de herkennings-kracht als de ambigu"iteit van de linguistische BCG die voor de annotatie van de tree-bank werd gebruikt, zodat er gespecialiseerd wordt voor het domein. Dit resulteert in een gespecialiseerde grammatica, en in een gespecialiseerde tree-bank geannoteerd onder deze grammatica. Deze nieuwe tree-bank kan dienen voor het verkrijgen van een kleinere en minder ambigu"e probabilistische grammatica onder een bepaald performance-model. In het ARS framework wordt (voor het eerst) deze specialisatie-taak uitgedrukt in termen van beperkte optimalisatie. De algorithmes voor de uitvoering van deze taak kunnen daardoor geformuleerd worden als leeralgorithmes die gebaseerd zijn op beperkte optimalisatie. Er worden twee verschillende specialisatie-algorithmes gepresenteerd. Het principi"elere algorithme is gebaseerd op de noties van entropie en Shannon's optimale codelengte, het practischere algorithme is gebaseerd op intu"itive statistische maten. Tevens presenteert dit proefschrift een nieuw parseer-algorithme dat de gespecialiseerde grammatica en de oorspronkelijke BCG integreert op een complementaire manier, zodat de parser geen tijdverlies lijdt wanneer de gespecialiseerde grammatica faalt in het herkennen van de input. Empirisch onderzoek: De boven genoemde leer- en parseeralgorithmes zijn ge"implementeerd in computer programma's, en worden gebruikt in een project van de Nederlanse organisatie voor Wetenschappelijke Onderzoek (NWO). Het proefschrift rapporteert (hoofdstuk 6) uitgebreide empirische experimenten die de boven besproken theoretische idee"en testen op twee tree-banks, OpenbaarVervoer Informatie Systeem (OVIS) en Air Travel Inquiry System (ATIS). Deze tree-banks representeren twee domeinen, twee talen en twee desambigueertaken: het desambigueren van uitingen en het desambigueren van woord-grafen in een dialoogsysteem. In deze experimenten wordt het meer practische, maar minder optimale leeralgorithme, toegepast op het specialiseren van het DOP model voor gelimiteerde domeinen. De experimenten laten zien dat in beide domeinen de resulterende gespecialiseerde DOP STSG's (genaamd SDOP STSGs) substantieel kleiner zijn dan de oorspronkelijke DOP STSG's. Bovendien, in 'e'en van de domeinen (OVIS) zijn, op beide desambigueertaken, de SDOP STSG's niet alleen minstens zo accuraat als de oorspronkelijke DOP STSG's, maar ook veel effici"enter. In het andere domein (ATIS) zijn de SDOP STSG's ook effici"enter dan de oorspronkelijke DOP STSG's, maar deze effici"entie verbetering wordt bereikt slechts voor DOP modellen die onbruikbaar zijn in de praktijk. Tevens wordt de hypothese getoetst dat de gepresenteerde specialisatie-methode resulteert in effici"entere parsering van frequente en minder ambigu"e uitingen. Ondanks het feit dat dit wordt getest in een sub-optimaal experiment op het OVIS domein blijkt dat deze hypothese ondersteund wordt door de emipirische resultaten. De parseertijd van de SDOP STSGs is kleiner voor frequente invoer, dit in tegenstelling tot de parseertijd van DOP STSGs, die duidelijk onafhankelijk is van de frequentie van de invoer. De conclusie heeft betrekking op beide onderzoeksonderwerpen die aan elkaar worden gerelateerd in dit proefschrift: enerzijds de computationele en effici"entie-aspecten van het DOP model, en anderzijds het specialiseren van performance-modellen voor beperkte domeinen. De studie naar de computationele aspecten van het DOP model levert een complexiteits-analyse en een effici"ent algorithme op. De empirische resultaten laten duidelijk zien dat het nieuwe algorithme een aanzienlijke effici"entie-verbetering oplevert. Deze resultaten maken echter ook duidelijk dat de computationele aspecten en de effici"entie van het DOP -model verdere onderzoek vereisen. De studie naar het specialiseren van performance modellen voor gelimiteerde domeinen heeft nieuwe inzichten omtrent het modelleren van effici"entie-eigenschappen van menselijk taalverwerking opgeleverd. Onze hypothese betreffende de relatie tussen statistische biases en deze eigenschappen blijkt ondersteund te worden door de empirische resultaten. Het zou echter voorbarig zijn te concluderen dat de gepresenteerde methode suksesvol toepasbaar is op elk beperkt domein. De studie in dit proefschrift is immers beperkt gebleven tot sub-optimale implementaties die verschillende approximaties bevatten, als gevolg van beperkingen in de tot nu toe beschikbare hardware. Het is daarom noodzakelijk om deze studie voort te zetten in toekomstig onderzoek.