Het leren van vector-representaties van zinnen – de ‘recursive deep learning’-aanpak
Phong Lê

Samenvatting:

Systemen voor taalverwerking per computer waren tot voor kort grotendeels gebaseerd op complexe, symbolische representaties en, voor zover ze gebruik maken van machinaal leren, toch afhankelijk van met de hand geselecteerde lijstjes van kenmerken. Met de opkomst van ‘deep learning’ is het, voor het eerst in the geschiedenis van het vakgebied, mogelijk geworden om ook die kenmerk-selectie te gaan automatiseren. In de afgelopen jaren hebben we succesvolle deep learning-systemen zien verschijnen die nauwelijks of geen handmatige kenmerk-selectie behoeven en toch bij de best presterende systemen behoren op taken zoals automatisch ontleden, automatisch vertalen, sentiment-analyse en woordvoorspelling.

Die successen betekenen echter niet dat we alle taalkundig ge ̈ınformeerde benaderingen nu aan de kant moeten schuiven. In dit proefschrift exploreer ik op welke manier taalkundige kennis ingezet kan worden om nog betere neurale netwerk-modellen van taal te kunnen bouwen. Ik pak de uitdaging op om vector-representaties voor zinnen uit te rekenen op basis van een hybride symbolisch-connectionistische benadering, uitgaande van het zogeheten compositionaliteitsbeginsel. In mijn aanpak levert de symbolische traditie de syntactische structuur van zinnen, maar gebruik ik neurale netwerken om representaties van woorden, combinaties van woorden en zinnen te leren.

Alle modellen die ik uitwerk in dit proefschrift zijn varianten van het Recursive Neural Network (RNN). Een RNN neemt een zin, een syntactische boom en vectorrepresentaties van de woorden in die zin als input. Vervolgens gebruikt het model een neuraal netwerk om recursief representaties uit te rekenen voor combinaties van woorden, beginnend bij de combinaties van woorden die volgens de syntactische boom een frase vormen, en eindigend met een representatie voor de hele zin. Het RNN is een populair model vanwege de elegante definitie en veelbelovende empirische resultaten. Het model heeft echter ook heel duidelijke beperkingen: (i) de compositie-functies die het leert zijn taalkundig defici ̈ent; (ii) het model kan alleen in een bottom-up richting worden toegepast; (iii) het model is extreem gevoelig voor fouten in de aangeboden syntactische bomen. Met het standaard RNN-model als startpunt stel ik daarom een uitbreidingen voor in drie richtingen als oplossingen voor elk van deze drie problemen.

Het eerste type uitbreidingen betreft het verbeteren van de compositie-functies. E ́en manier om dat te doen is om gebruik te maken van syntactische en context-informatie, zoals ik dat doe in hoofdstuk 3. De compositie-functies in dat hoofdstuk zijn nog steeds zogeheten ‘one-layer feedforward’-netwerken, maar er is een apart netwerk voor iedere combinatie van syntactische categorie ̈en en ‘heads’. Een andere manier is om die eenvoudige netwerken te vervangen door complexere. In hoofdstuk 6 rapporteer ik resultaten waaruit blijkt dat het zogeheten Long Short Term Memory-netwerk (LSTM) effectiever omgaat met lange afstandsafhankelijkheden en het ‘vanishing gradient’probleem dan de veelgebruikte recurrente netwerken. Ik werk in dat hoofdstuk een nieuwe variant van het LSTM uit, het ‘Recursive LSTM’, dat werkt met syntactisch bomen. Empirische resultaten op een kuntmatige taak en op de Stanford Sentiment Treebank laten zien dat dit nieuwe model veel accurater is dan het standaard RNN. In hoofdstuk 7 laat ik tenslotte zien dat ook zogeheten convolutional neural networks succesvol gebruikt kunnen worden om de compositie-functie mee te implementeren.

Het tweede type uitbreidingen betreft de manier waarop informatie stroomt door een syntactische boom. In klassieke compositionele semantiek-benaderingen, waaronder ook de RNN, is die informatie-stroom strikt bottom-up, waardoor een knoop in zo’n boom geen toegang heeft tot informatie over de context van een zin. Zulke benaderingen zijn daarom moeilijk te combineren met technieken die top-down werken, zoals verschillende populaire statistische modellen voor automatisch ontleden, of technieken die gebruik maken van context-informatie, zoals populaire modellen voor semantische rolbepaling. In hoofdstuk 4 stel ik een oplossing voor voor deze problemen, onder de naam ‘Inside-Outside Semantics framework’, waar het centrale idee is dat informatie zowel bottom-up als top-down moet kunnen stromen. Ik stel voor om voor elke knoop in een syntactische boom twee representaties te berekenen (via recursieve definities): een ‘content representation’ voor het corresponderende deel van de zin die bottom-up wordt berekend, en een ’context representation’ die top-down wordt bepaald. Ik laat zien, in hoofdstuk 5, dat een neurale netwerk-implementatie van dit idee heel goed werkt op een reeks van verschillende taken, inclusief ‘unsupervised composition function learning’, ‘semantic role labeling’ en ‘dependency parsing’.

Het derde type uitbreidingen betreft de omgang met onzekerheid over de juiste syntactische ontleedboom. Ontleedbomen zijn een cruciaal onderdeel van alle modellen in deze dissertatie, omdat volgens het compositionaliteitsbeginsel de syntactische structuur bepaalt welke semantische composities worden uitgevoerd, en op welk moment. Dat maakt de aanpak gevoelig voor fouten in de ontleedbomen. Dergelijke fouten worden onvermijdelijk door automatische ontleedprogramma’s ge ̈ıntroduceerd, omdat die programma’s binnen het domein waar ze voor zijn ontwikkeld al niet foutloos opereren, maar bovendien in veel gevallen buiten dat domein worden ingezet. Om dit probleem het hoofd te bieden stel ik in hoofdstuk 7 het ‘Forest Convolutional Network’ voor, dat in plaats van een enkele ontleedboom een grote verzameling bomen, een zogeheten ‘parse forest’, als input krijgt. Het idee achter dit model is dus dat het model uit een variatie aan mogelijkheden de syntactisch structuur kiest (of samenstelt) die het beste past bij de waar het model voor wordt geoptimaliseerd. De empirische resultaten laten zien dat het resulterende model tot de best beschikbare modellen behoort op twee populaire taken: de ‘Stanford Sentiment Treebank’-taak en de ’TREC vraag-classificatie’-taak.

In dit proefschrift beschrijf ik dus concrete oplossingen voor de belangrijkste tekortkomingen van het RNN-model. Daarmee bevat dit proefschrift alle ingredi ̈enten voor een volledige neurale implementatie van een syntactisch-semantische parser: de drie beschreven uitbreidingen komen neer op een neurale versie van het ‘inside-outside’algoritme. De aanpak in dit proefschrift biedt daarmee het beste van twee werelden: de enorme flexibiliteit en zelflerende kracht van ‘deep learning’, zonder de taalkundige principes en uitdrukkingskracht van eerdere benaderingen in de computationele taalkunde op te geven.