A Tale of Two Sequences: Interpretable and Linguistically-Informed Deep Learning for Natural Language Processing
Jasmijn Bastings 

Deep Learning (DL) heeft het vakgebied van natuurlijke taalverwerking (NLP) abrupt overgenomen. Het veroorzaakte een verschuiving van het benutten van taalkundige kenmerken en structuren, zoals POS-tags, dependentiebomen en syntaxisbomen, naar het uitsluitend gebruikmaken van woorden, en het behandelen van een zin als niets anders dan een opeenvolging van woorden. Aangezien prestatierecords in NLP-benchmarks keer op keer worden verbroken, kunnen we ons afvragen: zijn taalkundige structuren nu achterhaald? Of is er toch nog een manier om er gebruik van te maken?
In het eerste deel van dit proefschrift proberen we deze vragen te beantwoorden in de context van automatische vertaling. We zien dat we een Graph Convolutional Network (GCN) kunnen gebruiken om een neuraal vertalingsmodel op taalkundige structuren te conditioneren, en we laten empirisch zien dat we prestatieverbeteringen kunnen behalen met het conditioneren op dependentiestructuren, semantische structuren, en beide. Bovenop het conditioneren op expliciete taalkundige structuren, onderzoeken we ook of we structuur kunnen induceren met een automatisch vertalingsmodel. We zien dat het mogelijk is om nuttige structuur te leren bovenop woordembeddings en CNN representaties, terwijl we triviale (veelal diagonale) structuur krijgen bovenop LSTM representaties. Deze latente structuur is gerelateerd aan het inmiddels populaire Transformer model, dat gezien kan worden als het toepassen van graph convolution over een volledige graaf.
In het tweede deel van het proefschrift nemen we een kijk op twee kritiekpunten van neurale netwerken: (1) hun gebrek aan interpreteerbaarheid, en (2) hun honger naar geannoteerde data om goed te generaliseren. Eerst bestuderen we neurale textclassificatiemodellen, die we interpreteerbaar maken door hen een uitleg, een rationalisering, te laten geven voor hun predicties. Dit doen we door te laten zien welke delen van de invoer worden gebruikt voor classificatie, en daardoor een model te creëren dat transparanter is dan een model dat geen uitleg geeft. We laten zien dat onze methode beter aansluit bij de uitleg die mensen geven dan eerdere methodes. Tenslotte onderzoeken we generalisatie van neurale netwerken. In het bijzonder kijken we naar de SCAN benchmark, en zien we dat het behalen van een hoge score geen sterke generalisatie hoeft te betekenen, vanwege de eenvoud van de dataset. We komen met een simpele oplossing voor dit probleem in de vorm van de NACS dataset.