Incorporating Structure into Neural Models for Language Processing
Michael Sejr Schlichtkrull

Abstract:
Gestructureerde gegevens komen veelvuldig in de wereld voor, evenals de NLP-toepassingen waarmee gepoogd wordt conclusies te trekken over dergelijke gege-vens. Ondanks hun succes hebben moderne neurale netwerkmodellen vaak moeite om gestructureerde informatie op te nemen. In dit proefschrift onderzoeken wij hoe effectieve neurale netwerkmodellen kunnen worden gebouwd om gestructureerde gegevens op te nemen voor de interpretatie van natuurlijke taal.
Een natuurlijke vorm van weergave van gestructureerde informatie is door middel van grafen. De onlangs geïntroduceerde Graph Neural Networks (GNN's) bieden voor neurale netwerken de mogelijkheid om conclusies te trekken over grafen door middel van leerbare message passing functies. Als eerste introduceren we het effectief eerste GNN-model dat geschikt is voor de gerichte multirelationele gegevens die worden aangetroffen in de gangbare vormen van gestructureerde gegevens die relevant zijn voor NLP toepassingen, zoals kennisbanken (KB's). We bestuderen encoders van structuur voor relational link prediction, question answering en fact verification. Een grote uitdaging is de niet-interpreteerbare, black-box-aard van dergelijke encoders. Om dit probleem te verkleinen introduceren wij een nieuwe techniek voor het interpreteren van de voorspellingen van GNN's.
Wij presenteren onze inspanningen in vier hoofdstukken:
- Voor het voorspellen van relationele verbanden in kennisbanken voeren we Relational Graph Convolutional Network (R-GCN) encoders in. R-GCN's zijn een nieuwe variant van GNN's die geschikt zijn voor het modelleren van de gerichte, multirelationele gegevens die men in kennisbanken aantreft. Door onze R-GCN-encoder te combineren met een factorisatiedecoder uit de literatuur, bereikten we op het moment van publicatie state-of-the-art prestaties op de FB15k-237-dataset. Ons model presteert vooral goed voor gecompliceerde gevolgtrekkingen met knooppunten van hoge graad en zeldzame relaties.
- We introduceren twee op GNN gebaseerde modellen voor factoid question answering over KB's. Deze modellen zijn gebaseerd op het kiezen van ofwel individuele antwoordknooppunten, of een beste pad naar het antwoord. Naast de R-GCN stellen we een variant voor die gates gebruikt om de te gebruiken kanten van de graaf te beperken. Bij deze keuze moedigen we spaarzaamheid aan door middel van een L_1-boete. De verbetering, die het gevolg is van ijlheid van de graaf, laat zien hoe op GNN gebaseerde modellen profiteren van het wegfilteren van overtollige kanten.
- We introduceren een nieuw model voor fact verification over open verzamelingen van tabellen, waarbij we een RoBERTa-encoder voor gelineariseer-de tabellen combineren met een cross-attention-mechanisme voor het samenvoegen van bewijsstukken. Linearisatie is een belangrijk alternatief voor het modelleren van structuur bij grafen. Wanneer we opereren in het open domein, bereikt onze aanpak prestaties die vergelijkbaar zijn met de huidige state-of-the-art in het gesloten domein; wanneer we opereren in het gesloten domein, resulteert onze aanpak in een nieuwe state-of-the-art. Verder voeren we twee nieuwe strategieën in voor het exploiteren van datasets met een gesloten domein om de prestaties in het open domein te verbeteren. Deze strategieën zijn gebaseerd op doelen die gezamenlijk claim truth en evidence reranking modelleren.
- Onze ervaring laat zien dat interpreteerbaarheid een belangrijke kwestie ist voor GNN's. We stellen Graph Mask voor, een nieuwe post-hoc interpretatietechniek voor GNN-gebaseerde modellen. Door end-to-end differentieerbare nul-één-poor-ten voor elk bericht te leren, produceert Graph Mask getrouwe, schaalbare en eenvoudig te begrijpen verklaringen voor hoe GNN's tot specifieke voorspellingen komen. We testen onze aanpak op een synthetische taak met een bekende gouden standaard voor trouw. Hiermee tonen we aan dat Graph Mask gunstig afsteekt bij de huidige alternatieven. Daarnaast passen we onze techniek toe om de voorspellingen van twee NLP-modellen uit de literatuur te analyseren: een semantic role labeling-model en een question answering-model