Entity Centric Neural Models for Natural Language Processing
Nicola De Cao

Samenvatting:
Entiteiten staan centraal in hoe we kennis representeren en aggregeren. In encyclopedieën zoals Wikipedia is informatie bijvoorbeeld gegroepeerd op basis van entiteiten (één entiteit per artikel). Hoewel hedendaagse natuurlijke taalverwerkingstechnologie (NLP) bijzonder succesvol is geworden in het beantwoorden van vragen, ondervinden moderne neurale netwerken nog steeds moeilijkheden met het integreren van gestructureerde informatie over entiteiten in hun beslissingsproces. In dit proefschrift, "Entiteit-gecentreerde neurale modellen voor natuurlijke taalverwerking", onderzoeken we hoe we effectievere neurale netwerken kunnen bouwen die informatie over entiteiten benutten om natuurlijke taal te begrijpen. We richten ons voornamelijk op drie onderzoeksvragen:

Hoe kunnen we entiteiten gebruiken om taken met betrekking tot natuurlijke taalverwerking  effectiever aan te pakken? We introduceren een neuraal netwerk dat redeneringen integreert die gebaseerd zijn op informatiespreiding binnen een enkel document en over meerdere documenten (Hoofdstuk 3). We kaderen dit als een inferentieprobleem op een graaf. Vermeldingen van entiteiten zijn knopen (nodes) in deze graaf, terwijl de zijden (edges) relaties tussen verschillende vermeldingen representeren (bijv. coreferenties binnen en tussen documenten). Convolutionele neurale netwerken voor grafen (GCN's) worden op deze grafen toegepast en getraind om redeneringen over meerdere stappen uit te voeren. Onze Entiteit-GCN-methode is schaalbaar en compact en behaalde, ten tijde van schrijven (d.w.z. 2018), state-of-the-art resultaten op WikiHop, een populaire dataset voor het automatisch beantwoorden van vragen met meerdere documenten.

Hoe kunnen we grote, vooraf getrainde taalmodellen gebruiken om entiteiten in de tekst te identificeren en te disambigueren? Het eerste systeem dat wij voorstellen, vraagt entiteiten op door hun unieke namen te genereren, van links naar rechts, token voor token op een autoregressieve manier (Hoofdstuk 4). Ons model vermindert beperkingen van de gevestigde “two-tower dot-product” -modellen die mogelijk gedetailleerde interacties tussen tekst en entiteiten in een kennisbank missen. Bovendien verminderen we het geheugengebruik van huidige modellen aanzienlijk (tot 15 keer). Dit komt doordat de parameters van onze encoder-decoder architectuur schalen met de grootte van het vocabulaire, in plaats van met het aantal entiteiten. We breiden onze aanpak ook uit naar een grote, meertalige setting met meer dan 100 talen (Hoofdstuk 5). In deze setting matchen we met entiteitsnamen van zo veel mogelijk talen, waardoor we connecties tussen de invoerbrontaal en de doelnaam kunnen benutten. Tot slot introduceren we een zeer efficiënte methode die autoregressieve linking paralleliseert over alle potentiële vermeldingen. Deze methodegebruikt een ondiepe en efficiënte decoder, wat het model tot 70 keer sneller maakt, zonder prestatieverlies (Hoofdstuk 6).

Hoe kunnen we de interne kennis van een model over entiteiten interpreteren en beheersen? We presenteren een nieuwe techniek voor post-hoc interpretatie in Hoofdstuk 7. Deze techniek isbedoeld om te onderzoeken hoe beslissingen tot stand komen in verschillende lagen van neurale netwerken. Ons systeem leert subsets van vectoren te maskeren met behoud van differentieerbaarheid. Dit stelt ons in staat omattributie-heatmaps te visualiseren  en te analyseren hoe beslissingen worden gevormd in de verschillende lagen van het neurale netwerk. We gebruiken dit systeem om BERT-modellen te bestuderen op sentiment classificatie en het automatisch beantwoorden van vragen. We laten bovendien zien dat deze techniek toepasbaar is op het convolutionele neurale netwerk voor grafen,, gepresenteerd in Hoofdstuk 3. Ten slotte introduceren we een methode die kan worden gebruikt om deze feitelijke kennis over entiteiten te bewerken. Dit maakt het mogelijk om 'bugs' of onverwachte voorspellingen te herstellen zonder dat dure “hertraining” of “finetuning” nodig is (Hoofdstuk 8).