Latent Variable Models for Machine Translation and How to Learn Them
Philip Schulz

Samenvatting:
Deze dissertatie gaat over variatie in parallelle taalkundige data en over hoe dit gemodelleerd kan worden ten behoeve van machinevertaling. De dissertatie laat ook de paradigmaverschuiving zien van frase-gebaseerde naar neurale machinevertaling door het fenomeen van variatie te beschouwen vanuit beide paradigma’s.

Machinevertaling is het automatisch vertalen van tekst tussen verschillende talen. Om een machinevertalingssysteem goed te trainen, moet het blootgesteld worden aan veel parallelle trainingsdata, d.w.z., verzamelingen zinnen in twee of meer talen waarvan we weten dat ze vertalingen zijn van elkaar. Het is duur om deze data te genereren omdat zulke vertalingen door menselijke vertalers geproduceerd moeten worden. Natuurlijk produceren niet alle menselijke vertalers precies dezelfde vertalingen. Integendeel, hun vertalingen kunnen enorm uiteenlopen. Dit heeft zowel te maken met de persoonlijke stijl van iedere vertaler als met verschillen in expertise over een bepaald domein of in een bepaalde taal. Een meer ervaren vertaler produceert over het algemeen nauwkeurigere resultaten dan een minder ervaren vertaler. Ook is een vertaler die gespecialiseerd is in sportverslaggeving wellicht bijvoorbeeld niet gekwalificeerd om wetgeving te vertalen. Bovendien kan de kwaliteit van vertalingen verschillen van dag tot dag afhankelijk van factoren zoals de motivatie van een vertaler, vermoeidheid, stress, enzovoorts. Ten slotte is er ook nog variatie tussen talen. Veel Romaanse talen staan bijvoorbeeld toe dat voornaamwoorden weg worden gelaten in bepaalde gevallen, terwijl dit niet mag in bijvoorbeeld het Engels. Het Duits en veel Slavische talen maken gebruik van grammaticaal geslacht, wat een concept is dat onbekend (en hoogst verwarrend) is in Engelstalige delen van de wereld.

Voor onderzoek naar machinevertaling levert dit de volgende uitdaging op: de data is niet homogeen en een letterlijke vertaling die gepast is in de ene context kan verkeerd zijn in de andere. Bovendien zijn vertalingssystemen vaak getraind op diverse documenten van verschillende bronnen, wat betekent dat ze verschillende taalkundige stijlen tegenkomen. Gebruikers van moderne machinevertalingssystemen verwachten niet alleen een accurate vertaling die alle informatie van de oorspronkelijke tekst bevat, maar ze verwachten ook dat de vertaling grammaticaal is en goed klinkt. Daarom heb ik een model gemaakt van de variatie in vertalingsdata, of althans van een deel hiervan. Mijn hoofdstelling is dat dit vertalingen verbetert, omdat het de aanname dat de data homogeen is versoepelt (we weten tenslotte dat deze aanname niet klopt). Ik laat experimenteel zien dat dit inderdaad verbeterde vertalingen oplevert, middels de algemeen gebruikte BLEU I-maatstaf.

De dissertatie begint met een korte motiverende introductie in Hoofdstuk 1. Daarna beschrijft het de noodzakelijke wiskundige achtergrond in Hoofdstuk 2. Omdat de probabilistische modellen in deze dissertatie gebruik maken van benaderende inferentietechnieken wordt er een bijzondere nadruk gelegd op deze technieken. Hoofdstuk 2 biedt ook een introductie in frase-gebaseerde en neurale machinevertaling.

Hoofdstuk 3 introduceert een nieuw latente-variabele-model om om te gaan met variatie in woorduitlijning. Woorduitlijning is de eerste stap in de frase-gebaseerde machinevertalingsprocedure. Het verbindt woorden, tussen twee parallelle zinnen, die waarschijnlijk vertalingen zijn van elkaar. Deze vertalingen op woordniveau worden dan uitgebreid naar frases in een volgende stap, die vervolgens door het vertalingssysteem onthouden worden. Een veelgebruikte aanname van veel woorduitlijningsmodellen is dat ieder woord in een van de talen een tegenhanger moet hebben in de andere taal. Dit is natuurlijk niet waar, omdat talen verschillen in hoe ze concepten uitdrukken. Zoals eerder genoemd laten sommige talen voornaamwoorden weg terwijl andere talen voorzetsels weglaten. De reden dat een voornaamwoord voorkomt in zin A en niet in zin B is daarmee volledig afhankelijk van de grammaticale structuur van taal A en heeft niets te maken met vertaling. Ik introduceer daarom een latente-variabele-model dat een combinatie is van een klassiek uitlijningsmodel- en een taalmodelcomponent. Het taalmodel kan grammaticaal geïntroduceerde woorden verklaren en voorkomt hiermee dat de uitlijningsmodellen een verkeerde uitlijning produceren. Experimenten laten zien dat de resulterende uitlijningen leiden tot verbeterde vertalingen.

Het model dat geïntroduceerd wordt in Hoofdstuk 4 benadert variatiefenomenen op een meer holistische manier omdat het ingebed is in een integraal neuraal machinevertalingssysteem. De hypothese die onder dit model ligt is dat de bronnen van variatie in vertaling te talrijk zijn om expliciet te annoteren. Het model kent daarom alle variatie per woord positie in de vertalingsdata toe aan een enkele bron van ruis. De innovatie hierbij is dat de bron van ruis samen met de vertaling evolueert. Ruis wordt gemodelleerd op woordniveau (of onder woordniveau) en verandert aan de hand van de tot dan toe geproduceerde vertaling. Het model is een voorbeeld van een diep generatief model (in het bijzonder van een variationele autoencoder), en gebruikt recente variationele inferentietechnieken die hellingsstroom door stochastische berekeningsgrafen mogelijk maken. Niet alleen overtreft dit model qua prestatie de baseline, het produceert ook verschillende doch accurate vertalingen als de ruisbron stochastisch gevariëerd wordt.

De dissertatie sluit af met Hoofdstuk 5. Dit hoofdstuk biedt ook een blik op richtingen voor vervolgonderzoek, waarvoor ik hoop dat ik een deel van de basis heb gelegd.