Typologisch robuuste statistische machinevertaling:
Variaties en overeenkomsten tussen talen begrijpen en benutten voor machinevertaling
Joachim Daiber

Samenvatting:

Machinevertaalsystemen gebruiken vaak modelleringsaannames die gebaseerd zijn op de taalparen waar ze oorspronkelijk voor gemaakt zijn. Als zulke systemen toegepast worden op taalfamilies met aanzienlijk verschillende eigenschappen, kan dat nadelig zijn voor de kwaliteit van de vertaling. Phrase-based machinevertaalsystemen zijn bijvoorbeeld slecht toegerust voor de uitdagingen die meegebracht worden door versoepelde woordvolgorderestricties en productieve woordvormingsprocessen in morfologisch rijke talen. In deze dissertatie vragen we welke rol taaleigenschappen, zoals bestudeerd in het veld van taaltypologie, in de prestaties van machinevertaalsystemen spelen. We leggen de nadruk op woordvolgorde en morfologie in het bijzonder en we laten zien dat typologische verschillen in deze gebieden overbrugd kunnen worden door bepaalde taalverschijnselen expliciet te maken in het vertaalsysteem. Het begrijpen en gebruiken van typologische verschillen tussen talen maakt het mogelijk vertaalsystemen typologisch meer robuust te maken zonder de aannames van de onderliggende vertaalmodellen drastisch te hoeven veranderen.

We beginnen met een studie van het effect van woordvolgordevrijheid op pre-orderen, een populaire techniek om de woordvolgorde te modelleren in phrase-based machinevertaling. We laten zien dat het gebruiken van een keuzeruimte van potentiële woordvolgorden in plaats van een enkele woordvolgorde en het inbouwen van deze ruimte in het vertaalmodel door middel van woordvolgordepermutatieroosters een principiële oplossing biedt voor het verbeteren van typologische robuustheid voor pre-orderen.

Vervolgens laten we zien dat phrase-based machinevertaling voor typologisch verschillende taalparen verbeterd kan worden door het verkleinen van de verschillen in morfologische complexiteit tussen bron- en doeltaal. Voor flexiemorfologie doen we dit door het verrijken van een morfologisch arme brontaal met ongemarkeerde morfologische kenmerken, wat woordkeuze in de doeltaal verbetert. Voor samenstellingen stellen we een semantisch gemotiveerd samenstellingsmodel voor, dat samengestelde woorden in hun betekenisdragende onderdelen opsplitst. Dit stelt het vertaalsysteem in staat om met vergelijkbare vertalingseenheden in de bron- en doeltaal te opereren.

Tenslotte laten wij zien dat taaltypologie niet alleen voor het overbruggen van prestatieverschillen tussen typologisch verschillende talen van dienst is, maar dat het ook een kennisbron vormt om reorderingsmodellen te leiden en universele reorderingsmodellen voor meerdere doeltalen te vergemakkelijken. Zulke universele reorderingsmodellen kunnen op een data-gebaseerde manier leren op welke taaltypologische aspecten te letten, ze bevorderen generalisatie en ze hebben minder trainingsdata nodig dan modellen voor afzonderlijke talen.