Aligning the Foundations of Hierarchical Statistical Machine Translation Gideon Maillette de Buy Wenniger Samenvatting: Globalisering is een van de kenmerken van onze tijd. Documenten en geschreven teksten zijn wereldwijd beschikbaar maar ze zijn niet altijd toegankelijk vanwege taalbarrières. Het werk van menselijke vertalers is tijdrovend en kostbaar. De introductie van machinevertaling heeft nieuwe mogelijkheden gegeven, maar de resultaten van machinevertaling schieten vaak nog tekort op verscheidene vlakken met inbegrip van de woordvolgorde. Deze dissertatie stelt manieren voor om hiërarchische vertaal equivalentie relaties afgeleid van woord alignments te gebruiken om hiërarchische statistische machinevertaling te verbeteren. Deze verbetering betreft in het bijzonder de woordvolgorde en coherentie van de geproduceerde vertalingen, maar tevens de keuze van woorden. Het belangrijkste probleem dat in deze dissertatie wordt behandeld is dat hiërarchische statistische machinevertaling weinig context gebruikt in het combineren van regels tot vertalingen. Dit leidt tot separaat gemaakte en daarmee slecht gecoördineerde herordenings beslissingen. Met name Hiero (Chiang, 2005) grammatica’s zijn niet van voorzien van nonterminal labels, wat er toe leidt dat de decoder de context van andere regels negeert wanneer regels worden toegepast. Het fundament van deze dissertatie is een expliciete representatie van de hiërarchische vertaal equivalentie structuur afgeleid uit woord alignments, gebruikmakend van het nieuw voorgestelde kader hierarchical alignment trees (HATs) (Sima’an and Maillette de Buy Wenniger, 2013). Dit maakt het mogelijk om te modelleren hoe vertaal equivalentie is opgebouwd in geobserveerde data, en hieruit te generaliseren om contextgevoelige regels te leren die kunnen worden gecombineerd voor de vertaling van ongeziene data. Het belangrijkste specifieke geval van dit algemene schema dat wordt behandeld in deze dissertatie, is het gebruik van HATs voor het leveren van een om een herordenings context aan regels in de vorm van labels. Het tekortschietende gebruik van context door Hiero is eerder aangepakt in ander werk door het toevoegen van syntactische labels aan Hiero. Het populaire systeem syntax-augmented machine translation (SAMT) (Zollmann and Venugopal, 2006) is het standaard voorbeeld van deze aanpak. Maar er zijn twee problemen met het gebruik van syntax. Het eerste probleem is dat syntax en alignment structuur vaak niet verenigbaar zijn. Het tweede probleem is dat betrouwbare parsers vaak niet beschikbaar zijn voor alle talen. Deze problemen motiveren onze nieuwe aanpak, die niet afhankelijk is van syntax, maar alleen van de rijke informatie die in word alignments aanwezig is. Op basis van deze word alignments worden bilinguale herordenings labels gevormd die het mogelijk maken om in de combinatie van regels betere, contextgevoelige herordenings beslissingen te nemen. Herordenings labels worden toegepast in combinatie met een flexibele vorm van label matching, die het mogelijk maakt om zachte preferenties voor specifieke label substituties te leren tijdens de tuning. Deze labels leveren significante verbetering op ten opzichte van zowel Hiero en SAMT voor drie verschillende talen paren, met de sterkste verbetering voor de vertaling van Chinees naar Engels. Waar komen herordenings labels vandaan? Herordenings labels komen van HATs. HATs zijn bilinguale bomen die de hiërarchische vertaal equivalentie structuur afgeleid uit woord alignments representeren. HATs representeren alle doorlopende translation equivalence units (TEUs) die kunnen worden afgeleid uit woord alignments. Hoe verschillen HATs van bestaande representaties voor TEUs en hiërarchische herordenings structuur? HATs bouwen verder op permutation trees (PETs) (Gildea et al., 2006) en normalized decomposition trees (NDTs) (Zhang et al., 2008a). Belangrijk is dat HATs alle informatie representeren die aanwezig is in originele woord alignments, wat ze onderscheidt van NDTs die alleen de decompositie structuur van de TEUs representeren. Cruciaal is dat HATs zowel PETs en NDTs generaliseren door willekeurige woord alignments te representeren en tegelijkertijd een representatie te geven van de recursieve bilinguale overeenkomstigheidsrelaties voor alle op uit woord alignments afgeleide TEUs. Welke nieuwe bijdragen worden geleverd in deze dissertatie op basis van HATs? HATs leveren net als NDTs een basis voor het extraheren van bilinguale regels, maar anders dan NDTs leveren zij ook de informatie die nodig is om herordenings labels te vormen voor deze regels. Verder zijn HATs toegepast om hiërarchische vertaal equivalentie te visualiseren en daarmee een beter kwalitatief begrip van empirische hiërarchische vertaal equivalentie te faciliteren (Maillette de Buy Wenniger and Sima’an, 2014b). Daarnaast worden HATs gebruikt om de complexiteit van empirische vertaal equivalentie te bepalen, zoals we hierna in meer detail zullen bespreken. Het laatste deel van deze dissertatie onderzoekt hoe de complexiteit van empirische vertaal equivalentie afgeleid uit woord alignments kan worden gekarakteriseerd. Specifiek, gegeven een woord alignment en een grammatica, probeert de dissertatie de formele vraag te beantwoorden wat het betekent voor de grammatica om het woord alignment te ondersteunen. Een exacte manier om deze vraag te beantwoorden wordt voorgesteld, gebaseerd op de intersectie van 1) de set van vertaalequivalenten afgeleid uit het woord alignment en 2) de set vertaalequivalenten afleidbaar uit de grammatica. Vervolgens wordt aangetoond dat HATs kunnen worden toegepast om deze procedure efficiënt te implementeren en te gebruiken om de dekking van woord alignments door een grammatica exact te kunnen meten, zonder een expliciete intersectie van sets van vertaalequivalenten te hoeven uitvoeren. Dit maakt het mogelijk om de meting niet alleen exact te doen maar ook efficient te maken. Een grote empirische studie van zowel handmatig- als automatisch gegenereerde word alignments laat zien dat: 1) Empirische hiërarchische vertaal equivalentie veel complexer is dan doorgaans wordt aangenomen, 2) voor alle talenparen een grote fractie van de woord alignments niet is te binariseren noch is te beschrijven door uitsluitend permutaties (bijectieve projecties), 3) complexe alignment configuraties tot een bepaalde lengte inbedden in atomaire units en deze negeren bij de bepaling van complexiteit, lost slechts een deel van de complexe alignment configuraties op en is op zichzelf niet voldoende om volledige dekking van woord alignments te bereiken. Deze dissertatie laat zien dat het mogelijk is om significante verbeteringen van woordvolgorde en coherentie in statistische machinevertaling te bewerkstelligen alleen op basis van de informatie in woord alignments en zonder gebruik van syntax. De dissertatie levert het nieuwe kader van HATs als bijdrage aan machinevertaling. Daarnaast wordt het nut daarvan beschreven bij verscheidene toepassingen inclusief regel extractie, labeling alsook de empirische studie van hiërarchische vertaal equivalentie.