Learning the Latent Structure of Translation
Markos Mylonakis

Dit proefschrift behelst nieuwe methodes voor het leren van latente
structurele patronen in vertaaldata.  Het proefschrift bestudeert
verschillende benaderingen voor het modelleren van tweetalige
structuur, en presenteert een nieuw raamwerk en algoritmes, zoals
Cross-Validated Expectation-Maximization (CV-EM), voor het leren van
frase-gebaseerde, hiërarchische en syntactisch-gedreven statistische
automatische vertaling (SMT) modellen uit data.

In het proefschrift presenteer ik methodes voor het automatisch leren
van frase-gebaseerde SMT modellen die uitgaan van een latente
tweetalig structuur als centrale variabele.  Uitgaand van het feit dat
iedere taal sterk gekenmerkt wordt door haar individuele structurele
eigenschappen, streven wij ernaar om een tweetalig structuur te leren
die in het verlengde ligt van zijn eentalige tegenhanger, met het doel
de kloof tussen beiden te overbruggen door de transformaties die
plaats vinden in het overbrengen van betekenis tussen talen expliciet
te maken.  Het leer-raamwerk en -algoritmes die worden gepresenteerd
stellen ons in staat om deze structurele patronen te ontdekken in
tweetalige data met als doel de gevonden patronen te gebruiken in
vertaalmodellen die beter kunnen vertalen.  Dit leidt tot een
wel-gefundeerd leerraamwerk voor hiërarchische,
syntactisch-gemotiveerde modellen die het vertaalproces beschrijven
middels de linguïstische structuur van taal.

Hoofdstuk 1 geeft een introductie voor de context en doeleinden van
dit werk.  Het presenteert de hoofdzaken betreffende het modelleren
van vertaalstructuur en bespreekt zowel de impact van zijn latente
aard als de uitdagingen in het ontdekken daarvan in tweetalige data.
Hoofdstuk 2 begint met een uiteenzetting van sommige modellen die
invloedrijk zijn geweest in SMT onderzoek, zoals woord-gebaseerde,
frase-gebaseerde en hiërarchische SMT.  Daarna worden de EM en
Cross-Validation algoritmes besproken, de twee theoretische pijlers
van het leeralgoritme dat wordt gepresenteerd in het volgende
hoofdstuk.  Hoofdstuk 3 bestudeert de uitdagingen van het leren van
frase-gebaseerde vertaalmodellen, door het bespreken van het
algemenere probleem van het leren van Fragment modellen: modellen die
nieuwe data instanties bouwen door data fragmenten te combineren
geëxtraheerd uit de training dataset.  In het vervolg wordt het
Cross-Validated Expectation-Maximization (CV-EM) algoritme
gepresenteerd, een nieuwe leeralgoritme voor Fragment modellen dat
parameters optimaliseert volgens de Cross-Validated Maximum Likelihood
(CV-MLE) objectieve functie.

De drie hoofdstukken die hierop volgen presenteren en evalueren op
empirische wijze drie state-of-the-art SMT modellen en hun
leeralgorithmes die gebaseerd zijn op CV-EM.  Hoofdstuk 4 presenteert
een wel-gefundeerde methode voor het leren van conditionele
vertaal-waarschijnlijkheden voor frase-gebaseerde SMT modellen die
werken met onafgebroken frase-paren, met nadruk op het desambigueren
van de latente segmentatie van zinsparen in strengen van frase-paren.
Deze methode blijkt minstens even goed empirisch te werken als de
huidige ad hoc estimatie methodes die doorgaans worden gebruikt met
dit soort modellen.  Hoofdstuk 5 bestudeert de bijkomende uitdagingen
van het modelleren van het vertalen middels synchrone grammatica's, en
laat zien hoe een relatief simpele hiërarchisch vertaalmodel met
succes geleerd kan worden die vergelijkbare prestaties levert als een
zeer concurrerende baseline.  Hoofdstuk 6 maakt een significante stap
in het bouwen van leeralgorithmes die extensies vormen van CV-EM, voor
het leren van complexe hierarchische vertaalmodellen die profiteren
van externe annotaties van zinnen in de bron-en/of doel-taal.  We
zetten deze leeralgorithmes in voor het leren van
linguistisch-gemotiveerde hierarchische vertaalmodellen door het
identificeren van de taalkundige patronen van de brontaal die
informatief zijn voor het vertalen.  Vervolgens laten wij zien hoe
deze aanpak tastbare verbeteringen levert in vertaal kwaliteit in vier
verschillende taalparen.

Hoofdstuk 6 completeert het werk in Hoofdstukken 4 en 5, en levert
aanzienlijk bewijs ter ondersteuning van de belangrijkste hypothese
van dit proefschrift: modellen die uitgaan van een latente
vertaalstructuur kunnen degelijk worden geleerd onder een helder
leerdoel, en geïmplementeerd middels een goedbegrepen optimalisatie
raamwerk en leeralgorithme.  De resulterende leermodellen geven
competitieve vertaalprestaties in verhouding tot de gangbare
heuristische training regimes, en maken het gebruik van deze regimes
overbodig.  Onze methodologie biedt niet alleen een betrouwbaar en
effectief alternatief voor deze heuristische schatters, maar opent ook
nieuwe wegen voor de toekomst, door het mogelijk maken van het
schatten van krachtige vertaalmodellen die de latente kant van het
vertalen blootleggen, en waarvan de schatting middels ad hoc
algoritmes zou nauwelijks mogelijk geweest.