Learning the Latent Structure of Translation Markos Mylonakis Dit proefschrift behelst nieuwe methodes voor het leren van latente structurele patronen in vertaaldata. Het proefschrift bestudeert verschillende benaderingen voor het modelleren van tweetalige structuur, en presenteert een nieuw raamwerk en algoritmes, zoals Cross-Validated Expectation-Maximization (CV-EM), voor het leren van frase-gebaseerde, hiërarchische en syntactisch-gedreven statistische automatische vertaling (SMT) modellen uit data. In het proefschrift presenteer ik methodes voor het automatisch leren van frase-gebaseerde SMT modellen die uitgaan van een latente tweetalig structuur als centrale variabele. Uitgaand van het feit dat iedere taal sterk gekenmerkt wordt door haar individuele structurele eigenschappen, streven wij ernaar om een tweetalig structuur te leren die in het verlengde ligt van zijn eentalige tegenhanger, met het doel de kloof tussen beiden te overbruggen door de transformaties die plaats vinden in het overbrengen van betekenis tussen talen expliciet te maken. Het leer-raamwerk en -algoritmes die worden gepresenteerd stellen ons in staat om deze structurele patronen te ontdekken in tweetalige data met als doel de gevonden patronen te gebruiken in vertaalmodellen die beter kunnen vertalen. Dit leidt tot een wel-gefundeerd leerraamwerk voor hiërarchische, syntactisch-gemotiveerde modellen die het vertaalproces beschrijven middels de linguïstische structuur van taal. Hoofdstuk 1 geeft een introductie voor de context en doeleinden van dit werk. Het presenteert de hoofdzaken betreffende het modelleren van vertaalstructuur en bespreekt zowel de impact van zijn latente aard als de uitdagingen in het ontdekken daarvan in tweetalige data. Hoofdstuk 2 begint met een uiteenzetting van sommige modellen die invloedrijk zijn geweest in SMT onderzoek, zoals woord-gebaseerde, frase-gebaseerde en hiërarchische SMT. Daarna worden de EM en Cross-Validation algoritmes besproken, de twee theoretische pijlers van het leeralgoritme dat wordt gepresenteerd in het volgende hoofdstuk. Hoofdstuk 3 bestudeert de uitdagingen van het leren van frase-gebaseerde vertaalmodellen, door het bespreken van het algemenere probleem van het leren van Fragment modellen: modellen die nieuwe data instanties bouwen door data fragmenten te combineren geëxtraheerd uit de training dataset. In het vervolg wordt het Cross-Validated Expectation-Maximization (CV-EM) algoritme gepresenteerd, een nieuwe leeralgoritme voor Fragment modellen dat parameters optimaliseert volgens de Cross-Validated Maximum Likelihood (CV-MLE) objectieve functie. De drie hoofdstukken die hierop volgen presenteren en evalueren op empirische wijze drie state-of-the-art SMT modellen en hun leeralgorithmes die gebaseerd zijn op CV-EM. Hoofdstuk 4 presenteert een wel-gefundeerde methode voor het leren van conditionele vertaal-waarschijnlijkheden voor frase-gebaseerde SMT modellen die werken met onafgebroken frase-paren, met nadruk op het desambigueren van de latente segmentatie van zinsparen in strengen van frase-paren. Deze methode blijkt minstens even goed empirisch te werken als de huidige ad hoc estimatie methodes die doorgaans worden gebruikt met dit soort modellen. Hoofdstuk 5 bestudeert de bijkomende uitdagingen van het modelleren van het vertalen middels synchrone grammatica's, en laat zien hoe een relatief simpele hiërarchisch vertaalmodel met succes geleerd kan worden die vergelijkbare prestaties levert als een zeer concurrerende baseline. Hoofdstuk 6 maakt een significante stap in het bouwen van leeralgorithmes die extensies vormen van CV-EM, voor het leren van complexe hierarchische vertaalmodellen die profiteren van externe annotaties van zinnen in de bron-en/of doel-taal. We zetten deze leeralgorithmes in voor het leren van linguistisch-gemotiveerde hierarchische vertaalmodellen door het identificeren van de taalkundige patronen van de brontaal die informatief zijn voor het vertalen. Vervolgens laten wij zien hoe deze aanpak tastbare verbeteringen levert in vertaal kwaliteit in vier verschillende taalparen. Hoofdstuk 6 completeert het werk in Hoofdstukken 4 en 5, en levert aanzienlijk bewijs ter ondersteuning van de belangrijkste hypothese van dit proefschrift: modellen die uitgaan van een latente vertaalstructuur kunnen degelijk worden geleerd onder een helder leerdoel, en geïmplementeerd middels een goedbegrepen optimalisatie raamwerk en leeralgorithme. De resulterende leermodellen geven competitieve vertaalprestaties in verhouding tot de gangbare heuristische training regimes, en maken het gebruik van deze regimes overbodig. Onze methodologie biedt niet alleen een betrouwbaar en effectief alternatief voor deze heuristische schatters, maar opent ook nieuwe wegen voor de toekomst, door het mogelijk maken van het schatten van krachtige vertaalmodellen die de latente kant van het vertalen blootleggen, en waarvan de schatting middels ad hoc algoritmes zou nauwelijks mogelijk geweest.