Permutation Forests for Modeling Word Order in Machine Translation Miloš Stanojević Samenvatting: Natuurlijke taal kent een beperkte ruimte voor variatie in de woordvolgorde van talige uitingen. Taalwetenschappelijk gezien resulteert woordvolgorde uit de herhaalde toepassing van recursieve syntactische functies. Deze syntactische operaties brengen hierarchische syntactische structuren voort, alsmede een keten woorden die in een bepaalde volgorde verschijnen. Verschillende talen worden echter door verschillende syntactische regels geregeerd. Een van de hoofdvraagstukken voor machinevertaling is dus het vinden van de relatie tussen de woordvolgorde in de brontaal en die in de doeltaal. Dit word vaak gedaan door middel van syntactische transfer, waar een syntactische boomstructuur uit de bronzin wordt herleid en vervolgens omgezet in een structuur dat overeen komt met de syntactische regels van de doeltaal. In deze dissertatie stel ik een alternatief voor syntactische transfer dat de goede eigenschappen van deze methode behoudt—namelijk de compositionele en hierarchische structuur—maar dat, in tegenstelling tot syntactische transfer, rechtstreeks uit de data herleid wordt, zonder taalwetenschappelijke annotaties te behoeven. Deze benadering heeft twee hoofdvoordelen. Ten eerste maakt het mogelijk hierarchische herrangschikking op talen toe te passen waarvoor geen parsers bestaan. Ten tweede, in tegenstelling tot de in syntactische transfer gebruikte boomstructuren, die niet altijd met de herrangschikkingspatronen van de data overeenkomen, worden de boomstructuren in deze werk rechtstreeks uit herrangschikkingspatronen herleid, en komen zo per definitie daarmee overeen. Ik behandel herrangschikking als het probleem van het voorspellen van de permutatie van bronwoorden dat de doelvolgorde het beste nadert. Deze permutatie can recursief in een hierarchische structuur opgebroken worden, ook genoemd permutatie boom (permutation tree, of PET) (Zhang and Gildea, 2007). In bepaalde gevallen kunnen meerdere permutatie bomen eenzelfde permutatie genereren. Deze set permutatie bomen heet een permutatie forest. Een permutatie forest geeft een rijkere representatie van een permutatie omdat het elke mogelijke segmentatie van de permutatie inhoudt. Hele forests zijn daarom meer aantrekkelijk voor het modelleren van permutaties dan enkel bomen. Ik pas permutatie bomen in twee subtaken van machinevertaling toe: voorspelling en evaluatie van woordvolgorde. In de woordvolgorde voorspellingstaak stel ik een probabilistische model voor dat non-terminals en de bracketing van een zin beide als latente variabelen behandelt. In het geval van evaluatie in machinevertaling, stel ik evaluatie metrieken voor die PET’s gebruiken, en gebruik ik machine learning methoden om dichter by menselijke beoordeling van vertalingskwaliteit te komen. De hier voorgestelde permutatieboom modellen zijn (i) compositioneel, (ii) hierarchisch en (iii) rechtstreeks van ongeannoteerde vertalingsdata herleid. Empirisch gezien hebben modellen met deze drie eigenschappen bewezen vertalingskwaliteit te verbeteren, en laten ook meer correlatie met menselijke beoordelingen zien wanneer ze voor machinevertalingsevaluatie ingezet worden.