Adjunction in Hierarchical Phrase-Based Translation Sophie Arnoult Samenvatting: Hiëriarchische frase-gebaseerde statistische vertalingsmodellen zijn compositioneel doordat ze steunen op formele, Synchrone Context-Vrije Grammatica. Er is echter geen garantie dat de geproduceerde vertalingen zelf compositioneel zijn. Linguïstische verrijkingsmetoden gebruiken vaak syntactische aanwijzingen om meer controle te bieden op doelherschrijvingen of om vertaalregels op hun bronzijde te selecteren, maar deze aanwijzingen beschrijven alleen een kant van de vertaaldata, en hebben op hun beurt weinig met compositionele vertalingsequivalentie te maken. Hiërarchische frase-gebaseerde vertalingsmodellen steunen daarnaast op asyntactische, gelexicaliseerde regels. Dit bevordert het modelleren van idiomatische uitdrukkingen en complexe woordherschikkingen, maar leidt ook tot zeer grote vertaal grammatica's. Om dit te vermijden wordt de spanwijdte van frasen normaal beperkt, met de veronderstelling dat de meeste bruikbare vertalingsequivalenties lokaal zijn te vangen. De expressiviteit van hiërarchische modellen wordt hiermee natuurlijk ook beperkt, zodat het structureren van de herordeningsruimte een open vraag blijft voor deze modellen en statistiche machinevertaling (SMT) in het algemeen. Dit proefschrift neemt adjunctie als bron van linguïstiche informatie voor hiërarchische frase-gebaseerde modellen. Adjunctie wordt gezien als sturend voor recursie in Tree-Adjoining Grammar (Joshi et al., 1975; Joshi and Schabes, 1997), waar het ingezet is om linguïstische fenomenen zoals wh-fronting te beschrijven en om syntactische modificering te abstraheren. Synchrone Tree-Adjoining Grammar stelt voor adjunctie simultaan toe te passen, en zo als drijvende kracht te zien voor recursie in vertaling. Terwijl synchrone adjunctie toepassing heeft gevonden in syntax-gebaseerde statistische machinevertaling, is het nooit benut geweest in hiërarchische frase-gebaseerde SMT, mogelijk door de schijnbare tegenstelling tussen het formele karakter van adjunctie en de asyntactische natuur van frase-gebaseerde modellen. Dit proefschrift beschouwt adjuncten, de constituënten die betrokken zijn bij adjunctie (syntactische modificeerders in het algemeen), and hun role in compositionele, frase-gebaseerde machinevertaling. Dit proefschrift contribuëert het volgende: - een studie van adjunctequivalentie in frans-engels machinevertalingsdata, om te toetsen in hoeverre adjunctie synchroon verloopt in vertaaldata. Deze studie betracht referentiemetingen en empirische metingen van synchrone adjunctie in verhouding te brengen om het effect van automatische woord-alignments en parse-gebaseerde adjunct-identificeringsregels in kaart te brengen. - een extensie van Hiero (Chiang, 2005), waar adjuncten ingezet worden om spanwijdte beperkingen te ontspannen, en adjunctoptionaliteit om het vertaalgrammatica te verrijken door het abstraheren van adjuncten. - een extensie van de latente herordening PCFG grammatica van (Stanojevic and Sima'an 2015), waar adjuncten ingezet worden als linguïstische informatiebron voor herordening. Onze corpusstudie bevestigt dat adjunctie tot hoge mate synchroon verloopt in vertaaldata. En terwijl deze studie alleen frans-engels data betreft, laat het ook zien dat synchrone adjunctie niet alleen berust of syntactische gelijkenis, maar dat het ook een semantische basis heeft en dat het zich tot vertaalcompositionaliteit verhoudt. De voorgestelde extensie van Hiero laat zien dat adjuncten niet alleen nuttig zijn voor het sturen van recursie in hiërarchische frase-gebaseerde modellen door het gewin van langbereik vertaalregels, maar dat adjunctoverschrijdingsbeperkingen ook kortbereik regels effectief filteren. Experimenten met adjunct optionaliteit geven ook veelbelovende resultaten voor engels-japans, en laten zien dat het toepassen van adjunctie niet voorbehouden is aan syntax-gebaseerde SMT. Verdere analyse laat echter zien dat wat regelwinningbeperkingen betreft, constituentie in het algemeen een betere informatiebron vormt dan adjunctie. Bij het inzetten van adjuncten in herordeningsmodellen ziet men weer dat adjuncten nuttig zijn, maar dat constituentie in het algemeen een betere informatiebron vormt. Wel ziet men dat adjuncten het grootste deel van herordening in engels-japans verklaren. In het algemeen laat dit proefschrift zien dat adjunctie niet voorbehouden is aan syntax-gebaseerde vertalingsmodellen, omdat adjuncteigenschappen zoals optionaliteit even goed in asyntactische modellen ingezet kunnen worden. Het maakt tegelijkertijd ook een beroep op meer vertrouwen in linguïstische hoofdbeginselen van recursie, om te beginnen met constituentie.