Rich Statistical Parsing and Literary Language Andreas van Cranenburgh Samenvatting: Dit proefschrift past Data-Geörienteerd Ontleden toe op twee problemen: ontleden & literatuur. De Data-Geörienteerde aanpak exploiteert de aanname dat hergebruik van brokstukken uit eerdere taalervaringen kan worden gedetecteerd en toegepast op nieuwe zinnen. Syntactische boomfragmenten vormen de gemene deler in dit proefschrift. Hoofdstuk 2 presenteert een methode om ze efficiënt te extraheren uit verzamelingen parseerbomen, gebaseerd op de heuristiek dat relevante fragmenten meerdere malen voorkomen. Deze methode kan zodoende potentiële bouwstenen ontdekken van grote corpora. Hoofdstuk 3 zet vervolgens een methode uiteen om deze fragmenten te gebruiken bij de ontwikkeling van een multilinguaal statistisch model van parseren, gebruikmakend van een zogenaamde boomsubstituerende grammatica die boomfragmenten samenvoegt tot volledige analyses. Deze grammatica produceert analyses met discontinue constituenten en grammaticale functierelaties. We laten zien hoe een mild contextgevoelige grammatica gebruikt kan worden om discontinue constituenten te produceren, en vergelijken dit model vervolgens met een benadering die binnen het efficiënt parseerbare contextvrije formalisme blijft. De conclusie van de empirische evaluatie is dat boomfragmenten het mogelijk maken voor de grammatica om de statistische regulariteit van niet-lokale afhankelijkheden adequaat te omvatten, zonder daarbij de toegevoegde generatieve capaciteit van mild contextgevoelige grammatica's nodig te hebben. Het tweede deel behandelt de vraag wat literaire van andere romans onderscheid. Hoofdstuk 5 behandelt de data die wordt gebruikt voor dit onderzoek. We gebruiken een corpus van romans en een lezersonderzoek met lezersmeningen over hoe literair romans bevonden worden. Het eerste doel is te kwantificeren in hoeverre `literariteit' kan worden voorspeld aan de hand van tekstuele kenmerken; het tweede doel is te karakteriseren welke kenmerken voorspellend zijn voor literariteit. Hoofdstuk 6 toont enkele basale modellen voor deze vraag. We laten zien dat literaire romans minder bijvoeglijke en bijwoordelijke naamwoorden bevatten dan niet-literaire romans, en presenteren verscheidene simpele maten met een significante correlatie met de literaire oordelen, zoals de rijkheid van het vocabulaire en de comprimeerbaarheid van de tekst. Cliché uitdrukkingen worden ingezet als een negatieve marker van literaire taal. Een zogeheten `topic' model van het corpus wordt ontwikkeld, wat laat zien dat er een aantal duidelijk interpreteerbare thema's in de romans aanwezig zijn. Speciale aandacht wordt in Hoofdstuk 7 besteed aan syntactische kenmerken, zoals behandeld in het eerste deel. De syntactische methoden worden gecontrasteerd met simpelere lexicale methoden gebaseerd op bigrammen (sequenties van twee opeenvolgende woorden). De combinatie van lexicale en syntactische kenmerken geeft een verbetering, en de syntactische kenmerken zijn beter te interpreteren. Uiteindelijk is de conclusie dat de literaire oordelen in grote mate voorspelbaar zijn op basis van tekstkenmerken. Hoewel het niet mogelijk is om een direct oorzakelijk verband aan te wijzen tussen de tekstkenmerken en de oordelen van proefpersonen, is toch duidelijk aangetoond dat de waardeoordelen over literariteit geenszins arbitrair zijn, noch in meerderheid bepaald door factoren buiten de tekst.