Neural Syntax Hartmut Fitz Abstract: Kinderen leren hun moedertaal spontaan en zonder enige moeite door interactie met hun omgeving; het is onnodig om hen expliciet de taal te leren. De taalervaring waaruit kinderen moeten leren is echter in hoge mate onbepaald en beargumenteerbaar ontoereikend met betrekking tot het leerdoel. Desondanks zullen de meeste zich normaal ontwikkelende kinderen hun moedertaal snel en met groot gemak leren spreken. Veel taalverwervingstheorieën zoeken de verklaring hiervoor in aangeboren beperkingen van het grammaticale `zoekgebied', of zien zelfs een biologische taalspecifieke predispositie. Gebruiksgebaseerde theorieën van taal daarentegen leggen meer nadruk op de rol die ervaring speelt en op domein-algemeene leermechanismen dan op aangeboren taalspecifieke kennis. Echter, talen zijn lexicaal onbeperkt en structureel eindeloos te combineren, dus hun uitdrukkingskracht is niet door middel van ervaring volledig te vangen. Gebruiksgebaseerde theorieën zullen daarom moeten verklaren hoe kinderen in staat zijn om de eigenschappen van hun taalinformatie te generaliseren naar een volwassen grammatica. In deze dissertatie presenteer ik een expliciet computationeel mechanisme, waarmee de gebruiksgebaseerde theorieën van taal getest en geëvalueerd kunnen worden. De nadruk van mijn werk ligt op het gebied van complexe syntax en het menselijk vermogen om zinnen te vormen die meer dan één bewering uitdrukken door middel van bijzinsconstructies. Deze capaciteit voor recursie is een essentieel kenmerk van een volwassen grammatica en, zoals sommigen hebben beargumenteerd, van menselijke taal zelf. De dissertatie is als volgt georganiseerd. Na een introductie geef ik in het tweede hoofdstuk een overzicht van resultaten, die de wiskundige eigenschappen van neurale netwerken karakteriseren en herzie ik eerder onderzoek in het modelleren van de verwerving van complexe syntax met zulke netwerken. Het hoofdstuk schetst daarmee het conceptuele landschap waarin het huidige werk zich bevindt. In een derde hoofdstuk beargumenteer ik dat de constructie en het gebruik van betekenis essentieel is, in zowel kindertaalverwerving als volwassen taalverwerking, en dat neurale netwerkmodellen deze dimensie van menselijk taalgedrag moeten opnemen. Ik introduceer het Dual-path model van zinsproductie en syntactische ontwikkeling. Het model is in staat om semantiek te representeren en het leert van invoer van zinnen gepaard aan hun betekenis (cf. Chang et al. 2006). Ik leg de architectuur van het model uit, geef de motivatie voor basisaannamen in het ontwerp, en bespreek bestaand onderzoek dat is uitgevoerd met het model. Een vierde hoofdstuk beschrijft en vergelijkt enkele uitbreidingen van de basisarchitectuur die gericht zijn op de verwerking van uitingen met meerdere bijzinnen. Deze uitbreidingen worden geëvalueerd op basis van computationele desiderata, zoals bepaalde leer- en generaliseringsprestaties en de spaarzaamheid van semantische representaties. Een optimale oplossing voor het coderen van betekenis van complexe zinnen met betrekkelijke bijzinnen is vastgesteld. Dit vormt de basis voor alle verdere simulaties. Hoofdstuk vijf analyseert de leerdynamiek van het model in meer detail. Eerst wordt het gedrag van het model voor verschillende types betrekkelijke bijzinnen bestudeerd. Syntactische varianten (zoals actief/passief) blijken bijzonder moeilijk te zijn, omdat ze de relatie tussen vorm en betekenis, die het model moet leren, ingewikkelder maken. In het tweede deel van het hoofdstuk kijk ik naar de interne representaties die het model ontwikkeld heeft tijdens leren. Ik beweer dat het model de argumentstructuur verwerft van de constructievormen in de invoertaal, en dat het de hiërarchische structuren van verschillende complexe uitingen representeert. De kern van dit proefschrift is te vinden in de hoofdstukken zes tot en met acht. In hoofdstuk zes wordt het generaliseringsvermogen van het Dual-path model getoetst in diverse taken. Ik laat zien dat de syntactische representaties voldoende transparant zijn om structurele generalisatie naar nieuwe complexe uitingen mogelijk te maken. Semantische gelijkenissen tussen nieuwe en reeds bekende zinstypen spelen een cruciale rol in deze taak. Het Dual-path model heeft ook het vermogen om bekende woorden in nieuwe argumentposities in nieuwe constructies te kunnen generaliseren. Dit wordt `sterke semantische systematiciteit' genoemd. Daarnaast stel ik leeromstandigheden vast waaronder het model recursieve productiviteit toont. Ik beargumenteer dat het gedrag van het model te vergelijken is met menselijk gedrag, in zoverre de nauwkeurigheid van productie vermindert met de diepte van de ingebedde bijzinnen, en rechts-ingebedde structuren sneller worden geleerd dan centraal-ingebedde structuren. In hoofdstuk zeven bestudeer ik het leren van complexe ja/nee-vragen in de afwezigheid van voorbeelden in de input. Ik laat zien dat het Dual-path model de syntax van zulke vragen kan verwerven uit soortgelijke en eenvoudigere structuren, waarvan de aanwezigheid is aangetoond in de taalomgeving van kinderen. De fouten van het model zijn vergelijkbaar met de fouten die kinderen maken, en ik stel voor dat er geen taalspecifieke aanleg in kinderen moet worden verondersteld in het leren van complexe ja-nee vragen. Deze resultaten zijn relevant voor het `poverty of the stimulus' debat, omdat het model geen traditioneele universele grammatica implementeert. Engelse bijzinsconstructies geven aanleiding tot vergelijkbare prestatierangschikkingen in volwassen taalverwerking en kindertaalverwerving. Dit patroon komt overeen met het typologische universeel die de `noun phrase accessibility hierarchy' wordt genoemd. In hoofdstuk acht stel ik een inputgebaseerde verklaring voor van deze observatie. Het Dual-path model laat deze rangschikking zien in de syntactische ontwikkeling wanneer het leert van plausibele inputdistributies. Het is echter mogelijk deze rangschikking te manipuleren en volledig te elimineren door de eigenschappen van de input te variëren. Ik beweer dat patronen van interferentie en vereenvoudiging tussen inputstructuren de hiërarchie kunnen verklaren wanneer alle structuren simultaan worden geleerd en gerepresenteerd over een enkele verzameling van neurale verbindingen. Tot besluit trek ik conclusies uit mijn werk, signaleer een aantal onbeantwoorde vragen, en geef een korte vooruitblik op mogelijke onderzoeksuitbreidingen.