Neural Syntax
Hartmut Fitz


Abstract:
Kinderen leren hun moedertaal spontaan en zonder enige moeite door
interactie met hun omgeving; het is onnodig om hen expliciet de taal
te leren. De taalervaring waaruit kinderen moeten leren is echter in
hoge mate onbepaald en beargumenteerbaar ontoereikend met betrekking
tot het leerdoel. Desondanks zullen de meeste zich normaal
ontwikkelende kinderen hun moedertaal snel en met groot gemak leren
spreken.

Veel taalverwervingstheorieën zoeken de verklaring hiervoor in
aangeboren beperkingen van het grammaticale `zoekgebied', of zien
zelfs een biologische taalspecifieke predispositie.
Gebruiksgebaseerde theorieën van taal daarentegen leggen meer nadruk
op de rol die ervaring speelt en op domein-algemeene leermechanismen
dan op aangeboren taalspecifieke kennis. Echter, talen zijn lexicaal
onbeperkt en structureel eindeloos te combineren, dus hun
uitdrukkingskracht is niet door middel van ervaring volledig te
vangen. Gebruiksgebaseerde theorieën zullen daarom moeten verklaren
hoe kinderen in staat zijn om de eigenschappen van hun taalinformatie
te generaliseren naar een volwassen grammatica.

In deze dissertatie presenteer ik een expliciet computationeel
mechanisme, waarmee de gebruiksgebaseerde theorieën van taal getest en
geëvalueerd kunnen worden. De nadruk van mijn werk ligt op het gebied
van complexe syntax en het menselijk vermogen om zinnen te vormen die
meer dan één bewering uitdrukken door middel van
bijzinsconstructies. Deze capaciteit voor recursie is een essentieel
kenmerk van een volwassen grammatica en, zoals sommigen hebben
beargumenteerd, van menselijke taal zelf.

De dissertatie is als volgt georganiseerd. Na een introductie geef ik
in het tweede hoofdstuk een overzicht van resultaten, die de
wiskundige eigenschappen van neurale netwerken karakteriseren en
herzie ik eerder onderzoek in het modelleren van de verwerving van
complexe syntax met zulke netwerken. Het hoofdstuk schetst daarmee het
conceptuele landschap waarin het huidige werk zich bevindt.

In een derde hoofdstuk beargumenteer ik dat de constructie en het
gebruik van betekenis essentieel is, in zowel kindertaalverwerving als
volwassen taalverwerking, en dat neurale netwerkmodellen deze dimensie
van menselijk taalgedrag moeten opnemen. Ik introduceer het Dual-path
model van zinsproductie en syntactische ontwikkeling. Het model is in
staat om semantiek te representeren en het leert van invoer van zinnen
gepaard aan hun betekenis (cf.  Chang et al. 2006). Ik leg de
architectuur van het model uit, geef de motivatie voor basisaannamen
in het ontwerp, en bespreek bestaand onderzoek dat is uitgevoerd met
het model.

Een vierde hoofdstuk beschrijft en vergelijkt enkele uitbreidingen van
de basisarchitectuur die gericht zijn op de verwerking van uitingen
met meerdere bijzinnen. Deze uitbreidingen worden geëvalueerd op basis
van computationele desiderata, zoals bepaalde leer- en
generaliseringsprestaties en de spaarzaamheid van semantische
representaties. Een optimale oplossing voor het coderen van betekenis
van complexe zinnen met betrekkelijke bijzinnen is vastgesteld. Dit
vormt de basis voor alle verdere simulaties.

Hoofdstuk vijf analyseert de leerdynamiek van het model in meer
detail. Eerst wordt het gedrag van het model voor verschillende types
betrekkelijke bijzinnen bestudeerd. Syntactische varianten (zoals
actief/passief) blijken bijzonder moeilijk te zijn, omdat ze de
relatie tussen vorm en betekenis, die het model moet leren,
ingewikkelder maken. In het tweede deel van het hoofdstuk kijk ik naar
de interne representaties die het model ontwikkeld heeft tijdens
leren. Ik beweer dat het model de argumentstructuur verwerft van de
constructievormen in de invoertaal, en dat het de hiërarchische
structuren van verschillende complexe uitingen representeert.

De kern van dit proefschrift is te vinden in de hoofdstukken zes tot
en met acht. In hoofdstuk zes wordt het generaliseringsvermogen van
het Dual-path model getoetst in diverse taken. Ik laat zien dat de
syntactische representaties voldoende transparant zijn om structurele
generalisatie naar nieuwe complexe uitingen mogelijk te
maken. Semantische gelijkenissen tussen nieuwe en reeds bekende
zinstypen spelen een cruciale rol in deze taak. Het Dual-path model
heeft ook het vermogen om bekende woorden in nieuwe argumentposities
in nieuwe constructies te kunnen generaliseren. Dit wordt `sterke
semantische systematiciteit' genoemd. Daarnaast stel ik
leeromstandigheden vast waaronder het model recursieve productiviteit
toont. Ik beargumenteer dat het gedrag van het model te vergelijken is
met menselijk gedrag, in zoverre de nauwkeurigheid van productie
vermindert met de diepte van de ingebedde bijzinnen, en
rechts-ingebedde structuren sneller worden geleerd dan
centraal-ingebedde structuren.

In hoofdstuk zeven bestudeer ik het leren van complexe ja/nee-vragen
in de afwezigheid van voorbeelden in de input. Ik laat zien dat het
Dual-path model de syntax van zulke vragen kan verwerven uit
soortgelijke en eenvoudigere structuren, waarvan de aanwezigheid is
aangetoond in de taalomgeving van kinderen. De fouten van het model
zijn vergelijkbaar met de fouten die kinderen maken, en ik stel voor
dat er geen taalspecifieke aanleg in kinderen moet worden
verondersteld in het leren van complexe ja-nee vragen. Deze resultaten
zijn relevant voor het `poverty of the stimulus' debat, omdat het
model geen traditioneele universele grammatica implementeert.

Engelse bijzinsconstructies geven aanleiding tot vergelijkbare
prestatierangschikkingen in volwassen taalverwerking en
kindertaalverwerving. Dit patroon komt overeen met het typologische
universeel die de `noun phrase accessibility hierarchy' wordt
genoemd. In hoofdstuk acht stel ik een inputgebaseerde verklaring voor
van deze observatie. Het Dual-path model laat deze rangschikking zien
in de syntactische ontwikkeling wanneer het leert van plausibele
inputdistributies. Het is echter mogelijk deze rangschikking te
manipuleren en volledig te elimineren door de eigenschappen van de
input te variëren. Ik beweer dat patronen van interferentie en
vereenvoudiging tussen inputstructuren de hiërarchie kunnen verklaren
wanneer alle structuren simultaan worden geleerd en gerepresenteerd
over een enkele verzameling van neurale verbindingen.

Tot besluit trek ik conclusies uit mijn werk, signaleer een aantal
onbeantwoorde vragen, en geef een korte vooruitblik op mogelijke
onderzoeksuitbreidingen.