%Nr: DS-1998-03 %Author: Peter Grunwald %Title: The Minimum Description Length Principle and Reasoning under Uncertainty Centraal in dit proefschrift staat het Beginsel van de Minimale Beschrijvingslengte (in het Engels `Minimum Description Length Principle'; vanaf nu `MDL Principe' genoemd). Het MDL Principe stelt `leren' gelijk aan `comprimeren'. In zijn eenvoudigste vorm ziet het er als volgt uit: MDL Principe: De beste hypothese om een verzameling gegevens te verklaren is de hypothese H die de som van... * de beschrijvingslengte van de hypothese H en * de beschrijvingslengte van de gegevens, wanneer de gegevens beschreven worden met behulp van hypothese H, ...minimaliseert. In deze vorm zorgt het MDL Principe voor een afweging tussen complexiteit van de hypothese en de fout die de hypothese maakt op de gegevens. Het MDL Principe kan worden toegepast op alle vormen van inductieve inferentie. Met `inductieve inferentie' wordt bedoeld het postuleren van algemene wetmatigheden op grond van een beperkte hoeveelheid gegevens. In dit proefschrift richten we ons met name op het gebruik van MDL in de statistiek en in het vakgebied genaamd `machinaal leren' (machine learning). Dit is het deelgebied van de Kunstmatige Intelligentie dat zich bezighoudt met het leren door computers. Het proefschrift bestaat uit drie delen. Deel I bevat een introductie tot het MDL Principe (hoofdstuk 1-3) en een bijdrage aan de theorievorming rond MDL (hoofdstuk 4-5). Hoofdstuk 1 geeft een algemene introductie en kan gelezen worden zonder kennis van statistiek of informatietheorie. Hoofdstuk 2 en 3 geven een voortgezette introductie, met de nadruk op drie zaken: ten eerste, de tamelijk ongebruikelijke interpretatie die MDL aan kansverdelingen toekent: volgens MDL dient men een empirisch bepaalde kansverdeling in eerste instantie te beschouwen als een code (preciezer, code-lengte functie). Ten tweede, het begrip `stochastische complexiteit'. Dit is de centrale notie in de theorievorming rond MDL. Ten derde, het verband tussen MDL en het Beginsel van de Maximale Entropie, een principe dat oorspronkelijk bedoeld was als methode voor het `redeneren met onzekerheid'. De theorie die wordt ontwikkeld in hoofdstuk 4 en 5 geeft een eerste aanzet tot het beantwoorden van de volgende vraag: hoe kan het dat simplistische modellen voor ingewikkelde processen vaak toch bruikbaar zijn? Het volgende geldt voor vrijwel alle praktische toepassingen van de statistiek: de uitkomst van de statistische analyse van de gegevens is een model dat in feite onjuist is, vaak zelfs een grove simplificatie. Toch worden `simplistische' modellen die op deze manier verkregen zijn met succes gebruikt voor het voorspellen en classificeren van toekomstige gegevens. De centrale vraag in deel I van dit proefschrift is: wanneer kan men een `simplistisch' model zonder problemen gebruiken? De hoofdconclusie luidt dat een simplistisch model op twee manieren gebruikt kan worden: een `riskante' en een `veilige'. Als het op de veilige manier gebruikt wordt, dan zal het simplistische model in het algemeen `betrouwbaar' zijn. Dat wil zeggen dat het model zelf een correcte indruk geeft van de voorspellingsfout die men zal maken als men het gebruikt om toekomstige data mee te voorspellen - zelfs als het model een grove simplificatie is van het proces dat daadwerkelijk aan de gegevens ten grondslag ligt. Deze `betrouwbaarheid' van een incorrect model kan in veel gevallen zelfs formeel bewezen worden (Hoofdstuk 5, Sectie 5.3, Stellingen 5.16-5.19). Deel II (hoofdstuk 6 en 7) gaat over praktische toepassingen van het MDL Principe. Centrale vraag is hier: werkt het MDL Principe in de praktijk beter, even goed of minder goed dan andere statistische principes? De gevonden empirische verschillen kunnen voor een groot deel uit de bestaande theorie verklaard worden. Hoofdstuk 6 vergelijkt MDL met methoden uit de Bayesiaanse en klassieke statistiek. Hoofdstuk 7 vergelijkt MDL met het nauw verwante MML (Minimum Message Length): in tegenstelling tot wat vaak gedacht wordt, zijn er kleine theoretische verschillen tussen deze twee aanpakken. Deze leiden tot verschillend gedrag in praktische leerproblemen. De hoofdconclusie van Deel II is dat geavanceerde vormen van zowel MDL als Bayesiaanse inferentie vaak verrassend goed presteren wanneer slechts zeer weinig data gegeven is. MDL lijkt beter te presteren dan MML als weinig data gegeven is, zij het dat het verschil vrijwel verwaarloosbaar is. Deel III gaat over een onderwerp dat slechts indirect aan MDL gerelateerd is: het ontwikkelen van een theorie over gezond-verstand redeneren (`common-sense reasoning') over gebeurtenissen en veranderingen. Dit soort theorie"en wordt bestudeerd in het `logicistische' paradigma van de Kunstmatige Intelligentie. In dit paradigma probeert men op wiskundige logica gebaseerde automatische redeneersystemen te ontwikkelen. Zulke systemen kunnen vervolgens worden toegepast in, bijvoorbeeld, robots. Hoofdstuk 8 geeft een inleidend overzicht van dit soort redeneersystemen. Centrale vragen in deel III zijn: hoe kunnen de sterke eigenschappen van bestaande redeneersystemen gecombineerd worden? Wat is de rol van causaliteit in dit soort redeneersystemen? En, hoe is de manier waarop deze systemen met onzekerheid omgaan gerelateerd aan kansrekening en de MDL-interpretatie van kansverdelingen? Ter beantwoording van deze vragen stellen wij (in hoofdstuk 9) een nieuw redeneersysteem voor, dat gebaseerd is op het Beginsel van de Voldoende Oorzaak (`sufficient cause principle'). Dit is onderdeel van een theorie over causaliteit die is ontwikkeld voor statistische toepassingen, dus buiten het vakgebied van de kunstmatige intelligentie. We bewijzen formeel (in hoofdstuk 10) dat ons redeneersysteem gezien kan worden als een generalisatie van enkele bestaande redeneersystemen (met name de systemen voorgesteld door (1) McCain en Turner, (2) Lin en (3) Baral, Gelfond en Provetti). We laten zien dat deze bestaande redeneersystemen vaak impliciet gebruik maken van het sufficient cause principe. We laten ook zien dat zij problematisch gedrag kunnen vertonen zodra zij ervan afwijken. Hoofdconclusie van deel III is dat het sufficient cause principe ons toestaat om een groot deel van zowel de successen als de mislukkingen van bestaande redeneersystemen te verklaren. Het voorgestelde redeneersysteem maakt gebruik van niet-monotone logica. Deel III eindigt met een Epiloog waarin een formeel verband gelegd wordt tussen aan de ene kant deze niet-monotone logica en aan de andere kant probabilistische redeneermethoden. Er wordt een probabilistische semantiek voor eenvoudige vormen van nietmonotoon redeneren gegeven. Er wordt betoogd dat de `kansen' die in deze semantiek optreden volgens het MDL Principe ge"interpreteerd dienen te worden.