Kolmogorov complexity and formula size lower bounds Troy Lee Deel I: Kolmogorov Complexiteit Toeval is iets waar iedereen kennis van heeft in het dagelijkse leven. De verandering van het weer, de worp van een muntje, de shuffle functie op een muziek speler---``toeval'' is vaak te gebruiken in verband met deze dingen. Ondanks deze intuitieve kennis, of misschien juist daarom, hebben wiskundigen pas in de tweede helft van de twintigste eeuw een precieze definitie voor toeval gegeven. In het begin van de jaren zestig, hebben drie onderzoekers Solomonoff, Kolmogorov en Chaitin onafhankelijk van elkaar een elegante wiskundig manier ontwikkeld om te zeggen wanneer een serie van gebeurtenissen (gezien als een rijtje nullen en enen) willekeurig is. Ze zeiden dat de complexiteit van een woord de grootte is van een kortste beschrijving voor het woord. Men kan hier denken aan een beschrijving in de vorm van een computerprogramma. Dit noemen we de Kolmogorov complexiteit van een woord en schrijven we $C(x | y)$ voor de grootte van een kortste programma voor $x$ dat het woord $y$ als invoer kan gebruiken. Men kan zien dat terwijl het woord $01010101010101010101010101010101010101010101010101$ een lengte van 50 bits heeft, er een hele korte beschrijving voor dit woord is, namelijk ``schrijf 25 keer 01''. Aan de andere kant, een geheel willekeurig woord heeft geen structuur die gebruikt kan worden om het een korte beschrijving te geven. Dus noemen we een woord willekeurig als de kortste beschrijving van het woord minstens zo lang is als het woord zelf. Meer dan enkel een definitie voor willekeurigheid, is Kolmogorov complexiteit geworden tot een algemeen hulpmiddel dat veel wordt gebruikt in de informatica. Bijna alle applicaties van Kolmogorov complexiteit maken gebruik van een van de volgende vier stellingen die we de `vier pilaren' van Kolmogorov complexiteit noemen: o Incompressibility: Voor elke $n$ bestaat er een willekeurig woord van lengte $n$. o Verzameling compressie: Elk lid van een berekenbare verzameling $A$ heeft een beschrijving van lengte $\log |A|$ o Bron compressie: Elke woord $x$ met positieve kans onder een berekenbare distributie $P$ heeft een beschrijving van lengte $-\log P(x)$ o Symmetrie van informatie: De hoeveelheid infomatie in het woord $x$ over het woord $y$ is hetzelfde als de hoeveelheid informatie in het woord $y$ over $x$. Met andere woorden, $C(x) - C(x | y) = C(y)-C(y | x)$. Een nadeel van de Kolmogorov complexiteitstheorie is dat er geen algoritme bestaat die, gegeven een woord $x$, de complexiteit van $x$ kan berekenen. Om dit probleem te omzeilen, ontwikkelde men {\em resource begrensde} Kolmogorov complexiteitstheorie. Bijvoorbeld, de polynomiale tijd Kolmogorov complexiteit van $x$ is de lengte van een kortste programma dat $x$ afdrukt in tijd polynomiaal in de lengte van $x$. Het doel van het eerste deel van dit proefschrift is het beantwoorden van de vraag: wat gebeurt er met de vier bovengenoemde pilaren in de resource begrensde variant? De eerste pilaar werkt onveranderd in de resource begrensde variant, want het is moeilijker een woord te beschrijven in beperkte tijd dan zonder een tijd grens. De resource begrensde variant wordt veel interssanter met de tweede pilaar. Een natuurlijke formulering van de tweede pilaar is: elk lid $x$ van een verzameling $A$ die in polynomiale tijd kan worden herkend, heeft een beschrijving van $\log |A|$ die $x$ afdrukt in tijd polynomiaal in de lengte van $x$. Dit vermoeden is waarschijnlijk niet waar aangezien het de ineenstorting van de polynomiale hierarchie tot gevolg heeft, wat de meeste onderzoekers onvoorstelbaar achten. Maar een stap hoger in de polynomiaal hierarchie geldt het vermoeden wel: We laten zien dat elk lid $x$ van een verzameling $A$ die in niet-deterministisch polynomiale tijd kan worden herkend, een beschrijving heeft van lengte $\log |A|$ die $x$ afdrukt in niet-deterministisch polynomiale tijd. Een natuurlijk analogon van de derde pilaar in de resource begrensde variant zegt: elk woord $x$ met positieve kans onder een polynomiale tijd berekenbare distributie $P$ heeft een beschrijving van lengte $-\log P(x)$ die $x$ afdrukt in polynomiale tijd. We bewijzen dat dit vermoeden als gevolg heeft dat gerandomiseerde algoritmen (die hun keuzes kunnen laten afhangen van muntworpen) efficient gesimuleerd kunnen worden door deterministische algoritmes (die geen muntjes kunnen werpen). Met andere woorden, $\BPP \ne \EXP$. Onlangs lieten Antunes and Fortnow zien dat de omgekeerde implicatie ongeveer geldt. Hiermee hebben we een bijna compleet beeld van de derde pilaar in de resource begrensde variant. Ten slotte laten we zien hoe het principe van symmetrie van informatie uitpakt in de resource begrensde variant. Dit principe wordt heel moeilijk want het standaard bewijs maakt gebruik van zowel verzameling compressie als bron compressie. We laten een zwakkere vorm van symmetrie van informatie zien die zegt: de polynomiale tijd complexiteit van het paar $(x,y)$ is groter dan de gerandomiseerde niet-deterministische complexiteit van $x$ plus de gerandomiseerde niet-deterministische complexiteit van $y$ met $x$ als invoer. Dit resultaat kan niet verbetered worden zonder zogeheten niet-relativerende technieken. We laten een orakel zien waarvan de niet-deterministische complexiteit van het paar $(x,y)$ bijna twee keer groter is dan de niet-deterministische complexiteit van $x$ plus de niet-deterministische complexiteit van $y$ met $x$ als invoer. Deel II: Fomulegrootte Een van de meest beroemde, belangrijke en moeilijke problemen binnen de computationele complexiteitstheorie betreft de vraag of P even krachtig is als NP. P is de klasse van problemen die opgelost kunnen worden in tijd polynomiaal in de lengte van de probleembeschrijving; NP is de klasse van problemen waarvan in polynomiale tijd gecontroleerd kan worden of een oplossing correct is. Tegenwoordig geloven de meeste onderzoekers dat P en NP niet gelijk zijn. Om dit te bewijzen, moet men laten zien dat er een probleem bestaat in NP dat niet in polynomiale tijd kan worden opgelost. Dit werd vaak onderzocht door het probleem te representeren als een circuit dat bestaat uit AND, OR en NOT poorten. De grootte van het circuit geeft vervolgens een ondergrens voor de benodigde rekentijd. Het beste huidige resultaat laat zien dat er een probleem is in NP dat niet kan worden opgelost met een circuit van grootte kleiner dan 5n, waar n de grootte van de probleembeschrijving is. Een hogere ondergrens op de grootte van het circuit blijkt erg moeilijk te bewijzen. Om die reden beperken wij ons tot circuits waarvan de poorten slechts \'e\'en uitgang hebben. Een dergelijk circuit wordt een formule genoemd. De hoogst bekende ondergrens op de grootte van een formule voor een functie in NP is $n^3$. We geven een nieuwe algebraische methode om de formulegrootte van onderen te begrenzen. Met deze methode kunnen we de $n^3$-ondergrens niet verbeteren, maar wij generaliseren verschillende methoden die in de literatuur worden beschreven en we demonstreren hoe die methoden met elkaar in verband staan. We geven ook een voorbeeld waar onze methoden een sterkere ondergrens kunnen geven dan andere methoden. Het meest interessante gevolg van ons werk is misschien het verrassende verband tussen de formulegrootte van een functie en de complexiteit van die functie in een heel ander model, namelijk de quantum query-complexiteit. Onze resultaten geven aanleiding tot het vermoeden dat het kwadraat van de quantum query complexiteit van een functie een ondergrens is voor de formulegrootte.