Kolmogorov complexity and formula size lower bounds
Troy Lee

Deel I: Kolmogorov Complexiteit

Toeval is iets waar iedereen kennis van heeft in het dagelijkse leven.
De verandering van het weer, de worp van een muntje, de shuffle
functie op een muziek speler---``toeval'' is vaak te gebruiken in
verband met deze dingen.  Ondanks deze intuitieve kennis, of misschien
juist daarom, hebben wiskundigen pas in de tweede helft van de
twintigste eeuw een precieze definitie voor toeval gegeven.

In het begin van de jaren zestig, hebben drie onderzoekers Solomonoff,
Kolmogorov en Chaitin onafhankelijk van elkaar een elegante wiskundig
manier ontwikkeld om te zeggen wanneer een serie van gebeurtenissen
(gezien als een rijtje nullen en enen) willekeurig is.  Ze zeiden dat
de complexiteit van een woord de grootte is van een kortste
beschrijving voor het woord. Men kan hier denken aan een beschrijving
in de vorm van een computerprogramma.
Dit noemen we de Kolmogorov complexiteit van een woord en schrijven we
$C(x | y)$ voor de grootte van een kortste programma voor $x$ dat het
woord $y$ als invoer kan gebruiken. Men kan zien dat terwijl het woord
$01010101010101010101010101010101010101010101010101$ een lengte van 50
bits heeft, er een hele korte beschrijving voor dit woord is, namelijk
``schrijf 25 keer 01''.  Aan de andere kant, een geheel willekeurig
woord heeft geen structuur die gebruikt kan worden om het een korte
beschrijving te geven.  Dus noemen we een woord willekeurig als de
kortste beschrijving van het woord minstens zo lang is als het woord
zelf.

Meer dan enkel een definitie voor willekeurigheid, is Kolmogorov
complexiteit geworden tot een algemeen hulpmiddel dat veel wordt
gebruikt in de informatica.  Bijna alle applicaties van Kolmogorov
complexiteit maken gebruik van een van de volgende vier stellingen die
we de `vier pilaren' van Kolmogorov complexiteit noemen:

o    Incompressibility: Voor elke $n$ bestaat er een willekeurig woord
     van lengte $n$.

o    Verzameling compressie: Elk lid van een berekenbare verzameling $A$
     heeft een beschrijving van lengte $\log |A|$

o    Bron compressie: Elke woord $x$ met positieve kans onder een
     berekenbare distributie $P$ heeft een beschrijving van lengte
     $-\log P(x)$

o    Symmetrie van informatie: De hoeveelheid infomatie in het woord $x$
     over het woord $y$ is hetzelfde als de hoeveelheid informatie
     in het woord $y$ over $x$. Met andere woorden,
     $C(x) - C(x | y) = C(y)-C(y | x)$.

Een nadeel van de Kolmogorov complexiteitstheorie is dat er geen
algoritme bestaat die, gegeven een woord $x$, de complexiteit van $x$
kan berekenen.
Om dit probleem te omzeilen, ontwikkelde men {\em resource begrensde}
Kolmogorov complexiteitstheorie.  Bijvoorbeld, de polynomiale tijd
Kolmogorov complexiteit van $x$ is de lengte van een kortste programma
dat $x$ afdrukt in tijd polynomiaal in de lengte van $x$. Het doel van
het eerste deel van dit proefschrift is het beantwoorden van de vraag:
wat gebeurt er met de vier bovengenoemde pilaren in de resource begrensde
variant?

De eerste pilaar werkt onveranderd in de resource begrensde variant,
want het is moeilijker een woord te beschrijven in beperkte tijd dan
zonder een tijd grens.

De resource begrensde variant wordt veel interssanter met de tweede
pilaar.  Een natuurlijke formulering van de tweede pilaar is: elk lid
$x$ van een verzameling $A$ die in polynomiale tijd kan worden
herkend, heeft een beschrijving van $\log |A|$ die $x$ afdrukt in tijd
polynomiaal in de lengte van $x$.  Dit vermoeden is waarschijnlijk
niet waar aangezien het de ineenstorting van de polynomiale hierarchie
tot gevolg heeft, wat de meeste onderzoekers onvoorstelbaar achten.
Maar een stap hoger in de polynomiaal hierarchie geldt het vermoeden
wel: We laten zien dat elk lid $x$ van een verzameling $A$ die in
niet-deterministisch polynomiale tijd kan worden herkend, een
beschrijving heeft van lengte $\log |A|$ die $x$ afdrukt in
niet-deterministisch polynomiale tijd.

Een natuurlijk analogon van de derde pilaar in de resource begrensde
variant zegt: elk woord $x$ met positieve kans onder een polynomiale
tijd berekenbare distributie $P$ heeft een beschrijving van lengte
$-\log P(x)$ die $x$ afdrukt in polynomiale tijd.  We bewijzen dat dit
vermoeden als gevolg heeft dat gerandomiseerde algoritmen (die hun
keuzes kunnen laten afhangen van muntworpen) efficient gesimuleerd
kunnen worden door deterministische algoritmes (die geen muntjes
kunnen werpen). Met andere woorden, $\BPP \ne \EXP$.

Onlangs lieten Antunes and Fortnow zien dat de omgekeerde implicatie
ongeveer geldt.  Hiermee hebben we een bijna compleet beeld van de
derde pilaar in de resource begrensde variant.

Ten slotte laten we zien hoe het principe van symmetrie van informatie
uitpakt in de resource begrensde variant.  Dit principe wordt heel
moeilijk want het standaard bewijs maakt gebruik van zowel verzameling
compressie als bron compressie.  We laten een zwakkere vorm van
symmetrie van informatie zien die zegt:
  de polynomiale tijd complexiteit van het paar $(x,y)$ is groter dan
  de gerandomiseerde niet-deterministische complexiteit van $x$ plus
  de gerandomiseerde niet-deterministische complexiteit van $y$ met
  $x$ als invoer.
Dit resultaat kan niet verbetered worden zonder zogeheten
niet-relativerende technieken.  We laten een orakel zien waarvan de
niet-deterministische complexiteit van het paar $(x,y)$ bijna twee
keer groter is dan de niet-deterministische complexiteit van $x$ plus
de niet-deterministische complexiteit van $y$ met $x$ als invoer.

Deel II:  Fomulegrootte

Een van de meest beroemde, belangrijke en moeilijke problemen binnen
de computationele complexiteitstheorie betreft de vraag of P even
krachtig is als NP.  P is de klasse van problemen die opgelost kunnen
worden in tijd polynomiaal in de lengte van de probleembeschrijving;
NP is de klasse van problemen waarvan in polynomiale tijd
gecontroleerd kan worden of een oplossing correct is. Tegenwoordig
geloven de meeste onderzoekers dat P en NP niet gelijk zijn. Om dit te
bewijzen, moet men laten zien dat er een probleem bestaat in NP dat
niet in polynomiale tijd kan worden opgelost. Dit werd vaak onderzocht
door het probleem te representeren als een circuit dat bestaat uit
AND, OR en NOT poorten. De grootte van het circuit geeft vervolgens
een ondergrens voor de benodigde rekentijd.
Het beste huidige resultaat laat zien dat er een probleem is in NP dat
niet kan worden opgelost met een circuit van grootte kleiner dan 5n,
waar n de grootte van de probleembeschrijving is.  Een hogere
ondergrens op de grootte van het circuit blijkt erg moeilijk te
bewijzen.
Om die reden beperken wij ons tot circuits waarvan de poorten slechts
\'e\'en uitgang hebben. Een dergelijk circuit wordt een formule
genoemd.  De hoogst bekende ondergrens op de grootte van een formule
voor een functie in NP is $n^3$.

We geven een nieuwe algebraische methode om de formulegrootte van
onderen te begrenzen. Met deze methode kunnen we de $n^3$-ondergrens
niet verbeteren, maar wij generaliseren verschillende methoden die in
de literatuur worden beschreven en we demonstreren hoe die methoden
met elkaar in verband staan.
We geven ook een voorbeeld waar onze methoden een sterkere ondergrens
kunnen geven dan andere methoden. Het meest interessante gevolg van
ons werk is misschien het verrassende verband tussen de formulegrootte
van een functie en de complexiteit van die functie in een heel ander
model, namelijk de quantum query-complexiteit.
Onze resultaten geven aanleiding tot het vermoeden dat het kwadraat
van de quantum query complexiteit van een functie een ondergrens is
voor de formulegrootte.