Query-Efficient Computation in Property Testing and Learning Theory
David García Soriano

Samenvatting:

Hoe kunnen we rekenkundige problemen oplossen wanneer we simpelweg niet
genoeg tijd hebben om alle invoer te verwerken?  Bijvoorbeeld, gegeven een
rij getallen, kunnen we bepalen of deze zich gaan herhalen door slechts naar
een paar getallen te kijken?  Of, gegeven toegang tot een booleaanse functie
$f$, hoeveel aanroepen van $f$ hebben we nodig om te testen of deze functie
monotoon is?  En hoe zouden we kunnen ontdekken of $f$ vrijwel gelijk is aan
een andere, vooraf bekende, functie $g$?

Centrale doelen van de theoretische informatica zijn het inzicht krijgen in
de grenzen van de rekenkracht van verschillende rekenmodellen, en het
karakteriseren van de middelen die nodig zijn om bepaalde problemen op te
lossen. Het soort problemen hierboven genoemd is bij uitstek geschikt om
bestudeerd te worden in het property testing model (het testen van
eigenschappen), en het is door deze lens dat wij die vraagstukken
onderzoeken. Bij property testing moeten algoritmen onderscheid maken tussen
objecten die een gewenste eigenschap hebben, en objecten die daar ver vandaan
zijn.  We zoeken gerandomiseerde testers die de problemen met zo min mogelijk
functie-aanroepen oplossen (bovengrenzen), samen met rigoureuze
bewijzen die laten zien waarom er geen significant betere oplossingen kunnen
bestaan (ondergrenzen).  De resultaten maken gebruik van technieken
uit kansrekening, grafentheorie, extremale combinatoriek, de studie van
permutatiegroepen, coderingstheorie, de analyse van booleaanse functies en
getallentheorie.

Het beginpunt is ons werk aan het probleem van het testen van
functie-isomorfisme in hoofdstuk~2.  Twee booleaanse functies met $n$-bit
invoer zijn isomorf wanneer ze hetzelfde zijn, na een zekere permutatie van
de $n$ invoervariabelen.  Er wordt vooral gekeken naar de situatie wanneer
$g$ bekend is en $f$ aangeroepen wordt. Het is bekend dat deze taak
uitgevoerd kan worden met $\widetilde{O}(n)$ aanroepen, maar dit is
exponentieel groter dan de beste ondergrenzen van voorgaand werk.  Hier
sluiten we de kloof door een bijna-optimale adaptieve ondergrens te geven van
$\Omega(n)$ aanroepen voor de slechtst-mogelijke functies~$f$. Verscheidene
varianten van het probleem worden ook besproken.

Hiernaast laten we in hoofdstuk~3 zien dat wanneer $f$ een $k$-junta is (dat
betekent dat de functiewaarde bepaald wordt door slechts $k$ van de $n$
invoervariabelen), de complexiteit van isomorfisme testen met $f$ is
gereduceerd naar $\widetilde{O}(k)$.  (In contrast, \'e\'en van onze andere
resultaten is dat wanneer we de schijnbaar zwakke restrictie opleggen dat
de tester slechts eenzijdige fouten kan maken, de complexiteit van
isomorfisme testen met $k$-juntas wordt ruwweg $\log\binom{n}{k}$, wat
veel groter is voor kleine $k$.) Hierbij construeren we onafhankelijk
interessante objecten met de naam sample extractors.  Dit zijn
effici\"ente algoritmen die ons in staat stellen om steekproeven te doen van
de waarheidstabel van de ``kern''-functie op $k$ variabelen die de gegeven
$k$-junta functie bepaalt.

Vervolgens geven we een gedeeltelijke karakterisatie van de verzameling
functies waartegen het onmogelijk is om isomorfisme te testen met een
constant aantal functie-aanroepen.  We laten in hoofdstuk~4 zien dat, voor
elke functie $f$ met polynomiaal veel verschillende permutaties,
isomorfisme met betrekking tot $f$ testbaar is met een constant aantal
aanroepen. Deze stelling is een uitbreiding op voorgaande resultaten over
het testen van junta's, en beschrijft alle functies waarvan tot nu toe
bekend was dat isomorfisme testen makkelijk is.  Gerelateerd hieraan, en
kijkende naar de overeenkomst tussen het testen van functie-isomorfisme en
het testen van hypergraaf-isomorfisme, richten we onze aandacht naar het
testen van isomorfisme voor uniforme hypergrafen.  We karakteriseren de
klasse van hypergrafen van constante rang waarvoor isomorfisme effici\"ent
getest kan worden, dit is een generalisatie van een resultaat van
Fischer (STOC'04) over isomorfismen in grafen.

In hoofdstuk~5 leggen we een verbinding aan met groeptesten, en zien
dat idee\"en uit het testen van isomorfisme gebruikt kunnen worden bij het
bestuderen van een natuurlijke relaxatie van problemen uit groeptesten; zowel
de methoden voor het verkrijgen van ondergrenzen en de algoritmen zijn
bruikbaar. We bepalen de precieze complexiteit van het gerelaxeerde groeptest
probleem voor niet-adaptieve algoritmen, op een constante factor na.  Het
vraagstuk van het krijgen van expliciete ondergrenzen voor de problemen wordt
ook aangepakt; het blijkt dat pariteitsfuncties (XOR's van deelverzamelingen
van de invoervariabelen) een voorbeeld zijn van de ongunstigste
ondergrenzen voor het testen van functie-isomorfisme, zowel voor eenzijdige
als tweezijdige testers.

We vervolgen met het bespreken van andere property testing problemen in
hoofdstuk~6. Het blijkt dat onze sample extractors gebruikt kunnen worden ter
verbetering van de beste bekende algoritmen voor vele andere problemen, welke
bepaald worden door de eigenschap van het hebben van een beknopte
representatie, zoals het testen of $f$ berekend
kan worden door kleine circuits of door kleine beslissingsbomen.  We geven
ook nieuwe ondergrenzen voor sommige van deze problemen, waarmee we diverse
open vragen gesteld door Diakonikolas et al.~(FOCS'07) oplossen.

In hoofdstuk~7 onderzoeken we pariteitsfuncties op een andere manier:
computationele leertheorie.  Testen en leren zijn twee nauwverwante
gebieden. In plaats van testen of de functie $f$ een pariteit is op een klein
aantal variabelen, nemen we bij testen aan dat dat zo is. Dan probeert het
algoritme dan $f(x)$ te voorspellen voor andere invoer $x$ met hoge
nauwkeurigheid, op basis van een aantal voorbeeldwaarden van $f$. We werken
in het mistake-bound leermodel, welke sterker is dan het (meer
gebruikelijke) $\PAC$-model. Het is een welbekend feit dat pariteiten
geleerd kunnen worden met foutgrens (of steekproefcomplexiteit) 
$O(k \log n)$, maar geen implementatie in polynomiale tijd van een dergelijk
leeralgoritme is bekend.  We ontwerpen een simpel, deterministisch,
polynomiale-tijd algoritme om $k$-pariteiten te leren met foutgrens
$O(n^{1-\frac{1}{k}})$.  Dit is het eerste polynomiale-tijd algoritme wat
$\omega(1)$-partiteiten kan leren met foutgrend $o(n)$, en met standaard
conversie-technieken impliceert dit een verbetering van de resultaten van
Klivans and Servedio
(COLT'04) voor het leren van $k$-pariteiten in het $\PAC$-model.

Hiernaast beschouwen we ook \'e\'en van de fundamentele problemen in property
testing: monotoniciteit van functies (niet noodzakelijk booleaanse functies).
In hoofdstuk~8 onderzoeken we functies gebaseerd op de $n$-dimensionale
hyperkubus en geven we een $\Omega(n)$ ondergrens voor eenzijdige,
niet-adaptieve testers van monotoniciteit.  Omdat er nog steeds een
aanzienlijke kloof zit tussen deze ondergrens en de beste bekende
bovengrenzen, kijken we naar een natuurlijke aanpak voor het verkrijgen van
bovengrenzen: namelijk het bestuderen van de combinatorische eigenschappen
van de hyperkubus.  Er was al eerder opgemerkt dat wanneer een verzameling
van bron-uitgang paren op de gerichte hyperkubus (waarbij alle bronnen en
uitgangen verschillend zijn) verbonden kan worden met rand-disjuncte
paden, de monotoniciteit van functies op de $n$-dimensionale hyperkubus
testbaar is met $O(n)$ functie-aanroepen. Bepalen of deze eigenschap geldt,
is als open vraag gesteld door Lehman en Ron (J.~Comb.~Theory, Ser.~A, 2001),
maar het antwoord was al bijna een decennium ongrijpbaar.  Door het
analyseren van de combinatorische eigenschappen van de hyperkubus laten we
zien dat het antwoord negatief is, en dat deze aanpak altijd tekort schiet
om de huidige ondergrenzen te bereiken, of zelfs maar te benaderen.

In het laatste hoofdstuk gaan we in op het probleem van detecteren van
cyclussen, geschetst in het begin. We bewijzen dat, misschien
contra-intu\"itief, wanneer het kleinste herhalende segment van de reeks
verschillende elementen bevat, de periode $r$ bepaald kan worden door een
aantal elementen van de rij op te vragen, waarbij dat aantal sublogaritmisch
in $r$ is; dit is niet ver van optimaal.  We bestuderen ook varianten van het
probleem waarbij directe toegang tot de reeks niet mogelijk is, maar we in
plaats daarvan kunnen ``springen'' tussen posities die niet te ver van elkaar
liggen. Dit is een verbetering op de verwante resultaten van Cleve (CCC'00).