Query-Efficient Computation in Property Testing and Learning Theory David GarcĂ­a Soriano Samenvatting: Hoe kunnen we rekenkundige problemen oplossen wanneer we simpelweg niet genoeg tijd hebben om alle invoer te verwerken? Bijvoorbeeld, gegeven een rij getallen, kunnen we bepalen of deze zich gaan herhalen door slechts naar een paar getallen te kijken? Of, gegeven toegang tot een booleaanse functie $f$, hoeveel aanroepen van $f$ hebben we nodig om te testen of deze functie monotoon is? En hoe zouden we kunnen ontdekken of $f$ vrijwel gelijk is aan een andere, vooraf bekende, functie $g$? Centrale doelen van de theoretische informatica zijn het inzicht krijgen in de grenzen van de rekenkracht van verschillende rekenmodellen, en het karakteriseren van de middelen die nodig zijn om bepaalde problemen op te lossen. Het soort problemen hierboven genoemd is bij uitstek geschikt om bestudeerd te worden in het property testing model (het testen van eigenschappen), en het is door deze lens dat wij die vraagstukken onderzoeken. Bij property testing moeten algoritmen onderscheid maken tussen objecten die een gewenste eigenschap hebben, en objecten die daar ver vandaan zijn. We zoeken gerandomiseerde testers die de problemen met zo min mogelijk functie-aanroepen oplossen (bovengrenzen), samen met rigoureuze bewijzen die laten zien waarom er geen significant betere oplossingen kunnen bestaan (ondergrenzen). De resultaten maken gebruik van technieken uit kansrekening, grafentheorie, extremale combinatoriek, de studie van permutatiegroepen, coderingstheorie, de analyse van booleaanse functies en getallentheorie. Het beginpunt is ons werk aan het probleem van het testen van functie-isomorfisme in hoofdstuk~2. Twee booleaanse functies met $n$-bit invoer zijn isomorf wanneer ze hetzelfde zijn, na een zekere permutatie van de $n$ invoervariabelen. Er wordt vooral gekeken naar de situatie wanneer $g$ bekend is en $f$ aangeroepen wordt. Het is bekend dat deze taak uitgevoerd kan worden met $\widetilde{O}(n)$ aanroepen, maar dit is exponentieel groter dan de beste ondergrenzen van voorgaand werk. Hier sluiten we de kloof door een bijna-optimale adaptieve ondergrens te geven van $\Omega(n)$ aanroepen voor de slechtst-mogelijke functies~$f$. Verscheidene varianten van het probleem worden ook besproken. Hiernaast laten we in hoofdstuk~3 zien dat wanneer $f$ een $k$-junta is (dat betekent dat de functiewaarde bepaald wordt door slechts $k$ van de $n$ invoervariabelen), de complexiteit van isomorfisme testen met $f$ is gereduceerd naar $\widetilde{O}(k)$. (In contrast, \'e\'en van onze andere resultaten is dat wanneer we de schijnbaar zwakke restrictie opleggen dat de tester slechts eenzijdige fouten kan maken, de complexiteit van isomorfisme testen met $k$-juntas wordt ruwweg $\log\binom{n}{k}$, wat veel groter is voor kleine $k$.) Hierbij construeren we onafhankelijk interessante objecten met de naam sample extractors. Dit zijn effici\"ente algoritmen die ons in staat stellen om steekproeven te doen van de waarheidstabel van de ``kern''-functie op $k$ variabelen die de gegeven $k$-junta functie bepaalt. Vervolgens geven we een gedeeltelijke karakterisatie van de verzameling functies waartegen het onmogelijk is om isomorfisme te testen met een constant aantal functie-aanroepen. We laten in hoofdstuk~4 zien dat, voor elke functie $f$ met polynomiaal veel verschillende permutaties, isomorfisme met betrekking tot $f$ testbaar is met een constant aantal aanroepen. Deze stelling is een uitbreiding op voorgaande resultaten over het testen van junta's, en beschrijft alle functies waarvan tot nu toe bekend was dat isomorfisme testen makkelijk is. Gerelateerd hieraan, en kijkende naar de overeenkomst tussen het testen van functie-isomorfisme en het testen van hypergraaf-isomorfisme, richten we onze aandacht naar het testen van isomorfisme voor uniforme hypergrafen. We karakteriseren de klasse van hypergrafen van constante rang waarvoor isomorfisme effici\"ent getest kan worden, dit is een generalisatie van een resultaat van Fischer (STOC'04) over isomorfismen in grafen. In hoofdstuk~5 leggen we een verbinding aan met groeptesten, en zien dat idee\"en uit het testen van isomorfisme gebruikt kunnen worden bij het bestuderen van een natuurlijke relaxatie van problemen uit groeptesten; zowel de methoden voor het verkrijgen van ondergrenzen en de algoritmen zijn bruikbaar. We bepalen de precieze complexiteit van het gerelaxeerde groeptest probleem voor niet-adaptieve algoritmen, op een constante factor na. Het vraagstuk van het krijgen van expliciete ondergrenzen voor de problemen wordt ook aangepakt; het blijkt dat pariteitsfuncties (XOR's van deelverzamelingen van de invoervariabelen) een voorbeeld zijn van de ongunstigste ondergrenzen voor het testen van functie-isomorfisme, zowel voor eenzijdige als tweezijdige testers. We vervolgen met het bespreken van andere property testing problemen in hoofdstuk~6. Het blijkt dat onze sample extractors gebruikt kunnen worden ter verbetering van de beste bekende algoritmen voor vele andere problemen, welke bepaald worden door de eigenschap van het hebben van een beknopte representatie, zoals het testen of $f$ berekend kan worden door kleine circuits of door kleine beslissingsbomen. We geven ook nieuwe ondergrenzen voor sommige van deze problemen, waarmee we diverse open vragen gesteld door Diakonikolas et al.~(FOCS'07) oplossen. In hoofdstuk~7 onderzoeken we pariteitsfuncties op een andere manier: computationele leertheorie. Testen en leren zijn twee nauwverwante gebieden. In plaats van testen of de functie $f$ een pariteit is op een klein aantal variabelen, nemen we bij testen aan dat dat zo is. Dan probeert het algoritme dan $f(x)$ te voorspellen voor andere invoer $x$ met hoge nauwkeurigheid, op basis van een aantal voorbeeldwaarden van $f$. We werken in het mistake-bound leermodel, welke sterker is dan het (meer gebruikelijke) $\PAC$-model. Het is een welbekend feit dat pariteiten geleerd kunnen worden met foutgrens (of steekproefcomplexiteit) $O(k \log n)$, maar geen implementatie in polynomiale tijd van een dergelijk leeralgoritme is bekend. We ontwerpen een simpel, deterministisch, polynomiale-tijd algoritme om $k$-pariteiten te leren met foutgrens $O(n^{1-\frac{1}{k}})$. Dit is het eerste polynomiale-tijd algoritme wat $\omega(1)$-partiteiten kan leren met foutgrend $o(n)$, en met standaard conversie-technieken impliceert dit een verbetering van de resultaten van Klivans and Servedio (COLT'04) voor het leren van $k$-pariteiten in het $\PAC$-model. Hiernaast beschouwen we ook \'e\'en van de fundamentele problemen in property testing: monotoniciteit van functies (niet noodzakelijk booleaanse functies). In hoofdstuk~8 onderzoeken we functies gebaseerd op de $n$-dimensionale hyperkubus en geven we een $\Omega(n)$ ondergrens voor eenzijdige, niet-adaptieve testers van monotoniciteit. Omdat er nog steeds een aanzienlijke kloof zit tussen deze ondergrens en de beste bekende bovengrenzen, kijken we naar een natuurlijke aanpak voor het verkrijgen van bovengrenzen: namelijk het bestuderen van de combinatorische eigenschappen van de hyperkubus. Er was al eerder opgemerkt dat wanneer een verzameling van bron-uitgang paren op de gerichte hyperkubus (waarbij alle bronnen en uitgangen verschillend zijn) verbonden kan worden met rand-disjuncte paden, de monotoniciteit van functies op de $n$-dimensionale hyperkubus testbaar is met $O(n)$ functie-aanroepen. Bepalen of deze eigenschap geldt, is als open vraag gesteld door Lehman en Ron (J.~Comb.~Theory, Ser.~A, 2001), maar het antwoord was al bijna een decennium ongrijpbaar. Door het analyseren van de combinatorische eigenschappen van de hyperkubus laten we zien dat het antwoord negatief is, en dat deze aanpak altijd tekort schiet om de huidige ondergrenzen te bereiken, of zelfs maar te benaderen. In het laatste hoofdstuk gaan we in op het probleem van detecteren van cyclussen, geschetst in het begin. We bewijzen dat, misschien contra-intu\"itief, wanneer het kleinste herhalende segment van de reeks verschillende elementen bevat, de periode $r$ bepaald kan worden door een aantal elementen van de rij op te vragen, waarbij dat aantal sublogaritmisch in $r$ is; dit is niet ver van optimaal. We bestuderen ook varianten van het probleem waarbij directe toegang tot de reeks niet mogelijk is, maar we in plaats daarvan kunnen ``springen'' tussen posities die niet te ver van elkaar liggen. Dit is een verbetering op de verwante resultaten van Cleve (CCC'00).