Combining Strategies Efficiently: High-Quality Decisions from Conflicting Advice
Wouter M. Koolen

In dit proefschrift bestuderen we machine learning: het automatisch
vinden en benutten van regelmatigheden in data.
   We kunnen regelmatigheden die we hebben geïdentificeerd in objecten
gebruiken om het verleden te verklaren (b.v. archeologie,
rechtspraak), en regelmatigheden die we hebben gevonden in processen
om de toekomst te voorspellen (b.v. het weer, beurskoersen) en om ons
handelen te leiden.
   Dankzij alom beschikbare rekencapaciteit zijn machine learning
algoritmen tegenwoordig overal doorgedrongen. Zij beheren bijvoorbeeld
financiële portfolio's, managen het energiebesparingsbeleid van
draagbare apparatuur, bevelen films alsook advertenties aan gebaseerd
op persoonlijke voorkeuren, en zij vormen het hart van de best
beschikbare datacompressieprogrammatuur.
   Dit proefschrift is een bijdrage aan de theorie van online learning,
een tak van machine learning die sequentiële beslissingsproblemen met
onmiddellijke terugkoppeling bestudeert.
   In het bijzonder bestuderen we de opzet genaamd voorspellen met
expertadvies. Het is hier onze taak om een reeks data te
voorspellen. Elke ronde raadplegen we hiertoe eerst een set
experts. Daarna combineren we hun adviezen en leveren zo onze eigen
voorspelling van de volgende uitkomst. Tenslotte wordt de volgende
uitkomst onthuld, en boeten we verlies in voor de discrepantie tussen
onze voorspelling en de gerealiseerde uitkomst.
   Het doel is om efficiënte algoritmen te bouwen met weinig spijt,
d.w.z. het verschil tussen het ingeboete cumulatieve verlies van het
algoritme en het verlies van de beste strategie, achteraf gekozen uit
een vaste referentieklasse. In deze zin kunnen de strategieën in de
referentieklasse beschouwd worden als mogelijke patronen, en betekent
het oplopen van weinig spijt dat geleerd wordt welke
referentiestrategie de data het beste modelleert. Het belangrijkste
verschil tussen de leerproblemen die we beschouwen is de complexiteit
van de referentieset.
   Algoritmen voor het voorspellen met expertadvies hebben reeds legio
toepassingen, waaronder classificatie, regressie, hypothesetoetsen,
modelselectie, datacompressie, gokken en investeren in de
aandelenbeurs.
   In hoofdstuk 2 geven we een speltheoretische analyse van het simpelste
online learning probleem, het voorspellen van een reeks binaire
uitkomsten onder de 0/1 verliesmaat met behulp van twee experts. Voor
dit simpele probleem berekenen we de minimax, d.w.z. speltheoretisch
optimale spijt, en laten zien hoe de optimale strategie efficiënt te
implementeren is. Daarna geven we speciale aandacht aan het geval dat
een expert erg goed is. We sluiten af met een nieuw resultaat: het
optimale algoritme voor wedijveren met de set meta-experts die
wisselen tussen de twee basisexperts.
   In hoofdstuk 3 laten we zien hoe modellen voor voorspellen met
expertadvies beknopt en helder kunnen worden gedefinieerd met gebruik
van hidden Markov modellen (HMMs); standaardalgoritmen kunnen dan
worden gebruikt om efficiënt uit te rekenen hoe de voorspellingen van
de experts gewogen moeten worden. We concentreren ons op algoritmen
voor het volgen van de beste expert. Voor deze taak volgen de
strategieën in de referentieset steeds het advies van een enkele
expert, maar welke expert dit is kan in verloop van tijd
veranderen. We herbeschrijven bestaande modellen als HMMs, beginnend
bij het fixed share algoritme, leiden de uitvoeringstijd en
spijtbovengrens overnieuw af, en bespreken de onderlinge verbanden. We
beschrijven ook drie nieuwe modellen voor het wisselen tussen experts.
   In hoofdstuk 4 breiden we de opzet uit naar het volgen van de beste
lerende expert. Gebruikelijke experts geven elke ronde een advies over
de volgende uitkomst. Lerende experts kunnen daarintegen bevraagd
worden gegeven elke mogelijke subset van de data uit het
verleden. Deze extra mogelijkheid staat ter beschikking van zowel het
algoritme als van de referentiestrategieën. Het behalen van weinig
spijt betekent nu te leren de rondes te partitioneren, en de beste
lerende expert te trainen en te volgen binnen elke cel van de
partitie. We geven efficiënte algoritmen met weinig spijt voor het
volgen van lerende experts die zelf uitgedrukt kunnen worden d.m.v. de
expert HMMs uit hoofdstuk 3.
   In hoofdstuk 5 beschouwen we referentiestrategieën die wisselen tussen
twee experts gebaseerd op hun cumulatieve verlies in plaats van op de
tijd. Dit hoofdstuk is geformuleerd in financiële termen om de
presentatie intuïtiever te maken. We presenteren een simpel online
handelsalgoritme dat fluctuaties uitbuit in de eenheidsprijs van een
activum. In plaats van de opbrengst te analyseren in het ongunstigste
geval onder zekere aannamen, bewijzen wij een nieuwe, aannamevrije
opbrengstgarantie die is geparametriseerd ofwel met de echte dynamiek
van de prijs van het activum, danwel met een versimpeling daarvan.
   We bespreken toepassingen van de resultaten op voorspellen met
expertadvies, datacompressie en hypothesetoetsen.
   In hoofdstuk 6 beschouwen we voorspellen met gestructureerde
concepten. Elke ronde keizen we een concept dat is opgebouwd uit
componenten. Het verlies van een concept is de som van de verliezen
van diens componenten. Terwijl de verliezen van verschillende
componenten onafhankelijk zijn, zijn de verliezen van verschillende
concepten juist hoogst gerelateerd. We ontwikkelen een online
algoritme, Component Hedge genaamd, dat deze afhankelijkheden uitbuit,
en daardoor de zogenaamde bereikfactor vermijdt, die optreedt als de
afhankelijkheden worden genegeerd. We laten zien dat Component Hedge
optimale spijtgaranties heeft voor een grote verscheidenheid aan
gestructureerde conceptklassen.