Combining Strategies Efficiently: High-Quality Decisions from Conflicting Advice Wouter M. Koolen In dit proefschrift bestuderen we machine learning: het automatisch vinden en benutten van regelmatigheden in data. We kunnen regelmatigheden die we hebben geïdentificeerd in objecten gebruiken om het verleden te verklaren (b.v. archeologie, rechtspraak), en regelmatigheden die we hebben gevonden in processen om de toekomst te voorspellen (b.v. het weer, beurskoersen) en om ons handelen te leiden. Dankzij alom beschikbare rekencapaciteit zijn machine learning algoritmen tegenwoordig overal doorgedrongen. Zij beheren bijvoorbeeld financiële portfolio's, managen het energiebesparingsbeleid van draagbare apparatuur, bevelen films alsook advertenties aan gebaseerd op persoonlijke voorkeuren, en zij vormen het hart van de best beschikbare datacompressieprogrammatuur. Dit proefschrift is een bijdrage aan de theorie van online learning, een tak van machine learning die sequentiële beslissingsproblemen met onmiddellijke terugkoppeling bestudeert. In het bijzonder bestuderen we de opzet genaamd voorspellen met expertadvies. Het is hier onze taak om een reeks data te voorspellen. Elke ronde raadplegen we hiertoe eerst een set experts. Daarna combineren we hun adviezen en leveren zo onze eigen voorspelling van de volgende uitkomst. Tenslotte wordt de volgende uitkomst onthuld, en boeten we verlies in voor de discrepantie tussen onze voorspelling en de gerealiseerde uitkomst. Het doel is om efficiënte algoritmen te bouwen met weinig spijt, d.w.z. het verschil tussen het ingeboete cumulatieve verlies van het algoritme en het verlies van de beste strategie, achteraf gekozen uit een vaste referentieklasse. In deze zin kunnen de strategieën in de referentieklasse beschouwd worden als mogelijke patronen, en betekent het oplopen van weinig spijt dat geleerd wordt welke referentiestrategie de data het beste modelleert. Het belangrijkste verschil tussen de leerproblemen die we beschouwen is de complexiteit van de referentieset. Algoritmen voor het voorspellen met expertadvies hebben reeds legio toepassingen, waaronder classificatie, regressie, hypothesetoetsen, modelselectie, datacompressie, gokken en investeren in de aandelenbeurs. In hoofdstuk 2 geven we een speltheoretische analyse van het simpelste online learning probleem, het voorspellen van een reeks binaire uitkomsten onder de 0/1 verliesmaat met behulp van twee experts. Voor dit simpele probleem berekenen we de minimax, d.w.z. speltheoretisch optimale spijt, en laten zien hoe de optimale strategie efficiënt te implementeren is. Daarna geven we speciale aandacht aan het geval dat een expert erg goed is. We sluiten af met een nieuw resultaat: het optimale algoritme voor wedijveren met de set meta-experts die wisselen tussen de twee basisexperts. In hoofdstuk 3 laten we zien hoe modellen voor voorspellen met expertadvies beknopt en helder kunnen worden gedefinieerd met gebruik van hidden Markov modellen (HMMs); standaardalgoritmen kunnen dan worden gebruikt om efficiënt uit te rekenen hoe de voorspellingen van de experts gewogen moeten worden. We concentreren ons op algoritmen voor het volgen van de beste expert. Voor deze taak volgen de strategieën in de referentieset steeds het advies van een enkele expert, maar welke expert dit is kan in verloop van tijd veranderen. We herbeschrijven bestaande modellen als HMMs, beginnend bij het fixed share algoritme, leiden de uitvoeringstijd en spijtbovengrens overnieuw af, en bespreken de onderlinge verbanden. We beschrijven ook drie nieuwe modellen voor het wisselen tussen experts. In hoofdstuk 4 breiden we de opzet uit naar het volgen van de beste lerende expert. Gebruikelijke experts geven elke ronde een advies over de volgende uitkomst. Lerende experts kunnen daarintegen bevraagd worden gegeven elke mogelijke subset van de data uit het verleden. Deze extra mogelijkheid staat ter beschikking van zowel het algoritme als van de referentiestrategieën. Het behalen van weinig spijt betekent nu te leren de rondes te partitioneren, en de beste lerende expert te trainen en te volgen binnen elke cel van de partitie. We geven efficiënte algoritmen met weinig spijt voor het volgen van lerende experts die zelf uitgedrukt kunnen worden d.m.v. de expert HMMs uit hoofdstuk 3. In hoofdstuk 5 beschouwen we referentiestrategieën die wisselen tussen twee experts gebaseerd op hun cumulatieve verlies in plaats van op de tijd. Dit hoofdstuk is geformuleerd in financiële termen om de presentatie intuïtiever te maken. We presenteren een simpel online handelsalgoritme dat fluctuaties uitbuit in de eenheidsprijs van een activum. In plaats van de opbrengst te analyseren in het ongunstigste geval onder zekere aannamen, bewijzen wij een nieuwe, aannamevrije opbrengstgarantie die is geparametriseerd ofwel met de echte dynamiek van de prijs van het activum, danwel met een versimpeling daarvan. We bespreken toepassingen van de resultaten op voorspellen met expertadvies, datacompressie en hypothesetoetsen. In hoofdstuk 6 beschouwen we voorspellen met gestructureerde concepten. Elke ronde keizen we een concept dat is opgebouwd uit componenten. Het verlies van een concept is de som van de verliezen van diens componenten. Terwijl de verliezen van verschillende componenten onafhankelijk zijn, zijn de verliezen van verschillende concepten juist hoogst gerelateerd. We ontwikkelen een online algoritme, Component Hedge genaamd, dat deze afhankelijkheden uitbuit, en daardoor de zogenaamde bereikfactor vermijdt, die optreedt als de afhankelijkheden worden genegeerd. We laten zien dat Component Hedge optimale spijtgaranties heeft voor een grote verscheidenheid aan gestructureerde conceptklassen.