Effective Focused Retrieval by Exploiting Query Context and Document Structure Rianne Kaptein Samenvatting: Het klassieke model van het zoekproces bestaat uit drie elementen: zoekvraag, documenten en zoekresultaten. Een gebruiker die een informatie behoefte heeft, formuleert een zoekopdracht die meestal bestaat uit een kleine set van trefwoorden die de informatie behoefte samenvatten. Het doel van een zoeksysteem is om documenten terug te geven die nuttige of relevante informatie voor de gebruiker bevatten. Gedurende het zoekproces is er een verlies van focus, omdat de zoekvragen ingevoerd door de gebruikers vaak geen adequate samenvatting van hun complexe informatie behoefte zijn, en zoeksystemen de inhoud van de documenten niet adequaat kunnen interpreteren. Dit leidt tot zoekresultaten die irrelevante en overbodige informatie bevatten. De belangrijkste doelstelling van dit proefschrift is om de context van de zoekvraag en de structuur van documenten te gebruiken om meer gerichte zoekresultaten terug te kunnen geven. De zoekvraag uitgedrukt in trefwoorden die wordt gebruikt als input voor het zoeksysteem kan aangevuld worden met categorie^?en van gestructureerde Web bronnen zoals DMOZ en Wikipedia. Categorie^?en kunnen gebruikt worden als context om documenten te vinden die niet alleen relevant zijn voor de trefwoorden van zoekvraag, maar ook behoren ook tot een relevante categorie. Categorie informatie is vooral nuttig voor het rangschikken van entiteiten zoals bedrijven of personen. Categorie informatie kan helpen om de zoekresultaten te verbeteren door pagina's die behoren tot de relevante categorie^?en, of categorie^?en die lijken op de relevante categorie^?en, hoger in de zoekresultaten te plaatsen. We kunnen ook gebruik maken van de structuur van Wikipedia om entiteiten te vinden in het algemene Web door het volgen van externe links en door het zoeken van entiteiten gevonden in Wikipedia in een algemene Web collectie. Wikipedia, in tegenstelling tot het algemene Web, bevat niet veel redundante informatie. Deze afwezigheid van redundante informatie kan worden benut door met behulp van Wikipedia in het algemene Web te zoeken. Een typische zoekvraag levert duizenden of miljoenen documenten als zoekresultaten op, maar gebruikers kijken meestal niet verder dan de eerste pagina met zoekresultaten. Omdat de ruimte op de resultatenpagina beperkt is, kunnen maar een beperkt aantal documenten weergegeven worden. Woordenwolken kunnen worden gebruikt om groepen van documenten samen te vatten in een set van trefwoorden. Met behulp van deze woordenwolken kunnen gebruikers snel een eerste indruk van de onderliggende gegevens krijgen. In plaats van het gebruik van labels toegewezen door gebruikers, genereren we woordenwolken uit de tekstuele inhoud van de documenten, en de link tekst van Web documenten. Een basis woordenwolk kan worden gemaakt door simpelweg de term frequentie van de woorden in de tekst te gebruiken. Deze basis woordenwolk kan worden verbeterd door bij het wegen van woorden rekening te houden met de frequentie van woorden in de achtergrond collectie, door termen toe te voegen die bestaan uit twee woorden, en door bij het genereren van de woordenwolk rekening te houden met de zoekvraag. We concluderen dat woordenwolken tot op zekere hoogte snel het onderwerp en de relevantie van een set van zoekresultaten over kunnen brengen.