Effective Focused Retrieval by Exploiting Query Context and Document Structure
Rianne Kaptein

Samenvatting:
Het klassieke model van het zoekproces bestaat uit drie elementen:
zoekvraag, documenten en zoekresultaten. Een gebruiker die een
informatie behoefte heeft, formuleert een zoekopdracht die meestal
bestaat uit een kleine set van trefwoorden die de informatie behoefte
samenvatten. Het doel van een zoeksysteem is om documenten terug te
geven die nuttige of relevante informatie voor de gebruiker
bevatten. Gedurende het zoekproces is er een verlies van focus, omdat
de zoekvragen ingevoerd door de gebruikers vaak geen adequate
samenvatting van hun complexe informatie behoefte zijn, en
zoeksystemen de inhoud van de documenten niet adequaat kunnen
interpreteren. Dit leidt tot zoekresultaten die irrelevante en
overbodige informatie bevatten. De belangrijkste doelstelling van dit
proefschrift is om de context van de zoekvraag en de structuur van
documenten te gebruiken om meer gerichte zoekresultaten terug te
kunnen geven.

De zoekvraag uitgedrukt in trefwoorden die wordt gebruikt als input
voor het zoeksysteem kan aangevuld worden met categorie^?en van
gestructureerde Web bronnen zoals DMOZ en Wikipedia. Categorie^?en
kunnen gebruikt worden als context om documenten te vinden die niet
alleen relevant zijn voor de trefwoorden van zoekvraag, maar ook
behoren ook tot een relevante categorie. Categorie informatie is
vooral nuttig voor het rangschikken van entiteiten zoals bedrijven of
personen. Categorie informatie kan helpen om de zoekresultaten te
verbeteren door pagina's die behoren tot de relevante categorie^?en,
of categorie^?en die lijken op de relevante categorie^?en, hoger in de
zoekresultaten te plaatsen. We kunnen ook gebruik maken van de
structuur van Wikipedia om entiteiten te vinden in het algemene Web
door het volgen van externe links en door het zoeken van entiteiten
gevonden in Wikipedia in een algemene Web collectie. Wikipedia, in
tegenstelling tot het algemene Web, bevat niet veel redundante
informatie. Deze afwezigheid van redundante informatie kan worden
benut door met behulp van Wikipedia in het algemene Web te zoeken.

Een typische zoekvraag levert duizenden of miljoenen documenten als
zoekresultaten op, maar gebruikers kijken meestal niet verder dan de
eerste pagina met zoekresultaten. Omdat de ruimte op de
resultatenpagina beperkt is, kunnen maar een beperkt aantal documenten
weergegeven worden. Woordenwolken kunnen worden gebruikt om groepen
van documenten samen te vatten in een set van trefwoorden. Met behulp
van deze woordenwolken kunnen gebruikers snel een eerste indruk van de
onderliggende gegevens krijgen. In plaats van het gebruik van labels
toegewezen door gebruikers, genereren we woordenwolken uit de
tekstuele inhoud van de documenten, en de link tekst van Web
documenten. Een basis woordenwolk kan worden gemaakt door simpelweg de
term frequentie van de woorden in de tekst te gebruiken. Deze basis
woordenwolk kan worden verbeterd door bij het wegen van woorden
rekening te houden met de frequentie van woorden in de achtergrond
collectie, door termen toe te voegen die bestaan uit twee woorden, en
door bij het genereren van de woordenwolk rekening te houden met de
zoekvraag. We concluderen dat woordenwolken tot op zekere hoogte snel
het onderwerp en de relevantie van een set van zoekresultaten over
kunnen brengen.