From Document Retrieval to Question Answering Christof Monz Samenvatting: Informatie is een van de meest waardevolle goederen van de moderne maatschapij. Met de opkomst en brede verspreiding van de computer is het opslaan van enorme hoeveelheden gegevens zeer efficient en goedkoop geworden. We hebben nu ongekende hoevelheden informatie tot onze beschiking. Tegen deze achtergrond komt de vraag op hoe we toegang verkrijgen tot de informatie waarin we uiteindelijk ge¨nteresseerd zijn. Het vraagstuk van de ontwikkeling van methoden en programmatuur die ons, op een automatische manier, helpen bij het vinden van relevante informatie wordt in onderzocht in het onderzoeksgebied van de information retrieval. Gedurende de laatse decennia zijn zeer geavenceerde document retrieval systemen ontwikkeld. Een van de onderzoekstakken binnen de information retrieval houdt zich bezig met vraag-antwoord systemen. Vraag-antwoord systemen maken het mogelijk dat een gebruiker een natuurlijke taal-vraag stelt, en niet zoals gebruikelijk is bij de meeste document retrieval systemen, zijn of haar informatiebehoefte formuleert met behulp van een lijst van sleutelwoorden. In het zeer recente verleden hebben vraag-antwoord systemen een ware renaissance beleefd die met name is toe te schrijven aan het gebruik van grote corpora. Moderne vraag-antwoord systemen zijn sterk afhankelijk van document retrieval systemen als een middel om documenten te identificeren die met hoge waarschijnlijkheid een antwoord op een gegeven vraag bevatten. Dit proefschrift onderzoekt in hoeverre verschillende document retrieval benaderingen--zowel standaard als nieuwe--gebruikt kunnen worden in de context van vraag-antwoord systemen. Dit proefschrift vergelijkt verscheidene document retrieval benaderingen met het oog op hun vermogen om documenten te identificeren die inderdaad een correct antwoord bevatten. Daarnaast onderzoeken wij in hoeverre de kwaliteit van een bepaalde document retrieval benadering invloed heeft op de algehele kwaliteit van een specifiek vraag-antwoord systeem. De uitkomsten van het onderzoek naar deze vragen zijn verschillend. Bijvoorbeeld, sommige standaard technieken waarvan we weten dat zij de kwaliteit van een regulier document retrieval systeem verbeteren, hebben juist een negatief effect op de kwaliteit van een document retrieval system dat bedoeld is om documenten te vinden die een antwoord op een vraag bevatten. Aan de andere kant leiden sommige document retrieval technieken die nauwelijks succesvol zijn gebleken voor standaard document retrieval, zoals retrieval gebaseerd op de proximiteit van woorden, tot statistisch significante verbeteringen in de context van vraag-antwoord systemen. Om het effect te kunnen meten dat verschillende retrieval technieken op een specifiek vraag-antwoord system hebben, hebben wij ons eigen vraag-antwoord systeem Tequesta gebruikt. Ook hier waren de uitkomsten van het onderzoek niet eenduidig. In een geval leidde een beter presterend retrieval systeem inderdaad tot betere resultaten van het gehele vraag-antwoord systeem, maar in een ander geval leidde het juist tot slechtere resultaten. De reden hiervoor ligt in de interactie tussen de verschillende componenten van een vraag-antwoord systeem, en de gevoeligheid van sommige componenten voor "ruis" ge¨ntroduceerd door andere i componenten. Desondanks kunnen wij op grond van dit onderzoek concluderen dat de kwaliteit van de document retrieval component van een vraag-antwoord systeem een duidelijk effect heeft op de kwaliteit van het gehele systeem.