Supporting the Complex Dynamics of the Information Seeking Process Hugo Huurdeman Samenvatting In de afgelopen 25 jaar is het World Wide Web uitgegroeid tot een essentieel onderdeel van ons dagelijks leven. Voor toekomstige onderzoekers is de inhoud van het web van groot belang om onze huidige samenleving te begrijpen. Echter, de content op het web is verre van stabiel: webpagina’s kunnen op elk moment verschijnen, veranderen en verdwijnen. Het vluchtige karakter van het web heeft wereldwijd geleid tot een groot aantal initiatieven voor webarchivering, die ondertussen vele Petabytes aan informatie hebben vastgelegd. Ondanks deze enorme hoeveelheid aan potentieel onderzoeksmateriaal gebruiken wetenschappers webarchieven nog maar zelden als databron. Dit gebrek aan wetenschappelijk gebruik van het webarchief was het startpunt van dit proefschrift. Het eerste deel van de dissertatie focust zich op toegang tot webarchieven in een onderzoekscontext. Uit een literatuurstudie blijkt dat webarchieven beperkingen kennen in termen van de kwaliteit en kwantiteit van de data, en de toegang tot de data. De meest algemene manier om gearchiveerde webpagina’s te bekijken is via het invoeren van een specifieke URL van een pagina uit het verleden. Daarnaast bieden initiatiefnemers van webarchieven in toenemende mate zoekmogelijkheden aan via trefwoorden, gelijkend op de functionaliteit van online zoekmachines. Het ontwerp van onderzoeksfunctionaliteit voor webarchieven is echter niet eenvoudig. In het proefschrift analyseren we zoektoegang tot webarchieven en bekijken we hoe deze manier van toegang verbeterd kan worden. Hiertoe werd een zoeksysteem voor het webarchief van de Koninklijke Bibliotheek ontworpen en geëvalueerd via een action research methodologie, in samenwerking met onderzoekers in nieuwe media. We laten enerzijds zien dat deze zoekfunctionaliteit een grote toegevoegde waarde heeft voor onderzoeksdoeleinden. Anderzijds verbergt deze manier van toegang ook een groot aantal onderliggende variabelen. Deze variabelen omvatten de originele selectie van sites, de wijze van archivering, de indexerings- en retrievalinstellingen en de invloed van de grafische zoekomgeving. Toekomstige zoekfunctionaliteit voor webarchieven zal nieuwe manieren moeten vinden om deze complexiteit meer inzichtelijk en transparant te maken voor de wetenschappelijke gebruikers van een webarchief. Een gestructureerde literatuuranalyse laat zien dat zoeksystemen voor webarchieven weinig ondersteuning bieden voor gedocumenteerde activiteiten in verschillende fasen van het onderzoeksproces, waaronder corpus creatie, analyse en disseminatie. De dominante focus op zoekqueries maakt het moeilijk om een dataset voor onderzoek (corpus) samen te stellen op basis van specifieke selecties van websites, of via willekeurige steekproeven. In de meeste gevallen ontbreken analysemogelijkheden in de zoekfunctionaliteit, net als opties om gevonden inhoud van webarchieven te visualiseren. Er is dus sprake van een gebrek aan procesondersteuning voor onderzoeksactiviteiten. De huidige wijze van webarchivering, via zogenoemde ‘web crawlers’, heeft een grote invloed op de inhoud van het uiteindelijke webarchief. In veel gevallen worden websites, webpagina’s of delen van webpagina’s niet correct binnengehaald, leidend tot een inherente incompleetheid van webarchieven. Op dit moment is het vrijwel onmogelijk om te zien in hoeverre een webarchief een compleet perspectief op een onderwerp biedt. Via kwantitatieve experimenten met de linkstructuur van het webarchief van de Koninklijke Bibliotheek tonen we aan dat er methoden zijn om zichtbaar te maken wat er niet in het archief zit, en niet-gearchiveerde content zelfs deels te reconstrueren. Deze methoden kunnen bijdragen aan het ontwerp van toekomstige zoekmachines voor webarchieven die onderzoekers meer transparantie bieden. Het eerste deel van het proefschrift liet beperkingen zien in de procesondersteuning door zoekmachines. Om deze beperkingen te kunnen verhelpen is een beter begrip nodig van het zoekproces gedurende complex taken en de rol die de zoekfunctionaliteit daarin speelt. Dit is de focus van het tweede deel van het proefschrift. Jaren van razendsnelle ontwikkeling op technisch gebied hebben geleid tot een zeer effectieve ondersteuning voor ‘look-up’ zoektaken in online zoekmachines. Dit zijn simpele taken waarvoor een duidelijk antwoord beschikbaar is, zoals het opvragen van de openingstijden van een winkel. Meer complexe taken, waarbij onderzoek en het ontwikkelen van kennis een rol speelt, worden in mindere mate ondersteund. Voor dit soort taken beschrijven verschillende ‘information seeking’ modellen, waaronder Kuhlthau’s ISP model, een specifieke set van cognitieve stadia. In de verschillende stadia, die evolueren van exploratief naar gefocust, vinden veranderingen plaats in de gevoelens, gedachten en acties van de gebruikers van een informatiesysteem. Kuhlthau’s model heeft een belangrijke invloed gehad op bibliotheek- en informatiewetenschap, maar minder invloed op concrete zoektools: zoekmachines bieden geen expliciete ondersteuning voor de verschillende stadia van het zoekproces. Een literatuurstudie in het tweede deel van dit proefschrift laat zien dat één van de onderliggende oorzaken een gebrek aan wederzijds inzicht is. Enerzijds beschrijven information seeking modellen het zoeken naar informatie op een conceptueel macro-niveau. Hierdoor is het lastig om de implicaties van zoekstadia voor het ontwerp van concrete zoekfunctionaliteit op micro-niveau te begrijpen. Anderzijds is het nut van specifieke zoekfunctionaliteit in de algehele ‘macro’ context van het algehele zoekproces onduidelijk. Een eerste aanzet tot een beter wederzijds inzicht bestond uit een kwantitatieve analyse van data uit een eerdere gebruikersstudie. Hierin waren aanwijzingen zichtbaar dat sommige onderdelen van een zoeksysteem zoekstadium-afhankelijk zijn en vooral gebruikt worden in specifieke fases van een zoeksessie. Andere functionaliteit is zoekstadium-onafhankelijk en kan waardevol zijn op verschillende momenten van een zoeksessie. In een uitgebreidere gebruikersstudie voerden studenten drie taken uit, gemodelleerd naar verschillende zoekstadia uit de literatuur (‘pre-focus’, ‘focus formulation’ en ‘post-focus’). Hierbij werd er in de evaluatie een onderscheid gemaakt tussen ‘actieve’ interactie (muiskliks en de invoer van zoekwoorden), ‘passieve’ interactie (oog- en muisbewegingen) en subjectieve waardering (op basis van vragenlijsten en korte interviews). De resultaten van de studie laten een duidelijk verschil zien in de waarde van zoekfunctionaliteit gedurende verschillende stadia. Zogenoemde ‘Informational’ features, in dit geval de lijst met zoekresultaten, waren grotendeels zoekstadium-onafhankelijk. Andere functionaliteit bleek zoekstadium-afhankelijk. Dit waren ten eerste de ‘Input’ en ‘Control’ features, de functionaliteit waarmee gebruikers zoekvragen invoeren en verfijnen, waaronder het zoekvenster, filters en zoeksuggesties. De waarde van deze functionaliteit neemt af gedurende het proces, deels door de opgedane kennis over een onderwerp. Verder was een tegengestelde tendens zichtbaar voor ‘Personalizable’ features. Dit is het type functionaliteit dat zich aanpast aan de activiteiten van een gebruiker (in deze studie een lijst met recente zoektermen en bewaarde resultaten). ‘Personalizable’ features groeien mee met de kennis die een gebruiker gedurende de taak opdoet en worden dus steeds belangrijker. Uit de studie volgt verder dat sommige zoekfunctionaliteit met name actief werd gebruikt, terwijl andere features een meer passieve waarde hadden. Deze nieuwe inzichten kunnen worden gebruikt voor het ontwerpen van betere procesondersteuning in zoekmachines. Huidige zoekmachines bieden toegang tot een immense hoeveelheid informatie via geavanceerde algoritmes, maar de interactie is beperkt: een korte query leidt tot een een korte lijst van tien blauwe links. Dit proefschrift laat zien dat deze toegangswijze een scala aan onderliggende variabelen verbergt, en geen directe verbintenis met het zoekproces van de gebruiker heeft. Voor complexe en informatie-intensieve taken is het daarom nodig om de toegangswijze te herzien, zowel in de context van het webarchief als het ‘live’ web. Op die manier kunnen toekomstige zoeksystemen meer dynamische ondersteuning bieden voor de complexe dynamiek van het zoekproces.