Zoekt en gij zult vinden… het verslag

Naast de slides die wel al eerder deelden, nu ook een verslag van het afgelopen ContentCafé over search.

Semantisch zoeken

Daan Odijk promoveert aan de UvA op ‘information retrieval’. Hij legt de geschiedenis uit van zoekmachines. De meest gebruikte zoekalgoritmes stammen uit de jaren 70 en zijn gebaseerd op hoe vaak een bepaald woord waarop je zoekt, voorkomt in de bron die je doorzoekt.

De toekomst van zoeken zit in semantisch zoeken. 41% van de zoekopdrachten in Google gaat over een entiteit. “Ice cube” kan een zoektocht betekenen naar een ijsblokje, maar ook een rapper. Beide zijn een entiteit. Daan omschrijft het als “iets wat je kunt aanwijzen in de echt wereld”.

Moderne zoekmachines relateren elke zoekopdracht aan zo’n entiteit. Als je in Google zoekt op George Bush krijg je bijvoorbeeld 2 suggesties voor vader en zoon. Aanklikken betekent een specifieke zoekopdracht op een van de twee.

De ontwikkeling naar semantisch zoeken betekent ook steeds rijkere zoek-interfaces. Zoeken op Brad Pitt geeft in Google op de zoekresultatenpagina zo’n blok aan de rechterkant met portretfoto’s van de man, zijn beknopte biografie en een selectie van zijn films. Weetje: een redactie van mensen bepaalt bij welke zoekterm wat voor blokje getoond wordt. Dit cureert Google dus met de hand.

Op een vraag uit de zaal had Daan nog een concrete tip voor SEO: voeg schema.org-metatags toe aan je content, want “daar heeft Google voor gekozen en van hen wil je de gebruikers”.

De slides van Daan Odijk

Zoekmachines evalueren

Wouter Weerkamp is ondernemende wetenschapper / wetenschappelijke ondernemer in zoekmachine-evaluatie. Hij vertelt waar je op moet letten als je wilt weten hoe de zoekmachine op jouw eigen website presteert. En hoe wapen je je tegen zelfbenoemde experts en technologiebedrijven die allemaal de silver bullet claimen?

Dat de zoekmachine een ‘black box’ is, waar elke gebruiker kan intikken wat hij wil, dat moet je voor lief nemen. Maar ook voor zoeken geldt het credo “meten is weten”. Het startpunt voor elk verbetertraject is loggen tot je erbij neer valt.

Meet niet alleen waar mensen op zoeken, maar ook bijvoorbeeld welke resultaten in welke volgorde zijn getoond, welke filters gebruikt worden. Bekijk ook een volledige sessie van een gebruiker. Verder dan zoekwoord X, zoekresultaat Y: heeft dezelfde gebruiker later op een vergelijkbaar woord gezocht?

Grofweg zijn er – naast anekdotes – drie soorten evaluatiemethoden:

Offline evaluatie – definieer een vaste bron aan content, laat een gebruiker zoeken en bepaal, met hulp van contentexperts, of hij relevante zoekresultaten terugkrijgt. Herhaal ditzelfde op een later moment. Dit is een ideale methode voor inhoudelijke experts, want zij weten als geen ander of de zoekresultaten relevant zijn.
A/B-test (online) – toon aan een deel van de gebruikers zoekresultaten uit zoekmachine X en aan een ander deel zoekresultaten uit zoekmachine Y. Beoordeel via het klikgedrag de best presterende. Het risico is wel dat voor bepaalde gebruikers, voor bepaalde zoektermen mogelijk geen resultaten terugkomen.
Interleaving (online) – hierin combineer je de zoekresultaten uit 2 zoekmachines in 1 zoekresultatenscherm. Op basis van het klikgedrag kun je dan beoordelen welke de beste match geeft. De beste machine wint. Zo’n test moet je wel van tevoren heel goed uitdenken en ontwerpen, want er zitten haken en ogen aan bijvoorbeeld het ontwerp van zo’n gecombineerde zoekresultatenpagina.

De slides van Wouter Weerkamp

Enterprise search

Edwin Stauthamer implementeert vanuit KBenP (consultancy over informatie op orde) zoekoplossingen voor enterprises. Het gaat daarbij niet alleen om webcontent, maar om het kunnen doorzoeken van alle applicaties die iets doen met bedrijfsinformatie. Voor verschillende gebruikers zijn daar verschillende wensen in te onderscheiden.

Een callcenter-medewerker is bijvoorbeeld erg geholpen met 1 scherm waarin hij kan zoeken in een CRM-applicatie, de website en een bak met veelgestelde vragen. Nu heeft een klantenservice-medewerker daar soms 5 à 6 schermen naast elkaar voor open staan. Andere gebruikers waar je enterprise search voor kunt inrichten zijn interne medewerkers (zoeken op intranet) en R&D-medewerkers (zoeken op producteigenschappen).

Edwin benadrukt dat het er niet om gaat om alle informatie aan iedereen beschikbaar te stellen; het gaat om relevante selecties uit relevante bronnen toegespitst op de concrete informatiebehoefte.

Google zet de standaard. Wat we thuis gebruiken, verwachten we ook in het bedrijf. Toch heeft Google het volgens Edwin makkelijker dan een bedrijf. Het web is homogeen qua structuur (vooral HTML en PDF), terwijl de bronnen voor enterprise search zeer divers zijn. Naast HTML/PDF bijvoorbeeld ook databases en file shares met andere soorten documenten dan PDF. Mensen die zeggen dat ze iets als Google willen hebben, hebben het meestal over de interface, niet het algoritme.

De ultieme zoekmachine bestaat volgens Edwin niet. En dat is ook logisch, want er zijn verschillende typen “zoekers”. Het maakt bijvoorbeeld uit of iemand al bekend is met je site of niet. De valk verkent vlot het terrein en pakt gericht zijn prooi. De vos moet geholpen worden zijn weg te vinden en snuffelt meer rond voordat hij toeslaat. Een belangrijke take-away uit de presentatie is dan ook, zowel voor valk als vos, om de informatiearchitectuur van je site terug te laten komen in de zoekresultaten. Laat metadata zien, zoals datum laatst gewijzigd. Toon facetten die corresponderen met de hoofdnavigatie. De interface is net zo belangrijk als de engine.

Ten slotte geldt voor een zoekmachine hetzelfde als voor de content die je erin stopt: hij heeft een eigenaar nodig. Iemand die logs uitpluist, dingen uitprobeert en verbeteringen aanjaagt.

De slides van Edwin Stauthamer

Zoekt en gij zult vinden… het verslag

Semantisch zoeken

Zoekmachines evalueren

Enterprise search

Over Bas Evers

Edities