Zoekt en gij zult vinden… het verslag

Naast de slides die wel al eerder deelden, nu ook een  verslag van het afgelopen ContentCafé over search.

Semantisch zoeken

Daan Odijk promoveert aan de UvA op ‘information retrieval’. Hij legt de geschiedenis uit van zoekmachines. De meest gebruikte zoekalgoritmes stammen uit de jaren 70 en zijn gebaseerd op hoe vaak een bepaald woord waarop je zoekt, voorkomt in de bron die je doorzoekt.

De toekomst van zoeken zit in semantisch zoeken. 41% van de zoekopdrachten in Google gaat over een entiteit. “Ice cube” kan een zoektocht betekenen naar een ijsblokje, maar ook een rapper. Beide zijn een entiteit. Daan omschrijft het als “iets wat je kunt aanwijzen in de echt wereld”.

Moderne zoekmachines relateren elke zoekopdracht aan zo’n entiteit. Als je in Google zoekt op George Bush krijg je bijvoorbeeld 2 suggesties voor vader en zoon. Aanklikken betekent een specifieke zoekopdracht op een van de twee.

De ontwikkeling naar semantisch zoeken betekent ook steeds rijkere zoek-interfaces. Zoeken op Brad Pitt geeft in Google op de zoekresultatenpagina zo’n blok aan de rechterkant met portretfoto’s van de man, zijn beknopte biografie en een selectie van zijn films. Weetje: een redactie van mensen bepaalt bij welke zoekterm wat voor blokje getoond wordt. Dit cureert Google dus met de hand.

Op een vraag uit de zaal had Daan nog een concrete tip voor SEO: voeg schema.org-metatags toe aan je content, want “daar heeft Google voor gekozen en van hen wil je de gebruikers”.

De slides van Daan Odijk

Zoekmachines evalueren

Wouter Weerkamp is ondernemende wetenschapper / wetenschappelijke ondernemer in zoekmachine-evaluatie. Hij vertelt waar je op moet letten als je wilt weten hoe de zoekmachine op jouw eigen website presteert. En hoe wapen je je tegen zelfbenoemde experts en technologiebedrijven die allemaal de silver bullet claimen?

Dat de zoekmachine een ‘black box’ is, waar elke gebruiker kan intikken wat hij wil, dat moet je voor lief nemen. Maar ook voor zoeken geldt het credo “meten is weten”. Het startpunt voor elk verbetertraject is loggen tot je erbij neer valt.

Meet niet alleen waar mensen op zoeken, maar ook bijvoorbeeld welke resultaten in welke volgorde zijn getoond, welke filters gebruikt worden. Bekijk ook een volledige sessie van een gebruiker. Verder dan zoekwoord X, zoekresultaat Y: heeft dezelfde gebruiker later op een vergelijkbaar woord gezocht?

Grofweg zijn er – naast anekdotes – drie soorten evaluatiemethoden:

  • Offline evaluatie – definieer een vaste bron aan content, laat een gebruiker zoeken en bepaal, met hulp van contentexperts, of hij relevante zoekresultaten terugkrijgt. Herhaal ditzelfde op een later moment. Dit is een ideale methode voor inhoudelijke experts, want zij weten als geen ander of de zoekresultaten relevant zijn.
  • A/B-test (online) – toon aan een deel van de gebruikers zoekresultaten uit zoekmachine X en aan een ander deel zoekresultaten uit zoekmachine Y. Beoordeel via het klikgedrag de best presterende. Het risico is wel dat voor bepaalde gebruikers, voor bepaalde zoektermen mogelijk geen resultaten terugkomen.
  • Interleaving (online) – hierin combineer je de zoekresultaten uit 2 zoekmachines in 1 zoekresultatenscherm. Op basis van het klikgedrag kun je dan beoordelen welke de beste match geeft. De beste machine wint. Zo’n test moet je wel van tevoren heel goed uitdenken en ontwerpen, want er zitten haken en ogen aan bijvoorbeeld het ontwerp van zo’n gecombineerde zoekresultatenpagina.

De slides van Wouter Weerkamp

Enterprise search

Edwin Stauthamer implementeert vanuit KBenP (consultancy over informatie op orde) zoekoplossingen voor enterprises. Het gaat daarbij niet alleen om webcontent, maar om het kunnen doorzoeken van alle applicaties die iets doen met bedrijfsinformatie. Voor verschillende gebruikers zijn daar verschillende wensen in te onderscheiden.

Een callcenter-medewerker is bijvoorbeeld erg geholpen met 1 scherm waarin hij kan zoeken in een CRM-applicatie, de website en een bak met veelgestelde vragen. Nu heeft een klantenservice-medewerker daar soms 5 à 6 schermen naast elkaar voor open staan. Andere gebruikers waar je enterprise search voor kunt inrichten zijn interne medewerkers (zoeken op intranet) en R&D-medewerkers (zoeken op producteigenschappen).

Edwin benadrukt dat het er niet om gaat om alle informatie aan iedereen beschikbaar te stellen; het gaat om relevante selecties uit relevante bronnen toegespitst op de concrete informatiebehoefte.

Google zet de standaard. Wat we thuis gebruiken, verwachten we ook in het bedrijf. Toch heeft Google het volgens Edwin makkelijker dan een bedrijf. Het web is homogeen qua structuur (vooral HTML en PDF), terwijl de bronnen voor enterprise search zeer divers zijn. Naast HTML/PDF bijvoorbeeld ook databases en file shares met andere soorten documenten dan PDF. Mensen die zeggen dat ze iets als Google willen hebben, hebben het meestal over de interface, niet het algoritme.

De ultieme zoekmachine bestaat volgens Edwin niet. En dat is ook logisch, want er zijn verschillende typen “zoekers”. Het maakt bijvoorbeeld uit of iemand al bekend is met je site of niet. De valk verkent vlot het terrein en pakt gericht zijn prooi. De vos moet geholpen worden zijn weg te vinden en snuffelt meer rond voordat hij toeslaat. Een belangrijke take-away uit de presentatie is dan ook, zowel voor valk als vos, om de informatiearchitectuur van  je site terug te laten komen in de zoekresultaten. Laat metadata zien, zoals datum laatst gewijzigd. Toon facetten die corresponderen met de hoofdnavigatie. De interface is net zo belangrijk als de engine.

Ten slotte geldt voor een zoekmachine hetzelfde als voor de content die je erin stopt: hij heeft een eigenaar nodig. Iemand die logs uitpluist, dingen uitprobeert en verbeteringen aanjaagt.

De slides van Edwin Stauthamer

Gepubliceerd in 11 - Search | Comments Off

ContentCafé proudly presents: Zoekt en gij zult vinden… toch?

Toen Google in 2013 5 minuten offline was, daalde het aantal page views op het internet met 40%. We navigeren het web via zoekmachines: elke maand stellen we met z’n allen elke 60 seconden zo’n 2.66 miljoen vragen aan Google’s ondoorgrondelijke algoritmes. Het is dus niet zo gek om te denken dat navigatie- of interactieproblemen ook met search ‘opgelost’ kunnen worden. Als je argumenten nodig hebt om aan te tonen dat dit niet werkt, lees dan dit artikel.

Maar wanneer werkt search dan wel en hoe weet je of een zoekmachine goed functioneert? Hoe kun je input leveren voor implementatie? Wat is semantisch zoeken, wat zijn de praktische mogelijkheden en hoe kun je dat zo inzetten dat jouw bezoekers niet eens meer hóeven te zoeken?

De elfde editie van het ContentCafé vindt plaats op woensdag 8 april om 19 uur Performance Solutions in Hoofddorp. We laten je graag verdwalen en je weg terugvinden in de wereld van search, semantiek en algoritmes.

Een uitgefaseerde zoekmachine
Een uitgefaseerde zoekmachine

Met trots presenteren we de volgende drie sprekers:

Wouter Weerkamp: zoekmachine-evaluatie (@hashtalk)

Wouter was vroeger PhD en postdoc researcher aan de Universiteit van Amsterdam (UvA), nu is hij mede-oprichter van 904Labs, een bureau gespecialiseerd in lerende zoekmachines. Als spin-off van de UvA probeert 904Labs het gat tussen de universiteit en de praktijk te overbruggen. Wouter zal bij ContentCafé spreken over zoekmachine-evaluatie.

Daan Odijk: semantisch zoeken (@dodijk)

Daan is onderzoeker aan de faculteit Natuurwetenschappen, Wiskunde en Informatie en doet niet aan biografieën. Zijn praatje bij het ContentCafé zal gaan over semantisch zoeken.

Edwin Stauthamer (@estauthamer)

Edwin is een adviseur die zijn sporen op het gebied van Enterprise Search en Informatie-architectuur heeft verdiend. Door jarenlang werkzaam te zijn binnen deze vakgebieden bij diverse organisaties heeft hij een brede blik en diepgaande kennis opgedaan.

Locatie: Performance Solutions in Hoofddorp

Een nieuwe locatie dit keer! De ‘Experience Engineers’ van Performance Solutions openen op 8 april hun deuren voor ContentCafé #11. Er is plek voor 60 mensen, dus schrijf je snel in (kosten €5 voor hapjes en drankjes).

Hier alvast adres en route (maar alle inschrijvers krijgen van tevoren nog een nieuwsbrief met alle praktische informatie rondom vervoer en parkeren).

We wensen je alvast veel succes met het zoeken van je paaseieren en zien ernaar uit je op 8 april weer te zien!

Gepubliceerd in 11 - Search | Laat een reactie achter