Wie misst eine Suchmaschine ihre eigene Relevanz?

· 8. Mai 2012 · 15 Kommentare
frank.fuchs
frank.fuchs

Wenn eine Suchmaschine Anpassungen an ihren Ranking-, Analyse- oder Crawling-Algorithmen vornimmt, die im Ergebnis einen erheblichen Anteil am Gesamtvolumen aller Anfragen betrifft, fragt man sich doch gelegentlich: „Woher wollen die eigentlich wissen, was relevant ist?“ Nun, die kurze Antwort darauf lautet: „Sie wissen es selbst nicht!“

Sie haben in vielen Fällen zwar jede Menge guter Indizien, aber ich will mal versuchen anhand eines Beispiels zu zeigen, dass die Analyse von systemimmanenten Daten keineswegs „allwissend“ macht. Außerdem werde ich versuchen zu veranschaulichen, wie man eine der von Suchmaschinen verwendeten Relevanz-Analysen nutzen kann, um die Relevanz der eigenen Seiten zu messen.

Sehen wir uns zunächst die am häufigsten eingesetzten Analysemethoden an, so lassen sich diese grob in zwei Gruppen unterteilen.

  • Gruppe 1 umfasst alle Methoden, die systemimmanente Metriken, wie Clickstream-Daten, CTRs, Verweildauer, semantische Analysen, Linkstrukturen on und off Site etc. erfassen und bewerten.
  • Gruppe 2 umfasst alle Methoden, die extern gesammelte Daten (z.B. Eyetracking, Online-Panels, User-Testing oder Focus-Gruppen) erfassen und bewerten.

Ich möchte an dieser Stelle den Bereich User-Testing näher untersuchen. Jetzt denken sicher einige: Nicht skalierbar! Viel zu teuer! Ich bin da ganz anderer Meinung – und die Suchmaschinen teilen diese.

Ein klassisches Beispiel für Relevanz, die sich nur sehr eingeschränkt mit Metriken wie CTR, Verweildauer, Ladezeit etc. messen lässt, ist die von speziellen Einblendungen in den SERPS (Search Engine Result Pages). Sieht man sich etwa die Ergebnisse für Suchanfragen nach Börsenkursen wie MSFT, GOOG, YHOO an, so bieten alle Player heute die wichtigsten Kennzahlen direkt auf der Seite an. Das hat zur Folge, dass der Nutzer nicht mehr messbar mit der Einblendung interagiert.

Finanz und Wetter Einblendungen in den SERPS 2012 (Google, Bing, Yahoo!)
Finanz und Wetter Einblendungen in den SERPS 2012 (Google, Bing, Yahoo!)

„Lies, damned lies, and statistics“

Es kam in meiner Zeit als Search Product Manager durchaus vor, dass ein Engineer mir aus heiterem Himmel mitteilte, dass die Performance der Direkteinblendungen für Aktien, Wetter, Horoskope etc. zu schlecht sei und diese daher zeitnah abgeschaltet werden. Ich vermute, dass so etwas in einem wichtigen Markt wie den USA nicht so schnell passieren dürfte, aber wenn ein indischer Engineer auf eine Analyse von 4.000 CTR-Statistiken blickt und ein paar Features unterhalb des CTR-Minimums fallen, ist diese Herangehensweise aus seiner Sicht wahrscheinlich valide.

Tritt der Fall ein, dass die Analyse der im System vorhandenen Daten als ureigene Herangehensweise von Suchmaschinen keine befriedigende Antwort liefert, wird häufig auf das User-Testing gesetzt.

Viele Leser dürften von der Tatsache überrascht sein, dass Suchmaschinen diese Methode in vergleichsweise hoher Frequenz auch zum Analysieren ihrer organischen SERPS sowie für die Ergebnisseiten der News-, Bilder- oder der Lokalen Suche einsetzen. Die Resultate dieser Analysen werden auch sehr ernst genommen, und es gehört schon lange zum Standard, dass solche Metriken zu den Release-Kriterien von Suchmaschinen-Features zählen. Wird der angestrebte Wert nicht erreicht, wird das neue Feature nicht gelauncht.

Wie läuft ein solcher User-Test ab?

Beispielhaft und vereinfacht gesagt, heuert man eine Gruppe von Editoren/Testern an, die an einem Rechner jeweils einen Suchbegriff „sehen“ und dazu passend die entsprechende Webseite, die zu dem Term auf Platz X steht. Der Tester beurteilt die Qualität der Seite in Bezug auf den Suchbegriff anhand einer einfachen Bewertung, vergleichbar etwa mit Schulnoten:

Exemplarische Darstellung der Testumgebung aus der Sicht des Raters
Exemplarische Darstellung der Testumgebung aus der Sicht des Raters

1 (sehr gut) – wenn die Leistung den Anforderungen in besonderem Maße entspricht.
2 (gut) – wenn die Leistung den Anforderungen voll entspricht.
3 (befriedigend) – wenn die Leistung im Allgemeinen den Anforderungen entspricht.

(Zitiert nach: http://de.wikipedia.org/wiki/Schulnote)

Um sicher zu stellen, dass ein Tester die Ergebnisse nicht durch eine „falsche“ Einschätzung/Bewertung negativ beeinflusst, werden die gleichen Queries meist von mehreren Testern bewertet. In die Schlussberechnung fließen dann lediglich Ratings ein, die von mehreren Testern identisch oder fast identisch bewertet worden sind.

Am Ende der Berechnung steht dann ein Wert R, der die relative Relevanz zum Zeitpunkt X beschreibt. Anhand dieser Werte und der im Verlauf der Zeit entstehenden Historie lassen sich schließlich Trends ablesen. Es ist durchaus üblich, dass bei derartigen Messungen die Produkte der Mitbewerber in identischer Art mit getestet werden, um einen direkten Vergleich zuzulassen.

Schematische Beschreibung einer Testumgebung/Prozesse
Schematische Beschreibung einer Testumgebung/Prozesse

Natürlich stößt diese Methode auch an Grenzen, denn sie ist einerseits sehr kostspielig, und birgt andererseits gewisse Risiken. Besonders bei der Bewertung im Long-Tail liegt die Vermutung nahe, dass ähnlich wie beim Publikumsjoker aus der TV-Sendung Wer-Wird-Millionär die Regel gilt: Toller Joker bei einfachen Fragen = Head Queries, mit Vorsicht zu genießen bei Fragen ab 64.000 Euro = Tail Queries.

Ähnlich wie bei dem beschriebenen Ranking durch Tester sollen die WWM-Kandidaten nur dann abstimmen, wenn sie sich ihrer Sache sicher sind. Die Ergebnisse in der Show zeigen aber, dass – freundlich ausgedrückt – einige Kandidaten so ihre Schwierigkeiten beim Einschätzen des eigenen Wissens haben.

Keyword Set-Auswahl – oder: Auch als beste Suchmaschine für Bürsten- und Pinselmacher kann man kein Geld verdienen.

Thematisch sind ja gerade Web-Suchanfragen sehr divers, darum ist es umso wichtiger, entsprechende Sorgfalt bei der Erstellung der Keyword-Sets für Relevanz Analysen walten zu lassen.

Es dürfte niemanden überraschen, dass für derartige Benchmarks nicht einfach beliebig zusammengestellte Suchbegriffe verwendet werden. Um ein aussagekräftiges Ergebnis zu erhalten, ist es notwendig, sowohl genügend Head- als auch Tail-Queries im Set zu haben. Außerdem werden die Suchbegriffe mit zusätzlichen Scores versehen, um deren Wert für den Test besser bestimmen zu können.

So dürfte zum Bespiel jedem einleuchten, dass die Keywords für Bürsten- und Pinselmacher als Unterkategorie der Lokalen Suche einen deutlich niedrigeren Score erhalten als Keywords für die Unterkategorie Restaurants. Denn dadurch wird der Tatsache Sorge getragen, dass nicht alle Bereiche gleich „wichtig“ also gut monetarisierbar, imageträchtig oder relevant für die Product Roadmap sind. Da Zeit und Budget immer begrenzt sind, helfen diese Scores dabei, sicherzustellen, dass man vor allem dort investiert, wo der ROI am höchsten ist.

Eine weitere Herausforderung im Umgang mit den Query-Sets ist der ewige Balanceakt zwischen Vergleichbarkeit von Daten und „Up-To-Date-Ness“. Auf der einen Seite sollte das Query-Set, mit dem die „Nullmessung“ vorgenommen wurde, nicht verändert werden, um Gewinne/Verluste möglichst exakt messen zu können. Ist ein Query-Set aber zu alt, hat das in der Regel eine negative Auswirkung auf die Messung. Wäre in meinem Set z. B. die Query „Bundeskanzler Deutschland“ so ist das perfekte Ergebnis am 21. November 2005 ein anderes als das am 22. November 2005, dem Tag, an dem Angela Merkel den Job übernahm und zur ersten Bundeskanzlerin gewählt wurde.

Was springt jetzt dabei für mich raus? „Show me the Money!“

Nach diesem Ausflug kehre ich jetzt zurück zur Kernfrage aller derer, die den SISTRIX Blog lesen: Wie hilft mir das alles in meinem Job als SEO, Webmaster, Produktverantwortlicher oder Engineer?

Im einfachsten Setup sollte man sich seinen Postboten schnappen und ihm 50 Euro für 20 Minuten seiner Zeit bieten. Ihr nennt ihm einen Suchbegriff, setzt ihn vor eure Landing Page und befragt ihn dazu.

Zugegeben, das kann eher „creepy“ rüberkommen, aber wer nicht wagt der nicht gewinnt. Und Ihr versteht schon, wie ich das meine.

Denjenigen unter euch, die über deutlich mehr als 50 Euro Budget verfügen, empfehle ich, einen Teil Ihres Geldes künftig bei einem Marktforschungsunternehmen auszugeben, um der Frage nach der Relevanz auf die Schliche zu kommen.

Unabhängig vom Setup verspreche ich, ihr lernt dabei mehr über eben jene Relevanz, als bei der Lektüre des nächsten Social Media Ranking Correlation Posts.

Hier noch ein Tipp für all diejenigen, die nicht in einem großen Unternehmen mit eigenen Testlabors arbeiten. Findet ein Marktforschungsunternehmen in eurer Nähe und lasst euch dort in deren Datenbank für Tests, Fokusgruppen etc. aufnehmen.

Ich mache das selbst mindestens einmal im Jahr und habe dabei jedes Mal spannende Dinge gelernt. Quasi eine Weiterbildung, die nicht nur kostenlos ist, sondern meist eine kleine Entlohnung mit sich bringt – und das bei stets leckerer Verpflegung und fast immer in gut klimatisierten Räumen.

Ähnliche Beiträge

Banken verzocken Rankings bei Google
Wenn es um die Frage der Systemrelevanz geht, möchten Banken immer gerne vorne mitspielen. In diesem Zusammenhang ist es...
Lisa Bastian
19. Januar 2018
Mobile Rankings in der DACH-Region: Welche Publisher nutzen AMP?
Mit dem Credo „mobile first“ wurde auch im Herbst 2015 seitens Google eine neue Open Source Technik für den...
Lisa Bastian
14. September 2017
Post.ch und der mühsame Kampf um verlorene Sichtbarkeit
In vergangenen Blogposts zum Thema Relaunch habe ich mir die Sichtbarkeit der Domains kurz nach dem Absturz angeschaut, wie...
Lisa Bastian
18. Juli 2017

Kommentare

Hanns   
8. Mai 2012, 09:32

Vielen Dank, Frank, für die spannende Insider-Perspektive.

Gretus   
8. Mai 2012, 09:45

Hallo Frank,

spannend. Interessant zu wissen wäre jetzt, wie viel Prozent der regelmäßig gesuchten Keywords bekannter Suchmaschinen bereits `durchgeratet´ worden sind und welchen prozentualen Stellenwert dieses Rating in der Gesamtheit der Rankingfaktoren einnimmt?

Grüße

Gretus

Frank   
8. Mai 2012, 09:52

@Hanns 😀

@Gretus: Ich habe mich wohl nicht 100% präzise ausgedrückt. Die Ratings gehen nicht 1:1 so auch als Ranking-Faktor in den Mix. Die Erhebungen finden zunächst nur zur Beurteilung/Messung von Relevanz oder anderen Aspekten oder Features statt. Es wäre aber töricht, solch wertvolle Daten nicht auch anderweitig zu verwenden. Wie z.B. als Seed-Sets für weitere Analysen etc. so ziehen die Ratings durchaus Einzug in die Rankings, allerdings eher über die Hintertür.

Hanns   
8. Mai 2012, 09:56

@Gretus: Der Einfluss der Search Rater ist ja nicht nur auf die überprüften Keywords begrenzt. Auf Grundlage der gesammelten Daten werden allgemein Algorithmus-Updates bestätigen oder verworfen, die verschiedene Seitentypen und Qualitätskriterien neu bewerten. Der Einfluss hängt also stark von dem jeweiligen Algorithmus-Update ab, dessen Qualität die Rater beurteilen.

Gretus   
8. Mai 2012, 10:08

Hallo Frank,

klingt son Bisschen wieder nach dem `Wir greifen niemals manuell in die Serps ein´ Spruch. Im Prinzip ist es doch egal, ob ich die Daten direkt oder über eine `Hintertür´ mit in den Algorithmus einfließen lasse. Fakt ist glaube ich, dass Suchmaschinen von heute ohne menschliche Unterstützung (ob nun Ratings oder Social Signals) nicht mehr auskommen. Ob das nun gut oder schlecht ist, einmal außen vor gelassen…

Grüße

Gretus

Sabrina   
8. Mai 2012, 10:25

Schön zu lesen, wie sich die Relevanz tatsächlich zustände kommt. Das deckt sich ja auch mit dem Video von Matt Cutts, wo er ja auch sagt, dass es Testpersonen für die SERPs gibt.

Vielleicht können zukünftig Unternehmen mit geringerem Budget Ihre Umfrage auch über das neue Google Umfrage-Tool laufen lassen (ich hab jetzt leider den Namen vergessen, sorry). Richtig eingesetzt, kann man auch hier sicherlich ne Menge rausholen 😉

Frank   
8. Mai 2012, 11:04

@Sabrina: Online Panels wie du sie beschreibst sind ganz klar auch eine Möglichkeit menschliches Feedback zu bekommen. Man muss sich nur dann der Einschränkung bewusst sein, dass man nicht wie im Labor relativ viel Kontrolle über Variablen wie Browser, System Plattform, sprachliche Fähigkeiten der Rater, oder demografische Daten etc. hat.

Mißfeldt   
8. Mai 2012, 11:06

Hi Frank, schöner Post, vielen Dank für die Einblicke. Ich wundere mich nur etwas, warum nicht das (vorletzte) Video von Matt Cutts verlinkt ist. Darin beschreibt er ja im Prinzip genau dieses Verfahren. Das würde noch mal untermauern, dass Google eben tatsächlich genau so vorgeht. (Und bing ja offenbar auch :D) Ich hatte auch schon drüber gebloggt: das Hauptproblem sehe ich wie Du in einer falschen Selbsteinschätzung der Rater, als auch bei nicht-eindeutigen Beurteilungen.

@Gretus: es ist natürlich ein Riesen-Unterschied, ob die Rater einzelne Websites oder nur die Rankings (also den Algo an sich) bewerten. Mit dem zweiten Verfahren kann man ja an exemplarischen Keywords Mio. von Keywords erfassen, mit dem ersten eben nur eins.

Bin mal gespannt, wie lange man in den kommenden Tagen auf die Post warten muss 😉

Frank   
8. Mai 2012, 11:21

@Martin: Ich gebe dir zwar recht, dass das Video ggf. eine Sinnvolle Ergänzung (hier der Link für alle die es noch nicht gesehen haben. http://bit.ly/IIrMZF ) Zunächst kam das Video erst raus, nachdem ich den Artikel an Hanns geschickt hatte. Und ich habe es bewusst nicht in meinen Artikel aufgenommen, da ich nicht aus „erster Hand“ sagen kann, wie man dort vorgeht. Ich habe wohl immer noch das Flehen der PR Damen im Kopf die uns immer eindringlich gebeten haben nie über die Konkurrenz zu reden. Es ist aber schön wenn auch nicht verwunderlich zu sehen, dass wohl auch G derartig vorgeht.

Mißfeldt   
8. Mai 2012, 11:33

Danke für die Antwort, Frank. Klar, dass mit der Konkurrenz ist logisch. Interessant auch, dass Du den Artikel schon vorher geschrieben hast. Irgendwie liegt es in der Luft, die Kriterien und das Vorgehen der Suchmaschinen zu überprüfen. Bin gespannt, wo das noch hinführt. Ich sag nur: Open-Source-Google-Algo 😀

Dominik Schwarz   
8. Mai 2012, 12:22

Spannender Einblick – Danke!

Im Grunde steht Google doch vor dem Problem, a) mit so einem Feedbacksystem eben doch nur eingeschränkt skalieren zu können und b) von relativ wenigen, ggf. fachfremden Testern abhängig zu sein. Die Ideallösung wäre natürlich, wenn möglichst viele „echte“ Suchende bewerten, ob ein Suchergebnis gut ist oder nicht. Aber wie schafft man es zu verhindern, dass Seitenbetreiber künftig Millionen von Mechanical Turks in Anspruch nehmen?

Vielleicht wäre ein Social Network mit Klarnamenpflicht eine Lösung. Oh. Hallo G+!

Gretus   
8. Mai 2012, 12:49

Hi Martin,

ich glaube nicht, dass Google und Co. die Ratingergebnisse von tausenden von (indirekten) Mitarbeitern lediglich zur `Qualitätssicherung des Algorithmus´ einsetzt.

Ist ist eben auch egal, ob ich 100 Webseiten direkt abstrafe oder deren ausschließliche (!?) Kriterien in den Algo schreibe. Ohne manuelle Bewertung, Prüfung oder was auch immer wären die Serps noch schlechter als sie es ohnehin schon sind…

Grüße

Gretus

David Vielhuber   
18. Mai 2012, 00:08

Ich will nicht mit den Entwicklern in Mountain View tauschen… die Auswirkungen bei Änderungen am Algorithmus auf die über eine Billion Webseiten sind kaum vorhersehbar.

allolrzm   
31. Mai 2012, 01:50

MVIyDW , [url=http://ndhvleujzrno.com/]ndhvleujzrno[/url], [link=http://ijcgmfssugbc.com/]ijcgmfssugbc[/link], http://wtbmxlpxflnx.com/

Florida auto insurance   
17. September 2012, 12:39

Anfrage:Welche Erfahrungen liegen bereits mit der Impfung gegen “Schweinegrippe” bei Mayasthenikern vor?Gibt es Empfehlungen seitens der DMG?Mit freundlichem GrußJörg Albrecht (Mitglied der DMG)

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.