Aussagekraft von Korrelationsanalysen zu einzelnen Google-Rankingfaktoren

16. Januar 2013, 12:55

Anfang der Woche relativierte Rand Fishkin in seinem Blogpost „What Do Correlation Metrics Really Tell Us About Search Rankings?“ die Aussagekraft der SEOmoz Korrelationsstudie zu den einzelnen Google-Rankingfaktoren. Indem er einige Fehler eingesteht, beweist Rand viel Courage und zeigt auf sympathische Weise, dass sich auch ein international anerkannter SEO-Guru einmal irren kann.

In den vergangenen zwei Jahren haben diverse Korrelationsanalysen im SEO-Bereich für viel Verwirrung und beherzte Diskussionen gesorgt. Es ist begrüßenswert, dass der „Vater dieser Studien“ jetzt für mehr Klarheit sorgt. Wir haben den Blogpost von Rand zum Anlass genommen, mit dem Statistik-Experten Dr. Steffen Wagner ein Interview über die Probleme und Herausforderungen bei statistischen Analysen der Rankingfaktoren zu führen.

SISTRIX: Hallo Herr Dr. Wagner, wollen Sie sich unseren Lesern kurz vorstellen?

Wagner: Hallo, mein Name ist Steffen Wagner. Ich arbeite als Statistiker in der vor knapp zwei Jahren aus der Freien Universität Berlin ausgegründeten Beratungsgesellschaft INWT Statistics GmbH. Unser Name „INWT – In Numbers We Trust“ ist Programm: unsere Beratungsleistung liegt in der quantitativen, datengetriebenen Analyse und darauf aufbauenden Prognosen in den Bereichen CRM und Online-Marketing.

SISTRIX: Im Jahr 2011 wurde von SEOmoz eine Studie veröffentlicht, welche anhand von Korrelationsanalysen die Beziehungen zwischen beobachteten Rankingpositionen und verschiedenen Eigenschaften der Treffer untersucht hat. Der gleiche Untersuchungsansatz wurde 2012 von Searchmetrics für die Suchergebnisse in Deutschland wiederholt. Wie schätzen Sie als Statistik-Experte diese Studien ein?

Wagner: Die von Ihnen angesprochenen Studien messen die Korrelationsstärke zwischen Google Rankings und einzelnen erklärenden Variablen. Bei der Interpretation von Korrelationsstärken ist generell eine gewisse Vorsicht geboten, da eine Korrelation zunächst nur das gemeinsame Auftreten bestimmter Ausprägungen misst, was nicht zwangsläufig auch eine Kausalität bedeuten muss. Deshalb sollten hinter den Korrelationen vermutete Kausalitäten kritisch hinterfragt werden: Stimmt die Wirkungsrichtung? Gibt es sachlogische Argumente, die die vermutete Kausalität stützen, oder eher unplausibel erscheinen lassen? Gibt es unberücksichtigte Einflussfaktoren, die zu einer Scheinkausalität führen könnten? So ist ja auch die Anzahl der Störche und die Geburtenrate korreliert, was sich bei genauerem Hinsehen aber durch den Grad der Urbanisierung der untersuchten Regionen sehr plausibel erklären lässt.

SISTRIX: Die Rangfolge der gemessenen Korrelationen entspricht nicht der Rangfolge der wichtigsten Rankingfaktoren in der gängigen SEO-Theorie. Für Facebook-Signale konnte beispielsweise in beiden Studien eine hohe Korrelation zu den Rankingpositionen gemessen werden, wohingegen der Faktor „Keyword im Title“ bei beiden Studien sogar leicht negativ korreliert. Die meisten SEO-Experten würden sagen, dass das Keyword im Titel-Tag zu den wichtigsten Rankingfaktoren gehört. Wie lassen sich diese Unterschiede erklären?

Wagner: Damit führen Sie die eben angesprochenen sachlogischen Argumente ins Feld, die einer kausalen Interpretation der beobachteten Korrelationen entgegenstehen. Im Fall der Facebook-Signale stellt sich mir die Frage, ob diese das Google-Ranking beeinflussen oder ob nicht umgekehrt eine gute Sichtbarkeit bei Google ebenfalls eine höhere Aufmerksamkeit bei Facebook nach sich ziehen könnte. Somit stellt sich die Frage der Wirkungsrichtung. Zusätzlich muss geprüft werden, ob eine Scheinkausalität vorliegt. Es erscheint ja auch durchaus plausibel, dass eine gemeinsame dritte Variable, wie die Qualität des Contents, für die Beachtung bei Google und Facebook gleichermaßen verantwortlich sein könnte. Die von Experten nicht erwartete schwache Korrelation des Faktors „Keyword im Title“ kann mehrere Ursachen haben: Zum einen misst der Spearman Koeffizient nur monotone Zusammenhänge und es stellt sich die Frage, ob nach dem Google Brand Update Ende 2009 überhaupt noch ein solcher monotoner Zusammenhang besteht. Zum anderen handelt es sich bei „Keyword im Title“ um eine binäre Variable (Keyword vorhanden: ja/nein), was – zurückhaltend formuliert – für die Anwendung der Spearman-Korrelation ungünstig ist. Da die gefundene negative Korrelation zusätzlich sehr klein, d.h. nahe Null ist, muss geprüft werden, inwieweit dies ein zufälliger Effekt ist, und ob sich das negative Vorzeichen mit verändertem Keyword-Set reproduzieren lässt.

SISTRIX: Rand Fishkin schreibt in seinem aktuellen Blogpost, dass er in seiner Studie zumindest teilweise Fehler gemacht und die Korrelationsdaten fälschlicherweise als Rankingfaktoren bezeichnet hat. Wurden die wesentlichen Kritikpunkte jetzt erkannt oder fehlen Ihnen noch wichtige Punkte, die für zukünftige Studien zu berücksichtigen sind? Wie könnte man den bisherigen Untersuchungsansatz verbessern?

Wagner: Aus statistischer Sicht ist es auf jeden Fall begrüßenswert, wenn bei der Präsentation von Korrelationsanalysen der Unterschied zwischen Korrelation und kausalem Zusammenhang aufgezeigt wird, so dass der Leser klar zwischen den Fakten wie der Korrelationsstärke und darauf aufbauenden möglichen Erklärungsansätzen unterscheiden kann. Generell sollte auch der Übergang von univariaten zu multivariaten Analysen und Methoden vollzogen werden, da die in den Studien untersuchten Faktoren ja auch untereinander sehr stark korreliert sind. Erst die gemeinsame Betrachtung aller Faktoren erlaubt es, den Einfluss dieser zusätzlichen Korrelationsstruktur auf die Rankings zu berücksichtigen. Von besonderem Interesse wäre die wiederholte Erfassung der den Studien zugrunde liegenden Daten in entsprechend kurzen Zeitabständen. Anhand solcher Zeitreihen könnte man dann herausarbeiten, inwieweit Schwankungen des als kausal wirkend postulierten Rankingfaktors Schwankungen im Google-Ranking erklären können, oder auch eben nicht. Im letzteren Fall wäre dann die Hypothese des als kausal postulierten Zusammenhangs zu verwerfen und die Scheinkausalität identifiziert. Definiert man ‚kausal‘ zusätzlich dahingehend, dass die kausale Ursache zeitlich vor der induzierten Reaktion liegen muss, bieten solche Daten die Möglichkeit die Wirkungsrichtung des kausalen Zusammenhangs zu bestimmen. Man würde also prüfen, ob eine Änderung der Facebook-Signale einer Änderung der Rankings vorausgeht, oder ob umgekehrt, zuerst die Änderung des Rankings zu beobachten ist.

SISTRIX: Warum ist es so schwer mit statistischen Methoden dem Google-SERP-Algorithmus auf die Schliche zu kommen?

Wagner: Diese Schwierigkeit hat meiner Meinung nach zwei Gründe: Zum einen präsentiert Google ja lediglich die Reihenfolge der Ergebnisse, nicht aber den diesem Ranking zugrunde liegenden ‚wirklichen‘ Abstand zwischen den angezeigten Ergebnissen. Dies stellt aus statistischer Sicht eine starke Einschränkung bzgl. der in Frage kommenden Analyseverfahren dar. Zum anderen ist Google in der Lage das Verhalten der User auf den angesteuerten Ergebnisseiten direkt über Metriken wie Bounce Rate oder Time-On-Site zu messen und zur Beurteilung der Relevanz des Contents zu verwenden. Solange diese Engagement-Daten der statistischen Analyse nicht zur Verfügung stehen, ist es auch nicht möglich ihren Einfluss auf den Algorithmus zu quantifizieren und vom Einfluss anderer Rankingfaktoren zu unterscheiden.

SISTRIX: Vielen Dank für das Interview!

Das Interview führte Hanns Kronenberg

Dieser Beitrag hat 19 Kommentare

 
  16. Januar 2013, 14:04

Danke für das spannende Interview. Eigentlich nichts Neues, aber schön auf den Punkt gebracht. Ich glaube, der letzte Satz ist entscheidend: „Solange die Engagement-Daten der statistischen Analyse nicht zur Verfügung stehen, ist es auch nicht möglich ihren Einfluss auf den Algorithmus zu quantifizieren und vom Einfluss anderer Rankingfaktoren zu unterscheiden.“
Anders formuliert: ist ist wohl prinzipiell in Zukunft nicht mehr möglich, diese Daten global zu erhalten. Daher können wir uns eigentlich sowieso von dem Thema „Rankingfaktoren“ verabschieden.

 
  16. Januar 2013, 14:50

Danke für dieses Interview.

Spannend wäre es, wenn Du nun die beiden letzten statistischen Untersuchungen zur „Analyse der Bedeutung von Backlinks für den SEO-Erfolg“ um diese zeitliche Komponente ergänzen könntest, damit besser zu sehen wäre, ob zuerst die Sichtbarkeit oder zuerst die DomPop/LinkPop steigt.

So gibt es ja auch massenweise Domains, die ihre Inhalte mit entsprechenden Tools (z.B. DNWorker) mit Hilfe von Suchmaschinen-Ergebnissen zusammenscrapen und somit automatisch die DomPop/LinkPop erhöhen, je sichtbarer ein Projekt wird.

 
Hanns
  16. Januar 2013, 15:01

@Matthias: Ein interessanter Gedanke – da in der Stichprobe aber sowohl etablierte als auch neue Domains enthalten sind, müsste es ja Domains mit relativ viel Sichtbarkeit und relativ wenig Domain-Pop geben, falls die Domain-Pop tatsächlich der Sichtbarkeit folgen würde. Auch wenn eine gute Sichtbarkeit der zukünftigen Verlinkung durchaus zuträglich ist, bin ich mir ziemlich sicher, dass die Wirkungsrichtung eher umgekehrt ist.

 
  16. Januar 2013, 15:33

Es wäre interessant zu sehen, inwieweit man mit den einzelnen Prädiktoren in Summe die Position eines Links auf der Suchergebnisseite für ein Keyword vorhersagen kann: Liefern die Social Media – Signale zusätzliche Vorhersage für die Position als die Anzahl der Backlinks alleine (inkrementelle Validität)?

Ultraspannend fände ich auch die Überprüfung von Modellen mit pfadanalytischen Ansätzen.

Zudem wäre es spannend, wenn es auch Vorhersagemodelle gäbe, die die den Content auf der Seite mit besser berücksichtigen (nicht nur Keywordvorkommen im H1 Tag und im DESC Tag)

 
Sebastian Döpp
  16. Januar 2013, 15:57

@sistrix; wusstet ihr dass wenn man vergisst oder den falschen Sicherheitscode eingibt, der gesamte Kommentar weg ist? Sehr ärgerlich, ich habe so schön geschrieben…

von Google und den 10 Geboten im Wirtschaftshimmel usw.. ;-(

dat schrev ich nich nochamol ;-(

 
  16. Januar 2013, 21:57

Ich scheitere schon an der Überschrift…

 
  17. Januar 2013, 05:45

Nicht schlecht, nicht schlecht. Es gibt so Posts, die irgendwie mehr preisgeben, als in den Buchstaben zu finden ist. Danke

 
Johannes
  17. Januar 2013, 08:16

Sebastian, sorry das ist in der Tat ärgerlich. Vermutlich kommende Woche werden wir die Sistrix-Seite auf einem neuen System relaunchen und dann sollte sowas der Vergangenheit angehören.

frank, es gibt ja in der SEO-Welt seit einiger Zeit die Tendenz, manche Sachen zu verwisschenschaftlichen. Kann man prinzipiell gerne machen, uns ist in dem Zusammenhang dann aber sehr wichtig, dass korrekt gearbeitet wird und nicht mit irgendwelchen „Taschenspielertricks“ das nichtwissende Publikum versucht wird, zu beeindrucken 😉

 
  18. Januar 2013, 07:05

Korrelation != Kausalität
Das darf man nie aus den Augen verlieren.

 
  18. Januar 2013, 12:16

@sistrix: Taschenspielertricks? Wäre zwar dankbar, wenn ihr mir das beizeiten mal erklärt, hege da aber nicht allzu viel Hoffnung. Egal!

Was ich eigentlich sagen wollte: Ich verfolge Eure Blogposts mit grossem Interesse, glaube aber, dass ihr es SEO-Interessierten, aber eben doch Nicht-SEOs, mitunter schwer macht.

Andererseits klingen Sätze wie der von eurem Interviepartner natürlich großartig, wenngleich sie nah am Bullshit-Bingo sind:
„Damit führen Sie die eben angesprochenen sachlogischen Argumente ins Feld, die einer kausalen Interpretation der beobachteten Korrelationen entgegenstehen.“
Muss man sich auf der Zuge zergehen lassen.

 
  21. Januar 2013, 01:58

Wenn eine (seo) analyse gemacht wird, und mit 100 grossen gerechnet wird ist es klar das du nur eine aussage machen kannst über die kennzahlen die du in deiner analyse verwendest.

Ob es dann tatsäglich die korrelation ist die das ergebnis in die suchergebnisse 100% vorhersagen lässt geht zu weit, könnte sogar falsch sein!

Solange du aber durch wissen und test deine analysen immer verbesserst bist du besser bedient dann warten auf die 100% genauigkeit. Jetzt zu sagen alles ist nicht mehr mit einer analyse zu verbessern ist völlige schwachsinn, dennoch sollte mann wege suchen diese zu verbessern.

 
  21. Januar 2013, 12:26

… sicherlich gut geschrieben… ich habe selten einen Beitrag inkl. Antworten gespickt mit dermaßen vielen Fremdwörten gelesen. Das nenn ich mal für jedermann einfachen und verständlich geschriebenen Content 😉

 
  22. Januar 2013, 00:08

„Erst die gemeinsame Betrachtung aller Faktoren erlaubt es, den Einfluss dieser zusätzlichen Korrelationsstruktur auf die Rankings zu berücksichtigen. „…
Sind Korrelationsanalysen nicht zu technisch, zu analytisch?!! Das mag zwar als Grundlage dienen, aber berücksichtigt weder Userbedürfnisse noch produktspezifische Komponenten. Die spannende Aussage des Interviews liegt in der Qualität des Contents und dessen Einfluss.

 

[…] Korrelationsanalysen zu einzelnen Google Rankingfaktoren sorgen nicht mehr nur bei unseren Mathematik-affinen Kollegen für Verwirrung. In einem Interview im Sistrix-Blog klärt Dr. Steffen Wagner über die Probleme bei diesen statistischen Analysen auf und zeigt, warum es so schwer ist,  Zusammenhänge zu den Google Ergebnissen herzustellen. […]

 

[…] Über die Aussagekraft von Studien über Rankingfaktoren haben wir ein Interview mit mit dem Statistik-Experten Dr. Steffen Wagner geführt, das tiefere Einblicke in die Probleme der Analyseverfahren […]

 
  17. Juni 2013, 10:36

Erst jetzt diesen Beitrag gesehen. Vor dem Hintergrund der aktuellen „Rankingdaten-Veröffentlichung 2013“ sehr lesenswert 🙂

 
  7. August 2013, 10:41

Nizza Artikel Dude .. Vielen Dank für das

 
  22. August 2013, 14:00

Ja, diese Spekulationen über die Reihenfolge der Suchergebnisse bei den Suchmaschinen. Wirklich spannend.

 
  24. Juli 2014, 09:28

Danke so sehr für die Zeit nehmen, zu teilen … sehr nützlich, ja!

 

Kommentare geschlossen

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.