Wie kommen die unterschiedlichen Werte zu den indexierten Seiten bei der Google-Suche, der GSC und SISTRIX zustande?

Manchmal kommt es vor, dass die Kennzahlen aus einer Google site:-Abfrage, der Google Search Console (GSC) und der SISTRIX Toolbox nicht übereinstimmen.

Die Daten einer Google site:-Abfrage und den der GSC lassen sich per se nicht miteinander vergleichen, da die Zahlen in der Search Console von Google gesondert berechnet werden. Daher kommen sie zu anderen Ergebnissen, die auch zu anderen Zeitpunkten veröffentlicht werden.

Vergleich der indexierten Seiten: Google site:-Abfrage und die SISTRIX-Daten

Google site:-Abfrage der Domain zalando.de am 05.01.2013

Google site:-Abfrage der Domain zalando.de am 05.01.2013

SISTRIX-Daten der Domain zalando.de. Letzter Datenpunkt vom 29.12.2012

SISTRIX-Daten der Domain zalando.de. Letzter Datenpunkt vom 29.12.2012

Bei der Auswertung zweier Datensätze gilt es immer das Erhebungsdatum zu berücksichtigen. In dem gezeigten Beispiel sind die Daten der Google site:-Abfrage aktueller.

Die Anzahl der indexierten Seiten in der SISTRIX Toolbox ist ein Durchschnittswert

Die Anzahl indexierter Seiten ist laut Aussagen von Google bei über 1.000 Seiten eine grobe Schätzung. (Man beachte das Wort „Ungefähr“ vor den Ergebnissen). Um die größten Ausreißer zu eliminieren, erheben wir die SISTRIX-Daten mehrmals wöchentlich und errechnen dann einen Durchschnittswert. Wir führen dabei Abfragen mit dem Befehl site: bei Google durch. Unsere Zahlen kommen also von Google, wir berechnen nur noch zusätzlich einen Durchschnittswert. Wenn die Zahlen zwischenzeitlich bei uns gesunken (oder gestiegen) sind, dann sind das die Zahlen, die Google bei der site:-Abfrage so ausgeliefert hat. Zudem setzten wir immer nur dann einen neuen Datenpunkt, wenn eine Veränderung zu einem Mittelwert erkannt wurde.

Stark schwankende Werte sollten untersucht werden

Trotzdem sollte man sich bei stark schwankenden Werten mit der Ursache beschäftigen. In vielen Fällen sind Duplicate Content oder Inhalte, die Google als wenig wertvoll einstuft, die Ursache. Google indexiert die Seiten erst einmal (die Anzahl indexierter Seiten geht hoch) und filtert Duplikate und weniger wertvolle Seiten dann wieder aus (die Anzahl indexierter Seiten geht runter). Dies gilt ebenfalls für z.B. Druckversionen, Sessions IDs, Affiliate-Links u.a.

Beispiel anhand von red-simon.com

Um die Ursache näher zu beleuchten sollte man manuell eine site:-Abfrage bei Google in der Form site:red-simon.com durchführen und sich dann insbesondere die hinteren Treffer anschauen.

Google Siteabfrage von red-simon.com

Google Siteabfrage von red-simon.com

Bei red-simon.com sieht man, dass sehr viele dynamische URLs in den Suchergebnissen zu finden sind, die viele Parameter enthalten; wie z.B. red-simon.com/data/cmsv2.asp?mid=41&sid=1&pid=533

Diese Inhalte sind wahrscheinlich unter verschiedenen URLs erreichbar und somit Duplikate. Teilweise werden sie auch per 302-Redirect weitergeleitet, was Google nicht versteht. Bei Weiterleitungen sollte man immer 301-Redirects verwenden.

Es wäre sicherlich gut für die Website, wenn man die dynamischen URLs entfernt und durch statische URLs ersetzt. mod_rewrite wäre hier z.B. ein Lösungsansatz.

Related Topics

SEO-Themen von A bis Z