Supplemental Index – Webseiten zweiter Klasse?

Johannes Beus

(Autor)

Veröffentlicht: 05.06.2007

Seit seiner Einführung 2003 ist der sogenannte „Supplemental Index“ Gegenstand zahlreicher Diskussionen und Fragen: Was ist der Supplemental Index überhaupt, wieso ist eine Seite drin und wie bekommt man sie dort wieder raus, welche Auswirkungen hat der Supplemental Index auf das Ranking der Seiten? Da dieser Blogpost etwas umfangreicher ausgefallen ist, habe ich ihn auf 3 Postings und 3 Tage gesplittet.

Google selber schreibt, dass die „Supplemental Results“ aus dem „Supplement Index“ stammen. Dort seien Seiten, die nicht alle Ansprüche an den normalen Index erfüllen enthalten. Als Beispiel wird genannt, dass etwa die Anzahl der Parameter zu hoch sei, um in den ersten Index zu gelangen und die Seite deswegen im zweiten Index zu finden sei. Die Zuteilung, ob nun erster oder zweiter Index werde automatisiert vorgenommen.

Auch, wenn Google die Größenangabe zu seinem Index schon vor längerer Zeit von der Startseite entfernt hat, so kann man wohl davon ausgehen, dass deutlich mehr als 10 Milliarden Webseiten im Googleindex liegen dürften. Wenn man den Schätzungen der Experten bei Wikipedia glaubt, so dürfte das „Deep Web“, also der Teil des Internet, der nicht von Suchmaschinen wie Google indexiert ist, bei 500 Milliarden Webseiten liegen. Da auch Google Technikbeschränkungen unterliegt und mehr indexierte Seiten nicht unbedingt bedeuten, dass die Qualität des Indexes steigt, muss Google sich nun also überlegen, welche Seiten aufgenommen werden. Google scheint hierbei auf ein zweistufiges System zu bauen: Erster und Zweiter – oder auch Supplemental – Index. Da bei den recht restriktiven Einschränkungen, die für die Aufnahme in den ersten Index bestehen, Seiten, die eventuell die Informationen enthalten, die gesucht werden, nicht aufgenommen werden, gibt es einen zweiten Index, bei dem die Aufnahmekriterien herabgesetzt wurden.

Um festzustellen, ob und wenn ja, wie viel Seiten einer Domain derzeit im Google Supplemental-Index sind, kann derzeit (Google ändert das ab und an mal) folgende Abfrage verwendet werden: „site:domain.tld *** -gjfhgh“. Für diese Domain ergibt die Abfrage derzeit knapp 40 Seiten – im ersten Index befinden sich rund 770. Dass für eine Domain überhaupt keine Seiten im Supplemental Index sind, ist äußerst ungewöhnlich, ein paar finden sich dort immer – sogar bei der Wikipedia und Google selber. Das Verhältnis zwischen Seiten im ersten und zweiten Index kann als Indikator für mögliche Probleme mit der Domain genutzt werden. Dafür dividiert man die Zahl der Seiten im Supplemental Index durch die im ersten Index. Je näher diese Zahl der 1 kommt, desto mehr Seiten der Domain betroffen. Während diese Domain mit knapp 6% aller Seiten recht gut dasteht, haben Linkkataloge wie beispielsweise „linkheim.de“ Werte von 70 Prozent und mehr. Bei sehr großen Seiten mit mehreren hundertausend Seiten funktioniert dieses Verfahren leider nicht mehr zuverlässig – Google „rät“ die Zahl der Seiten im Supplemental Index dann zu ungenau.

Morgen geht es dann weiter mit möglichen Gründen, die eine Verschiebung vom ersten in den zweiten Index bewirken können.

Teil I: Webseiten zweiter Klasse?
Teil II: Wieso hat es mich erwischt?
Teil III: Wie entkomme ich dem Google Hell?

Johannes Beus

(Autor)

Veröffentlicht: 05.06.2007