Supplemental Index – Webseiten zweiter Klasse?

Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Seit seiner Einführung 2003 ist der sogenannte „Supplemental Index“ Gegenstand zahlreicher Diskussionen und Fragen: Was ist der Supplemental Index überhaupt, wieso ist eine Seite drin und wie bekommt man sie dort wieder raus, welche Auswirkungen hat der Supplemental Index auf das Ranking der Seiten? Da dieser Blogpost etwas umfangreicher ausgefallen ist, habe ich ihn auf 3 Postings und 3 Tage gesplittet.

Google selber schreibt, dass die „Supplemental Results“ aus dem „Supplement Index“ stammen. Dort seien Seiten, die nicht alle Ansprüche an den normalen Index erfüllen enthalten. Als Beispiel wird genannt, dass etwa die Anzahl der Parameter zu hoch sei, um in den ersten Index zu gelangen und die Seite deswegen im zweiten Index zu finden sei. Die Zuteilung, ob nun erster oder zweiter Index werde automatisiert vorgenommen.

Auch, wenn Google die Größenangabe zu seinem Index schon vor längerer Zeit von der Startseite entfernt hat, so kann man wohl davon ausgehen, dass deutlich mehr als 10 Milliarden Webseiten im Googleindex liegen dürften. Wenn man den Schätzungen der Experten bei Wikipedia glaubt, so dürfte das „Deep Web“, also der Teil des Internet, der nicht von Suchmaschinen wie Google indexiert ist, bei 500 Milliarden Webseiten liegen. Da auch Google Technikbeschränkungen unterliegt und mehr indexierte Seiten nicht unbedingt bedeuten, dass die Qualität des Indexes steigt, muss Google sich nun also überlegen, welche Seiten aufgenommen werden. Google scheint hierbei auf ein zweistufiges System zu bauen: Erster und Zweiter – oder auch Supplemental – Index. Da bei den recht restriktiven Einschränkungen, die für die Aufnahme in den ersten Index bestehen, Seiten, die eventuell die Informationen enthalten, die gesucht werden, nicht aufgenommen werden, gibt es einen zweiten Index, bei dem die Aufnahmekriterien herabgesetzt wurden.

Um festzustellen, ob und wenn ja, wie viel Seiten einer Domain derzeit im Google Supplemental-Index sind, kann derzeit (Google ändert das ab und an mal) folgende Abfrage verwendet werden: „site:domain.tld *** -gjfhgh“. Für diese Domain ergibt die Abfrage derzeit knapp 40 Seiten – im ersten Index befinden sich rund 770. Dass für eine Domain überhaupt keine Seiten im Supplemental Index sind, ist äußerst ungewöhnlich, ein paar finden sich dort immer – sogar bei der Wikipedia und Google selber. Das Verhältnis zwischen Seiten im ersten und zweiten Index kann als Indikator für mögliche Probleme mit der Domain genutzt werden. Dafür dividiert man die Zahl der Seiten im Supplemental Index durch die im ersten Index. Je näher diese Zahl der 1 kommt, desto mehr Seiten der Domain betroffen. Während diese Domain mit knapp 6% aller Seiten recht gut dasteht, haben Linkkataloge wie beispielsweise „linkheim.de“ Werte von 70 Prozent und mehr. Bei sehr großen Seiten mit mehreren hundertausend Seiten funktioniert dieses Verfahren leider nicht mehr zuverlässig – Google „rät“ die Zahl der Seiten im Supplemental Index dann zu ungenau.

Morgen geht es dann weiter mit möglichen Gründen, die eine Verschiebung vom ersten in den zweiten Index bewirken können.

Teil I: Webseiten zweiter Klasse?
Teil II: Wieso hat es mich erwischt?
Teil III: Wie entkomme ich dem Google Hell?

Ähnliche Beiträge
Kommentare
Avatar Michael   
5. Juni 2007, 16:39

Hallo Sistrix

Vielen Dank für deinen Artikel. Man kennt es ja schon länger, aber ich habe es gerade mal wieder ausprobiert und mit erstaunen festgestellt, dass einige wichtige Seiten da drinnen stecken. Schon lange war ein Abfall bei den Keys zu merken. Nun kurz durch copyscape gejagt und da hatten wir es schon. Irgendwelche Witzbolde haben den Content einfach als Bewertung in große Vergleiche kopiert und dadurch DC entstehen lassen. Jetzt muss ich das umschreiben, um wieder unique content zu haben. Also, vielen Dank dafür…

Avatar Johannes   
5. Juni 2007, 22:53

Michael, doppelte Inhalte sind nur ein möglicher Grund für die Verschiebung von Seiten von ersten in den zweiten Index. Morgen werd ich noch ein paar weitere Gründe nennen – aber schonmal schön, dass es dir etwas geholfen hat.

Avatar Robert Hartl   
6. Juni 2007, 02:42

Danke für den Artikel.
Soweit ich weiß, ist es egal, was hinter dem „(…) *** -“ steht.
Auch Seiten, die (fast) nur mit nofollow verlinkt sind, landen alle im sup – egal ob duplicate oder individuell.

Avatar Johannes   
6. Juni 2007, 08:54

Robert, was hinter dem „-“ steht ist prinzipiell egal, es sollte nur nicht auf der Webseite vorkommen. Deswegen sind Konsonantenreihen recht praktisch und ausserdem liegen „ghj“ so schön nebeneinander auf der Tastatur 🙂

Avatar Themenrelevant   
6. Juni 2007, 14:51

Um die Feed Indizierung zu verhindern verwende ich bei WordPress meistens folgende Kombi:

Disallow: */feed/
Allow: /feed/

Diese hat den Vorteil, dass der Hauptfeed noch indiziert wird.

Gruß Fabian

Avatar NilsR   
6. Juni 2007, 13:08

Cool,
vielen Dank für diese Artikelreihe.

In meinem Blog sind vor allem die artikel-url/feed/ Dateien im SI drin. Weiss jmd. wie ich die am besten per robots.txt ausschliesse?

Dann sind da noch einige /page/20/ drin, was wohl auf die fehlende Verlinkung zurückzuführen ist. Gab es dan nicht einmal ein WP-Plugin Pagination oder so?

Insgesamt komme ich auf 46% – das erschreckt mich schon…

Avatar Johannes   
6. Juni 2007, 13:42

Für die Feeds könntest du es – kein Gewähr, kann auch daneben gehen, da ungetestet, mit:

User-agent: Googlebot
Disallow: /*/feed/$

probieren.

Avatar Online PR-Portal   
6. Juni 2007, 17:46

Danke für diesen Artikel. Vor allem der Rechen weg ist interessant. Ich kann jeden, der sich mit Supplemental Index und vor allem Duplicate Content beschäftigt, die folgende Seite nahe legen: http://www.art2digital.com/new-media/suchmaschinen-marketing/problem-duplicate-content.html
Mike

Avatar NilsR   
8. Juni 2007, 10:42

Danke Johannes, werde ich mal so ausprobieren….

Avatar Frank (Affilinator)   
8. Juni 2007, 11:45

Wirklich ein guter Beitrag, wird gleich verlinkt.
Wo hast du denn die Abfrage für den Supplemental-Index her ?

Avatar Johannes   
8. Juni 2007, 11:50

Geheimes SEO-Wissen 🙂 Ne, das ging Anfang des Jahres so durch Blogs und Foren. Davon war die Abfrage ja nur durch die * zu erzielen, dann hatte Google was geändert und jetzt kommt man so weiter.

Avatar Michael   
11. Juni 2007, 14:23

gibt es eigentlich eine möglichkeit den gesammten supplemental index zu löschen?

wir haben hin und wieder änderungen in den artikel url´s und dann landen die anfragen auf der suchseite vom shop. google löscht diese seiten nicht sondern packt sie in den SI.

logish… aber wie kann man das problem ohne aufwand lösen?

Johannes   
11. Juni 2007, 14:25

Bei Seiten, die nicht existieren, den korrekten HTTP-Fehler-Code zurück geben, bei euch dürfte das dann 404 oder 410 sein. Eine „Alles Löschen“ Funktionen für den Supplemental-Index gibt es nicht, es ist ein langer und je nach Projekt auch recht zeitintensiver Weg, dort wieder rauszukommen.

Avatar Frank   
17. Juni 2007, 23:18

Ich muss doch noch mal fragen:
google.de/search?q=site%3Asistrix.com+***+-ghfhg <- was hat eigentlich der Code hinter +-…. zu sagen ?
Wenn ich den nämlich verändere, verändert sich auch das Ergebnis nicht unwesentlich (Millionen) ?!

Avatar Johannes   
18. Juni 2007, 09:07

Frank, was hinter dem „-“ steht ist eigentlich egal, es sollte nur auf keiner deiner Seiten vorkommen. Bei sehr großen Seiten ist bekannt, dass Google nicht zählen kann und je nach Sonnenstand, Rechenzentrum und Wetter sehr unterscheidliche Ergebnisse rauskommen. Da es aber meistens eher um die Veränderungen geht, kann das egal sein und man sollte versuchen, die Abfrageparameter gleich zu halten, beispielsweise eine feste Rechenzentrum-IP.

Avatar Anwälte in Vulkane werfen   
20. Juni 2007, 12:46

Das Thema Supplemental Index und Duplicate Content ist derzeitig nicht zuletzt dank der dreiteiligen Artikelserie von Sistrix in aller Munde. In einer ruhigen Minute habe ich mir meine Ergebnisse der Abfrage „site:anwaelte-in-vulkane-werfen.de …

Avatar Seo Watchblog   
24. Juni 2007, 16:32

Ich unterbreche mal meine Strucktur, mit dem Grundlagen anzufangen und dadurch für den Leser nach und nach an die Suchmschinenoptimierung heranzuführen. Das wird noch oft passieren, da ich mich hier auch mit aktuellen Problemen meiner Seiten …

Avatar Lisa   
12. Juli 2007, 17:27

Hallo,

ich habe den sehr interessanten Artikel gerade gelesen und habe ein paar (blöde) Fragen. Vielleicht bist du so nett und beantwortest mir diese.

Ich habe in deinem Artikel auf die Links „Abfrage“ und „Index“ geklickt, um mir anzugucken, wie das bei dir aussieht. Ich zähle aber in beiden „Suchergebnissen“ ca. 700 Seiten! Was mache ich falsch?

Darf man nur bestimmte Seiten zählen?

Dann habt Ihr ja gesagt, dass die Endung egal ist. Ich habe mal „site:sistrix.com*** -dfgdf“ eingegeben und da erscheinen eine Menge Seiten, die aber nichts mit deiner Seite zutun haben. Habe ich zufälligerweise eine Kombination gewählt, die auf deiner Seite irgendwo vorhanden ist?

Vielen Dank im Voraus!

Avatar Harald   
20. Juli 2007, 15:06

Ahh hier ist die Erklärung die ich im Letzten Beitrag gesucht habe. Du sagt man könnte so site:domain.tld *** -gjfhgh die Seiten im Suplemental Index feststellen.
Sorry, aber mit site:domain.tld *** -gjfhgh kann ich wirklich nicht viel anfangen. kann du vllt dein google link für die Suplemental seiten deiner domain befügen, dann kann ich statdessen einfach meine einsetzten und weiß bescheid 😉

Avatar Harald   
20. Juli 2007, 16:04

ahh sorry das haste jetzt falsch verstanden site:domain.tld *** -gjfhgh sah einfach wirklich komisch aus. und mir wurden komischerweise alle meiner seiten angezeigt. was mich doch sehr verwundern lies. ich habe eben eine andere seite angegeben und dann ging es. ich denke mal das ist darauf zurückzuführen, dass ich für jede seite noch eine druckansicht hinterlegt habe. ist eine druckansicht nun wirklich schädigend für meine SERPS??? warum wird da nicht einfach die seite mit der besseren verlinkung genommen anstatt alle seiten in den Supplemental-Index zu packen???

Avatar Johannes   
20. Juli 2007, 15:09

Ehrlich gesagt nicht. Ich mach mir hier mit dem Blog recht viel Arbeit, beschreibe viele Sachen ausführlich und das ganze kostenlos. Wenn du nun Probleme hast, domain.tld mit deiner Domain auszuatsuchen, so kannst du mir gerne den üblichen Tagessatz zahlen und ich mache das, aber irgendwo ist auch mal Schluß mit Händchenhalten.

Avatar E-Murphy   
16. Oktober 2007, 11:47

Hallo zusammen

Ich habe von meinem Forum http://www.heiler-forum.eu sehr viele Seiten im Supplemental Index. Was müsste ich den ändern um das zu verbessern.

Würde mich sehr über ein paar Ratschläge freuen.

Gruß E-Murphy

Johannes   
8. Januar 2008, 20:30

Trainer, es gibt zwar immer Abkürzungen doch diese haben alle gemeinsam, dass sie nur für eine begrenzte Zeit funktionieren. Mit etwas Pech schaden sie sogar der kompletten Webseite. Investiere also lieber einmal die Zeit und die Arbeit in eine saubere und zukunftsfähige Lösung als beständig an einem Provisorium rumzudockern.

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.
SISTRIX Livestream
SISTRIX Weihnachtsaktion 2020