Steuerung der Suchmaschinenindexierung

Johannes Beus
Johannes Beus
25. April 2008
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Derzeit erzähle ich auf der SEMSEO in Hannover etwas dazu, welche Seiten man überhaupt für Suchmaschinen erreichbar machen sollte, welche Gründe es dafür gibt und wie man sowas technisch umsetzt. Sowohl zum Nachlesen für die Anwesenden, als auch zur Information für die, die es leider nicht nach Hannover schaffen konnten, hier kurz der Inhalt.

Früher, ganz ganz früher hat Google jede Seite in den Suchindex aufgenommen, die dem Googlebot in die Finger kam. Zum einen war das Internet noch recht übersichtlich und die vorhandenen Inhalte in den meisten Fällen durchaus so gut, dass man sie aufnehmen konnte; zum anderen wurde die Qualität einer Suchmaschine damals häufig noch mit der Zahl der indexierten Seiten gleichgesetzt – wenn Yahoo einen etwas höheren Wert nannte, hat Google schnell nachgezogen und den internen Nummerngenerator angeworfen. Dieses Vorgehen wurde dann zusehends zu einem Problem, da die Anzahl der Seiten schneller wuchs, als Google neue Server hinstellen konnte. Scriptsprachen in Verbindung mit der damals gerade veröffentlichten Amazon-API, CSV-Produktlisten wie die von Zanox und weitere Möglichkeiten taten ihr übriges. Google hat sich dann entschlossen, die maximale Anzahl der indexierbaren Seiten einer Domain zu begrenzen und durch die Einführung des Supplemental Indexes wichtige von unwichtigen Seiten zu trennen. Das Problem ist nun, dass Maschinen Fehler machen. Wenn Google sich jetzt beispielsweise entscheidet, dass es lieber die PDF-Druckversionen der Artikelbeschreibungen aufnehmen will und die eigentlichen HTML-Seiten inklusive der Bestellmöglichkeit außen vor lässt, so hat ein Onlineshop erstmal ein großes Problem. Als Lösungsmöglichkeit bietet sich an, dem Googlebot das Indexieren der PDFs zu verbieten und so die Entscheidung, welche Seiten in den Index aufzunehmen sind, abzunehmen.

Die Frage, welche Seiten man in den Suchmaschinenindex lassen sollte und für welche man dies besser verbietet, ist leider schwer pauschal zu beantworten. Zu speziell und unterschiedlich sind Webseiten, als dass verallgemeinernde Tipps hier sonderlich hilfreich sind. Gedanken sollte man sich auf jeden Fall über Meta-Seiten, wie das Impressum, die Datenschutzerklärung sowie die AGB machen. Auch Seitentypen, die internen oder externen Duplicate Content produzieren, sollten lieber draußen bleiben. Suchergebnisse (das Thema Serps-in-Serps hatten wir hier ja erst vor kurzem) sind ebenfalls ein heißer Kandidat. Hier wird jeder seine eigenen Webprojekte kritisch beleuchten müssen, um eine sinnvolle Auswahl zu finden.

Für die technische Umsetzung gibt es nun drei grundlegende Möglichkeiten. Der Weg über die „robots.txt“ dürfte allen, die sich schon mal mit dem Thema Suchmaschinen beschäftigt haben, bekannt sein. Es ist eine simple Textdabei, die im Rootverzeichnis des Webauftrittes liegt und in einfacher Form Verbote für Suchmaschinencrawler enthält. Der Vorteil hierbei ist, dass die Umsetzung einfach und schnell geht und man die ganze Verwaltung zentral in dieser einen Datei vornehmen kann. Leider ist sie aber auch recht unflexibel, was die Möglichkeiten der Verbote angeht und ab und an vergessen Suchmaschinen auch schon mal, sich an die Vorgaben zu halten. Gut funktioniert der Weg über die robots.txt, wenn man beispielsweise komplette Verzeichnisse sperren will.

Die zweite Umsetzungsmöglichkeit besteht über den Robots-Metatag im HTML-Header der Seite. Nahezu alle Suchmaschinenbetreiber haben sich hier auf die Umsetzung dieser Möglichkeit verständigt. Das schöne an dieser Lösung ist, dass man – nicht wie bei der robots.txt – Seiten nur binär (rein/raus) bearbeiten kann, sondern durch Angaben wie „noindex, follow“ die Seite zwar aus dem Suchindex draußen halten kann, sie aber weiterhin zur Stärkung der internen Verlinkung nutzt. Nachteilig ist, dass die Umsetzung, je nach zugrundeliegendem System, relativ komplex werden kann. Eine Abwandlung dieser Möglichkeit besteht seit einigen Monaten darin, dass man die Angaben aus dem Robots-Metatag auch im HTTP-Header einer Seite übergeben kann. Dies ist insbesondere für Dateitypen, die keinen HTML-Header haben, geeignet: PDFs, Downloads, etc.

[Update] Ich bin jetzt endlich dazu gekommen, die Folien online zu stellen. Um weiterzukommen, auf den rechten Teil des Bildes klicken:

Ähnliche Beiträge
Kommentare
Henrik   
25. April 2008, 13:21

Gibt es nicht auch noch die Möglichkeit per Sitemap(.xml) auszuschließen?

sbrinkmann   
25. April 2008, 12:42

Merkwürdig nur: Wie kriege ich wirklich zuverlässig die Zahl der Seiten im Index raus? Mit „site:“ bekomme ich eine Zahl, aber wenn ich unterbereiche einer Site abfrage, stimmt die Summe am Schluss nicht mehr. Oder wirft Google bei „site:www.domain.de“ nicht die Gesamtzahl aus?

Pepino   
25. April 2008, 13:03

Korrekt, die Gesamtzahl ist ein Geheimnis von Big-G.

Klaus   
25. April 2008, 13:34

@Henrik: Wie willst du denn per Sitemap.xml Seiten ausschließen. Damit sagst du ja Google, welche Seiten in den Index kommen sollen und welche ev. bei DC vorgezogen werden sollen. Aber es heißt ja nicht dass Seiten die nicht in der Sitemap sind nicht indexiert werden sollen.

Bennos   
25. April 2008, 14:43

@sbrinkmann
Insbesondere bei grossen/grösseren Seiten entspricht die angezeigte Zahl eher einer Schätzung, als den realen wert.

@henrik
so eine Funktion ist in dem Sitemap.org Format gar nicht vorgesehen. Sinn macht das nur auf der Page mit den passenden Meta Tags, so wie Johannes es beschrieben hat.

samy   
25. April 2008, 15:31

suma-steuerung: es ist doch im prinzip – so wie bei der rechtsprechung – heute dieser richter und diese rechtsmeiung mit urteilsverkündung („im namen des . . „) – ach andere meiungen und ansichten und andere rechtsfindungen: so ist es wohl auch mit dem google procedere: häufige änderungen und anpassungen! also, bleiben wir flexibel. unsere tante g* macht was sie will (ohne ansage!).

sbrinkmann   
25. April 2008, 16:47

Nächstes Problem: Bei „Das Web“ und „Seiten auf Deutsch“ kriege ich sehr unterschiedliche Zahlen. Ist das auch so ein Google-Geheimnis oder werden die Zahlen mittelfristig angeglichen?

Christian Schmidt Internet Blog   
26. April 2008, 01:15

Nein ganz so schlimm ist es jetzt wirklich nicht. Ich sitze hier gerade im Zug nach Hause und tippe diese netten kleinen und kurzen Blogbeitrag zur Semseo / Pubcon 2008. Als allererstes vielen Dank Alan für diesen netten Tag, war zwar diesmal ni…

lexa   
27. April 2008, 20:22

Hi !
Wie kann man einem Googlebot das Indexieren der PDF`s verbieten ?
Das ist etwas was mich dringend interessiert.
Gruß lexa

Sebastian Brinkmann   
27. April 2008, 21:28

@lexa: Du kannst die PDF-Dateien in einen Ordner packen und diesen dann per Robots.txt ausschließen.

Johannes   
28. April 2008, 11:21

sbrinkmann, um die konkrete Zahl würde ich mir gar nicht mal soviel Gedanken machen. Es geht eher um die Veränderung der Zahl über eine größeren Zeitraum. Also regelmäßig die Werte abfragen und speichern, dabei immer die gleiche Abfragemethode und, wenn es geht, auch eine statische IP-Adresse nutzen.

Johannes   
28. April 2008, 11:23

lexa, eine andere Methode ist der „X-Robots-Header“. Habe ich in dem Vortrag auch kurz erwähnt, müsste auf den Folien drauf sein. Das schöne an diesem Header ist, dass er für alle Dateitypen genutzt werden kann und nicht nur für HTML-Dateien.

lexa   
29. April 2008, 00:05

Hi !
Ich gedenke eine Onn/Off-Page Optimierung machen zu lassen. Liegt das mit dem ausschließen einiger Seiten für den Googlebot im Aufgabenbereich eines Optimierers ???
Gruß lexa

Johannes   
29. April 2008, 08:26

lexa, je nach Seite sowie Erfordernissen der Optimierung kann es gut sein, dass der beauftragte Optimierer mit diesem Werkzeug arbeiten sollte, ja.

SEO Mobile   
29. April 2008, 10:49

So, wieder zurück aus Hangover! Die diesjährige PubCon fand aufgrund der hohen Zahl der Teilnehmer in der Stadtbrauerei HBX statt und nicht, wie sonst, im Irish Pub Jack The Rippers. Abgesehen davon, dass man wie immer nette und interessante Leute aus der

fox-tutorials   
6. Mai 2008, 16:02

Um eine genauere Zahl der indexierten Seiten zu erhalten ist es immer hilfreich Yahoo anzufragen. Auch diese Zahl ist dann zwar nur eine Näherung aber definitiv genauer als die von Google.

oli   
13. Mai 2008, 01:37

Was mich etwas verwirrt sind die beiden Aussagen in den Folien:
„Was gehört nicht in den Google Index – Impressum“
„Kontaktseite für die Erkennung Ihres Standortes (lokale Suche) drin lassen.“

Bei vielen Seiten (z.B. auch bei sistrix.com) ist die Kontaktseite und das Impressum kombiniert auf einer Seite – sperren oder nicht?
Und wenn man zwei getrennte Seiten dafür hat steht die Anschrift auch eher nur auf der Impressumsseite und nicht unbedingt auf dem Kontaktformular. Wenn man jetzt wegen der lokalen Suche extra die Adresse nochmals auf Kontakt wiederholt, worin besteht dann noch der Sinn das Impressum zu sperren?

Johannes   
13. Mai 2008, 08:47

oli, ich glaube, dass die Maßnahmen dort sowieso eher für Projekte interessant sind, die (sehr) viele Seiten haben. Hier sind es vielleicht maximal 1.000 – da wird Google sich schon nicht verschlucken und alle in den Index aufnehmen.

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.

Kostenlosen Testaccount jetzt aktivieren

Aktiviere jetzt deinen kostenlosen Testaccount für die SISTRIX Toolbox. Garantiert ohne Kosten und unverbindlich. Jetzt aktivieren!