Steuerung der Suchmaschinenindexierung
Derzeit erzähle ich auf der SEMSEO in Hannover etwas dazu, welche Seiten man überhaupt für Suchmaschinen erreichbar machen sollte, welche Gründe es dafür gibt und wie man sowas technisch umsetzt. Sowohl zum Nachlesen für die Anwesenden, als auch zur Information für die, die es leider nicht nach Hannover schaffen konnten, hierDie Frage, welche Seiten man in den Suchmaschinenindex lassen sollte und für welche man dies besser verbietet, ist leider schwer pauschal zu beantworten. Zu speziell und unterschiedlich sind Webseiten, als dass verallgemeinernde Tipps hier sonderlich hilfreich sind. Gedanken sollte man sich auf jeden Fall über Meta-Seiten, wie das Impressum, die Datenschutzerklärung sowie die AGB machen. Auch Seitentypen, die internen oder externen Duplicate Content produzieren, sollten lieber draußen bleiben. Suchergebnisse (das Thema Serps-in-Serps hatten wir hier ja erst vor kurzem) sind ebenfalls ein heißer Kandidat. Hier wird jeder seine eigenen Webprojekte kritisch beleuchten müssen, um eine sinnvolle Auswahl zu finden.
Für die technische Umsetzung gibt es nun drei grundlegende Möglichkeiten. Der Weg über die „robots.txt“ dürfte allen, die sich schon mal mit dem Thema Suchmaschinen beschäftigt haben, bekannt sein. Es ist eine simple Textdabei, die im Rootverzeichnis des Webauftrittes liegt und in einfacher Form Verbote für Suchmaschinencrawler enthält. Der Vorteil hierbei ist, dass die Umsetzung einfach und schnell geht und man die ganze Verwaltung zentral in dieser einen Datei vornehmen kann. Leider ist sie aber auch recht unflexibel, was die Möglichkeiten der Verbote angeht und ab und an vergessen Suchmaschinen auch schon mal, sich an die Vorgaben zu halten. Gut funktioniert der Weg über die robots.txt, wenn man beispielsweise komplette Verzeichnisse sperren will.
Die zweite Umsetzungsmöglichkeit besteht über den Robots-Metatag im HTML-Header der Seite. Nahezu alle Suchmaschinenbetreiber haben sich hier auf die Umsetzung dieser Möglichkeit verständigt. Das schöne an dieser Lösung ist, dass man – nicht wie bei der robots.txt – Seiten nur binär (rein/raus) bearbeiten kann, sondern durch Angaben wie „noindex, follow“ die Seite zwar aus dem Suchindex draußen halten kann, sie aber weiterhin zur Stärkung der internen Verlinkung nutzt. Nachteilig ist, dass die Umsetzung, je nach zugrundeliegendem System, relativ komplex werden kann. Eine Abwandlung dieser Möglichkeit besteht seit einigen Monaten darin, dass man die Angaben aus dem Robots-Metatag auch im HTTP-Header einer Seite übergeben kann. Dies ist insbesondere für Dateitypen, die keinen HTML-Header haben, geeignet: PDFs, Downloads, etc.
[Update] Ich bin jetzt endlich dazu gekommen, die Folien online zu stellen. Um weiterzukommen, auf den rechten Teil des Bildes klicken: Folie #1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14
schrieb am 25.04.2008 um 12:42 Uhr
Merkwürdig nur: Wie kriege ich wirklich zuverlässig die Zahl der Seiten im Index raus? Mit "site:" bekomme ich eine Zahl, aber wenn ich unterbereiche einer Site abfrage, stimmt die Summe am Schluss nicht mehr. Oder wirft Google bei "site:www.domain.de" nicht die Gesamtzahl aus?schrieb am 25.04.2008 um 13:03 Uhr
Korrekt, die Gesamtzahl ist ein Geheimnis von Big-G.schrieb am 25.04.2008 um 13:21 Uhr
Gibt es nicht auch noch die Möglichkeit per Sitemap(.xml) auszuschließen?schrieb am 25.04.2008 um 13:34 Uhr
@Henrik: Wie willst du denn per Sitemap.xml Seiten ausschließen. Damit sagst du ja Google, welche Seiten in den Index kommen sollen und welche ev. bei DC vorgezogen werden sollen. Aber es heißt ja nicht dass Seiten die nicht in der Sitemap sind nicht indexiert werden sollen.schrieb am 25.04.2008 um 14:43 Uhr
@sbrinkmannInsbesondere bei grossen/grösseren Seiten entspricht die angezeigte Zahl eher einer Schätzung, als den realen wert.
@henrik
so eine Funktion ist in dem Sitemap.org Format gar nicht vorgesehen. Sinn macht das nur auf der Page mit den passenden Meta Tags, so wie Johannes es beschrieben hat.
schrieb am 25.04.2008 um 15:31 Uhr
suma-steuerung: es ist doch im prinzip - so wie bei der rechtsprechung - heute dieser richter und diese rechtsmeiung mit urteilsverkündung ("im namen des . . ") - ach andere meiungen und ansichten und andere rechtsfindungen: so ist es wohl auch mit dem google procedere: häufige änderungen und anpassungen! also, bleiben wir flexibel. unsere tante g* macht was sie will (ohne ansage!).schrieb am 25.04.2008 um 16:47 Uhr
Nächstes Problem: Bei "Das Web" und "Seiten auf Deutsch" kriege ich sehr unterschiedliche Zahlen. Ist das auch so ein Google-Geheimnis oder werden die Zahlen mittelfristig angeglichen?Trackback - Christian Schmidt Internet Blog - 26.04.2008 01:15
Nein ganz so schlimm ist es jetzt wirklich nicht. Ich sitze hier gerade im Zug nach Hause und tippe diese netten kleinen und kurzen Blogbeitrag zur Semseo / Pubcon 2008. Als allererstes vielen Dank Alan für diesen netten Tag, war zwar diesmal ni...
schrieb am 27.04.2008 um 20:22 Uhr
Hi !Wie kann man einem Googlebot das Indexieren der PDF`s verbieten ?
Das ist etwas was mich dringend interessiert.
Gruß lexa
schrieb am 27.04.2008 um 21:28 Uhr
@lexa: Du kannst die PDF-Dateien in einen Ordner packen und diesen dann per Robots.txt ausschließen.schrieb am 28.04.2008 um 11:21 Uhr
sbrinkmann, um die konkrete Zahl würde ich mir gar nicht mal soviel Gedanken machen. Es geht eher um die Veränderung der Zahl über eine größeren Zeitraum. Also regelmäßig die Werte abfragen und speichern, dabei immer die gleiche Abfragemethode und, wenn es geht, auch eine statische IP-Adresse nutzen.schrieb am 28.04.2008 um 11:23 Uhr
lexa, eine andere Methode ist der "X-Robots-Header". Habe ich in dem Vortrag auch kurz erwähnt, müsste auf den Folien drauf sein. Das schöne an diesem Header ist, dass er für alle Dateitypen genutzt werden kann und nicht nur für HTML-Dateien.schrieb am 29.04.2008 um 00:05 Uhr
Hi !Ich gedenke eine Onn/Off-Page Optimierung machen zu lassen. Liegt das mit dem ausschließen einiger Seiten für den Googlebot im Aufgabenbereich eines Optimierers ???
Gruß lexa
schrieb am 29.04.2008 um 08:26 Uhr
lexa, je nach Seite sowie Erfordernissen der Optimierung kann es gut sein, dass der beauftragte Optimierer mit diesem Werkzeug arbeiten sollte, ja.Trackback - SEO Mobile - 29.04.2008 10:49
So, wieder zurück aus Hangover! Die diesjährige PubCon fand aufgrund der hohen Zahl der Teilnehmer in der Stadtbrauerei HBX statt und nicht, wie sonst, im Irish Pub Jack The Rippers. Abgesehen davon, dass man wie immer nette und interessante Leute aus der
schrieb am 06.05.2008 um 16:02 Uhr
Um eine genauere Zahl der indexierten Seiten zu erhalten ist es immer hilfreich Yahoo anzufragen. Auch diese Zahl ist dann zwar nur eine Näherung aber definitiv genauer als die von Google.schrieb am 13.05.2008 um 01:37 Uhr
Was mich etwas verwirrt sind die beiden Aussagen in den Folien:"Was gehört nicht in den Google Index - Impressum"
"Kontaktseite für die Erkennung Ihres Standortes (lokale Suche) drin lassen."
Bei vielen Seiten (z.B. auch bei sistrix.com) ist die Kontaktseite und das Impressum kombiniert auf einer Seite - sperren oder nicht?
Und wenn man zwei getrennte Seiten dafür hat steht die Anschrift auch eher nur auf der Impressumsseite und nicht unbedingt auf dem Kontaktformular. Wenn man jetzt wegen der lokalen Suche extra die Adresse nochmals auf Kontakt wiederholt, worin besteht dann noch der Sinn das Impressum zu sperren?
schrieb am 13.05.2008 um 08:47 Uhr
oli, ich glaube, dass die Maßnahmen dort sowieso eher für Projekte interessant sind, die (sehr) viele Seiten haben. Hier sind es vielleicht maximal 1.000 - da wird Google sich schon nicht verschlucken und alle in den Index aufnehmen.
Kommentieren?
Die Kommentare für diesen Beitrag wurden geschlossen. Angemeldete Benutzer haben weiterhin die Möglichkeit, auch ältere Beiträge zu kommentieren. Jetzt kostenlos anmelden.