Robots.txt Deluxe – Die Erweiterungen, die Google unterstützt

Johannes Beus
Die sogenannte Robots.txt – eine im Rootverzeichnis der Domain abgelegte, reine Textdatei mit dem Namen robots.txt dient dazu, Suchmaschinen, die diese Datei beachten von bestimmten Bereichen der Webseite auszusperren. Obwohl bereits die Standardversion, die von den meisten großen Suchmaschinen unterstützt wird, immer wieder für Verwirrung sorgt, hat Google seinem Parser einige Erweiterungen beigebracht, die häufig nützlich sein können. So unterstützt Google ein Wildcard („*“) nicht nur in der User-Agent-Angabe sondern auch im Pfad. Die zweite Erweiterung ist der Zeilenende-Anker „$“. Hier einige Möglichkeiten der Verwendung und Fehler, die man besser nicht machen sollte. Da diese Erweiterungen derzeit nur vom Googlebot untersützt werden, sollte es immer eine Zweiteilung der robots.txt in Google und die restlichen Robots geben

User-agent: *
Disallow: /blog/member
Disallow: /forum/member
Disallow: /upload/member
User-agent: Googlebot
Disallow: /*/member


Wichtig ist, dass jede Disallow-Anweisung generell mit dem Slash (“/”) beginnt. Die meisten Suchmaschinen ergänzen diesen zwar automatisch, so nicht vorhanden, einige kann es aber trotzdem aus dem Tritt bringen. Herkömmliche Suchmaschinen ignorieren alle Seiten, deren URI mit dem in Disallow angegeben Pfad beginnt. Dies kann, wie in dem Beispiel, dazu führen, dass Anweisungen, bei denen gleich lautende Dateien in unterschiedlichen Verzeichnissen gesperrt werden sollen, auf gesplittet und so schnell unübersichtlich werden. Durch den Einsatz der Wildcard kann man den Umfang deutlich reduzieren.
Durch Einsatz des Zeilenenden-Ankers kann man recht einfach komplette Dateitypen von der Indexierung ausschließen. So verbietet folgende Anweisung die Indexierung aller .txt- und .pdf-Dateien, die potentiell Probleme mit doppelten Inhalten bergen:

User-agent: Googlebot
Disallow: /*.pdf$
Disallow: /*.txt$


Wichtig ist es hier, den Zeilenenden-Anker anzugeben, da sonst auch Dateien ignoriert würden, die “.pdf” im Dateinamen haben (Beispielsweise /schone-downloads-mit-.pdf-dateien.html).

Johannes Beus

Johannes Beus, Gründer und Geschäftsführer von SISTRIX, beschäftigt sich seit 2001 mit der Optimierung von Webseiten für Suchmaschinen. Auf einem der ältesten deutschsprachigen SEO-Blog veröffentlicht er seit 2003 regelmäßig Zusammenfassungen eigener Auswertungen und Einschätzungen des SEO-Marktes.
Eintrag geschrieben am 05.06.2007 um 07:30 Uhr - Trackback setzen - Tags: Google
Tobbi
1
schrieb am 07.06.2007 um 16:17 Uhr
Danke für die Tipps, gleich mal was von angewendet ;)

Gruß,
Tobbi

Frank
2
schrieb am 09.06.2007 um 00:23 Uhr
Das bringt mich gerade auf eine Frage - kann ich auch gezielt dynamsche Files sperren ?
Also z.B.
/rate.php(.......)

sistrix
3
schrieb am 09.06.2007 um 11:02 Uhr
Ja klar, das geht aber auch bereits mit der "Standardversion" der robots.txt. Es werden ja alle URLs, die mit dem genannten Muster beginnen, ignoriert. Wenn dz da jetzt reinschreibst:

User-agent: *
Disallow: /rate.php

wird alles, was mit /rate.php anfängt, nicht indexiert, also auch keine Sachen wie /rate.php?id=1&vote=4

Tobias Schwarz
4
schrieb am 09.06.2007 um 19:13 Uhr
Eine nicht uninteressante Zeile die hier laut Sitemap-Protokoll auch unterstützt wird, sei hier vielleicht noch kurz erwähnt:

Sitemap:

Nähere Infos dazu finden sich unter:

http://www.sitemaps.org/protocol.php#informing

Monika
5
schrieb am 11.06.2007 um 21:26 Uhr
Hi die robots.txt verbietet doch das crawlen,
aber wenn ich auf eine pdf von Dir linke ist die im Index....

"So verbietet folgende Anweisung die Indexierung aller .txt- und .pdf-Dateien, die potentiell Probleme mit doppelten Inhalten bergen:"
daher glaube ich das nicht

lg


Kommentieren?

mehr
Die Kommentare für diesen Beitrag wurden geschlossen. Angemeldete Benutzer haben weiterhin die Möglichkeit, auch ältere Beiträge zu kommentieren. Jetzt kostenlos anmelden