Robots.txt Deluxe – Die Erweiterungen, die Google unterstützt

Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Die sogenannte Robots.txt – eine im Rootverzeichnis der Domain abgelegte, reine Textdatei mit dem Namen robots.txt dient dazu, Suchmaschinen, die diese Datei beachten von bestimmten Bereichen der Webseite auszusperren. Obwohl bereits die Standardversion, die von den meisten großen Suchmaschinen unterstützt wird, immer wieder für Verwirrung sorgt, hat Google seinem Parser einige Erweiterungen beigebracht, die häufig nützlich sein können. So unterstützt Google ein Wildcard („*“) nicht nur in der User-Agent-Angabe sondern auch im Pfad. Die zweite Erweiterung ist der Zeilenende-Anker „$“. Hier einige Möglichkeiten der Verwendung und Fehler, die man besser nicht machen sollte. Da diese Erweiterungen derzeit nur vom Googlebot untersützt werden, sollte es immer eine Zweiteilung der robots.txt in Google und die restlichen Robots geben

User-agent: *
Disallow: /blog/member
Disallow: /forum/member
Disallow: /upload/member
User-agent: Googlebot
Disallow: /*/member

Wichtig ist, dass jede Disallow-Anweisung generell mit dem Slash (“/”) beginnt. Die meisten Suchmaschinen ergänzen diesen zwar automatisch, so nicht vorhanden, einige kann es aber trotzdem aus dem Tritt bringen. Herkömmliche Suchmaschinen ignorieren alle Seiten, deren URI mit dem in Disallow angegeben Pfad beginnt. Dies kann, wie in dem Beispiel, dazu führen, dass Anweisungen, bei denen gleich lautende Dateien in unterschiedlichen Verzeichnissen gesperrt werden sollen, auf gesplittet und so schnell unübersichtlich werden. Durch den Einsatz der Wildcard kann man den Umfang deutlich reduzieren.
Durch Einsatz des Zeilenenden-Ankers kann man recht einfach komplette Dateitypen von der Indexierung ausschließen. So verbietet folgende Anweisung die Indexierung aller .txt- und .pdf-Dateien, die potentiell Probleme mit doppelten Inhalten bergen:

User-agent: Googlebot
Disallow: /*.pdf$
Disallow: /*.txt$

Wichtig ist es hier, den Zeilenenden-Anker anzugeben, da sonst auch Dateien ignoriert würden, die “.pdf” im Dateinamen haben (Beispielsweise /schone-downloads-mit-.pdf-dateien.html).

Ähnliche Beiträge
Kommentare
Avatar Tobbi   
7. Juni 2007, 16:17

Danke für die Tipps, gleich mal was von angewendet 😉

Gruß,
Tobbi

Avatar Frank   
9. Juni 2007, 00:23

Das bringt mich gerade auf eine Frage – kann ich auch gezielt dynamsche Files sperren ?
Also z.B.
/rate.php(…….)

Avatar Johannes   
9. Juni 2007, 11:02

Ja klar, das geht aber auch bereits mit der „Standardversion“ der robots.txt. Es werden ja alle URLs, die mit dem genannten Muster beginnen, ignoriert. Wenn dz da jetzt reinschreibst:

User-agent: *
Disallow: /rate.php

wird alles, was mit /rate.php anfängt, nicht indexiert, also auch keine Sachen wie /rate.php?id=1&vote=4

Avatar Tobias Schwarz   
9. Juni 2007, 19:13

Eine nicht uninteressante Zeile die hier laut Sitemap-Protokoll auch unterstützt wird, sei hier vielleicht noch kurz erwähnt:

Sitemap:

Nähere Infos dazu finden sich unter:

http://www.sitemaps.org/protocol.php#informing

Avatar Monika   
11. Juni 2007, 21:26

Hi die robots.txt verbietet doch das crawlen,
aber wenn ich auf eine pdf von Dir linke ist die im Index….

„So verbietet folgende Anweisung die Indexierung aller .txt- und .pdf-Dateien, die potentiell Probleme mit doppelten Inhalten bergen:“
daher glaube ich das nicht

lg

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.