Suchmaschinen- & SEO-Blog
Robots.txt Deluxe – Die Erweiterungen, die Google unterstütztJohannes Beus
Die sogenannte Robots.txt – eine im Rootverzeichnis der Domain abgelegte, reine Textdatei mit dem Namen robots.txt dient dazu, Suchmaschinen, die diese Datei beachten von bestimmten Bereichen der Webseite auszusperren. Obwohl bereits die Standardversion, die von den meisten großen Suchmaschinen unterstützt wird, immer wieder für Verwirrung sorgt, hat Google seinem Parser einige Erweiterungen beigebracht, die häufig nützlich sein können. So unterstützt Google ein Wildcard („*“) nicht nur in der User-Agent-Angabe sondern auch im Pfad. Die zweite Erweiterung ist der Zeilenende-Anker „$“. Hier einige Möglichkeiten der Verwendung und Fehler, die man besser nicht machen sollte. Da diese Erweiterungen derzeit nur vom Googlebot untersützt werden, sollte es immer eine Zweiteilung der robots.txt in Google und die restlichen Robots gebenUser-agent: *Wichtig ist, dass jede Disallow-Anweisung generell mit dem Slash (“/”) beginnt. Die meisten Suchmaschinen ergänzen diesen zwar automatisch, so nicht vorhanden, einige kann es aber trotzdem aus dem Tritt bringen. Herkömmliche Suchmaschinen ignorieren alle Seiten, deren URI mit dem in Disallow angegeben Pfad beginnt. Dies kann, wie in dem Beispiel, dazu führen, dass Anweisungen, bei denen gleich lautende Dateien in unterschiedlichen Verzeichnissen gesperrt werden sollen, auf gesplittet und so schnell unübersichtlich werden. Durch den Einsatz der Wildcard kann man den Umfang deutlich reduzieren. Durch Einsatz des Zeilenenden-Ankers kann man recht einfach komplette Dateitypen von der Indexierung ausschließen. So verbietet folgende Anweisung die Indexierung aller .txt- und .pdf-Dateien, die potentiell Probleme mit doppelten Inhalten bergen: User-agent: GooglebotWichtig ist es hier, den Zeilenenden-Anker anzugeben, da sonst auch Dateien ignoriert würden, die “.pdf” im Dateinamen haben (Beispielsweise /schone-downloads-mit-.pdf-dateien.html). 2
schrieb am 09.06.2007 um 00:23 Uhr
Das bringt mich gerade auf eine Frage - kann ich auch gezielt dynamsche Files sperren ?
Also z.B. /rate.php(.......) 3
schrieb am 09.06.2007 um 11:02 Uhr
Ja klar, das geht aber auch bereits mit der "Standardversion" der robots.txt. Es werden ja alle URLs, die mit dem genannten Muster beginnen, ignoriert. Wenn dz da jetzt reinschreibst:
User-agent: * Disallow: /rate.php wird alles, was mit /rate.php anfängt, nicht indexiert, also auch keine Sachen wie /rate.php?id=1&vote=4 4
schrieb am 09.06.2007 um 19:13 Uhr
Eine nicht uninteressante Zeile die hier laut Sitemap-Protokoll auch unterstützt wird, sei hier vielleicht noch kurz erwähnt:
Sitemap: Nähere Infos dazu finden sich unter: http://www.sitemaps.org/protocol.php#informing 5
schrieb am 11.06.2007 um 21:26 Uhr
Hi die robots.txt verbietet doch das crawlen,
aber wenn ich auf eine pdf von Dir linke ist die im Index.... "So verbietet folgende Anweisung die Indexierung aller .txt- und .pdf-Dateien, die potentiell Probleme mit doppelten Inhalten bergen:" daher glaube ich das nicht lg
|















Gruß,
Tobbi