Wie kann ich dem Google-Bot das Crawlen meiner Website verbieten?

Es gibt verschiedene Gründe, dem Google-Bot zu verbieten, eine ganze Webseite oder Teile von ihr zu crawlen. Die sogenannte robots.txt-Datei teilt dem Google-Crawler mit, welche Inhalte gecrawlt werden dürfen – und welche nicht.

Die robots.txt ist eine einfache Textdatei mit dem Namen „robots“. Sie muss im Hauptverzeichnis (Root) einer Website abgelegt werden, um von den Suchmaschinen beachtet zu werden.

Google-Bot mithilfe der robots.txt aussperren

Verfügt eine Website über eine robots.txt, so kann diese wie folgt abgerufen werden:

http://www.meine-domain.de/robots.txt

Der Inhalt der robots.txt

Eine ganze Webseite vom Crawlen ausschließen

Durch folgende Anweisung in der robots.txt wird dem Google-Bot der Zugriff auf eine gesamte Website verboten:

User-Agent: Googlebot
Disallow: /

Verzeichnisse oder Teile einer Webseite vom Crawlen ausschließen

Wer nicht die gesamte Website, aber beispielsweise ein Verzeichnis oder konkrete Dateien für den Zugriff durch den Google-Bot sperren will, kann die robots.txt wie folgt erstellen:

User-Agent: Googlebot
Disallow: /ein-ordner/
Disallow: /eine-datei.pdf

Die hier aufgeführten Code-Beispiele beziehen sich ausschließlich auf den Google-Bot. Mithilfe des robots.txt-Testers von Google kannst du überprüfen, welche deiner URLs für Google-Crawler blockiert werden. Crawler anderer Suchmaschinen werden dadurch nicht blockiert.

Alle anderen Crawler in der robots.txt ausschließen

Wer will, dass die Anweisungen seiner robots.txt für alle Crawler gleichermaßen gelten, kann das mit einem Sternchen (Asterisk) wie folgt veranlassen:

User-Agent: *

robots.txt vs. Meta-Element NoIndex

Das Aussperren eines Crawlers via robots.txt heißt nicht, dass Inhalte nicht mehr in den Suchergebnissen auftauchen können. Zweck der robots.txt-Datei ist es im Gegensatz zum Meta-Element NoIndex nicht, Inhalte aus den Google-Suchergebnissen auszuschließen. Unter bestimmten Voraussetzungen kann eine via robots.txt gesperrte Seite also trotzdem in Suchergebnissen erscheinen.

Robots-Meta-Tag vs. robots.txt: was sind die wichtigsten Unterschiede?