Warum erscheint eine mittels robots.txt gesperrte URL in den Suchergebnissen?

Wird ein Verzeichnis oder eine bestimmte Seite einer Domain durch einen Eintrag in der robots.txt für den Zugriff durch einen Suchmaschinencrawler gesperrt, so wird dieser den Inhalt des Verzeichnis/der Seite nicht crawlen und indexieren.

Durch diese Angaben in der robots.txt wird das Verzeichnis „ein-verzeichnis“ und die Seite „eine-seite.html“ für den Webcrawler gesperrt:

User-agent: *
Disallow: /ein-verzeichnis/
Disallow: /eine-seite.html

Trotz Sperrung mittels robots.txt findet sich die Seite in den Suchergebnissen wieder?

In einigen Fällen kann und wird eine durch die robots.txt für Suchmaschinecrawler gesperrte Seite auf den Suchergebnisseiten (SERPs) von Google angezeigt.

Hierbei gilt es zu verstehen, dass der Crawler die Anweisung aus der robots.txt beachtet hat und den Inhalt der gesperrten Seite nicht in seinen Index mit aufnimmt. Google steht demnach keine Information über den Inhalt der Seite zur Verfügung.

Wann wird eine gesperrte Seite in den SERPs angezeigt?

Sollte die gesperrte Seite viele eingehende Links mit einem überwiegend eindeutigen Linktext aufweisen, so betrachtet Google den Inhalt der Seite als so relevant an, dass die entsprechende URL passend zum gesuchten Linktext in den Suchergebnissen auftauchen kann. (Der Inhalt der Seite ist Google immer noch nicht bekannt, da dieser nicht gecrawlt und indexiert wurde!)

Eine für den Zugriff durch Webcrawler gesperrte Seite, welche jedoch in den Suchergebnissen angezeigt wird, lässt sich z.B. meist durch ein fehlendes Snippet (z.B. der Description) erkennen.

Google achtet hier verstärkt auf Nutzersignale – ein Beispiel

Wir sperren in der robots.txt den Zugriff auf unsere Seite http://www.domain.de/omas-kuchenrezept.html. Der Crawler von Google befolgt unsere Anweisung und indexiert den Inhalt der Seite nicht. (Der Inhalt der Seite omas-kuchenrezept.html bleibt für Google unbekannt).

Angenommen wir haben auf dieser Seite ein Kuchenrezept von Weltklasse und erhalten demnach viele Links von anderen Webseiten, überwiegend mit dem Linktext “Omas weltklasse Kuchenrezept”. In solch einem Falle könnte unsere gesperrte Seite http://www.domain.de/omas-kuchenrezept.html bei einer Suchanfrage zu “Omas weltklasse Kuchenrezept” auf den Suchergebnisseiten (SERPs) auftauchen – obwohl der Zugriff für den Crawler durch die robots.txt gesperrt wurde.

Inhalte definitiv von den Suchergebnissen ausschließen – so geht’s

Die robots.txt ist demnach kein Garant für ein definitives Nicht-Erscheinen in den Suchergebnissen.

Um eine Seite definitiv aus den Suchergebnissen fernzuhalten, sollte das Meta-Element Robots mit dem Wert NOINDEX verwendet werden.

Videoerklärung von Matt Cutts / Google zum Thema (engl.)

Related Topics

SEO-Themen von A bis Z