Wer viel misst, misst viel Mist

Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Wie der emsige Leser dieses Blogs festgestellt haben dürfte, gewähre ich gerne mal dem ein oder anderen, ziellos im Internet herumirrenden Byte Unterschlupf auf meiner Festplatte und versuche, möglichst sinnvolle Schlüsse aus ihnen zu ziehen. Als Seomoz vor einigen Tagen ankündigte, einen Linkindex von 30 Milliarden Webseiten zu haben, hörte sich das erst einmal toll an: Yahoo und Google sitzen auf ihren Daten beziehungsweise veröffentlichen nur Unsinn und Microsoft lässt es konsequenterweise gleich komplett, da kommt eine weitere Quelle genau recht. Was mich etwas irritiert hat, war, dass die ansonsten so offenen Leute von Seomoz die Quelle der Daten nicht preisgeben wollen. Da aber der Crawlvorgang für 30 Mrd. Seiten nicht komplett unentdeckt ablaufen kann, habe ich mich mal auf die Suche begeben.

Der Grundgedanke ist, dass der Crawler alle Seiten, die als Linkquelle in den Reports von Linkscape genannt werden, besucht hat, er also in den Webserver-Logfiles zu finden sein muss. Ich habe nun ein paar Reports für eigene Domains mit (sehr) wenig eingehenden Links, die alle von mir gesetzt wurden und auf deren Logfiles ich Zugriff habe erstellt und die Logs der verlinkenden Seiten über die letzten Monate auf gleiche Useragents verglichen. Bei allen Vergleichen bleibt stehts der „Dotbot“ von dotnetdotcom.org aus Seattle übrig.

Ein quirliges Kerlchen mit großem Hunger, das mir – um auf den Titel des Postings zurückzukommen – schon mal aufgefallen war: genau wie der Yahoo-Crawler vor einiger Zeit lässt der Dotbot den „Trailing-Slash“ von Verzeichnissen weg. Dieses Blog würde er also nicht als „/news/“ sondern als „/news“ vom Server anfordern. Üblicherweise kein Problem, da der Webserver bei real-existierenden Verzeichnissen den Fehler erkennt und per 301-Redirect auf die richtige URL weiterleitet, kann das bei fehlerhaft programmierten dynamischen Webseiten ein Problem werden und ist beim „Dotbot“ die Ursache, dass bei der Auswertung der gefundenen HTTP-Status-Codes sagenhafte 15 Prozent aller URLs eine Weiterleitung liefern …

Ähnliche Beiträge
Kommentare
Avatar _DD_   
15. Oktober 2008, 15:46

Starke Beobachtung. VC in Millionenhöhe hilft einem halt auch nicht vor solchen Fehlern! 😉

Vielleicht mal Rand bescheidgeben bzw. den Post auf englisch schreiben. Es gab ja auf SEOmoz schon einige Fragen nach dem Bot.

Bei den int. SEOs gibts dfür sicher den ein oder anderen Link und neuen Feedreader!

Gruß,
DD

Johannes   
15. Oktober 2008, 16:35

DD, guckst du hier. Aber die werden schon wissen, was sie tun 😉

Avatar Olliver   
15. Oktober 2008, 20:36

Der letzte Absatz ist meiner Meinung nach ein wenig missverständlich formuliert:
Ursache für das Fehlverhalten des Bots ist ja nicht das Weglassen des Slashs an sich, sondern vielmehr das Ignorieren der 301 Weiterleitung. Der Server respektive der Code einer dynamischen Webseite kann nicht mehr machen, als einen Location Header versenden. Wenn allerdings der Bot diesen Header ignoriert, nutzt auch die schönste Automatik nichts.

Bei mir hatte der Bot sowohl bei virtuellen, als auch bei reellen Verzeichnissen versagt und WordPress, wie auch Seiten die ich selber programmiere, haben einen 301 Handler für Uris, bei denen der Slash fehlt. Wäre auch sonst SEO-technischer Selbstmord, da der Slash gelegentlich beim Verlinken weggelassen wird und man schnell mit einer suboptimal plazierten Webseite dastünde ;-).

Wollte es nur noch einmal erwähnt haben, weil sonst das „stille Post“ Phänomen um sich greifen könnte und es am Ende heißt, dass jene die über den Bot klagen nur zu blöd seien, funktionierende Webseiten zu erstellen ;-).

Gruss,
Olliver

Avatar Maik   
16. Oktober 2008, 09:34

@Johannes erstmal netter Post aber ist ja nichts neues. Aber mal eine andere Frage. Schreibst du die Artikel auf Englisch selbst oder hast du da vielleicht irgend ein tolles WP-Plugin was das für dich macht???.

Avatar jr-ewing   
16. Oktober 2008, 10:21

User-Agent : DotBot/1.0.1
User-Agent : Mozilla/5.0 (compatible; DotBot/1.1;

IP : 208.115.111.249
IP : 208.115.111.245
IP : 208.115.111.251
usw

ist mir auch schon öfter in die Spider Trap gegangen. Der liest also an manchen Stellen noch zuviel. Wobei ich habe 38 Meldungen von insgesamt 49000. Da hab ich von Yahoo mehr 😉

Avatar Tim   
16. Oktober 2008, 10:30

Lustiger Spruch 🙂
Ich denke, man sollte nicht nur „messen“ sondern „analysieren“…

Avatar Olliver   
16. Oktober 2008, 12:23

@jr-ewing

Ich denke, dass das Füttern Deiner Falle von einem Logikfehler des Botcodes bei der Verarbeitung von robots.txt herrührt. Die Spezifikation von robots.txt besagt ja, dass entweder ein ganzer oder ein Teil eines Pfades angegeben werden kann:

„The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.“

Quelle: http://www.robotstxt.org/orig.html#format

Anscheinend vergleicht der Code den Uri erst mit robots.txt, *nachdem* dieser vermurkst und seines Slashs beraubt wurde (auch wenn es nirgendswo einen Link gibt, der auf den Slash verzichtet, somit also jegliche plausible Erklärung als Alternative ausfiele). Er sieht dann, dass der vermurkste Uri keine Entsprechung in robots.txt hat und nimmt dann an, dass er diesen Link indizieren darf.

Nun wäre ein Gedanke, in der robots.txt den Slash einfach wegzulassen. Das könnte dann aber unerwünschte Folgen haben, weil dann ein übermäßig breiter teilweiser Link entstünde.

Nehmen wir einmal an eine fiktive robots.txt enthalte:
/impressum

Impressum sei hier ein echtes Verzeichnis.

Wenn Du jetzt ein Artikel schriebest, in dem Du den Unmut über die Impressumspflicht ausdrücken möchtest, würdest Du jetzt eine böse Überraschung erleben. Nämlich, dass Dein Artikel von Bots nicht einmal mit der Kneifzange angefasst wird, falls dessen uri mit „impressum“ beginnt.

Bespiel:
example.com/impressumspflicht-ist-doof/

Dies wäre gemäß unserer hypothetischen robots.txt ein „partial match“ auf „/impressum“ und somit vom Indizieren ausgeschlossen. Genau um das zu verhindern, verwendet man hier entweder vollständige Pfade oder virtuelle Pfade mit Slash. Solange aber der DotBot Weiterleitungen nicht hinbekommt, dürfte der Schaden ohnehin gering bleiben (wie auch der Nutzen seines Indexes, außer es ginge darum, eine Kollektion der schönsten Weiterleitungen im Netz anlegen ;-)).

Avatar jr-ewing   
16. Oktober 2008, 12:32

gut überlegt !
In der robots.txt von der Spider Trap steht genau der Verzeichnispfad, deswegen wird es diese Probleme geben.

Avatar Ich bins   
17. Oktober 2008, 07:27

#seomoz
DENY FROM 208.115.111

Avatar Ralph   
25. Oktober 2008, 20:47

@Olliver: Danke Dir für die sehr ausführliche Erklärung. Ralph

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.