Wer viel misst, misst viel Mist

Wie der emsige Leser dieses Blogs festgestellt haben dürfte, gewähre ich gerne mal dem ein oder anderen, ziellos im Internet herumirrenden Byte Unterschlupf auf meiner Festplatte und versuche, möglichst sinnvolle Schlüsse aus ihnen zu ziehen. Als Seomoz vor einigen Tagen ankündigte, einen Linkindex von 30 Milliarden Webseiten zu haben, hörte sich das erst einmal toll an: Yahoo und Google sitzen auf ihren Daten beziehungsweise veröffentlichen nur Unsinn und Microsoft lässt es konsequenterweise gleich komplett, da kommt eine weitere Quelle genau recht. Was mich etwas irritiert hat, war, dass die ansonsten so offenen Leute von Seomoz die Quelle der Daten nicht preisgeben wollen. Da aber der Crawlvorgang für 30 Mrd. Seiten nicht komplett unentdeckt ablaufen kann, habe ich mich mal auf die Suche begeben.

Der Grundgedanke ist, dass der Crawler alle Seiten, die als Linkquelle in den Reports von Linkscape genannt werden, besucht hat, er also in den Webserver-Logfiles zu finden sein muss. Ich habe nun ein paar Reports für eigene Domains mit (sehr) wenig eingehenden Links, die alle von mir gesetzt wurden und auf deren Logfiles ich Zugriff habe erstellt und die Logs der verlinkenden Seiten über die letzten Monate auf gleiche Useragents verglichen. Bei allen Vergleichen bleibt stehts der „Dotbot“ von dotnetdotcom.org aus Seattle übrig.

Ein quirliges Kerlchen mit großem Hunger, das mir – um auf den Titel des Postings zurückzukommen – schon mal aufgefallen war: genau wie der Yahoo-Crawler vor einiger Zeit lässt der Dotbot den „Trailing-Slash“ von Verzeichnissen weg. Dieses Blog würde er also nicht als „/news/“ sondern als „/news“ vom Server anfordern. Üblicherweise kein Problem, da der Webserver bei real-existierenden Verzeichnissen den Fehler erkennt und per 301-Redirect auf die richtige URL weiterleitet, kann das bei fehlerhaft programmierten dynamischen Webseiten ein Problem werden und ist beim „Dotbot“ die Ursache, dass bei der Auswertung der gefundenen HTTP-Status-Codes sagenhafte 15 Prozent aller URLs eine Weiterleitung liefern …

Ähnliche Beiträge