Suchmaschinen- & SEO-Blog
Googlebot vs. Yahoo SlurpJohannes Beus
Netter Webfund am Rande: Spiegel Online hat in einem Artikel zu Internet-Sprache folgenden Satz als typisch für deutsche Internetsprache herausgestellt: "Das Hijacking-Problem könnte man mit dem header-redirect 301 leicht vermeiden." Die Logfiles des Restaurantführers Urbanspoon.com wurden von Adam Doppelt auf das Verhalten der Crawler von Yahoo und Google untersucht. Das Ergebnis der Auswertung einer Zeitspanne von drei Tagen (16.-18. Juni): 2
schrieb am 29.06.2007 um 01:45 Uhr
Mich persönlich würde bei den Verstößen gegen die robots.txt interessieren, ob hierbei lediglich der Useragent ausgewertet wurde, oder ob die Zugehörigkeit der IP geprüft wurde. Gerade bei größeren Projekte hat man immer mal wieder Leute die als Googlebot oder Yahoobot durch die Gegend surfen.
Zu Olly: Eigentlich will man nicht, dass mehr Seiten gecrawlt werden, sondern intelligentes Crawling wobei nach Möglichkeit nur Inhalt der sich geändert hat oder neu ist abgerufen wird und der dann dafür schnell in den Index wandert. Diesen Trend hat Yahoo wohl verschlafen. Selbst bei Seiten die mittels Sitemaps-Protokoll genaue Angaben zur Aktuallität aller Unterseiten machen stellt sich Yahoo sehr doof an. Google optimiert das Crawlverhalten der Bots seit Jahren und erreicht mittlerweile wirklich sehr gute Ergebnisse.
|















Die Duplicates sind nicht so schoen, allerdings fallen 419 davon auf die robots.txt aus was ja keinerlei Probleme darstellen sollte (diese sieht uebrigens nicht gerade gut aus).
Im Endeffekt scheint es ja so, dass der Slurp bei weitem mehr Seiten gecrawlt hat als der Googlebot. Und das ist doch was wir alle wollen.
Die Sache mit den Verzeichnissen erscheint wirklich etwas seltsam, ich koennte mir vorstellen, dass Slurp versucht weitere Dateien (moeglicherweise Directory Listings?) wie Bilder zu finden, das ist allerdings reine Spekulation.
Grundsaetzlich ist es mir lieber wenn ein Bot versucht so viel wie moeglich zu crawlen (abgesehen von den robots.txt Ausnahmen freilich).