Googlebot vs. Yahoo Slurp

Johannes Beus
Johannes Beus
28. Juni 2007
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Adam Doppelt hat in seinem Blog einige interessante Daten und Vergleiche zum Crawlverhalten der Bots von Google und Yahoo zusammengetragen. Analysiert wurden dazu die Logfiles von urbanspoon.com, einem Restaurantführer für die USA. Während der Googlebot schön gleichmäßig die Seite crawled, gibt es bei Yahoo extreme Spitzen. Auch überraschend, dass Google nur 1,4 Prozent aller Seiten doppelt abrief während es bei Yahoo 38 Prozent waren. Das Fazit von Doppelt, dass es für Yahoo noch ein weiter Weg sei, um zum Marktführer aufzuschließen, kann ich nur unterschreiben. Wenn ich mir unsere Logfiles größerer Projekte ansehe und das „Verhalten“ des Yahoo-Slurps beobachte, ist dort auch viel Seltsames zu sehen. Am irritierendsten finde ich, dass Yahoo Trailling-Slashes generell erstmal weglässt, egal wie die Seite verlinkt sind. Anstatt auf /verzeichnis/unterverzeichnis/ wird dann zuerst auf /verzeichnis/unterverzeichnis zugegriffen – sollten die Konfiguration des Servers und alle Mod_Rewrite-Regeln korrekt sein, gibt es dort dann einen 302-Redirect auf das richtige Verzeichnis, andernfalls Duplicate-Content oder Fehlerseiten. Das Verhalten der Suchmaschinencrawler ist einer der wenigen Aspekte, bei denen man die 90 Prozent Marktdominanz von Google als vorteilhaft sehen kann – so muss man sich um die fehlerhaft programmierten Crawler anderer Suchmaschinen nicht groß kümmern.

Netter Webfund am Rande: Spiegel Online hat in einem Artikel zu Internet-Sprache folgenden Satz als typisch für deutsche Internetsprache herausgestellt: „Das Hijacking-Problem könnte man mit dem header-redirect 301 leicht vermeiden.“

Ähnliche Beiträge
Kommentare
Ranking Konzept - SEO News   
28. Juni 2007, 13:48

Die Logfiles des Restaurantführers Urbanspoon.com wurden von Adam Doppelt auf das Verhalten der Crawler von Yahoo und Google untersucht.
Das Ergebnis der Auswertung einer Zeitspanne von drei Tagen (16.-18. Juni):

Olly   
29. Juni 2007, 00:16

Netter Fund, auf mich wirkt das Resultat allerdings eher so, dass Slurp dem Googlebot ueberlegen ist
Die Duplicates sind nicht so schoen, allerdings fallen 419 davon auf die robots.txt aus was ja keinerlei Probleme darstellen sollte (diese sieht uebrigens nicht gerade gut aus).

Im Endeffekt scheint es ja so, dass der Slurp bei weitem mehr Seiten gecrawlt hat als der Googlebot. Und das ist doch was wir alle wollen.

Die Sache mit den Verzeichnissen erscheint wirklich etwas seltsam, ich koennte mir vorstellen, dass Slurp versucht weitere Dateien (moeglicherweise Directory Listings?) wie Bilder zu finden, das ist allerdings reine Spekulation.
Grundsaetzlich ist es mir lieber wenn ein Bot versucht so viel wie moeglich zu crawlen (abgesehen von den robots.txt Ausnahmen freilich).

Tobias Schwarz   
29. Juni 2007, 01:45

Mich persönlich würde bei den Verstößen gegen die robots.txt interessieren, ob hierbei lediglich der Useragent ausgewertet wurde, oder ob die Zugehörigkeit der IP geprüft wurde. Gerade bei größeren Projekte hat man immer mal wieder Leute die als Googlebot oder Yahoobot durch die Gegend surfen.

Zu Olly:
Eigentlich will man nicht, dass mehr Seiten gecrawlt werden, sondern intelligentes Crawling wobei nach Möglichkeit nur Inhalt der sich geändert hat oder neu ist abgerufen wird und der dann dafür schnell in den Index wandert. Diesen Trend hat Yahoo wohl verschlafen. Selbst bei Seiten die mittels Sitemaps-Protokoll genaue Angaben zur Aktuallität aller Unterseiten machen stellt sich Yahoo sehr doof an. Google optimiert das Crawlverhalten der Bots seit Jahren und erreicht mittlerweile wirklich sehr gute Ergebnisse.

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.

Kostenlosen Testaccount jetzt aktivieren

Aktiviere jetzt deinen kostenlosen Testaccount für die SISTRIX Toolbox. Garantiert ohne Kosten und unverbindlich. Jetzt aktivieren!