Googlebot vs. Yahoo Slurp

Johannes Beus

(Autor)

Veröffentlicht: 28.06.2007

Adam Doppelt hat in seinem Blog einige interessante Daten und Vergleiche zum Crawlverhalten der Bots von Google und Yahoo zusammengetragen. Analysiert wurden dazu die Logfiles von urbanspoon.com, einem Restaurantführer für die USA. Während der Googlebot schön gleichmäßig die Seite crawled, gibt es bei Yahoo extreme Spitzen. Auch überraschend, dass Google nur 1,4 Prozent aller Seiten doppelt abrief während es bei Yahoo 38 Prozent waren. Das Fazit von Doppelt, dass es für Yahoo noch ein weiter Weg sei, um zum Marktführer aufzuschließen, kann ich nur unterschreiben. Wenn ich mir unsere Logfiles größerer Projekte ansehe und das „Verhalten“ des Yahoo-Slurps beobachte, ist dort auch viel Seltsames zu sehen. Am irritierendsten finde ich, dass Yahoo Trailling-Slashes generell erstmal weglässt, egal wie die Seite verlinkt sind. Anstatt auf /verzeichnis/unterverzeichnis/ wird dann zuerst auf /verzeichnis/unterverzeichnis zugegriffen – sollten die Konfiguration des Servers und alle Mod_Rewrite-Regeln korrekt sein, gibt es dort dann einen 302-Redirect auf das richtige Verzeichnis, andernfalls Duplicate-Content oder Fehlerseiten. Das Verhalten der Suchmaschinencrawler ist einer der wenigen Aspekte, bei denen man die 90 Prozent Marktdominanz von Google als vorteilhaft sehen kann – so muss man sich um die fehlerhaft programmierten Crawler anderer Suchmaschinen nicht groß kümmern.

Netter Webfund am Rande: Spiegel Online hat in einem Artikel zu Internet-Sprache folgenden Satz als typisch für deutsche Internetsprache herausgestellt: „Das Hijacking-Problem könnte man mit dem header-redirect 301 leicht vermeiden.“

Johannes Beus

(Autor)

Veröffentlicht: 28.06.2007