Yahoo mit neuer Crawlerversion
Im Zuge der Umstellung weiter Teile der Suchinfrastruktur, hat sich Yahoo endlich auch seines Crawlers angenommen. Die weltweit größte Hadoop-Installation, die Yahoo als Grundlage der Websuche betreibt (10k CPUs, 5 PetaByte Festplattenplatz) wird jetzt von „Slurp/3.0“ befüllt. Der Crawler ist bereits aktiv und ich konnte ihn schon in Webserverlogs in freier Wildbahn beobachten:llf320021.crawl.yahoo.net - - [15/Apr/2008:03:16:05 +0200] "GET /news/ HTTP/1.0" 200 34962 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"Yahoo scheint einige der Kritikpunkte an dem Crawlverhalten des „alten“ Slurps behoben zu haben. So erscheint mir das Vorgehen der neuen Version deutlich geplanter und bandbreitenschonender. Auch gehören Eigenheiten, wie das Weglassen des „Trailing-Slashes“ bei Verzeichnissen nun hoffentlich der Vergangenheit an. Der neuen Crawler arbeitet von neuen IP-Adressen, wer also Cloaking auf IP-Basis betreibt, sollte ich spätestens jetzt überlegen, zur Erkennung von Suchmaschinencrawlern auf die „DNS-ReverseDNS-Methode“ zu wechseln.
schrieb am 15.04.2008 um 14:05 Uhr
Mir persönlich würde schon reichen wenn slurp endlich mal alle Seiten gleich oft holt. Manche 100 mal zu holen wärend mal andere komplett ignoriert macht einfach keinen Sinn...schrieb am 15.04.2008 um 15:26 Uhr
Es wurde ja auch mal Zeit!Trackback - emn|seo.thinking - 15.04.2008 19:43
Er hat sicher einige genervt, der Bot von Yahoo, der sich immer als Slurp ausgibt und massenhaft Traffic erzeugt. Kleines Beispiel: Eine niederfrequentierte Sportverein-Seite, mit etwa einem neuen Beitrag pro Woche. Die Sitemap der Seite fast ca. 300 S...
schrieb am 17.04.2008 um 13:28 Uhr
Mir ist aufgefallen, dass auch der Googlebot seit kurzem mit einem neuen IP-Block arbeitet 74.125.0.0/16. Slurp crawlt seit neuestem vom Block 74.6.0.0/16Trackback - KlonBlog - 17.04.2008 17:25
Yahoo! macht nun das Web mit einer neue Crawl-Technologie unsicher. Die alten Yahoo-Crawler wurden oft kritisiert, da sie viel zu oft eine Seite durchsuchten und damit deutlich mehr Traffic verursachten als z.B. die Google-Bots. [...]
Kommentieren?
Die Kommentare für diesen Beitrag wurden geschlossen. Angemeldete Benutzer haben weiterhin die Möglichkeit, auch ältere Beiträge zu kommentieren. Jetzt kostenlos anmelden.
Ralph