Yahoo mit neuer Crawlerversion
Im Zuge der Umstellung weiter Teile der Suchinfrastruktur, hat sich Yahoo endlich auch seines Crawlers angenommen. Die weltweit größte Hadoop-Installation, die Yahoo als Grundlage der Websuche betreibt (10k CPUs, 5 PetaByte Festplattenplatz) wird jetzt von „Slurp/3.0“ befüllt. Der Crawler ist bereits aktiv und ich konnte ihn schon in Webserverlogs in freier Wildbahn beobachten:llf320021.crawl.yahoo.net - - [15/Apr/2008:03:16:05 +0200] "GET /news/ HTTP/1.0" 200 34962 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"Yahoo scheint einige der Kritikpunkte an dem Crawlverhalten des „alten“ Slurps behoben zu haben. So erscheint mir das Vorgehen der neuen Version deutlich geplanter und bandbreitenschonender. Auch gehören Eigenheiten, wie das Weglassen des „Trailing-Slashes“ bei Verzeichnissen nun hoffentlich der Vergangenheit an. Der neuen Crawler arbeitet von neuen IP-Adressen, wer also Cloaking auf IP-Basis betreibt, sollte ich spätestens jetzt überlegen, zur Erkennung von Suchmaschinencrawlern auf die „DNS-ReverseDNS-Methode“ zu wechseln.
schrieb am 15.04.2008 um 14:05 Uhr
Mir persönlich würde schon reichen wenn slurp endlich mal alle Seiten gleich oft holt. Manche 100 mal zu holen wärend mal andere komplett ignoriert macht einfach keinen Sinn...schrieb am 15.04.2008 um 15:26 Uhr
Es wurde ja auch mal Zeit!schrieb am 17.04.2008 um 13:28 Uhr
Mir ist aufgefallen, dass auch der Googlebot seit kurzem mit einem neuen IP-Block arbeitet 74.125.0.0/16. Slurp crawlt seit neuestem vom Block 74.6.0.0/16
Kommentieren?
Die Kommentare für diesen Beitrag wurden geschlossen. Angemeldete Benutzer haben weiterhin die Möglichkeit, auch ältere Beiträge zu kommentieren. Jetzt kostenlos anmelden.
Ralph