Yahoo mit neuer Crawlerversion

Johannes Beus
Johannes Beus
15. April 2008
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Im Zuge der Umstellung weiter Teile der Suchinfrastruktur, hat sich Yahoo endlich auch seines Crawlers angenommen. Die weltweit größte Hadoop-Installation, die Yahoo als Grundlage der Websuche betreibt (10k CPUs, 5 PetaByte Festplattenplatz) wird jetzt von „Slurp/3.0“ befüllt. Der Crawler ist bereits aktiv und ich konnte ihn schon in Webserverlogs in freier Wildbahn beobachten:

llf320021.crawl.yahoo.net - - [15/Apr/2008:03:16:05 +0200] "GET /news/ HTTP/1.0" 200 34962 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"

Yahoo scheint einige der Kritikpunkte an dem Crawlverhalten des „alten“ Slurps behoben zu haben. So erscheint mir das Vorgehen der neuen Version deutlich geplanter und bandbreitenschonender. Auch gehören Eigenheiten, wie das Weglassen des „Trailing-Slashes“ bei Verzeichnissen nun hoffentlich der Vergangenheit an. Der neuen Crawler arbeitet von neuen IP-Adressen, wer also Cloaking auf IP-Basis betreibt, sollte ich spätestens jetzt überlegen, zur Erkennung von Suchmaschinencrawlern auf die „DNS-ReverseDNS-Methode“ zu wechseln.

Ähnliche Beiträge
Kommentare
Ralph   
15. April 2008, 13:49

Interessant. Was ändert sich noch ausser die Fehlerbeseitigung? Da ich dies zum ersten Mal erlebe, dass ein Crawler eine neue Version bekommt, bin ich natürlich neugierig, wie die Auswirkungen sind. Werden die Suchergebnisse nachher genauer oder ging es „nur“ um die Beseitigung der Fehler?

Ralph

DJTonic   
15. April 2008, 14:05

Mir persönlich würde schon reichen wenn slurp endlich mal alle Seiten gleich oft holt. Manche 100 mal zu holen wärend mal andere komplett ignoriert macht einfach keinen Sinn…

michael   
15. April 2008, 15:26

Es wurde ja auch mal Zeit!

emn|seo.thinking   
15. April 2008, 19:43

Er hat sicher einige genervt, der Bot von Yahoo, der sich immer als Slurp ausgibt und massenhaft Traffic erzeugt. Kleines Beispiel: Eine niederfrequentierte Sportverein-Seite, mit etwa einem neuen Beitrag pro Woche. Die Sitemap der Seite fast ca. 300 S…

Christian   
17. April 2008, 13:28

Mir ist aufgefallen, dass auch der Googlebot seit kurzem mit einem neuen IP-Block arbeitet 74.125.0.0/16. Slurp crawlt seit neuestem vom Block 74.6.0.0/16

KlonBlog   
17. April 2008, 17:25

Yahoo! macht nun das Web mit einer neue Crawl-Technologie unsicher. Die alten Yahoo-Crawler wurden oft kritisiert, da sie viel zu oft eine Seite durchsuchten und damit deutlich mehr Traffic verursachten als z.B. die Google-Bots. […]

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.

Kostenlosen Testaccount jetzt aktivieren

Aktiviere jetzt deinen kostenlosen Testaccount für die SISTRIX Toolbox. Garantiert ohne Kosten und unverbindlich. Jetzt aktivieren!