Und täglich grüßt der Googlebot

Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Ich gebe es zu, ich leide an einer fortgeschrittenen Form der Logfile-Abhängigkeit. Fast immer läuft auf meinem rechten Monitor eine Tail-Grep-Variante irgendeines meiner Projekte. Früh morgens eher das unaufgeregte Spidern von Microsoft, nach dem ersten Kaffee dann meistens Google und wenn ich mal ganz verrückt sein will, tu ich mir sogar ab und an das Verhalten des Yahoo-Robots in Textform an. Nicht nur mir dürfte aufgefallen sein, dass Google mit Abstand das „intelligenteste“ Crawlverhalten an den Tag legt: Seiten werden, je nach Aktualisierungshäufigkeit sowie allgemeiner Wichtigkeit gecrawled und in den Index aufgenommen. Interessanterweise ist nun ein Patent von Google aus dem Jahre 2003 veröffentlicht worden, das sich mit eben jenen Hintergründen des Crawlverfahrens beschäftigt.

Mitte 2003 beantragt und bereits im November 2007 unter der Nummer 7,308,643 als US-Patent zugeteilt, beschreibt es, nach welchen Kriterien ein Suchmaschinenbetreiber auswählen kann, welche URLs gecrawled werden und wie häufig das passieren soll. Die Verfasser haben die URLs im Index der Suchmaschine in drei verschiedene Kategorien eingeteilt: In der Standardkategorie, in der erstmal alle Adressen landen wird mit einer Frequenz gecrawled, dass alle dort vorgehaltene Adressen innerhalb eines definierten Zeitraumes einmal erneuert wurde – soweit ich mich richtig erinnere, war es 2003 noch so, dass der Googleindex rund einmal pro Monat erneuert wurde. Oberhalb dieser Kategorie ist eine, deren URLs täglich erneuert werden und noch eine Stufe höher eine, die unter „Real-Time“ läuft – hier soll noch deutlich häufiger gecrawled werden. In welche Kategorie eine URL einsortiert wird, macht das Patent von zwei Faktoren abhängig: PageRank der Seite sowie Aktualisierungshäufigkeit des Contents auf der Seite. Zwei Vermutungen, die so schon seit langem im Raum stehen, allerdings soweit ich weiß noch nie bestätigt wurden. Ebenfalls wird in dem Patent beschrieben, wie der Suchmaschinencrawler die Crawlfrequenz anhand der Zeit, die zwischen Request und Response des Servers vergeht, einstellen kann – langsame Server können als auch aus SEO-Sicht einen Nachteil bedeuten.

Wenn man nun bedenkt, dass die Innovationszyklen im Suchmaschinenbereich doch deutlich unter den vier Jahren, die seit Einreichung des Patents vergangen sind, liegen und ich das „Verhalten“ des Googlebots einbeziehe, so scheint es diese starren Kategorien nicht mehr zu geben. Wenn man jetzt eine Seite hat, deren Content recht statisch ist und somit einer der oben genannten Einflußfaktoren damit ausfällt, kann es Sinn machen, sich die Crawlfrequenz seiner Seite mal etwas genauer anzusehen, wenn man mehr Informationen als das 0 bis 10 der Toolbar haben möchte …

Ähnliche Beiträge
Kommentare
Avatar Xel   
13. Dezember 2007, 10:48

Hm – das klingt, wenn ich ehrlich sein soll, doch sehr sehr interessant… da muss ich doch mal etwas genauere Logfile Auswertungen starten… danke für diesen – hoffentlich – wertvollen Tip

Avatar Manuel   
13. Dezember 2007, 11:33

Hallo Sistrix, interessanter Artikel. Ich sollte mir vielleicht auch mal meine Logfiles anschauen. Kannst du dafür ein paar Tools empfehlen? Gruß, Manuel

Johannes   
13. Dezember 2007, 11:45

Manuel, ich arbeite bei sowas mit ein paar kleine Unix-Kommandozeilentools wie „cat“, „grep“, „sort“ und so weiter. Ich glaube nicht, dass es dafür fertige All-in-One-Lösungen gibt, da es zum einen doch sehr speziell ist und zum anderen diese Lösungen die Vorarbeit, die im Nachdenken besteht, auch nicht ersetzen können 🙂

Avatar Dominik   
13. Dezember 2007, 12:52

Hi Johannes,
ich bin nicht der Unix-Shell-Profi, daher würde es mich (und sicher auch andere) freuen, wenn du dein Code-Snippet veröffentlichen würdest.
gruß Dominik

Avatar PechGehabt   
13. Dezember 2007, 13:24

Hi!

Die einfachste Variante ist:

tail -f /var/log/httpd/access_log

tail -> öffne das Ende der Datei
-f -> Zeige die Veränderungen an (damit „Live-Mitlesen“)
/var/log/httpd/access_log -> Pfad zum access_log

Ergänzen kann man das nun z.B. durch ein „grep“ um nur bestimmte Teile darzustellen:

tail -f /var/log/httpd/access_log | grep „Googlebot“

| -> „Pipe“ -> Verarbeite die ankommenden Daten weiter

grep -> Tool zum „Filtern“

„Googlebot“ -> Der Begriff, nach dem gefiltert werden soll

Hope that helps…

Gruß,
Thomas

Avatar Dominik   
13. Dezember 2007, 13:45

Danke Thomas, tail -f nutze ich bereits, grep ist bekannt, aber verursacht(e) bisher immer bissl angst 😀

Avatar PechGehabt   
13. Dezember 2007, 13:47

Hi!

Beide Befehle sind nicht destruktiv, können also nix kaputt machen 😉

Avatar Loewenherz   
13. Dezember 2007, 14:37

Bei solchen Geschichten rächt es sich dann, dass ich keine eigenen Rootserver mehr betreibe. PuTTY hab ich schon lang nicht mehr gesehen.

Avatar Haentz   
13. Dezember 2007, 14:55

Man kann die tail-grep-pipe noch durch das Kommand „cut“ verfeinern, sodass man nur die relevanten spalten aus dem Log angezeigt bekommt:

tail -2000f /var/log/apache2/website.log |grep google | cut -d “ “ -f 7,12

In Spalte 7 steht bei mir der aufgerufene Filename und in 12 der User-Agent. Das ganze (vor allem die regexp) lässt sich natürlich noch trickreicher gestalten.

Avatar Malan   
14. Dezember 2007, 09:49

Das zeigt mir doch wieder das ich mich mehr mit den Logs auseinandersetzen muss. Leider bekomme ich bei dem Befehl tail -f /var/log/httpd/access_log | grep „Googlebot“ nichts zu lesen sondern eher eine Fehlermeldung:

tail: ,,/var/log/httpd/access_log“ kann nicht zum Lesen geöffnet werden: Datei oder Verzeichnis nicht gefunden
tail: Keine Dateien mehr übrig

Ist der Befehl tail in Debian nicht zulässig?

lG Malan

Avatar seoline   
15. Dezember 2007, 00:13

@malan: nein

Johannes   
15. Dezember 2007, 09:29

Malan, ‚tail‘ funktioniert auch unter Debian wunderbar. Die Fehlermeldung, die du da bekommen hast, sagt aus, dass die Datei ‚/var/log/httpd/access_log‘ nicht existiert. Hier musst du ersatzweise den Pfad zu der Logdatei des Webserver einsetzen, dieser kann je nach Aufbau des Systems unterschiedlich sein.

Avatar ts   
15. Dezember 2007, 15:24

Das die Servergeschwindigkeit nicht nur aus SEO Sicht ein Nachteil ist, sondern auch Besucher quält ist schon verständlich. Das mit der Aktualisierungshäufigkeit lässt sich sehr schön an kleinen sehr statischen Domänen nachvollziehen. Wenn 6 Wochen keine Änderungen passieren kommt der Googlebot seltener und jetzt mal einige Seiten ändern und schauen was passiert! Interessant fände ich in diesem Zusammenhang die Abhängigkeiten zum Indezierungsverhalten. Da gibt es ja enorme zeitliche Unterschiede.

Avatar Paul   
16. Dezember 2007, 18:16

Also ich kann das ganze nur bestätigen. Um so mehr qualitatier Inhalt hinzukommt (ab besten jeden Tag) um so öfters wird die Webseite durchsucht. Meiner andere WEbseite wird jeden zweiten Tag durchsucht, so das meistens am zweiten Tag schon manche Artikel bei Google zu finden sind. Ich denke schon das es so ein Stufensystem noch gibt.

Mfg

Avatar Martin, Köln   
18. Dezember 2007, 13:17

ich habe mich bisher auch nicht an shellscripte herangetraut. mit deiner hilfe konnte ich allerdings meinen inneren schweine hund übewinden und die ergebnise können sich sehen lassen.

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.