Referrer-Spam von Google und Microsoft

Johannes Beus
Johannes Beus
7. Februar 2008
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Beim Durchsehen einiger Server-Logfiles ist mir aufgefallen, dass mittlerweile sogar Microsoft und Google nicht vor zwielichtigen Methoden der Bewerbung ihrer eigenen Suchmaschine zurückschrecken. War Referrer-Spam, also das automatische Besuchen von Webseiten mit einem gesetzten Referrer der zu bewerbenden Seiten früher doch eher Erotik- und Viagra-Seite vorbehalten, scheinen jetzt auch die beide Suchmaschinengiganten ihren Bekanntheitsgrad so steigern zu wollen.

Spaß beiseite, sowohl Microsoft als auch Google überprüfen mittlerweile Seiten auf Cloaking auf Referrerbasis. Dazu rufen sie die Seiten mit einem Referrer, der so aussieht, als komme der Nutzer über ihre Suchmaschine auf. Bei Google sieht das beispielsweise in den Logfiles so aus:

crawl-66-249-66-243.googlebot.com - - [07/Feb/2008:13:10:35 +0100] "GET /news/234-neue-msn-suche-online.html HTTP/1.1" 200 8223 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

74.125.16.67 - - [07/Feb/2008:13:34:52 +0100] "GET /news/234-neue-msn-suche-online.html HTTP/1.1" 200 8223 "http://www.google.com/search?q=abc" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.7) Gecko/20060909 Firefox/1.5.0.7"

Zuerst kommt ein normaler Googlebot mit den bekannten Merkmalen, nur wenig später ein Besucher mit einer IP, die zufälligerweise Google gehört und einem Referrer, der darauf hindeuten soll, dass er nach „abc“ gesucht hat. Google vergleicht nun die beiden ausgelieferten Seiten und entscheidet dann, ob hier gecloaked wird oder nicht. Microsoft geht dabei nicht ganz dillentantisch vor und übergibt immerhin Referrer, die noch einen gewissen Bezug zum Thema der Seite haben oder zumindest aus einer Rotation verschiedener Suchanfragen kommen. Bleibt zu hoffen, dass in Zukunft nicht jede Suchmaschine auf die Idee kommt, sowas testen zu müssen und die Serverlogfiles somit komplett unbrauchbar macht.

Ähnliche Beiträge
Kommentare
Jörg   
7. Februar 2008, 21:42

Diese Referrer waren vor einiger Zeit auch schon Thema auf WMW:

http://www.webmasterworld.com/msn_microsoft_search/3424476-5-30.htm

Manuel Hirsch   
7. Februar 2008, 22:06

Von MSN kennen wir das ja schon lange, aber auch Google ist mir da letzte Woche aufgefallen. Ich war mir nur nicht sicher, ob das nicht Schluckauf war.

Auf der WoW-Guild Website meiner Freundin hatten wir Traffic – angeblich – von Google für das Keyword „wow“. Aber sie ist auf Seite 150 gelistet oder so.
20 hits innerhalb einer Stunde. Jetzt wo Du das auch bestätigst, glaub ich nicht mehr an zufälligen flux…

Pepino   
8. Februar 2008, 13:05

Und ich hatte mich bereits gewundert, weshalb ich so viele Anfragen aus en-US hatte… Danke für die Aufklärung!

Olaf   
8. Februar 2008, 17:28

Das ist nicht neu sondern schon ’ne ganze Ewigkeit so. Es ist beim Googlebot auch nicht nur „abc“ sondern auch „def“ (was für ’ne Überraschung) und ein paar andere kurze Strings.

Johannes   
8. Februar 2008, 19:28

Olaf, die ersten Einträge zu dem Verhalten von Google finde ich – auch über einige, größere Webseitenlogfiles hinweig – am 08.01.2008. Hast du da andere Informationen, dass du von „halbe Ewigkeit“ sprichst? Andere Suchstrings als „abc“ kann ich in den Logfiles ebenfalls nicht finden, hättest du da ein kleines Beispiel mit IP-Adresse für mich, Danke.

Johannes   
8. Februar 2008, 19:36

Ergänzung zu dem Kommentar: ab heute (!) sehe ich, dass von der IP nicht mehr nur mit „abc“ sondern auch mit dem Hostname der Seite „gesucht“ wird, lustig.

Olaf   
10. Februar 2008, 13:43

@Johannes: Wir haben hier so ein Tool zu laufen, dass eben auch die exakten Besucherpfade mit aufzeichnet, so dass man einen Eindruck bekommt wer wann und wo genau rumhüpft. Dieses spezielle Tool läuft seit exakt 1. Februar 2007 und da das quasi als ersten Eintrag immer den Referrer enthält, ist mir das mit den abc’s sehr schnell aufgefallen. Das ist also mindestens seit dieser Zeit schon so, vermutlich aber schon deutlich länger.

Reifenab   
11. Februar 2008, 14:48

interessante Theorie hier:

bisher konnte man ja immer fröhlich auf den User Agent prüfen um Google zu erkennen, aber ich begreife noch nicht ganz den Sinn des ganzen:

# viele Seiten sind doch inzwischen so dynamisch, das die bei jedem Aufruf eine etwas veränderte Version zeigen (z.B. andere oder aktualisierte News anzeigen) – wie soll man da den Cloaking erkennen?

Was kann man nun tun um auch die Cloak-Check Bots zu erkennen?

Olaf   
11. Februar 2008, 17:40

@Reifenab: Naja es macht schon Sinn den Vergleich zu machen, ob sich bei den beiden Besuchen signifikant unterschiedliche Inhalte finden. Wenn dies der Fall ist, ist Cloaking zumindest schon mal wahrscheinlicher, bzw. umgekehrt kann man es ausschliessen.

Wenn man dann bei Bedarf noch mal einen manuellen Prüfer dran lässt, kann man so das Cloaking aufdecken. Das dürfte also zumindest ein Vorfilter sein.

Betamode   
17. Februar 2008, 21:24

Sistrix alias Johannes Beus hat schon vor einigen Tagen in seinem Blog einige Beobachtungen aufgeschrieben:
[…] sowohl Microsoft als auch Google überprüfen mittlerweile Seiten auf Cloaking auf Referrerbasis. Dazu rufen sie die Seiten mi…

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.

Kostenlosen Testaccount jetzt aktivieren

Aktiviere jetzt deinen kostenlosen Testaccount für die SISTRIX Toolbox. Garantiert ohne Kosten und unverbindlich. Jetzt aktivieren!