Neu registrieren / Login

Referrer-Spam von Google und Microsoft

Beim Durchsehen einiger Server-Logfiles ist mir aufgefallen, dass mittlerweile sogar Microsoft und Google nicht vor zwielichtigen Methoden der Bewerbung ihrer eigenen Suchmaschine zurückschrecken. War Referrer-Spam, also das automatische Besuchen von Webseiten mit einem gesetzten Referrer der zu bewerbenden Seiten früher doch eher Erotik- und Viagra-Seite vorbehalten, scheinen jetzt auch die beide Suchmaschinengiganten ihren Bekanntheitsgrad so steigern zu wollen.

Spaß beiseite, sowohl Microsoft als auch Google überprüfen mittlerweile Seiten auf Cloaking auf Referrerbasis. Dazu rufen sie die Seiten mit einem Referrer, der so aussieht, als komme der Nutzer über ihre Suchmaschine auf. Bei Google sieht das beispielsweise in den Logfiles so aus:

crawl-66-249-66-243.googlebot.com - - [07/Feb/2008:13:10:35 +0100] "GET /news/234-neue-msn-suche-online.html HTTP/1.1" 200 8223 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

74.125.16.67 - - [07/Feb/2008:13:34:52 +0100] "GET /news/234-neue-msn-suche-online.html HTTP/1.1" 200 8223 "http://www.google.com/search?q=abc" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.7) Gecko/20060909 Firefox/1.5.0.7"


Zuerst kommt ein normaler Googlebot mit den bekannten Merkmalen, nur wenig später ein Besucher mit einer IP, die zufälligerweise Google gehört und einem Referrer, der darauf hindeuten soll, dass er nach „abc“ gesucht hat. Google vergleicht nun die beiden ausgelieferten Seiten und entscheidet dann, ob hier gecloaked wird oder nicht. Microsoft geht dabei nicht ganz dillentantisch vor und übergibt immerhin Referrer, die noch einen gewissen Bezug zum Thema der Seite haben oder zumindest aus einer Rotation verschiedener Suchanfragen kommen. Bleibt zu hoffen, dass in Zukunft nicht jede Suchmaschine auf die Idee kommt, sowas testen zu müssen und die Serverlogfiles somit komplett unbrauchbar macht.


Eintrag geschrieben am 07.02.2008 um 20:29 Uhr - Trackback setzen - Tags: Crawler Google Microsoft
Jörg
schrieb am 07.02.2008 um 21:42 Uhr
Diese Referrer waren vor einiger Zeit auch schon Thema auf WMW:

http://www.webmasterworld.com/msn_microsoft_search/3424476-5-30.htm

Manuel Hirsch
schrieb am 07.02.2008 um 22:06 Uhr
Von MSN kennen wir das ja schon lange, aber auch Google ist mir da letzte Woche aufgefallen. Ich war mir nur nicht sicher, ob das nicht Schluckauf war.

Auf der WoW-Guild Website meiner Freundin hatten wir Traffic - angeblich - von Google für das Keyword "wow". Aber sie ist auf Seite 150 gelistet oder so.
20 hits innerhalb einer Stunde. Jetzt wo Du das auch bestätigst, glaub ich nicht mehr an zufälligen flux...

Pepino
schrieb am 08.02.2008 um 13:05 Uhr
Und ich hatte mich bereits gewundert, weshalb ich so viele Anfragen aus en-US hatte... Danke für die Aufklärung!

Olaf
schrieb am 08.02.2008 um 17:28 Uhr
Das ist nicht neu sondern schon 'ne ganze Ewigkeit so. Es ist beim Googlebot auch nicht nur "abc" sondern auch "def" (was für 'ne Überraschung) und ein paar andere kurze Strings.

Johannes
schrieb am 08.02.2008 um 19:28 Uhr
Olaf, die ersten Einträge zu dem Verhalten von Google finde ich - auch über einige, größere Webseitenlogfiles hinweig - am 08.01.2008. Hast du da andere Informationen, dass du von "halbe Ewigkeit" sprichst? Andere Suchstrings als "abc" kann ich in den Logfiles ebenfalls nicht finden, hättest du da ein kleines Beispiel mit IP-Adresse für mich, Danke.

Johannes
schrieb am 08.02.2008 um 19:36 Uhr
Ergänzung zu dem Kommentar: ab heute (!) sehe ich, dass von der IP nicht mehr nur mit "abc" sondern auch mit dem Hostname der Seite "gesucht" wird, lustig.

Olaf
schrieb am 10.02.2008 um 13:43 Uhr
@Johannes: Wir haben hier so ein Tool zu laufen, dass eben auch die exakten Besucherpfade mit aufzeichnet, so dass man einen Eindruck bekommt wer wann und wo genau rumhüpft. Dieses spezielle Tool läuft seit exakt 1. Februar 2007 und da das quasi als ersten Eintrag immer den Referrer enthält, ist mir das mit den abc's sehr schnell aufgefallen. Das ist also mindestens seit dieser Zeit schon so, vermutlich aber schon deutlich länger.

Reifenab
schrieb am 11.02.2008 um 14:48 Uhr
interessante Theorie hier:

bisher konnte man ja immer fröhlich auf den User Agent prüfen um Google zu erkennen, aber ich begreife noch nicht ganz den Sinn des ganzen:

# viele Seiten sind doch inzwischen so dynamisch, das die bei jedem Aufruf eine etwas veränderte Version zeigen (z.B. andere oder aktualisierte News anzeigen) - wie soll man da den Cloaking erkennen?

Was kann man nun tun um auch die Cloak-Check Bots zu erkennen?

Olaf
schrieb am 11.02.2008 um 17:40 Uhr
@Reifenab: Naja es macht schon Sinn den Vergleich zu machen, ob sich bei den beiden Besuchen signifikant unterschiedliche Inhalte finden. Wenn dies der Fall ist, ist Cloaking zumindest schon mal wahrscheinlicher, bzw. umgekehrt kann man es ausschliessen.

Wenn man dann bei Bedarf noch mal einen manuellen Prüfer dran lässt, kann man so das Cloaking aufdecken. Das dürfte also zumindest ein Vorfilter sein.

Trackback - Betamode - 17.02.2008 21:24
Sistrix alias Johannes Beus hat schon vor einigen Tagen in seinem Blog einige Beobachtungen aufgeschrieben:
[…] sowohl Microsoft als auch Google überprüfen mittlerweile Seiten auf Cloaking auf Referrerbasis. Dazu rufen sie die Seiten mi...


 
 

Kommentieren? Kommentieren?

Die Kommentare für diesen Beitrag wurden geschlossen. Angemeldete Benutzer haben weiterhin die Möglichkeit, auch ältere Beiträge zu kommentieren. Jetzt kostenlos anmelden.