Verwirrung um First Click Free

Johannes Beus
Johannes Beus
16. Dezember 2009
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Seit das Hamburger Abendblatt sowie die Berliner Morgenpost Anfang der Woche als Versuchskaninchen für bezahlte Inhalte im Onlineverlagsumfeld dienen, quillt mein Feedreader mit Meinungen und Einschätzungen zu der Sache über. Ich will mich inhaltlich aber gar nicht dazu äußern, sondern lediglich etwas zu der technischen Umsetzung schreiben, da hier offenbar noch Unklarheiten vorhanden sind.

Google kommt Verlagen deutlich weiter entgegen, als allen anderen Content-Anbietern im Internet. Danny Sullivan (der von Searchengineland) hat das vor einiger Zeit mal sehr schön zusammengefasst. Ein Teil des Entgegenkommens hört auf den Namen „First Click Free„: wenn ein User über eine Google-Seite auf die Zeitungsseite kommt, kann er den ersten Artikel kostenlos ansehen, muss für weitere Inhalte aber zahlen. Das wird in der Regel so umgesetzt, dass Besucher, die via Google auf die Seite kommen über ihren Referrer erkannt werden und dann erst ab dem zweiten Seitenaufruf zur Kasse gebeten werden.

Böses Cloaking?
Damit die Seiten allerdings in die Google Websuche sowie Google News aufgenommen werden können, muss der Googlebot sie ohne Einschränkungen crawlen können. Dafür werden an den Suchmaschinencrawler und die menschlichen Besucher unterschiedliche Versionen der Seite ausgeliefert: sogenanntes Cloaking. Cloaking war früher in der SEO-Szene mal recht weit verbreitet, seit einigen Jahren sind die Vorteile in der Regel allerdings so gering beziehungsweise gar nicht mehr vorhanden, dass man darauf verzichtet. Wenn netzpolitik.org in einem Posting das Cloaking der beiden Seiten in eine graue Ecke rückt („… hatte doch tatsächlich gedacht, dass “Cloaking” nach wie vor zu einem Ausschluss aus den Suchergebnislisten (SERPS) führe.“) so ist das zu kurz gedacht: hier wird nicht gecloaked, um in den SERPs irgendwelche Vorteile zu haben, sondern es wird mit expliziter Erlaubnis von Google ein Feature zur möglichen Monetarisierung der Seite umgesetzt.

Ungeschicktes Cloaking
Die technische Umsetzung der Erkennung Bot/Mensch scheint Anlass für andere Postings zu sein (zum Beispiel Chip.de oder Carta.info). Der Zugriff des Googlebot sieht in den Logfiles aktuell so aus:

66.249.71.13 - - [16/Dec/2009:13:05:13 +0100] "GET /news/ HTTP/1.1" 200 16199 "-"
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Vorne die IP-Adresse, dazwischen für uns unwichtiger Kram und hinten der User-Agent. Es gibt die Möglichkeit, das Cloaking auf Basis der IP-Adresse, der User-Agents oder mit einer Kombination beider Informationen umzusetzen. Zumindest das Abendblatt hat sich wohl dazu entschieden, nur auf den User-Agent zu setzen. Das ist etwas ungeschickt, da dieser Wert vom Nutzer beliebig eingestellt werden kann (beispielswiese durch ein Firefox Plugin) und er danach Zugriff auf die kompletten Inhalte hat. Besser wäre eine Kombination aus IP-Adresse und User-Agent: dazu bieten die großen Suchmaschinen seit Jahren ein etabliertes Verfahren an. Bei allen Zugriff, bei denen man anhand des User-Agents vermutet, dass er von einer Suchmaschine kommt, wird in einem ersten Schritt geschaut, welchen Reverse-DNS-Eintrag die IP-Adresse hat:

beus@helios:~$ host 66.249.71.13
Name: crawl-66-249-71-13.googlebot.com

Kommt dann ein Hostname innerhalb der Domain googlebot.com heraus, wird dieser wieder zurück auf die IP-Adresse aufgelöst:

beus@helios:~$ host crawl-66-249-71-13.googlebot.com
crawl-66-249-71-13.googlebot.com A 66.249.71.13

Sieht in diesem Fall gut aus: die IP-Adresse von Anfang kommt hier zum Schluß wieder raus. Damit kann verhindert werden, dass lediglich die Änderung des User-Agents dazu führt, dass eigentlich für die Suchmaschine gedachte Seiten an Nutzer ausgeliefert werden. Ist übrigens nicht so ganz neu das Thema …

Ähnliche Beiträge
Kommentare
jo   
16. Dezember 2009, 14:46

Dass das Cloaking im konkreten Fall mit expliziter Erlaubnis durch Google erfolgt, hatte ich bei netzpolitik.org freilich auch erwähnt. Weit interessanter als die SEO-Perspektive finde ich das Vorgehen aber aus Konsumentensicht.

Klar, man kann solche Spielchen natürlich als „Feature zu Monetarisierung“ sehen.* Man kann sich als (Stamm-)Leser aber auch schlicht veralbert fühlen, wenn man für einen Text zahlen soll, den man ausgerechnet als frei surfender Google-(News-)User (bzw. „spätideologisch verirrte Web-Kommunisten“, wie sie bei Döpfner heißen) weiterhin umsonst bekommt.

*Damit der Trick funktioniert, müssten a) entweder die Inhalte so herausragend sein, dass man freiwillig zahlt oder b) alle ähnlichen Inhalten kostenpflichtig werden. Beides ist nicht der Fall und selbst bei einem Lokalmedium mittelfristig schwer vorstellbar. Urheberrechtlich gibt’s zudem _noch_ die Schranke in UrhG § 50 „Berichterstattung über Tagesereignisse“.

Constantin   
16. Dezember 2009, 15:20

Sie lasen einen Auszug aus den geheimen Träumen, Kapitel „Ich, der GoogleBot“ des Johannes Beus…

Jojo   
16. Dezember 2009, 15:42

Ich denke die Useragent-Lösung war auf die Schnelle das Einfachste. Vielleicht war es den Entwickler auch einfach egal: Auftrag erhalten, sinngemäß gelöst, fertig. Sicherlich wird man sich da noch was überlegen.

Google gibt den Zeitungen mittlerweile sogar die Option die Anzahl der Abrufe zu beschränken. Zum Beispiel auf 3. Wird vermutlich in einem Cookie gespeichert und kann genauso umgangen werden.

@jo
Bei mir gibt es nur eine Lokal-Zeitung. Es gibt auch keine kostenlose Alternative. Lokale Nachrichten im Überfluß dürfte es nur in Großstädten geben. Weshalb Versuche in Hamburg oder Berlin vielleicht nicht so ideal sind …

jr-ewing   
16. Dezember 2009, 16:11

eine Implementierung des RDNS Checks kann man sich auch in den Sourcen der Spider-trap (spider-trap.de) anschauen – wenns interessiert…

Gerd Kamp   
16. Dezember 2009, 16:40

Mein Post zum Thema steht hier: http://relations.ka2.de/2009/12/16/abendblatt-googleloch/

Zusammenfassung:

– Zeit zwischen Announcement der eingeschränkten FCF-Version von Google und Launch Paid Abendblatt zu kurz.

– Implementierung der 5-Click Tag Regel braucht dauert oder ist kaufmannisch nicht sinnvoll

– RDNS : geschludert resp. Zeit zu knapp, oder wieder kaufmännisch zu teuer

@Jojo: Google implementiert die Klickbeschränkung nicht, sondern erlaubt den Verlagen jetzt nur das im Rahmen der FCF-Regelung zu tun. Minimum ist AFAIK 5 Clicks/Tag

Markus Merz | Hamburg St. Georg   
17. Dezember 2009, 15:58

Die Aussage „all users who visit from Google“ ist die Entscheidende, weil man den Referrer einstellen kann, und für diesen kein Prüfmechanismus vorliegt. Ob man dann den User Agent überprüft oder nicht ist relativ belanglos. S.a. den Absatz:

Die Achillesferse von “Der erste Klick ist entgeltfrei”

Die first click free for web search policy ist von Google abgesegnet und entsprechend finden sich hier auch die verwundbaren Stellen, die das kostenlose Hamburger Abendblatt online weiterhin ermöglichen. Die Achillesferse des Hamburger Abendblatt ist ein offizieller Tarnkappenmodus: The page displayed to all users who visit from Google must be identical to the content that is shown to Googlebot. Ob sich das Hamburger Abendblatt mit der praktischen Umsetzung dieser Richtlinie einfach nur stumpf in den Fuß geschossen hat, das wird die Zukunft zeigen.

Stefan F   
17. Dezember 2009, 18:20

Die paar Nutzer die den User-Agent Header manipulieren (koennen) sind wohl auch zu vernachlaessigen. Was sind schon ein paar tausend Geeks, die von der Gratismentalitaet sowieso laengst aufgefressen wurden? Vermutlich kein herber Verlust, eher noch eine kleine Chance auf einige Backlinks von technisch versierten Bloggern.

Interessanter fand ich allerdings, dass ich mit meinem Agent „(Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/532.6 (KHTML, like Gecko) Chrome/4.0.266.0 Safari/532.6“ (Chrome, Linux, 64bit – wenn Geek dann richtig *g*) anfangs auch als Googlebot durch ging.

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.

Kostenlosen Testaccount jetzt aktivieren

Aktiviere jetzt deinen kostenlosen Testaccount für die SISTRIX Toolbox. Garantiert ohne Kosten und unverbindlich. Jetzt aktivieren!