Suchmaschinen lösen nicht-existentes Duplicate-Content-Problem

Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.
14. Februar 2009 34 Kommentare

Es gibt kein Duplicate-Content-Problem – das jedenfalls war noch im September letzten Jahres der Tenor eines Postings im Google Webmasterblog. Heute hat man in der Auslegung dieser Sache dann die Flexibilität der Nasenspitze eines Aardvarks eingenommen und stellt zusammen mit Yahoo und Microsoft eine Lösung für das (nicht-existente) Duplicate-Content-Problem vor. Mit einem neuen Hinweis im Quelltext einer jeden Webseite soll der Webseitenbetreiber – so die Vorstellung des Trios – in Zukunft die „richtige“ URL angeben und Duplicate-Content, der dadurch entsteht, dass die gleiche Webseite unter mehr als einer URL erreichbar ist, vermeiden helfen.

Probleme damit, dass Seiten unter mehr als einer URL erreichbar sind, entstehen in der Regel nur dann, wenn Seiten dynamisch generiert werden. Google hat in dem Blogposting ein schönes Beispiel gegeben: sowohl unter example.com/shop.php?item=seo als auch unter example.com/shop.php?item=seo&category=spam wird jeweils der gleiche Artikel mit dem gleichen Content angezeigt. Neben unsauber programmierten Seiten, ist häufig auch ein Grund für sowas, dass URLs in Laufe verschiedener Softwareversionen verändert werden, aber weiterhin abwärtskompatibel bleiben sollen.

In der SEO-Branche hat die Ankündigung für einige Euphorie gesorgt, Seomoz sah‘ sich gar hingerissen, von der größten Weiterentwicklung seit Einführung der XML-Sitemaps zu sprechen. Wie man am Tonfall der letzten Zeilen und der Überschrift eventuell schon erahnen kann, sehe ich die Sache etwas differenzierter und möchte das im Folgenden erklären:

Es gibt bereits eine Lösung
Die Möglichkeit, falsche URLs auf die richtige Version weiterzuleiten existiert mit der 301-Weiterleitung seit Ewigkeiten. Suchmaschinen folgen diesen Anweisungen und nehmen die Zielseite in den Index auf. Das eigentliche Problem liegt an einer ganz anderen Stelle: die meisten Webanwendungen kennen ihre richtige URL gar nicht, können also gar keinen Vergleich zwischen der abgerufenen und der korrekten URL machen und im Fall eines Unterschieds per 301-Redirect weiterleiten. Da auch für den jetzt eingeführten, neuen Tag die Webseite „ihre richtige“ URL kennen muss, sehe ich da keinen Fortschritt.

Neue Links werden verstreut
Seiten werden mit der URL verlinkt, mit der sie im Browser aufgerufen werden. Dürfte wenig überraschend sein, hat, wenn man dem Vorschlag folgt, allerdings negative Auswirkungen. Zuerst hier ein Beispiel, wie es bei der Lösung mit einem 301-Redirect aussieht:

301
Der Surfer wird auf die richtige URL weitergeleitet, sieht diese in der Adresszeile seines Browser und wird diese URL verlinken oder zitieren. Diese Weiterleitung fehlt allerdings, wenn man „Canonical“-Tag setzt:

301
Neue Links auf die eine Seite werden nicht mehr auf dieser konzentriert sondern auf die verschiedenen Versionen, die so ja alle unter verschiedenen URLs online sind, verteilt. Man muss jetzt darauf vertrauen, dass die Suchmaschinen den Linkjuice möglichst vollständig auf die Hauptseite überträgt.

Der Vorschlag von Google, Yahoo und Microsoft mildert Auswirkungen anstatt Ursachen zu beseitigen. Neue und proprietären HTML-Tags werden eingeführt, obwohl es für die Lösung des Problems etablierte Wege gibt.

14. Februar 2009, 11:25

Absolut deiner Meinung. Wie schon bei Uwe geschrieben, gibt es bereits Möglichkeiten, hier selbst sauber einzugreifen. Und dort, wo Content Management Systeme unsauber arbeiten, kann man die Einfügung eines neuen, überflüssigen MEtaTags sowieso vergessen.

14. Februar 2009, 11:38

Das ist in der Tat eine Krücke, welche die Auswirkungen mildert anstatt die Ursachen zu beseitigen. Insofern erinnert es mich stark an die XML-Sitemaps, deren Wirkung auch gerne falsch verstanden wird.

14. Februar 2009, 12:28

Na ja, es gibt ja auch durchaus Situationen, in denen nicht ein Fehler des Redaktionssystems für doppelte URLs verantwortlich ist – sondern dies sogar gewünscht ist. Z.B. wenn es verschiedene Produkt-Varianten gibt (also fast gleicher Inhalt und nur ein anderes Bild/Bildunterschrift). Oder eine redaktionelle Seite möchte gerne neue Beiträge auch noch bei den News anzeigen – aber sie sollen auch im „haltbaren“ Bereich sein (und dort auch bleiben). In diesen Fällen macht diese Regelung schon Sinn. Vorausgesetzt natürlich, dass die ganze Linkliebe der „Nebenseiten“ auch auf die Hauptseite vererbt wird. Das werden wir wohl erst noch sehen…

Sonst sollte man in der Tat die Finger von lassen und mit 301 umleiten…

grüße
eric

14. Februar 2009, 12:34

Hallo,

die Linkjuice weiterleiten dürfte bei Bestehen des Tags kein großes Problem sein. Kompliziert wird es in der Tat, wenn man die Tags setzt, entfernt, woanders setzt usw. Wie man sich ein richtig gutes `Linkschleusennetzwerk´ aufbaut, wirst Du uns hoffentlich bald erklären 😉

Grüße

Gretus

14. Februar 2009, 14:55

Contentman hat schon recht, es gibt Fälle, wo es Sinn macht. Nicht immer kann man sauber einen 301er nutzen, weil es eben doch kleine Unterschiede in der Ausgabe gibt. Beispielsweise bei einer Suchausgabe, welche die Keywords farbig hervorhebt. Oder bei meinem CMS immer dann, wenn es dynamisch werden muss, z.B. für die Aufnahme eines Kommentars, und sonst nur mit echten statischen Seiten gearbeitet wird.

Aber so richtig wichtig finde ich es jetzt auch nicht.

PS: Für SEOs muss es doch toll sein. Ein neues Feature, womit man beim Kunden einen notwendigen Aufwand begründen kann…. 😎

14. Februar 2009, 15:15

Ich sehe das wie Contentteam und Horst. Gerade im Bereich der kommerziellen CMS Systeme ist die Wiederverwendung von Content ein größeres Thema. Ich habe selber Projekte bei großen Handelsunternehmen (die aus Düsseldorf) in den letzten Jahren betreut. Hier gibt es sehr oft die Anforderungen über das CMS verschiedenste Ausgabekanäle mit gleichen (oder auch Teilmengen von) Inhalten zu bedienen. Das heißt dann Multi Channel Publishing (z.B. speziell für mobile Endgeräte). Zusätzlich verwenden die gerne identische Inhalte über verschiedene Vertreibslinien (Bsp: Holdingcontent erscheint in Vertriebsliniencontent im anderen Look an Feel und in einem anderen Context). Da reicht ein Umleitung mit 301 nicht aus. Von daher begrüße ich die neue Möglichkeit.

Grüße AJ

14. Februar 2009, 16:08

Also ich finde die Möglichkeit auch sehr hilfreich. Bei einigen Partner-Programmen im Bereich eCommerce ist es z.B. nicht erlaubt, auf eine Seite zu verlinken, die ein Redirect durchführt. Wenn man aber eine Tracking-ID hinzufügt, dann hat man schon „duplicate content“. Genau diese Problematik wird durch diesen Tag gelöst. Finde ich also absolut akzeptabel.

14. Februar 2009, 16:09

Habe irgendwas in Erinnerung dass dafür doch auch der base-Tag gut sein soll um den richtigen URL im Quelltext kenntlich zu machen, also <base href=“http://www.DOMAIN.tld/“……

Meine das hätte ich mal in Klaus Schallhorn’s Weblog gelesen. Könnte mich auch irren oder das verwechseln 😉

Klaus
15. Februar 2009, 20:50

und wie kann man in der .htaccess die überflüssigen Parameter abschneiden?
Das Beispiel von eben leitet ja elegant von http://www.sistrix.de/news/851-suchmaschinen-loesen-nicht-existentes-duplicate-content-problem.html?item=seo&category=spam
auf http://www.sistrix.de/news/851-suchmaschinen-loesen-nicht-existentes-duplicate-content-problem.html um… tippe mal auch mit einem 301…
Danke für eine Hilfe!

15. Februar 2009, 23:00

Ich sehe das ein wenig anders. Prinzipiell ist natürlich alles, was man selbst in der Hand hat und kontrollieren kann vorzuziehen. Daher würde ich immer einen 301 einsetzen, wenn es geht.

Es gibt allerdings einige (eher viele) Stellen, bei denen ich mir einen Canonical gut vorstellen kann, z.B. dort, wo durch Parametrisierung viel Noindex im Spiel ist (s. Link), daher evtl. direkte Links nur teilweise Juice vererben. Ob das Tag funktionieren wird, bliebt abzuwarten.

Ich warne aber vor voreiligen Reaktionen (besonders bei kleinen Seiten, bei großen dauerts eh länger), wie es bei nofollow der Fall war un einen 301 immer vorziehen, wenn es möglich ist.

16. Februar 2009, 11:04

Ich danke für den Denkanstoß und werde dies wohl in Zukunft auch genauer beobachten müssen. Ralph

16. Februar 2009, 11:41

die ursachen des DC werden auch mit einem neuen tag nicht gelöst, das ist klar – jedoch sollten genau hier die projekte angepasst werden, nicht durch eine weitere option den fehler verhüllen zu können! IMHO sollten robots.txt, noindex und – das wichtigste werkzeug – der 301 redirect vollkommen ausreichen.

gerade bei großen projekten (mehrere mio. seiten) sehe ich sogar einen extremen mehraufwand nebst weiterer unübersichtlichkeit aufkommen und somit auch eine höhere fehleranfälligkeit wegen der dezentralen steuerung.

christoph hat mal einen ganz guten guide released, welchen man sich kanonisch immer mal wieder reinziehen sollte;
http://schneegans.de/web/kanonische-adressen/

Ronny
18. Februar 2009, 07:14

Richtig so. Einer der wenigen Post zu diesem Thema mit einer sachlichen Darstellung. Als das Thema losging und im Reader die ersten Postings auftauchten, glaubte ich es wäre eine neue Wunderwaffe aufgetaucht…

Und was ist es wirklich? Heiße Luft.

18. Februar 2009, 15:48

Was ich mich eher frage ist, wie verhält es sich bei Content Syndication? Da hilft leider kein 301. Aber eben auch nicht dieser Tag, da er ja nur innerhalb einer Domain funktioniert.
Gerade bei den Verlagen ist es ja so, das der Verkauf von Inhalten nach wie vor ein großes Geschäft ist und man dadurch oftmals den Inhalt auf der eigenen Seite schädigt. Man sehe nur mal, was auf aol, msn, yahoo etc. für Inhalte stehen. Die sind nicht von deren Redaktionen. 😉 Bisher hatte man nur die Möglichkeit den Partner dazu zu verpflichten diese eventuell auf noindex zu setzen. Schade also, das dieses Tag keine Lösung für das weitaus größere Problem von Content Syndication bietet.

Hannes S
18. Februar 2009, 16:22

Naja, aus Laiensicht ist die kanonische URL sicher super. Du hast zwar vollkommen recht, aber wenn man bedenkt, dass es bei den Weiterleitungen immer wieder zu Problemen kommt… Google versucht halt auch den Unbeholfensten entgegen zu kommen.

Gruß

18. Februar 2009, 16:42

Bei allem Getöse: Im Grunde ist eine solche Angabe – Google hin oder her – sinnvoll weil es die Realität wiedergibt. Wenn es einen Hauptartikel gibt, dann sollte der erkennbar sein.
Was tatsächlich fehlt, ist eine solche Angabe über Domains hinweg. Keine Ahnung, warum Google das noch (!) nicht mit drin hat. Ich bin überzeugt, dass das kommt – einfach, weil es Sinn macht…
eric

Molar
18. Februar 2009, 22:05

Danke Johannes für die Erweiterung meiner Allgemeinbildung… nun weiss ich auch was ein Aardvark ist 😉

19. Februar 2009, 00:21

Für die Klugscheißer unter uns: 🙂

rel=“canonical“ ist kein! Tag.

„rel“ ist ein Attribut und „canonical“ der Wert … und der ist neu.

Die beiden sind Bestandteil des link-Tags.

Grüße

19. Februar 2009, 11:11

@contentman
Diese Angabe soll eigentlich nur dazu dar sein, die eigentliche Url zu zeigen ohne die ganzen extra Parameter dran. Wieviel Leute hatten schon Probleme weil deren CMS, Shop etc. an jeder Url eine Session mit angehangen hatte. Google erkennt zwar mittlerweile auch schon viele Session Vars, aber bei weiten noch nicht alle, da man diese ja beliebig kennzeichnen kann.

19. Februar 2009, 13:19

@Perun: da Du damit angefangen hast, muss ich dich nochmal korrigieren. Attribut und Wert sind nicht Teil des link-Tags, sondern des Link-_Elements_. Bestandteil des link-Tags ist einfach nur ‚link‘ 🙂

19. Februar 2009, 13:27

@Haschek,

nicht ganz. Das link-Element ist das ganze (Start-Tag, Attribute, Werte, Inhalt End-Tag). Die Attribute und deren Werte werden im Start-Tag notiert und sind somit der Bestandteil des Start-Tags, der wiederum der Bestandteil des Elements ist.

23. Februar 2009, 10:25

Hi,

ich sehe bei diesem neuen Tag schon einen ganz netten Vorteil. Wenn ich die duplicaten URLs aktuell kenne, dann mit Nonindex sperre und den neuen Tag einbaue, so wird der Linkquice der eingehenden Links auf die „gute“ Url weiter gegeben, ohne dass ich aufwändige 301 schreiben muss.

25. Februar 2009, 11:40

Und weiter geht es mit Infos zu rel=“canonical“ Suchmaschinen lösen nicht-existentes Duplicate-Content-Problem http://is.gd/kN4I

Bernd
27. Februar 2009, 15:28

Ich hätte mal ne simple Frage. Wie sieht es aus, wenn eine html Seite 1 x mit http://www.beispielseite.de und einmal ohne www, also nur beispielseite.de in Google vorhanden ist. Hilft hier dass einfügen von canonical auch und wenn ja, reicht es einzufügen. Habe bei einer Seite genau dieses Problem und mein Hoster unterstützt keine 301 Weiterleitung.

28. Februar 2009, 15:12

>>> Der Surfer wird auf die richtige URL weitergeleitet,
>>> sieht diese in der Adresszeile seines Browser
>>> und wird diese URL verlinken oder zitieren. Diese
>>> Weiterleitung fehlt allerdings, wenn man „Canonical“-Tag setzt

Schönes Argument 🙂

Und Bernd fragt:

>>> http://www.beispielseite.de und einmal ohne www
>>> Hilft hier dass einfügen von canonical auch …?
>>> Habe bei einer Seite genau dieses Problem und
>>> mein Hoster unterstützt keine 301 Weiterleitung?

Dafür kann man das einsetzen, ja.

Es gibt so viel Adressensalat da draussen, dass ein zusätzlicher link-rel-canonical eigentlich ganz gut kommt. 301 einzusetzen ist die erste Wahl … und link-rel-canonical MUss man ja nicht verwenden, man kann …

-luzie-

28. Februar 2009, 15:34

Ich lese hier meinen einige so oder so ähnlich:

>>> „Schade also, das dieses Tag keine Lösung für das weitaus
>>> größere Problem von Content Syndication bietet“

Das eine hat mit dem anderen nichts zu tun. Die interne Duplikation um die’s hier geht ist technischer Fehler, link-rel-canonical eine Reparaturmöglichkeit mehr. Und ein „Tag gegen externe Vervielfachung“ wird’s so nicht geben.

-luzie-

1. März 2009, 22:16

Ich habe einen Kunden, für den canonical tatsächlich eine Lösung sein könnte: es gibt eine Hauptseite, und auf tausenden Subdomains gibt es jeweils wenige Seiten mit subdomain-eigenem Inhalt, und dann viel mit der Hauptseite geteilte Inhalte.

Ein Beispiel wäre z.B. eine Ladenkette, die eine Hauptseite (www.laden.de) mit Blogs, Artikeln, Testberichten, Bildern etc. vorhält, und dann pro Offline-Geschäft eine subdomain (berlin.laden.de) hat, auf der der Berliner Laden seine Mitarbeiter in Berlin vorstellt, die Öffnungszeiten, eigene Bilder, eigenes Logo etc. einpflegen kann. Dann gibt es dort auf der sub aber eine Menge Info-Boxen, die (im Layout des berlin.laden.de!) die Artikel der Hauptdomain anzeigt und/oder verlinkt. Wegen des Layouts sind die Artikel alle unter der subdomain zu finden, also unter berlin.laden.de/artikel4711.de

Ja ja, man hätte das alles viel eleganter lösen können (css liefert das Layout…) aber es liegt nunmal so vor, und man kann nicht alles komplett einreissen, weil es irre aufwendig wäre….

Ich glaube, der canonical KÖNNTE hier tatsächlich die Lösung sein, denn mit dem Attribut sollte man doch wohl von dem subdomain-Artikel auf den Hauptartikel verweisen können…

Oder sehe ich das falsch?

4. März 2009, 11:01

z.B. Bookmarking-Sites sind doch richtige Ansammlungen von DC, ich habe das mal unter http://www.bookmarx.ch/faq_lesen.php?id=19 versucht, den Mitgliedern zu erklären, doch wird das wenig nützen. In dieser Hinsicht finde ich das Tag relativ nützlich, nun geht es mir am „Ar..“ vorbei wenn einer zu seinem Bookmark 20 Tags reinpflanzt um auf 20 Seiten zu erscheinen oder die Mitglieder sich gegenseitig die Bookmarks kopieren. Auf oben verlinkter Seite ist nur die eigentliche Userseite frei vom canonical-Tag… Ein gewisser Rest-DC bleibt, ist in diesem Falle auch schlecht zu vermeiden.

wulfmain
25. März 2009, 20:27

Ich weiß nicht, ob ich das richtig verstehe, aber wenn ich mir einen großen Shop vorstelle, der den gleichen Artikel in unterschiedlichen Sortimenten integriert hat, dann kann man da nicht per 301 weiterleiten, sondern kann sehr wohl so einen neuen Tag gebrauchen.

Beispiel:
Es gibt ein Sortiment Technik und ein Haushalt. In beiden Sortimenten wird die gleiche Kaffeemaschine angeboten, weil manchen Kunden unter Technik nachsehen und andere eben unter Haushalt. Wenn ein User jetzt unter Technik die Kaffeemaschine klickt, kann man ihn ja schlecht per 301 Redirect in das Sortiment Haushalt weiterleiten – schaut für den Kunden wie ein Fehler aus und außerdem will er ja im Technik Sortiment bleiben…
Mit dem neuen Tag hat man dann zumindest die Möglichkeit, Suchmaschinen nur einen Link zu diesem Artikel anzubieten.

Also:
Aus meiner Sicht ist das für einen großen Shopbetreiber ein durchaus wichtiges Thema.

Wie seht ihr das? Hab ich da was falsch verstanden?

23. März 2010, 17:14

Danke für die Bestätigung ich kann anhand des Artikels einiges klarer sehen. Und werde mehr danach handeln. Das war ein nützlicher Tipp.

Auch 2012 wird es wie­der eine neue Epi­sode der Müritz Saga geben. Zum sieb­ten Mal wird in der Frei­licht­bühne in Waren von 29. Juni bis 1.September auf­ge­führt. Ab sofort bis zum 30.4.2012 gibt es online Kar­ten zum Früh­bu­cher­preis. Auf zur Müritz Saga „ Ein Herz und eine Klinge“.

21. Mai 2012, 07:15

Ich sehe ebenso die Option auch nur im Ausbau der erneuerbaren Energie. Was spricht da eigentlich gegen? Die noch relativ schwachen Nutzungsgrade, die technischen Möglichkeiten, die Investitionskosten ?Vieles ist schon auf den guten Weg gebracht, anderes bewusst verhindert worden. Eines wird mehr und mehr klarer: Viel Zeit ist nicht mehr und wenn nur der Kommerz und die Gier weiterhin im Vordergrund stehen, verlieren wir alle!!!