Suchmaschinen lösen nicht-existentes Duplicate-Content-Problem

Johannes Beus
Es gibt kein Duplicate-Content-Problem – das jedenfalls war noch im September letzten Jahres der Tenor eines Postings im Google Webmasterblog. Heute hat man in der Auslegung dieser Sache dann die Flexibilität der Nasenspitze eines Aardvarks eingenommen und stellt zusammen mit Yahoo und Microsoft eine Lösung für das (nicht-existente) Duplicate-Content-Problem vor. Mit einem neuen Hinweis im Quelltext einer jeden Webseite soll der Webseitenbetreiber – so die Vorstellung des Trios – in Zukunft die „richtige“ URL angeben und Duplicate-Content, der dadurch entsteht, dass die gleiche Webseite unter mehr als einer URL erreichbar ist, vermeiden helfen.

Probleme damit, dass Seiten unter mehr als einer URL erreichbar sind, entstehen in der Regel nur dann, wenn Seiten dynamisch generiert werden. Google hat in dem Blogposting ein schönes Beispiel gegeben: sowohl unter example.com/shop.php?item=seo als auch unter example.com/shop.php?item=seo&category=spam wird jeweils der gleiche Artikel mit dem gleichen Content angezeigt. Neben unsauber programmierten Seiten, ist häufig auch ein Grund für sowas, dass URLs in Laufe verschiedener Softwareversionen verändert werden, aber weiterhin abwärtskompatibel bleiben sollen.

In der SEO-Branche hat die Ankündigung für einige Euphorie gesorgt, Seomoz sah‘ sich gar hingerissen, von der größten Weiterentwicklung seit Einführung der XML-Sitemaps zu sprechen. Wie man am Tonfall der letzten Zeilen und der Überschrift eventuell schon erahnen kann, sehe ich die Sache etwas differenzierter und möchte das im Folgenden erklären:

Es gibt bereits eine Lösung
Die Möglichkeit, falsche URLs auf die richtige Version weiterzuleiten existiert mit der 301-Weiterleitung seit Ewigkeiten. Suchmaschinen folgen diesen Anweisungen und nehmen die Zielseite in den Index auf. Das eigentliche Problem liegt an einer ganz anderen Stelle: die meisten Webanwendungen kennen ihre richtige URL gar nicht, können also gar keinen Vergleich zwischen der abgerufenen und der korrekten URL machen und im Fall eines Unterschieds per 301-Redirect weiterleiten. Da auch für den jetzt eingeführten, neuen Tag die Webseite „ihre richtige“ URL kennen muss, sehe ich da keinen Fortschritt.

Neue Links werden verstreut
Seiten werden mit der URL verlinkt, mit der sie im Browser aufgerufen werden. Dürfte wenig überraschend sein, hat, wenn man dem Vorschlag folgt, allerdings negative Auswirkungen. Zuerst hier ein Beispiel, wie es bei der Lösung mit einem 301-Redirect aussieht:

301

Der Surfer wird auf die richtige URL weitergeleitet, sieht diese in der Adresszeile seines Browser und wird diese URL verlinken oder zitieren. Diese Weiterleitung fehlt allerdings, wenn man „Canonical“-Tag setzt:

301

Neue Links auf die eine Seite werden nicht mehr auf dieser konzentriert sondern auf die verschiedenen Versionen, die so ja alle unter verschiedenen URLs online sind, verteilt. Man muss jetzt darauf vertrauen, dass die Suchmaschinen den Linkjuice möglichst vollständig auf die Hauptseite überträgt.

Der Vorschlag von Google, Yahoo und Microsoft mildert Auswirkungen anstatt Ursachen zu beseitigen. Neue und proprietären HTML-Tags werden eingeführt, obwohl es für die Lösung des Problems etablierte Wege gibt.
Eintrag geschrieben am 14.02.2009 um 11:00 Uhr - Trackback setzen - Tags: Duplicate Content Google Yahoo
Loewenherz
1
schrieb am 14.02.2009 um 11:25 Uhr
Absolut deiner Meinung. Wie schon bei Uwe geschrieben, gibt es bereits Möglichkeiten, hier selbst sauber einzugreifen. Und dort, wo Content Management Systeme unsauber arbeiten, kann man die Einfügung eines neuen, überflüssigen MEtaTags sowieso vergessen.

Hanns
2
schrieb am 14.02.2009 um 11:38 Uhr
Das ist in der Tat eine Krücke, welche die Auswirkungen mildert anstatt die Ursachen zu beseitigen. Insofern erinnert es mich stark an die XML-Sitemaps, deren Wirkung auch gerne falsch verstanden wird.

Contentman
3
Contentman
schrieb am 14.02.2009 um 12:28 Uhr
Na ja, es gibt ja auch durchaus Situationen, in denen nicht ein Fehler des Redaktionssystems für doppelte URLs verantwortlich ist - sondern dies sogar gewünscht ist. Z.B. wenn es verschiedene Produkt-Varianten gibt (also fast gleicher Inhalt und nur ein anderes Bild/Bildunterschrift). Oder eine redaktionelle Seite möchte gerne neue Beiträge auch noch bei den News anzeigen - aber sie sollen auch im "haltbaren" Bereich sein (und dort auch bleiben). In diesen Fällen macht diese Regelung schon Sinn. Vorausgesetzt natürlich, dass die ganze Linkliebe der "Nebenseiten" auch auf die Hauptseite vererbt wird. Das werden wir wohl erst noch sehen...

Sonst sollte man in der Tat die Finger von lassen und mit 301 umleiten...

grüße
eric

seo-united
4
seo-united
schrieb am 14.02.2009 um 12:34 Uhr
Hallo,

die Linkjuice weiterleiten dürfte bei Bestehen des Tags kein großes Problem sein. Kompliziert wird es in der Tat, wenn man die Tags setzt, entfernt, woanders setzt usw. Wie man sich ein richtig gutes `Linkschleusennetzwerk´ aufbaut, wirst Du uns hoffentlich bald erklären ;-)

Grüße

Gretus

Horst
5
schrieb am 14.02.2009 um 14:55 Uhr
Contentman hat schon recht, es gibt Fälle, wo es Sinn macht. Nicht immer kann man sauber einen 301er nutzen, weil es eben doch kleine Unterschiede in der Ausgabe gibt. Beispielsweise bei einer Suchausgabe, welche die Keywords farbig hervorhebt. Oder bei meinem CMS immer dann, wenn es dynamisch werden muss, z.B. für die Aufnahme eines Kommentars, und sonst nur mit echten statischen Seiten gearbeitet wird.

Aber so richtig wichtig finde ich es jetzt auch nicht.

PS: Für SEOs muss es doch toll sein. Ein neues Feature, womit man beim Kunden einen notwendigen Aufwand begründen kann.... 8-)

keine
keiner
AJ
8
schrieb am 14.02.2009 um 15:15 Uhr
Ich sehe das wie Contentteam und Horst. Gerade im Bereich der kommerziellen CMS Systeme ist die Wiederverwendung von Content ein größeres Thema. Ich habe selber Projekte bei großen Handelsunternehmen (die aus Düsseldorf) in den letzten Jahren betreut. Hier gibt es sehr oft die Anforderungen über das CMS verschiedenste Ausgabekanäle mit gleichen (oder auch Teilmengen von) Inhalten zu bedienen. Das heißt dann Multi Channel Publishing (z.B. speziell für mobile Endgeräte). Zusätzlich verwenden die gerne identische Inhalte über verschiedene Vertreibslinien (Bsp: Holdingcontent erscheint in Vertriebsliniencontent im anderen Look an Feel und in einem anderen Context). Da reicht ein Umleitung mit 301 nicht aus. Von daher begrüße ich die neue Möglichkeit.

Grüße AJ

Mathias Bank
9
schrieb am 14.02.2009 um 16:08 Uhr
Also ich finde die Möglichkeit auch sehr hilfreich. Bei einigen Partner-Programmen im Bereich eCommerce ist es z.B. nicht erlaubt, auf eine Seite zu verlinken, die ein Redirect durchführt. Wenn man aber eine Tracking-ID hinzufügt, dann hat man schon "duplicate content". Genau diese Problematik wird durch diesen Tag gelöst. Finde ich also absolut akzeptabel.

Jens
10
schrieb am 14.02.2009 um 16:09 Uhr
Habe irgendwas in Erinnerung dass dafür doch auch der base-Tag gut sein soll um den richtigen URL im Quelltext kenntlich zu machen, also <base href="http://www.DOMAIN.tld/"......

Meine das hätte ich mal in Klaus Schallhorn's Weblog gelesen. Könnte mich auch irren oder das verwechseln ;-)

Klaus
11
Klaus
schrieb am 15.02.2009 um 20:50 Uhr
und wie kann man in der .htaccess die überflüssigen Parameter abschneiden?
Das Beispiel von eben leitet ja elegant von http://www.sistrix.de/news/851-suchmaschinen-loesen-nicht-existentes-duplicate-content-problem.html?item=seo&category=spam
auf http://www.sistrix.de/news/851-suchmaschinen-loesen-nicht-existentes-duplicate-content-problem.html um... tippe mal auch mit einem 301...
Danke für eine Hilfe!

hannes
12
schrieb am 15.02.2009 um 23:00 Uhr
Ich sehe das ein wenig anders. Prinzipiell ist natürlich alles, was man selbst in der Hand hat und kontrollieren kann vorzuziehen. Daher würde ich immer einen 301 einsetzen, wenn es geht.

Es gibt allerdings einige (eher viele) Stellen, bei denen ich mir einen Canonical gut vorstellen kann, z.B. dort, wo durch Parametrisierung viel Noindex im Spiel ist (s. Link), daher evtl. direkte Links nur teilweise Juice vererben. Ob das Tag funktionieren wird, bliebt abzuwarten.

Ich warne aber vor voreiligen Reaktionen (besonders bei kleinen Seiten, bei großen dauerts eh länger), wie es bei nofollow der Fall war un einen 301 immer vorziehen, wenn es möglich ist.

Ralph
13
schrieb am 16.02.2009 um 11:04 Uhr
Ich danke für den Denkanstoß und werde dies wohl in Zukunft auch genauer beobachten müssen. Ralph

mb
14
schrieb am 16.02.2009 um 11:41 Uhr
die ursachen des DC werden auch mit einem neuen tag nicht gelöst, das ist klar - jedoch sollten genau hier die projekte angepasst werden, nicht durch eine weitere option den fehler verhüllen zu können! IMHO sollten robots.txt, noindex und - das wichtigste werkzeug - der 301 redirect vollkommen ausreichen.

gerade bei großen projekten (mehrere mio. seiten) sehe ich sogar einen extremen mehraufwand nebst weiterer unübersichtlichkeit aufkommen und somit auch eine höhere fehleranfälligkeit wegen der dezentralen steuerung.

christoph hat mal einen ganz guten guide released, welchen man sich kanonisch immer mal wieder reinziehen sollte;
http://schneegans.de/web/kanonische-adressen/

Ronny
15
Ronny
schrieb am 18.02.2009 um 07:14 Uhr
Richtig so. Einer der wenigen Post zu diesem Thema mit einer sachlichen Darstellung. Als das Thema losging und im Reader die ersten Postings auftauchten, glaubte ich es wäre eine neue Wunderwaffe aufgetaucht...

Und was ist es wirklich? Heiße Luft.

Seopunk
16
schrieb am 18.02.2009 um 15:48 Uhr
Was ich mich eher frage ist, wie verhält es sich bei Content Syndication? Da hilft leider kein 301. Aber eben auch nicht dieser Tag, da er ja nur innerhalb einer Domain funktioniert.
Gerade bei den Verlagen ist es ja so, das der Verkauf von Inhalten nach wie vor ein großes Geschäft ist und man dadurch oftmals den Inhalt auf der eigenen Seite schädigt. Man sehe nur mal, was auf aol, msn, yahoo etc. für Inhalte stehen. Die sind nicht von deren Redaktionen. ;-) Bisher hatte man nur die Möglichkeit den Partner dazu zu verpflichten diese eventuell auf noindex zu setzen. Schade also, das dieses Tag keine Lösung für das weitaus größere Problem von Content Syndication bietet.

Hannes S
17
Hannes S
schrieb am 18.02.2009 um 16:22 Uhr
Naja, aus Laiensicht ist die kanonische URL sicher super. Du hast zwar vollkommen recht, aber wenn man bedenkt, dass es bei den Weiterleitungen immer wieder zu Problemen kommt... Google versucht halt auch den Unbeholfensten entgegen zu kommen.

Gruß

Contentman
18
Contentman
schrieb am 18.02.2009 um 16:42 Uhr
Bei allem Getöse: Im Grunde ist eine solche Angabe - Google hin oder her - sinnvoll weil es die Realität wiedergibt. Wenn es einen Hauptartikel gibt, dann sollte der erkennbar sein.
Was tatsächlich fehlt, ist eine solche Angabe über Domains hinweg. Keine Ahnung, warum Google das noch (!) nicht mit drin hat. Ich bin überzeugt, dass das kommt - einfach, weil es Sinn macht...
eric

Molar
19
Molar
schrieb am 18.02.2009 um 22:05 Uhr
Danke Johannes für die Erweiterung meiner Allgemeinbildung... nun weiss ich auch was ein Aardvark ist ;-)

Perun
20
schrieb am 19.02.2009 um 00:21 Uhr
Für die Klugscheißer unter uns: :-)

rel="canonical" ist kein! Tag.

"rel" ist ein Attribut und "canonical" der Wert ... und der ist neu.

Die beiden sind Bestandteil des link-Tags.

Grüße

Marcel
21
schrieb am 19.02.2009 um 11:11 Uhr
@contentman
Diese Angabe soll eigentlich nur dazu dar sein, die eigentliche Url zu zeigen ohne die ganzen extra Parameter dran. Wieviel Leute hatten schon Probleme weil deren CMS, Shop etc. an jeder Url eine Session mit angehangen hatte. Google erkennt zwar mittlerweile auch schon viele Session Vars, aber bei weiten noch nicht alle, da man diese ja beliebig kennzeichnen kann.

Haschek
22
schrieb am 19.02.2009 um 13:19 Uhr
@Perun: da Du damit angefangen hast, muss ich dich nochmal korrigieren. Attribut und Wert sind nicht Teil des link-Tags, sondern des Link-_Elements_. Bestandteil des link-Tags ist einfach nur 'link' :)

Perun
23
schrieb am 19.02.2009 um 13:27 Uhr
@Haschek,

nicht ganz. Das link-Element ist das ganze (Start-Tag, Attribute, Werte, Inhalt End-Tag). Die Attribute und deren Werte werden im Start-Tag notiert und sind somit der Bestandteil des Start-Tags, der wiederum der Bestandteil des Elements ist.

Knut
24
schrieb am 23.02.2009 um 10:25 Uhr
Hi,

ich sehe bei diesem neuen Tag schon einen ganz netten Vorteil. Wenn ich die duplicaten URLs aktuell kenne, dann mit Nonindex sperre und den neuen Tag einbaue, so wird der Linkquice der eingehenden Links auf die "gute" Url weiter gegeben, ohne dass ich aufwändige 301 schreiben muss.

Bernd
25
Bernd
schrieb am 27.02.2009 um 15:28 Uhr
Ich hätte mal ne simple Frage. Wie sieht es aus, wenn eine html Seite 1 x mit www.beispielseite.de und einmal ohne www, also nur beispielseite.de in Google vorhanden ist. Hilft hier dass einfügen von canonical auch und wenn ja, reicht es einzufügen. Habe bei einer Seite genau dieses Problem und mein Hoster unterstützt keine 301 Weiterleitung.

luzie
26
schrieb am 28.02.2009 um 15:12 Uhr
>>> Der Surfer wird auf die richtige URL weitergeleitet,
>>> sieht diese in der Adresszeile seines Browser
>>> und wird diese URL verlinken oder zitieren. Diese
>>> Weiterleitung fehlt allerdings, wenn man „Canonical“-Tag setzt

Schönes Argument :-)

Und Bernd fragt:

>>> www.beispielseite.de und einmal ohne www
>>> Hilft hier dass einfügen von canonical auch ...?
>>> Habe bei einer Seite genau dieses Problem und
>>> mein Hoster unterstützt keine 301 Weiterleitung?

Dafür kann man das einsetzen, ja.

Es gibt so viel Adressensalat da draussen, dass ein zusätzlicher link-rel-canonical eigentlich ganz gut kommt. 301 einzusetzen ist die erste Wahl ... und link-rel-canonical MUss man ja nicht verwenden, man kann ...

-luzie-

luzie
27
schrieb am 28.02.2009 um 15:34 Uhr
Ich lese hier meinen einige so oder so ähnlich:

>>> "Schade also, das dieses Tag keine Lösung für das weitaus
>>> größere Problem von Content Syndication bietet"

Das eine hat mit dem anderen nichts zu tun. Die interne Duplikation um die's hier geht ist technischer Fehler, link-rel-canonical eine Reparaturmöglichkeit mehr. Und ein "Tag gegen externe Vervielfachung" wird's so nicht geben.

-luzie-

Radicke
28
schrieb am 01.03.2009 um 22:16 Uhr
Ich habe einen Kunden, für den canonical tatsächlich eine Lösung sein könnte: es gibt eine Hauptseite, und auf tausenden Subdomains gibt es jeweils wenige Seiten mit subdomain-eigenem Inhalt, und dann viel mit der Hauptseite geteilte Inhalte.

Ein Beispiel wäre z.B. eine Ladenkette, die eine Hauptseite (www.laden.de) mit Blogs, Artikeln, Testberichten, Bildern etc. vorhält, und dann pro Offline-Geschäft eine subdomain (berlin.laden.de) hat, auf der der Berliner Laden seine Mitarbeiter in Berlin vorstellt, die Öffnungszeiten, eigene Bilder, eigenes Logo etc. einpflegen kann. Dann gibt es dort auf der sub aber eine Menge Info-Boxen, die (im Layout des berlin.laden.de!) die Artikel der Hauptdomain anzeigt und/oder verlinkt. Wegen des Layouts sind die Artikel alle unter der subdomain zu finden, also unter berlin.laden.de/artikel4711.de

Ja ja, man hätte das alles viel eleganter lösen können (css liefert das Layout...) aber es liegt nunmal so vor, und man kann nicht alles komplett einreissen, weil es irre aufwendig wäre....

Ich glaube, der canonical KÖNNTE hier tatsächlich die Lösung sein, denn mit dem Attribut sollte man doch wohl von dem subdomain-Artikel auf den Hauptartikel verweisen können...

Oder sehe ich das falsch?

Bookmarx
29
schrieb am 04.03.2009 um 11:01 Uhr
z.B. Bookmarking-Sites sind doch richtige Ansammlungen von DC, ich habe das mal unter http://www.bookmarx.ch/faq_lesen.php?id=19 versucht, den Mitgliedern zu erklären, doch wird das wenig nützen. In dieser Hinsicht finde ich das Tag relativ nützlich, nun geht es mir am "Ar.." vorbei wenn einer zu seinem Bookmark 20 Tags reinpflanzt um auf 20 Seiten zu erscheinen oder die Mitglieder sich gegenseitig die Bookmarks kopieren. Auf oben verlinkter Seite ist nur die eigentliche Userseite frei vom canonical-Tag... Ein gewisser Rest-DC bleibt, ist in diesem Falle auch schlecht zu vermeiden.

wulfmain
30
wulfmain
schrieb am 25.03.2009 um 20:27 Uhr
Ich weiß nicht, ob ich das richtig verstehe, aber wenn ich mir einen großen Shop vorstelle, der den gleichen Artikel in unterschiedlichen Sortimenten integriert hat, dann kann man da nicht per 301 weiterleiten, sondern kann sehr wohl so einen neuen Tag gebrauchen.

Beispiel:
Es gibt ein Sortiment Technik und ein Haushalt. In beiden Sortimenten wird die gleiche Kaffeemaschine angeboten, weil manchen Kunden unter Technik nachsehen und andere eben unter Haushalt. Wenn ein User jetzt unter Technik die Kaffeemaschine klickt, kann man ihn ja schlecht per 301 Redirect in das Sortiment Haushalt weiterleiten - schaut für den Kunden wie ein Fehler aus und außerdem will er ja im Technik Sortiment bleiben...
Mit dem neuen Tag hat man dann zumindest die Möglichkeit, Suchmaschinen nur einen Link zu diesem Artikel anzubieten.

Also:
Aus meiner Sicht ist das für einen großen Shopbetreiber ein durchaus wichtiges Thema.

Wie seht ihr das? Hab ich da was falsch verstanden?

Bernieboy
31
Bernieboy
schrieb am 23.03.2010 um 17:14 Uhr
Danke für die Bestätigung ich kann anhand des Artikels einiges klarer sehen. Und werde mehr danach handeln. Das war ein nützlicher Tipp.


Kommentieren?

mehr
Die Kommentare für diesen Beitrag wurden geschlossen. Angemeldete Benutzer haben weiterhin die Möglichkeit, auch ältere Beiträge zu kommentieren. Jetzt kostenlos anmelden