Pagination als Gefahr für internen Duplicate Content

18. Juni 2007, 17:38

Blog- und Content-Management-Systeme wie WordPress oder auch Ruby on Rails verteilen Content, der nicht auf eine Seite passt üblicherweise auf mehrere Seiten und bieten dann unten, am Ende der Seite eine Navigation über Seitenzahlen an. Was für den Benutzer praktisch und übersichtlich ist, kann für Suchmaschinen zum Problem werden. Würde ich beispielsweise ein WordPress-Blog einsetzen, so wäre dieser Text unter folgenden Seiten zu erreichen.

imagenotfound
Wie zu sehen ist, wird der Orginalcontent auf einer große Anzahl weiterer Seiten veröffentlicht. Wenn man sich nur mal ansieht, wie viel WordPress-Blogs die genannte Seite „/page/2“ im Googleindex haben, so wird das Ausmaß des Problems schnell deutlich. Verschärfend kommt hinzu, dass – wie Gerald es so schön formuliert hat – der Googlebot zu keiner Zeit einen aktuellen Überblick über die ganze Webseite hat. Ein Artikel, der eben noch auf der Startseite war, kann kurz später bereits auf der zweiten Seite erscheinen und verwirrt den Suchmaschinencrawler so nur noch mehr.

Natürlich ist es so, dass Suchmaschinen, allen voran Google, mit dem Problem mittlerweile gut umgehen kann und die Erkennung der URL des Orginalcontents recht zuverlässig gelingt. Da es bei Suchmaschinenoptimierung – der Name verrät es bereits – aber nicht darum geht, irgendwie weiterzukommen, sondern möglichst die optimale Lösung zu finden, sollten Webseitenbetreiber, die sich mit dem Problem konfrontiert sehen, um eine Lösung bemühen. In diesem Blog ist es beispielsweise so gelöst, dass nur auf der Startseite des Blogs die jeweils 10 aktuellen Beiträge vorhanden sind, ansonsten ist der Content nur unter einer URL zu finden. Die Seiten des Archives oder der Tags verlinken lediglich die Überschrift auf die URL.

Dieser Beitrag hat 9 Kommentare

 
  18. Juni 2007, 18:42

Ruby on Rails ist jetzt aber nicht wirklich ein Blog- und Content-Management-System!

LG
Thomas

 
Johannes
  18. Juni 2007, 18:45

Dann nennen wir es eben Web-Framework. Dürfte hier aber auch egal sein, geht ja um die Problematik des internen Duplicate Content.

 
  18. Juni 2007, 18:49

Eine weitere Möglichkeit wäre auch Google & Co das indexieren der Archivseiten usw. über noindex, follow zu untersagen. Damit dürfte das Problem auch gegessen sein. Das Worpress Plugin wpSEO bietet dazu nette Möglichkeiten.

 
Johannes
  18. Juni 2007, 18:58

Man muss dabei halt aufpassen, dass man sich die interne Linkstruktur nicht kaputt macht. Durch falsche Einstellungen in der robots.txt oder über die Noindex-Meta-Tags kann die halt auch Schaden nehmen. Wie so häufig im SEO-Bereich, alles Abwägungssache.

 
  18. Juni 2007, 21:04

Warum aber nu Überschriften? Kommt es Google dann nicht wie ein Teil der Sidemap vor und somit habe ich auch wieder doppelte Seiten, die man besser aussperrt?
Ich habe auf den Paged- und Kategorienseiten nur den Exerpt von 75 Zeichen stehen und habe dadurch noch Seiten, auf denen Google die absurdesten Stichwortkombinationen findet, sind auch Besucher.

Warum ziehst du die Überschrift, dem Teaser auf diesen Seiten vor?

 
  18. Juni 2007, 23:26

Für Google ist ja auch der extrem wichtig in Sachen DC, solange der anders ist und noch anderer Text zu finden ist, sollte das kein großes Problem darstellen.</p> <p>Mach ich das z.B. mit noindex,follow, nimmt G. das follow ja teilweise „nicht mehr so ernst“.</p> <p>Ich denke Google kommt damit mittlerweile ganz gut zurecht. Aber keine Frage wenn man solche Sachen vermeiden kann, dann sollte man das tun … zumindest in den meisten Fällen.

 
Johannes
  19. Juni 2007, 17:08

Soeren, eine Sitemap in dem Sinne habe ich auf dieser Domain gar nicht. Für sowas wie Blogs, Nachrichten usw bietet es sich ja auch meistens an, ein nach Zeit geordnetes Archiv als Sitemap zu verwenden. Würde ich da unter jeden Beitrag jetzt noch ein Snippet des Textes setzen, so besteht zum einen die Gefahr, des doppelten Inhaltes (zwar wirklich gemässigt, aber immerhin) und zweitens würden die Seiten so lang, dass ich oben genanntes Paging einführen müssten. Bei den Tagseiten habe ich zu jedem interessanten Tag noch einen kleinen Text geschrieben. So entsteht für diesen Begriff eine Art „Themenhub“, da erstens der Begriff erklärt ist und zweitens auf interne Seiten, die sich mit dem Begriff befassen, verlinkt wird.

 
  20. Juni 2007, 10:07

Ich verstehe, habe nur oft gehört, dass die paged-Strucktur für Google eine angenhme sein, weil die Webseite dadurch nicht tief sondern breit wird und Google nicht mehr so lange braucht, um sie komplett zu crawlen. Aber das heißt ja nicht, dass dadurch alles wunderbar indiziert wird, oder?

Auf irgendeinem Googleblog, ich weiß nicht mehr welchem, war vor einiger Zeit ein Beitrag zu Dublicate Content, der besagte, wir sollten uns nicht so viele Sorgen machen, da Google externen und internen DC erkennen würden.

Danach habe ich meine Bemühungen nicht mehr sonderlich weiter fortgeführt, aber du lässt mich jetzt schon wieder grübeln.

 
  19. Juli 2007, 16:38

Angeregt durch einen Beitrag im Sistrix-Blog zum Thema Pagination als Gefahr für internen Duplicate Content, war ich eine ganze Weile auf der Suche nach einem passenden Plugin für das WordPressarchiv. Jetzt habe ich es aber endlich gefunden.

 

Kommentare geschlossen

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.