Können PDF-Dateien meiner HTML-Seiten zu einem Duplicate Content Problem führen?

Technisch gesehen handelt es sich um internen Duplicate Content, wenn der gleiche Inhalt als HTML-Datei und PDF-Dokument auf Deiner Website zur Verfügung steht. Externer Duplicate Content kann entstehen, wenn z.B. in einem Onlineshop bei jedem Produkt das Benutzerhandbuch des Herstellers als PDF-Dokument zum Download hinterlegt wurde, welches auch auf der Website des Herstellers angeboten wird.

Google sagt, dass sie im Falle des internen Duplicate Content meistens die HTML-Variante bevorzugen und ranken. Tritt dieser Fall nicht all zu häufig auf Deiner Website auf, brauchst Du Dir in der Regel auch keine Sorgen zu machen.

You generally do not need to worry about duplicate content in a situation like this, even if you decide to mirror the content of your PDFs on HTML pages. If we recognize the URLs as containing duplicate content, we’ll just show one of them to users when they search; your site generally wouldn’t have any disadvantage by doing this.– John Mueller, Webmaster Trends Analyst, Google Switzerland

 
Sollte Google z.B. in der Google Search Console (GSC) eine Duplicate Content Warnung unter dem Menüpunkt „HTML-Verbesserungen“ anzeigen, kannst Du das PDF-Dokument durch einen Eintrag in der robots.txt sperren und somit dem Google-Bot das Crawlen der Datei verbieten. Alternativ kannst Du das PDF-Dokument auch mittels dem x-robots-tag im HTTP-Header von der Indexierung ausschließen. Siehe hierzu: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de

Für den Fall des oben beschriebenen externen Duplicate Content empfiehlt es sich, einen rel=“canonical“-Verweis im HTTP-Header des PDF-Dokuments mit Ziel der Hersteller- bzw. Quellwebsite zu verwenden. Siehe hierzu: http://googlewebmastercentral.blogspot.de/2011/06/supporting-relcanonical-http-headers.html

Sollen PDF-Dokumente wirklich gecrawlt und indexiert werden?

Stelle Dir immer bei der Verwendung von PDF-Dokumenten auf Deiner Website die Frage, ob Du primär mit diesen PDF-Dateien ranken möchtest. Wenn nicht, solltest Du unter der Berücksichtigung des Crawling-Budget & Index-Budget Deiner Website diese Dateien von der Indexierung durch den Google-Bot ausschließen.

Related Topics

SEO-Themen von A bis Z