Internen Duplicate Content erkennen und vermeiden

Nadine Winkler
Nadine Winkler | 04.10.2016

Eine wichtige Onpage-Maßnahme, die man im Rahmen der Suchmaschinenoptimierung umsetzen sollte, ist die Verhinderung von Duplicate Content (DC). Hierbei handelt es sich um Inhalte, die unter verschiedenen URLs erreichbar sind. Es gibt also von einem Dokument eine oder mehrere „Kopien“. Google möchte vermeiden, dass mehrere Seiten gleichen Inhalts in den Suchergebnissen erscheinen. Es ist also wichtig der Suchmaschine „mitzuteilen“, welche URL das Original ist und welche die Kopie.

Wie stark DC für Google ein Problem ist, ist umstritten. Klar ist aber, dass eine richtige Indexierung der Seiten von Vorteil ist und das Indexieren der Seiten nicht erschwert werden sollte.

Warum ist Duplicate Content ein Problem?

Doppelte Inhalte können deshalb nachteilig sein, weil Google einzigartige Inhalte bevorzugt. Der Anspruch der Suchmaschine ist es seinen Usern zu jeder Suchanfrage das qualitativ beste Suchergebnis anzuzeigen und damit die Bedürfnisse der Suchenden zu befriedigen – ein hoher Anspruch den Google durch verschiedene Maßnahmen zu erreichen versucht und darin in den letzten Jahren auch immer besser geworden ist. Haben nun verschiedene URLs den gleichen oder sehr ähnlichen Inhalt, so kann der Algorithmus nicht mehr einordnen, welche URL nun die relevanteste ist und in die Suchergebnisse gehört. Die Folge ist dann oft eine schlechte Performance für beide URLs oder Google wechselt in den Suchergebnisseiten (SERPs) ständig zwischen den URLs. Ein beständiges Ranking ist somit für eigentlich gute Inhalte nicht möglich.

Ein weiterer Problemfaktor ist das Crawl-Budget. Täglich crawlt Google Millionen von Webseiten. Je nach Größe und von Google eingeschätzter Qualität und Wichtigkeit einer Website vergibt Google jeder Website ein Budget, wie viele Seiten bei einem Besuch des Googlebots aufgesucht werden. Auch bei Google sind die Crawler-Kapazitäten nicht undendlich. Das Crawling-Budget wird nicht bekannt gegeben – ein Limit gibt es aber pro Besuch. Wer Inhalte auf mehreren URLs hat vergeudet das Crawling-Budget also, da Google diese Seiten ja crawlt und beim Erreichen des Limits vielleicht wichtige Unterseiten nicht mehr aufgesucht werden. Die Vermeidung oder Beseitigung von Duplicate Content hilft also auch Google die wirklich wichtigen Seiten zu crawlen und in den Index aufzunehmen.

Wie entsteht interner Duplicate Content?

Entstehungsursachen für DC sind einerseits bei identischen Inhalten zu finden (z. B. gleiche Produktbeschreibungen für Produktvarianten in einem Online-Shop) oder technische Dinge führen zum vermeidbaren Problem.

Hier ein paar Beispiele für technische Gründe:

Ursache: WWW versus Non-WWW

http://www.domain.de versus http://domain.de

Lösung: Entscheiden Sie sich für eine Variante und leiten Sie die nicht gewollte Version per 301-Weiterleitung auf die präferierte Version um. Zudem sollten Sie auch die in der Google Search Console angeben, welche Ihre präferierte Version ist.

Ursache: http versus https

http://www.domain.de versus https://www.domain.de

Lösung: Wenn Sie ein SSL-Zertifikat eingebunden haben um eine sichere Datenübertragung zu ermöglichen, dann sind Ihre URLs zunächst mit beiden Versionen, also sowohl mit http als auch mit https, zu erreichen. Leiten Sie via 301-Redirect hier die http-Seiten auf die gesicherten https-URLs um.

Ursache: Trailing Slashes

http://www.domain.de versus http://www.domain.de/
Ein Slash (Schrägstrich) am Ende der URL deutet eigentlich auf ein Verzeichnis hin. Sie sollten diese Slashes am Ende vermeiden, weil ein Verzeichnis suggeriert wird, welches es gar nicht mehr gibt.

Lösung: Oftmals erkannt man diesen Fehler nicht auf Anhieb, weil der Browser beide Versionen akzeptiert und die Seiten problemlos anzeigt. Leiten Sie die Version mit dem Slash am Ende generell per 301-Weiterleitung auf die Version ohne Slash um.

Tragen Sie einfach folgende Zeilen in die .htaccess-Datei ein:
RewriteCond %{REQUEST_URI} ^(.*)//(.*)$
RewriteRule . %1/%2 [R=301,L]

Matt Cutts, ehem. Mitarbeiter vom Google Spam Team hat sich in einem Video dazu geäußert:

Ursache: Groß- und Kleinschreibung in URLs

Beispiel: /blog/neuer-artikel versus /blog/neuer-Artikel

Lösung: Auch hier besteht die Lösung in der Weiterleitung per 301-Weiterleitung auf die gewünschte Version.

Ursache: Filterfunktionen in Online-Shops

In Online-Shops gibt es oft einzelne Produkte in verschiedenen Varianten. Bei Kleidung z. B. gibt es Unterscheidungen nach Größe und Farbe. Oft wird die Auswahl für den Kunden so vereinfacht, dass er Filter für verschiedene Produktmerkmale einstellen kann. Möchte jemand z. B. in einem Shop für Schuhe gezielt nach roten Schuhen suchen, so werden ihm bei der Nutzung des entsprechenden Filters nur rote Schuhe angezeigt. Die technische Folge ist, dass die gefilterte Produktübersicht mit einer anderen URL ausgespielt wird. Die Inhalte sind jedoch identisch.

Kategorieseite ohne Filter: https://www.zalando.de/damenschuhe/

Zalando Kategorieseite ohne Filter

Kategorieseite mit Filter auf die Farbe rot: https://www.zalando.de/damenschuhe/_rot/

Zalando Kategorieseite mit Filter rot

Lösung 1: Wenn es in Ihrem Shop-System möglich ist, dann eliminieren Sie die Kategorie aus der URL der Produktdetailseite.

Beispiel: www.shop.de/kategorie/produkt >> www.shop.de/produkt
Diese Produktdetailseiten lassen sich dann in beliebig viele Kategorien einsortieren. Durch die einzigartige URL entsteht kein Duplicate Content. Zalando hat diese Lösung gewählt

Lösung 2: Dieses Problem ist recht einfach zu lösen, in dem ein sog. Canonical Tag in den Quellcode der Filter-Seite eingebaut wird mit einem Link auf die ungefilterte Kategorie. Damit signalisiert man der Suchmaschine, dass es sich um eine „gewollte“ Kopie handelt. Google soll diese Seite aber nicht weiter beachten, sondern die Original-Seite in den Index aufnehmen. Per Canonical Link wird darauf verwiesen. In unserem Wiki haben wir erklärt, was ein Canonical Link ist.

Ursache: Mehrfach-Kategorisierung von Produkten im Online-Shop

Oftmals ist es gewollt, dass ein Produkt in mehreren Shop-Kategorien gelistet wird. So kann es durchaus Sinn ergeben ein Produkt in der jeweiligen Sparte zu listen, dann mal im Bereich „Sales“, wenn es sich um ein Sonderangebot handelt und unter „Neuheiten“, wenn das Produkt gerade auf den Markt gekommen ist.

Lösung 1: Wenn es in Ihrem Shop-System möglich ist, dann eliminieren Sie die Kategorie aus der URL der Produktdetailseite.

Beispiel: www.shop.de/kategorie/produkt >> www.shop.de/produkt
Diese Produktdetailseiten lassen sich dann in beliebig viele Kategorien einsortieren. Durch die einzigartige URL entsteht kein Duplicate Content.

Lösung 2: Sollte Ihr Shopsystem die Lösung 1 nicht ermöglichen so können Sie auch hier einen Canonical Link einbauen. Auf www.shop.de/kategorie1/produkt würde dann ein Canonical Link auf www.shop.de/kategorie2/produkt gesetzt.

Ursache: Relaunch oder Domain-Umzug

Sie haben Ihre Website überarbeitet bzw. eine neue Website gebaut und relaunchen nun mit einer neuen URL-Struktur oder Sie ziehen Ihre Inhalte auf eine neue Domain um, kann Duplicate Content entstehen. Die vorherige Version der URLs sind noch erreichbar und noch im Google-Index mit guten Rankings.

Lösung: Leiten Sie die alten URLs per 301-Weiterleitung auf die entsprechenden neuen Seiten um, damit Google beim Crawling die neue „Adresse“ der Inhalte wieder findet.

Inhaltliche Gründe

Es kommen auch wirklich inhaltliche Gründe für Duplicate Content in Frage. Auch hier Beispiele:

Ursache: Sehr ähnliche oder identische Produktbeschreibungen

Lösung: Bei großen Shops werden Sie Duplicate Content auf Produktebene nicht vollständig verhindern können. Legen Sie Ihren Fokus für die Optimierung auf die Kategorieseiten. Auf Produktebene identifizieren Sie Ihre TOP-Produkte mit dem größten Absatz oder der größten Marge. Verfassen Sie hier qualitativ hochwertige und einzigartige Produktbeschreibungen.

Ursache: Interne Suchergebnisseiten

Viele Websites bieten ihren Besuchern eine interne Suche an. Die Ergebnisseiten dieser internen Suche haben ebenfalls eine eigene URL, deren Inhalte sich jedoch mit anderen Dokumenten gleichen.

Lösung: Hindern Sie Google an der Indexierung dieser Seiten, indem Sie sie mit dem Meta Robots Tag „noindex“ versehen. Google wird diese Seiten dann war finden, aber nicht in den Index aufnehmen. Somit kann hier kein DC entstehen.

PDF-Versionen von Websites kein Duplicate Content

Einige Websites bieten ihren Besuchern die Möglichkeit den Inhalt einer Seite als PDF-Version herunter zu laden. Naturgemäß sind in der PDF exakt die gleichen Inhalte zu finden wie in der Webversion. Lange Zeit war es gängige Meinung, dass dies ebenfalls einen Fall von Duplicate Content darstellt, da auch PDFs von Google indexiert werden.

John Müller von Google hat kürzlich nochmal bestätigt, dass Google diesen Zusammenhang zwischen Web-Version und PDF-Version versteht und es hier kein Duplicate Content Problem gibt. Es müssen also keine Maßnahmen getroffen werden.

Hier der Tweet von John Müller als eine Antwort auf die Frage von David Butler.

Tweet about PDF duplicate content

Das XOVI Onpage Tool hilft Ihnen bei der Suche nach doppelten Inhalten

In der XOVI Suite hilft Ihnen das Onpage-Tool bei der Suche nach Inhalten, die unter zwei oder mehreren URLs erreichbar sind.

Auf der Überblick-Seite einer Onpage-Analyse finden Sie bei Scrollen nach unten eine Liste mit „Fehler, Hinweisen und Tipps“. Sollte auf Ihrer Site ein DC-Problem vorliegen, wird Ihnen dies in der Liste im Reiter „Fehler“ angezeigt:

XOVI Suite Onpage Tool: Fehler Duplicate Content

Klicken Sie dann entweder auf den Fehlerhinweis oder auf die Zahl (hier 20), um eine Liste der URLs zu erhalten, die betroffen sind.

XOVI Onpage Tool: Detailfilter Duplicate Content

Wählen Sie dann eine URL aus, die Sie näher untersuchen möchten. Die gelangen dann in die Onpage URL-Detailsansicht. Scrollen Sie bis zum Widget „Duplicate Content“. Das XOVI Tool zeigt Ihnen dort dann die URLs an, die den gleichen Inhalt haben.

XOVI Onpage Tool: Duplicate Contente Liste

Analysieren Sie dann die Ursache und beheben Sie das Problem.

Fazit

Die Vermeidung von gleichen Inhalten auf verschiedenen Webseiten ist eine wichtige SEO-Aufgabe. Das gute ist dabei, dass Sie im Gegensatz zu anderen SEO-Maßnahmen nicht auf Dritte angewiesen sind, sondern diese Optimierung selbst durchführen können. Etwas technisches Know-How ist allerdings erforderlich.