Duplicate Content Check für Online-Shops & Websites

Es gibt wohl kaum einen Website-Betreiber, der sich noch nicht mit diesem Begriff auseinandersetzen musste: Duplicate Content!

Schätzungen zufolge sind satte 30 % des gesamten Web-Contents Duplikate. Vor allem Online-Shops & große Websites haben häufig mit diesem Problem zu kämpfen. Und das ist nicht gerade banal, denn Dupplicate Content führt zu Verlusten an Sichtbarkeit und Traffic im Internet.

Wer also bei Google ganz oben mitmischen will, sollte folgende Fehlerquellen vermeiden und seine Website sauber halten.

INHALT

  1. Was ist Duplicate Content?

    1.1 Was ist interner Duplicate Content?

    1.2 Was ist externer Duplicate Content?

  2. Wie entsteht Duplicate Content?

  3. Ab wann Duplicate Content gegeben ist

  4. Wie erkennt Google Duplicate Content?

  5. Bestraft Google Websites mit doppelten Inhalten?

  6. Duplicate Content Check: interne Doppelte Inhalte finden

  7. Fehlerquellen & Lösungen

    5.1 Startseite

    5.2 Kategorien & TAGs

    5.3 Produkt-Varianten

    5.4 Filterfunktionen

    5.5 interne Suchfunktionen

    5.6 Sprach-Versionen

    5.7 Domain-Umzug

  8. Google Tipps: Doppelte Inhalte vermeiden

  9. Keine Panik!

Was ist Duplicate Content?

Duplicate Content, zu Deutsch „Doppelter oder Duplizierter Inhalt“, beschreibt gleiche oder sehr ähnliche Inhalte, die unter verschiedenen URLs existieren.

Google selbst verwendet diese Definition:

Der Umgang mit und die Behebung von Doppelten Inhalten zählt zu den Kernaufgaben der Suchmaschinenoptimierung (insbesondere der OnPage-Optimierung). Zudem lässt sich noch einmal zwischen internen DC und externen DC unterscheiden:

  • Was ist interner Duplicate Content?

    Darunter sind gleiche oder sehr ähnliche Inhalte zu verstehen, die sich unter verschiedenen URLs innerhalb ein und derselben Domain abrufen lassen. Das macht diese Art von Duplicate Content kontrollierbarer.

  • Was ist externer Duplicate Content?

    Hierbei handelt es sich um Doppelte Inhalte, die auf verschiedenen Websites oder Domains existieren.

Wie entsteht Duplicate Content?

DC kommt häufig als interne Doppelung vor. In den meisten Fällen findet sich die Ursache im verwendeten CMS, das die Inhalte strukturiert und auf diverse URLs verteilt. Doch neben technischen Problemen, können auch andere Gründe dafür verantwortlich sein.

Die häufigsten Fehlerquellen sind zum Beispiel:

  • Website ist mit und ohne www abrufbar

  • Website ist ohne (http) und mit SSL-Verschlüsselung (https) erreichbar

  • Archivierung von Seiten

  • interne Suchergebnis-Seiten

  • Seiten oder Beiträge, die zu mehreren Kategorien oder TAGs gehören

  • Gleiche oder sehr ähnliche Produktbeschreibungen

  • mobile Website-Versionen

Natürlich gibt es noch jede Menge weiterer Ursachen wie Kommentare auf Blogs, paginierte Seiten in Online-Shops, Druckversionen und so weiter und so fort.

 Google erkennt mit hoher Zuverlässigkeit identische & sehr ähnliche Textbausteine

Google erkennt mit hoher Zuverlässigkeit identische & sehr ähnliche Textbausteine

Duplicate Content: ab wann gelten Inhalte als Duplikate?

Sehr gute Frage. Wo beginnt nun eigentlich Duplicate Content? Lassen wir Google zu Wort kommen:

google-definition-duplicate-content.png

Aha, es geht also um große Textblöcke, nicht einzelne Sätze oder Wörter. Auf der gleichen Seite heißt es dann weiter unten im Text:

Textbausteine-als-duplicate-content.png

Wiederkehrende Textbausteine, was ist darunter zu verstehen?

Naja, es genügen 2-3 identische Sätze, beispielsweise Zitate, um DC zu produzieren. Es reicht also schon ein gleicher Absatz und Google könnte dies als doppelten Inhalt bewerten.

Bei Zitaten ist es deshalb ratsam, diese im Quellcode mit

<blockquote>Zitat<cite>Autorenname bzw. Quellangabe</cite></blockquote> 

zu kennzeichnen.

Doch was ist mit anderen statischen Textbausteinen, die unter mehreren URLs existieren? Zum Beispiel Geschäfsinformationen oder Newsletter-Formulare im Footer. Ja, auch diese Elemente gelten als Duplicate Content – sind aber kein Problem. Denn nur wenn der Duplicate Content nach Manipulation stinkt, spricht Google ein Machtwort.

Wie erkennt Google doppelte Inhalte?

Eine häufig gestellte Frage in der SEO-Szene: Wie erkennt Google, was der Original-Content ist und welches das Duplikat? Hier können wir nur spekulieren: Höchstwahrscheinlich begreift die Suchmaschine den Content als Original, der als erstes indexiert wurde.

Und wie erkennt die Suchmaschine nun ähnliche Inhalte? Mit Hilfe eines speziellen Algorithmus. Wie der genau funktioniert ist natürlich ein wohlgehütetes Betriebsgeheimnis. Vermuten können wir jedoch, dass Google mit Shingle Algorithmen arbeitet, eine übliche Methode zur Identifizierung von Duplicate Content.

Dazu wird der komplette Text in einzelne Shingles (Schindeln) unterteilt und verglichen. Oft handelt es sich dabei um Level-3-Shingles, also 3-Wort-Pakete.

Als Beispiel nehmen wir die Sätze „hochwertige Jacken für Damen in braun“ und „stylische Jacken für Damen in beige“.

1. Beispielsatz: hochwertige Jacken für Damen in braun

- hochwertige Jacken für

- Jacken für Damen

- für Damen in

- Damen in braun

2. Beispielsatz: stylische Jacken für Damen in beige

- stylische Jacken für

- Jacken für Damen

- für Damen in

- Damen in beige

Jetzt zeigt sich, dass 2 von 4 Shingles absolut übereinstimmen. Die Sätze gleichen sich damit zu 50 %. Du siehst, Google lässt sich nicht von ein paar umgestellten und umformulierten Sätze austricksen.


Bestraft Google Websites mit doppelten Inhalten?

Google straft nach eigener Aussage internen Duplicate Content nicht mit seinen gefürchteten Penalties ab.

So sagte John Mueller:

Zitat von Googles John Mueller.png

Allerdings erschweren doppelte Inhalte dem Google Bot das Crawlen deiner Seiten und setzen nicht die gewünschten Signale.

Warum? Weil Google dem User das best mögliche Ergebnis präsentieren möchte. Für die Maschine macht es keinen Sinn, ein und denselben Inhalt gleich mehrmals unter den Top 10 auf der Suchergebnisseite (SERP) auszuspielen. Der Text scheint nämlich nicht einzigartig zu sein, wenn er gleich mehrmals indexiert ist.

Darüber hinaus verfügt der Google Crawler nur über ein begrenztees Crawling-Kontingent: Duplicate Content könnte dafür sorgen, dass andere, wichtigere Seiten deiner Website nicht indexiert werden, das das Crawling-Budget schon aufgebraucht ist.

Im schlimmsten Fall kann es tatsächlich zu einer Google Penalty kommen. Nämlich dann, wenn Google hinter den Doppelten Inhalten einen Manipulationsversuch sieht.

Duplicate Content Check: interne Doppelte Inhalte finden – so geht‘s

 Internen Duplicate Content kannst du mit Hilfe von Tools schnell ermitteln

Internen Duplicate Content kannst du mit Hilfe von Tools schnell ermitteln

Ist Duplicate Content vorhanden, verschenkst du wertvolles Potential deiner Website, das du anderweitig profitabler nutzen könntest. Für ein gutes Ranking ist es daher notwendig, DC ausfindig zu machen, zu beheben und die technischen Bedingungen zu schaffen, um Duplikate von vorneherein zu vermeiden.

Aber eins nach dem anderen: Beschäftigen wir uns erst einmal damit, internen Duplicate Content auf der eigenen Website zu identifizieren. Glücklicherweise gibt es hierfür nützliche Tools, die uns die Arbeit erheblich erleichtern.

Empfehlenswert ist an dieser Stelle zum Beispiel Siteliner. Damit erhälst du eine genaue Auflistung bezüglich: prozentuale Übereinstimmung von Seiteninhalten, Seitenanzahl mit ähnlichem Content, Relevanz der Seite bei Google, übereinstimmende Begriffe etc.). Alternativ dazu kannst du natürlich auch den Screaming Frog bemühen.

Und dann?

Finden sich Seiten mit einer hohen Übereinstimmung, solltest du dringend den Inhalt überprüfen und analysieren. Das aber auch nur, wenn es sich um eine wichtige Seite innerhalb deines Internetauftritts handelt. Sind dagegen Kategorie oder Archiv-Seiten betroffen, brauchst du dir keine Sorgen machen. Das passiert häufig. Abhilfe schaffen hier bestimmte Einträge in den Meta-Daten (mehr dazu weiter unten).

Fehlerquellen & Lösungen für Doppelte Inhalte – die häufigsten DC-Fallen

Im Grunde soll dir dieser Beitrag verdeutlichen, dass es verschiedene Wege gibt, das Ärgernis Duplicate Content zu beheben. Eben je nachdem, wodurch er bedingt ist. Im Folgenden findest du daher typische Probleme, durch die DC entsteht, und geeignete Lösungswege.

 Gerade die Startseite ist häufig von Duplicate Content betroffen

Gerade die Startseite ist häufig von Duplicate Content betroffen

1) Startseite lässt sich über verschiedene URLs abrufen

Doppelte Startseiten sind tatsächlich ein häufiges Phänomen bei Online-Auftritten.

Gar nicht gut, denn gerade deine Startseite sollte am besten bei Google ranken und zahlreiche Backlinks besitzen.

a) Wurde die Startseite mehrmals indexiert, ist sie zum Beispiel unter http://musterdomain.de zu finden, aber auch unter http://www.musterdomain.de.

b) Das gleiche Prinzip taucht beim Einbinden von SSL-Zertifiakten auf, oft existiert die Website dann ungesichert mit http UND gesichert mit https.

c) Ebenso lässt sich die Domain oft mit Trailing-Slash am Ende und ohne abrufen: https://musterdomain.de und https://musterdomain.de/

LÖSUNG: Domain-Umleitung via .htaccess-Datei

a) & b) Du musst dich nun für eine Version entscheiden. Meistens fällt die Wahl auf eine URL mit www, ganz einfach, weil die User diesem Präfix aus Gewohnheit mehr Vertrauen schenken. Möchtest du also auf die www-Domain umleiten, sieht das im Quellcode so aus:

 RewriteEngine On
 RewriteCond %{HTTP_HOST} !musterdomain.de$
 RewriteRule ^(.*)$ www.musterdomain.de/$1 [L,R=301,QSA]

Alternativ nimmst du die Umleitung in der Google Search Console vor: Property auswählen – aufs Zahnrad-Symbol rechts oben klicken – Website-Einstellungen aufrufen – Bevorzugte Domain festlegen.

 Domain-Umleitung mit der Google Search Console

Domain-Umleitung mit der Google Search Console

c) Um Duplicate Content durch Trailing-Slashes zu beheben, richtest du eine 301-Weiterleitung permanent für die Version mit Slash in der .htacess-Datei ein.

RewriteEngine On
RewriteCond %{REQUEST_URI} /[^/.]+$
RewriteRule ^(.+[^/]$ %{REQUEST_URI}/ [R=301,L]


 Mehrfache Kategorisierungen sind ein häufiges Problem in Online-Shops &amp; Blogs

Mehrfache Kategorisierungen sind ein häufiges Problem in Online-Shops & Blogs

2) Gleicher Inhalt mehrfach kategorisiert oder getaggt

Dieser Umstand betrifft nicht nur Online-Shops, sondern auch ganze Blogs. Verständlicherweise soll das Produkt oder der Artikel unter verschiedenen Kategorien bzw. Schlagworten gefunden werden. Das Ergebnis ist jedoch meist DC.

a) Beispiel Online-Shop:

die sündhaft teure Diesel-Jeans passt zur Kategorie damen/jeans/diesel und marken/jeans/diesel. Daraus entsteht:

www.mustdomain.de/damen/jeans/diesel und www.musterdomain.de/marken/jeans/diesel  

b) Beispiel Blog-Artikel:

ein Text über „Damenschuhe für den Herbst“ kann mit den TAGs #mode und #schuhtrends versehen werden. Und das kommt dabei heraus:

www.musterdomain.de/blog/mode/damenschuhe-herbst  
www.musterdomain.de/blog/schuhtrends/damenschuhe-herbst    

LÖSUNG: Canonical-Tag setzen

Mit einem Canonical-Linkverweis kannst du Inhalte kennzeichnen, die im thematischen Verhältnis zu einer Originalquelle stehen. Auf den Punkt gebraucht: Der TAG zeigt Google, auf welcher Seite sich das Original befindet. Und nur diese Seite wird dann indexiert.

Nehmen wir also das Beispiel von oben mit der Diesel Jeans: hier musst du folgenden TAG im Header-Code der Seite unterbringen, die nicht das Original ist (hier: /schuhtrends/damenschuhe-herbst):

<link rel="canonical" href="http://www.musterdomain.de/mode/damenschuhe-herbst"/> 

Die Original-Seite wird so als einzige in den Suchergebnissen ausgespielt.

 Farb- und Größen-Varianten bei Produkten erzeugen Duplicate Content

Farb- und Größen-Varianten bei Produkten erzeugen Duplicate Content

3) Verschiedene Produktversionen bzgl. Farbe, Größe, Form etc.

Nicht selten verkaufen Online-Shops ihre Produkte in verschiedenen Farben und Größen. Dabei nutzen sie den gleichen Produkttext und die selben Meta-TAGs (Title & Description). Das Problem ist nur, jede Produktvariante hat eine eigene URL.

LÖSUNG: Priorisierung & nofollow-Attribut

Ideal wäre es natürlich, individuelle Produktbeschreibungen anzufertigen. Allerdings ist das aufgrund zeitlicher und kostenspezifischer Aspekte meist unmöglich. Es empfiehlt sich daher, Prioriäten zu setzen: Welche Artikel bringen den meisten Umsatz? Für die umsatzstärksten Produkte fertigst du dann individuelle Texte an.

Für die weniger wichtigen Seiten genügt es, das „nofollow“-Attribut im HTML-Header zu setzen:

<a href=”http://www.website.de/” rel=”nofollow”>Weiterführende Informationen</a>


5) interne Suchfunktion

Eigentlich eine tolle Funktion, erleichter sie dem User doch die fokussierte Suche nach einem Produkt oder Artikel. Sobald der Suchbegriff in den Suchschlitz eingegeben wurde, erscheint eine Liste mit passenden Ergebnissen zum Thema. Allerdings funktioniert das nicht genauso wie bei Google, wo dir einzigartige Inhalte angezeigt werden.

LÖSUNG: Deindexierung & disallow-Attribut

Ratsam ist es, interne Suchergebnisseiten gleich vom Index auszusperren, denn sie sind meist irrelevant für die Google SERPs und verbrauchen unnötig Crawling-Budget. Damit das Verzeichnis nicht gecrawlt wird, trägst du in die robots.txt folgendes ein und fertig:

 User-agent: *  
Disallow: /search-results/  

4) Filterfunktionen

Es ist nur vernünftig, dem Kunden oder Leser die Möglichkeit zu geben, Inhalte gezielt auf der Website nach Preis, Hersteller oder Schlagwort zu filtern. Leider entstehen daraus wieder unterschiedliche URLs mit den gleichen Inhalten.

LÖSUNG

Hier gehst du genauso vor wie bezüglich der Suchfunktionen:

 User-agent: * 
Disallow: /filter-results/

 Sprach-Varianten im Quellcode kennzeichnen &amp; du hast kein Problem mit Duplicate Content

Sprach-Varianten im Quellcode kennzeichnen & du hast kein Problem mit Duplicate Content

6) Website ist in unterschiedlichen Sprach-Versionen verfügbar

Das Problem kennen wir bereits von Produkt-Varianten, nur das es sich hierbei eben um Sprach-Varianten handelt.

LÖSUNG: hreflang-Attribut setzen

Hinterlege für Google eine geografische Angabe mit dem hreflang-Attribut (rel=“alternate“ hreflang=“x“) im HTML Headbereich deiner Website. So weiß die Suchmaschine, dass mehrere Sprach-Versionen existieren und diese unterschieden werden müssen.

Das sähe dann in etwa so aus:

<link rel="alternate" hreflang="de-DE" href="https://musterdomain.de"/>
<link rel="alternate" hreflang="en-GB" href="https://musterdomain.com"/>
<link rel="alternate" hreflang="es-ES" href="https://musterdomain.es"/>

7) alte indexierte Domains nach Domain-Umzug

Wird eine Website gänzlich auf eine neue Domain verlagert, bleibt der Content auf der alten Domain im Index erhalten. Also haben wir wieder den gleichen Inhalt auf 2 verschiedenen Internetadressen. Große Ranking-Sprünge lassen sich so nicht erreichen.

LÖSUNG: 301-Weiterleitung bzw. Redirect

Warum eine Weiterleitung anstatt Canonical-Tag? Weil du mit einer Weiterleitung deinen PageRank & Linkjuice auf das neue Ziel überträgst. Du hast grundsätzlich 2 Möglichkeiten dies zu tun:

a) Eintrag in .htaccess-Datei

Eine permanente Umleitung kannst du mit folgendem Eintrag einrichten:

 RedirectPermanent / https://musterdomain.de

b) Verweis in HTML- oder PHP-Datei

Den gleichen Effekt erreichst du, wenn du diesen Vermerk direkt in die HTML-Datei oder PHP-Datei integrierst:

 <php  
 header("HTTP/1.1 301 Moved Permanently");  
 header("Location: https://musterdomain.de/beispiel.html");  
 header("Connection: close");  
 ?>

Doppelte Inhalte vermeiden: Tipps von Google himself

Auf der offiziellen Hilfe-Seite für die Google Search Console gibt Googles Johne Mueller folgende Ratschläge zum Thema:

 So vermeidest du laut Google Doppelte Inhalte

So vermeidest du laut Google Doppelte Inhalte

  • Achte darauf, dass deine Seiten thematisch eindeutig sind und für sich alleine stehen können

  • Liefere Qualität, sowohl beim Content als auch bei der internen Verlinkung

  • Manche Arten von Duplicate Content sind normal und kein Problem

  • Reduziere wiederkehrende Textbausteine

  • Ähnliche Inhalte auf eine URL zusammenführen

  • Verwende nur eine URL pro Inhalt

  • Verhindere unnötige URL-Varianten

  • Nimm Einstellungen in der Search Console vor: bevorzugte Domain, URL-Parameter-Handling etc.

  • Setze hreflang und Geotargeting ein

Laut Google eignen sich folgende Methoden jedoch nicht, um Duplicate Content Probleme zu lösen:

  1. Gebrauche nicht die robots.txt zum Ausschluss von Doppelten Inhalten, denn so hat der Google Bot keine Möglichkeit, sich einen ungestörten Überblick zu verschaffen.

  2. Doppelte Inhalte einfach nur umzuschreiben, bietet wenig Mehrwert. Versuche also in jedem Text einen eigenen Dreh hineinzubekommen.

  3. Lass die Finger vom URL-Removal-Tool, dann taucht nämlich die URL gar nicht mehr in den Suchtreffern auf

Schlusswort: Keine Panik vor Duplicate Content, aber sei wachsam!

Duplicate Content ist kein grundsätzliches Problem, denn Google ist inzwischen dazu imstande, Spammy-Content von guten Inhalten zu unterscheiden. Wichtige Geschäftsinfos im Footer deiner Website oder allgemeine Infos zum Autor in Blog-Artikeln fallen kaum ins Gewicht.

Anders sieht es aus, wenn sich dein Main Content stark ähnelt. Hier ist sofortiges Handeln gefragt! Denn diese Art von Duplicate Content hat negative Auswirkungen auf deine Platzierung und Sichtbarkeit in den Suchergebnissen.


about-tamara-niebler-seo-texterin-muenchen-min2.jpg

About Tamara von Löwen-Text

Ich unterstütze Unternehmen & Agenturen als SEO-Texterin für OnPage-SEO dabei, bei der Google Suche besser zu ranken und Kunden zu begeistern. Brauchst du Hilfe für deine Website, deinen Blog oder eine effektive Content-Strategie? Ich helfe dir, deinen Internet-Auftritt seo-konform und leserfreundlich zu gestalten!