DC – die häufigsten Fehler und wie man sie vermeiden kann

„Duplicate Content“ (DC) ist ein viel diskutiertes Thema unter SEOs und bedeutet nichts anderes als doppelte (Text-)Inhalte. In diesem Beitrag werde ich explizit auf das Thema interner DC, also DC auf der eigenen Webseite, eingehen.
Allgemein kann man sagen, dass Google und andere Suchmaschinen internen DC relativ gut erkennen können. Dennoch gibt es manchmal Fälle, bei denen interner DC ein echtes Problem darstellt. Nachfolgend möchte ich die häufigsten Fehler aufzeigen und beschreiben, wie man diese Probleme beheben kann.

Sortier-Funktionen

Bei Onlineshops hat man oft die Möglichkeit Produkte nach Namen, Preis und eventuell weiteren Punkten zu sortieren. Oft wird dabei immer eine neue URL erzeugt, der Inhalt an sich ändert sich jedoch nicht (bis auf die Reihenfolge). Häufig sehen die URL-Strukturen daher so (oder ähnlich) aus:

domain.tld/uhren/ (Kategorie-URL, nicht sortiert)
domain.tld/uhren/?sort=name (Kategorie-URL, alphabetisch sortiert)
domain.tld/uhren/?sort=price_asc (Kategorie-URL, preislich aufsteigend sortiert)
domain.tld/uhren/?sort=price_desc (Kategorie-URL, preislich absteigend sortiert)
domain.tld/uhren/?sort=brand (Kategorie-URL, alphabetisch nach Marken sortiert)

Grundsätzlich zeigen in diesem Beispiel alle 5 URLs die gleichen Inhalte an, nur eben in anderer Reihenfolge.
Die erste URL ist meine Haupt-URL, die anderen sind nur „Kopien“. Ich möchte also verhindern, dass die anderen 4 Seiten in den Suchmaschinen-Index gelangen.

Im Optimalfall setzt man hier zweierlei Maßnahmen um:
Parameterbehandlung per GWT: In den Google Webmaster-Tools gibt es die Möglichkeit bestimmte Parameter vom Indexierungsprozess auszuschliessen. Der Parameter „sort“ kann in diesem Beispiel also über die GWT ausgeschlossen werden.
Canonical-URL: Zusätzlich sollten bei den genannten URLs ein sog. „canonical-Tag“ eingefügt werden. Sobald der Parameter „sort“ in der URL auftaucht, kann man also folgenden Code in den -Bereich einbinden:
<link rel=“canonical“ href=“http://www.domain.tld/uhren/“ rel=“nofollow“ />

Pagination

Unter dem Begriff „Pagination“ versteht man das Blättern auf verschiedenen Seiten. Eine Kategorie, die beispielsweise 100 Produkte hat, bei der aber pro Seite nur 20 Produkte angezeigt werden, hat 5 Seiten (mit jeweils 20 Produkten).
Die Produkte ändern sich natürlich pro Seite, aber oft bleiben die Kategorie-Beschreibungen auf allen 5 Seiten bestehen. Die entsprechende Beschreibung ist daher über 5 verschiedene URLs erreichbar. In diesem Beispiel möchte ich trotzdem alle Seiten im Suchmaschinen-Index haben, aber der Text soll nur auf der ersten Seite auftauchen.

Hier gibt es viele verschiedene Lösungswege, die gängigsten sind wohl die Erstellung einer if-Schleife per php oder das Arbeiten mit Smarty-Klassen.

Auch die erste Seite einer Kategorie stimmt oft nicht mit der Base-URL für die Kategorie überein. Hier reicht allerdings eine einfache 301-Weiterleitung.

Verschiedene Sprachen

Webseiten, insbesondere Onlineshops, haben oft die Funktion, die Webseite in mehreren Sprachen anzuzeigen. Dass die Mehrsprachigkeit häufig überhaupt keinen Sinn macht, lasse ich hier außen vor.
Beispiel: Standardmäßig wird die Seite in deutscher Sprache dargestellt, es gibt aber auch noch eine englische Version der Seite. In der Navigationsleiste befinden sich eine englische und eine deutsche Flagge. Durch einen Klick auf die deutsche Flagge wird meiner URL einen Parameter angehängt:

domain.tld/uhren/ (Standard-URL der Uhren-Kategorie)
domain.tld/uhren/?lang=en (Englische Version der Uhren-Kategorie)
domain.tld/uhren/?lang=de (Kopie der deutschen Version der Uhren-Kategorie)

Die „?lang=de“-Version möchte ich natürlich nicht im Suchmaschinen-Index haben, da diese nur eine Kopie der Standard-Version ist.

Im besten Fall macht man daher eine 301-Weiterleitung der „?lang=de“-Version auf die Version ohne Parameter. Diese Weiterleitung lässt sich problemlos per mod_rewrite oder php lösen.

Abschließend bleibt zu sagen, dass es natürlich noch sehr viel mehr mögliche DC-Fallen gibt, die sich in vielen Fällen aber per Parameterbehandlung in den GWT, per 301-Weiterleitung oder dem canonical-Tag lösen lassen.

Bildquellenangabe: Stefanie Junker / pixelio.de