neues rel Tag “canonical”: Google Microsoft und Yahoo machen gemeinsame Sache (Update)

(Update ganz unten)

Google, Microsoft und Yahoo haben sich zusammen etwas Feines für uns SEOs überlegt: ein neues html-Tag zur Vermeidung von doppeltem Content.

Seit Äonen verzweifeln Suchmaschinenoptimierer an Duplicate Content (Doppelt indexierten Inhalten). Gerade dynamische URLs von Shopsystemen (CMS = Content Management Systemen) und für AdWords generierte Landing-Page-URIs sind auch Anfang 2009 noch ein ständig auftretendes Problem in der Optimierung. Gewesen.

Mit dem diese Woche eingeführten html Tag rel=”canonical” ist das Problem ein für alle Mal gelöst! Es gibt sogar für CMS wie WordPress, Drupal und Magento ein Plugin, das die canonical Rel-Tags automatisch integriet damit die onpage Optimierung auch in großen Projekten schnell geht.
rel tag canonical 300x76

duplicate content vermeiden
mit neuem rel Tag canonical

Zuerst einmal will ich erklären, wo das Problem gelegen hat. Was es mit dem neu eingeführten Tag auf sich hat und wie man es einsetzt, steht unter diesem Abschnitt.

Bisher war es so, dass gerade die wichtigen eCommerce Projekte wie Onlineshops ihre Seiten dynamisch für jede Anfrage individuell erstellen aus den einzelnen Bestandteilen, die für die jeweilige Seite gebraucht werden. Dabei ist es üblich, dass die URLs, also Seiten-Adressen dem CMS entsprechende Parameter enthalten.

Zum Beispiel kann es so ausgesehen haben:

  • http://www.indianerfedern.de/chefschmuck?color=red&size=24&id=2138

Die Seite mit den roten Häuptlingsfedern ist bei den Suchmaschinen so indexiert. Erkennt das CMS hier aber einen Besucher, der von einer Partnerseite oder durch AdWords-Anzeigen kommt, könnte der URL anders aussehen und andere Parameter haben, aber den selben Seiteninhalt wie der oben genannte URL zeigen. Das gleiche kann auch mit seiteninternen Empfehlungslinks sein, wie sie in Shops oft vorkommen.

Die Seite wird dann plötzlich auch unter diesen Adressen indexiert:

  • http://www.indianerfedern.de/chefschmuck?color=red&size=X&id=2130&ref=int&article:id=4178
  • http://www.indianerfedern.de/chefschmuck?color=X&size=X&id=2120&ref=adwords&key_1=indianer&key_2=kostuem

Warum ist doppelter Content schlecht?

Es gibt zwei richtig große Probleme mit DC (= duplicate content).

Duplicate Content ist Spam

Suchmaschinen sind darum bemüht, ihren Nutzern also den Suchenden, die bestmöglichen Suchergebnisse zu liefern. Wenn die Suchmaschine nun 10 Mal den gleichen Inhalt findet, aber immer unter anderen Adressen, fasst sie das eventuell als Betrugsversuch (Spam) auf und listet die Seite weiter hinten oder indexiert sie sogar gar nicht in den ersten 50 Ergebnissen. Außerdem wird sie bei mehrfach vorkommenden Artikeln die hier oder dort aktualisiert worden sind möglicherweise eine alte Version indexieren.

Duplicate Content reduziert die Crawling Menge

Für jede Webseite im Internet steht einem Webcrawler nur eine gewisse Anzahl an Besuchen innerhalb eines festgelegten Zeitraums zur Verfügung. Er darf je Page nur eine gewisse Masse an Traffic aufkommen lassen und muss dann von dort für einige Zeit verschwinden. Die Kriterien dafür, auf welcher Seite ein Crawler häufiger und intensiver rumrennt kenne ich nicht. Das wissen nur die Suchmaschinenbetreiber und hoffentlich der Bot selbst ;)

Nehmen wir an der Bot darf auf unserer Domain erst einmal nur 50 Seiten indexieren. Er kommt nun aber auf 3 verschiedenen Wegen auf Seite A und auf 10 unterschiedlichen Wegen auf Seite B. Das CMS unserer Webseite liefert je nach Einstiegspfad immer andere URLs für die beiden Seiten A und B. Dann hat der Crawler bereits 13 von seinen erlaubten 50 Seiten unserer Domain indexiert. Wenn das mit den Seiten C, D und den anderen so weiter geht, wird er bei Seite F aufhören zu indexieren und ein ander Mal wieder kommen, wo aber das Gleiche passieren wird. Effektiv hat er dann ungefähr sechs Seiten von unserer Domain indexiert, statt 50 Stück. Und letztendlich kann es auch noch passieren, dass wir deswegen als Spammer abgestraft werden oder einfach weniger Besuch von den Spiders bekommen.

In beiden Fällen haben wir Nachteile in der organischen Suchplatzierung und damit weniger Besucher (= Kunden).

Das neue rel Tag “canonical” hilft optimieren

Das neue HTML tag rel=”canonical” verhindert die Entstehung von doppelten Inhalten auf diesen Wegen und hilft damit SEOs ihre Webseiten noch ein Stück weiter zu optimieren.

canonical in die Webseite einbinden

Eingebunden wird das Tag wie im Screenshot oben gezeigt im header einer Webseite. Der Code sieht so aus:

<link rel=”canonical” href=”http://www.seouxindianer.de/” />

Wo bei mir der URL meiner Startseite steht, wird die offizielle Adresse eingetragen. Mehr ist gar nicht notwendig, damit Suchmaschinen wissen, was Sache ist. Vergleichbar ist es mit dem Tag base, nur dass canonical keine Auswirkungen auf das Verhalten von Seiteninhalten an sich hat.

Damit es bei großen Projekten mit vielen dynamischen URLs keine Sisyphus Aufgabe wird, zeige am Ende dieses Artikels Plugins, die das Einbinden des rel Attributes automatisieren.

Was bedeutet das Tag für Suchmaschinen?

“Canonical” ist englisch und heißt übersetzt “anerkannt”, “autorisiert” oder “nach Vorschrift”.

Laut Matt Cutts, dem SEO-Sprachrohr von Google, sehen Suchmaschinen das neue Tag als besonders wichtige Empfehlung für die zu nutzende Seiten-Adresse an. Sie werden also nicht mehr nach eigenen Kriterien entscheiden, welche Adresse für die Inhalte zutreffen und dabei auch nicht mehr auf den unguten Gedanken kommen, es könne sich hier um einen Betrugsversuch handeln, die Webseite häufiger in den Index zu bringen.

Wenn der Webcrawler die Seite besucht, liest er die Empfehlung und indexiert die Seite gemäß dieser. Ich brauche an der Stelle nicht erwähnen, dass es deshalb wichtig ist, dabei keinen Fehler zu machen ;)

Wenn der Crawler den Inhalt ein weiteres Mal aufruft aber mit anderem URL, liest er wieder die Empfehlung im Rel-Tag und indexiert diesmal nicht, denn er hat ja die empfohlne Adresse bereits in der Datenbank hinterlegt. Er kümmert sich dann brav um neue Inhalte, statt die gleiche Seite immer und immer wieder zu kopieren.

Google, Microsoft und Yahoo arbeiten zusammen

Es ist nicht das erste Mal, dass die drei meistgenutztesten Suchmaschinen des wilden Westens kooperieren um die Indexierung des Internets einfacher zu gestalten.

Erst im Juni 2008 haben die 3 Giganten gemeinsam erklärt, wie ihre Bots mit den Anweisungen in der robots.txt umgehen und wie mit dem robots-Metatag.

Aber schon viel früher haben sie nicht nur über etwas gesprochen, sondern tatsächlich einen Standard aus den Kinderschuhen geholfen. Ende 2006 arbeiteten sie am sitemaps-Projekt mit.

Beides sehr wichtige Komponente für Suchmaschinenoptimierung.

Ich denke, dass auch rel=”canonical” einen Knall auslösen wird, denn alle CMS Administratoren und Webmaster haben ja nur auf eine solche Verbesserung gewartet.

canonical einbinden mit Plugins

Wie gesagt wäre es bei dynamisch generierten URLs kaum möglich, die kleine Zeile mit dem rel Attribut einzubinden und das bei hunderten von Seiten. Deshalb hat Joost de Valk “schnell mal” CMS Plugins kostenlos online gestellt.

canonical Plugin für WordPress

Das Plugin für WordPress CMS kann hier runtergeladen werden.

Update: Speziell wenn’s um Wordpress geht findet Ihr bei Frank Bueltge.de eine Fachdiskussion und Tipps, wie es auch ohne Plugin geht.

canonical Plugin für Drupal

Das Plugin für Drupal CMS kann über diesen Link direkt herunter geladen werden.

canonical Plugin für Magento

Das Plugin für Magento CMS kann hier heruntergeladen werden.

Kommende Woche werde ich meine Blogs und die Projekte in der Arbeit nachrüsten. Wobei ich bei meinen Blogs vielleicht sogar erst im Sommer beginne und die Entwicklung abwarte. Bislang kommt DC nämlich nicht vor *aufholzklopf* und ich möchte mich erst noch ein bisschen mehr damit auseinander setzen.

Wenn Ihr schon Gedanken dazu habt oder etwas wisst, das mir noch niemand verklickert hat, dann immer raus mit der Sprache! Ich würde mich sehr über Infos und Meinungen von Euch in den Kommentaren freuen.

Update 14. Februar 2009

Wie in den Kommentaren von Marc schon deutlich wurde, ist das neue rel-Tag canonical nur eine sanfte Korrekturmöglichkeit, aber nicht wirklich eine Lösung. Wer bei der Konfiguration seiner CMS auf den URL-Aufbau achtet, vermeidet einige unnötige Varianten.

Und wie bei Sistrix zu lesen ist, wäre eine 301-Weiterleitung bei allen ungewollten URLs die beste Lösung.

Gleich weitersagen: Diese Icons verlinken auf Bookmark Dienste bei denen Nutzer neue Inhalte finden und mit anderen teilen können.
  • email
  • Sphinn
  • MisterWong
  • Facebook
  • LinkedIn
  • del.icio.us
  • Y!GG
  • Slashdot
  • Oneview
  • Wikio DE
  • Netselector
  • Infopirat
  • Linkarena
  • Google Bookmarks
  • Hype
  • Technorati
  • SEOigg
  • TwitThis

Weitere Informationen:

  1. Webseiten Verweildauer – Leser auf der Seite halten
    Aus SEO Sicht ist es wichtig die Verweildauer von Webseiten Besuchern zu erhöhen. Um Leser auf der Webseite zu halten helfen zwei moderne Möglichkeiten....
  2. SEO Überschriften
    Für Suchmaschinenoptimierung von Webseiten zählen SEO Überschriften stark als Rankingfaktor. Überschriften für Suchmaschinen zu optimieren bedeutet, auf journalistische Ansprüche zu Gunsten der SEO headlines zu...
  3. rel Canonical domainübergreifend ab Anfang 2010
    Google kündigt domainübergreifendes rel Canonical HTML Tag an. Seit der SMX East 2009 diskutiert man über cross domain rel canonical Nutzen und Missbrauch....
  4. Ladezeit verringert durch Redesign
    Um die Ladezeiten des SEO Blogs zu reduzieren habe ich Javascript entfernt und ein neues Blog Design installiert. Wie ich Ladezeiten verringert habe durch ein...

  1. 14 Antworten - Was meinst Du?
  2. Gravatar von Marc

    Hi,

    ich halte das neue Tag für unsinnig und es wird auch nichts am Volumen oder am Problem ändern.

    1.) canonical ist nichts anderes als noindex,follow
    2.) wird extern auf die eigene Seite verlinkt, gibt es keine Möglichkeit ein canonical davor zu schalten. Hier hilft nur noindex,follow. Also ist noindex,follow die bessere Wahl
    3.) jeder hat bekanntermaßen ein gewisses Index-Volumen, aber bei canonical wird dieses Volumen aufgebraucht, denn die Links werden trotzdem abgearbeitet, nur wird kein Content aufgenommen

    Es ist nach wie vor am besten, wenn man sich auf die Unterscheidung von follow und nofollow in der internen Linkstruktur konzentriert. Auf diese Art landen auch keine ungewollten Links auf dritten Seiten.

    Gruß

    Marc (3 comments), 13. Feb 2009

  3. Gravatar von Seouxindianer

    Hi @Marc, da habe ich gleich eine Frage, weil ich mich nicht gut genug auskenne:

    Wie hast Du Dir das eigentlich mit dem nofollow-linksculpting bei dynamischen URLs gedacht? Die sind ja flexibel zusammengesetzt. Gibt es in CMSystemen eine Möglichkeit, eine Standard-URL vorzugeben, bei der im header automatisch ein follow,index eingefügt wird und wenn die URL anders generiert wird, ein noindex?

    Bei Nofollow bin ich vorsichtig geworden, seit das Problem mit der Reihenfolge bekannt geworden ist. Normalerweise wird ja ein zweimal auftretender Link bei beiden Malen entwertet, sobald der im Quelltext oben stehende nofollow ist und der zweite nicht. Lässt man den ersten auf dofollow und setzt den zweiten nofollow, ist das normalerweise nicht so, aber vorkommen kann es trotzdem, dass die Suchmaschinen den Link dann nicht werten oder manche ihn auch gar nicht verfolgen. Impressum kommt bei mir auf nofollow, loginpages und so, aber ansonsten ist mir das Risiko momentan zu groß und bei neuen Projekten verzichte ich deshalb erst einmal darauf.

    Also der Nutzen von rel=”canonical” ist noch nicht optimal, aber dass sie sich darum kümmern tut neben ihren eigenen Rankings auch uns Webmastern gut. Das Einbinden ist ja wie gesagt nicht so wild und der Codeschnipsel ist klein genug um die Ladezeiten nicht zu stören.

    Seouxindianer (54 comments), 13. Feb 2009

  4. Gravatar von Marc

    @ SEOux
    >>Gibt es in CMSystemen eine Möglichkeit,
    >>eine Standard-URL vorzugeben
    Sofern ein entsprechendes Modul diesen Job erledigt, sehe ich dabei kein Problem.

    Ich selbst leite z.B. alle Anfragen mit Session-ID in der URL auf die Original-URL um, sofern der Besucher ein Gast ist (=Bot). Registrierte benötigen diese bei mir unter Umständen, sofern sie kein Cookie akzeptieren. Das Prinzip für so eine Abfrage ist ja sehr einfach:
    if ($_SERVER['REQUEST_URI'] != $perma_uri) {
    // spuck den canonical meta / noindex,follow meta aus
    }

    Ansonsten halte ich alle Filter-Konstrukte basierend auf URLs für fehlerhafte Lösungen. Schließlich besteht immer das Risiko, dass solche “ungewollten” Links durch Besucher auf dritten Seiten verlinkt werden.

    Natürlich soll Google & Co. nun statt der zuerst aufgerufenen URL der canonical Variante folgen, aber glaubt wirklich jemand daran, dass Google das noch macht, wenn das zugewiesene Index-Volumen erreicht wurde? Ich kanns mir irgendwie nicht vorstellen. Auch darf man nicht unterschätzen, dass insbesondere sessionbasierte System nicht ohne zusätzlich Boterkennung auskommen. Denn wenn der Bot plötzlich immer wieder die Perma-URL aufruft heißt dass im Session-System auch immer wieder eine neue Session.

    Wer von Anfang an sauber arbeitet, der braucht auch keinen canonical-Tag.

    z.B. kennt das jeder aus Foren:
    topic.php?id=123
    topic.php?id=123&seite=2

    und wenn man dann von Seite 2 auf Seite 1 geht ist man plötzlich auf:
    topic.php?id=123&seite=1

    Die Coder, die sowas basteln, dürfen sich nicht wundern.

    Marc (3 comments), 13. Feb 2009

  5. Gravatar von Seouxindianer

    @Michael Fritz: Merci dass Du mich darauf aufmerksam gemacht hast. Hab’s ganz dreist überall falsch geschrieben und jetzt zumindest hier ausgebessert.

    @Marc: Danke, dass Du das länger ausgeführt hast. Die Einbindung mit der if-Abfrage ist ja ganz schlicht und einfach zu erweitern, wenn man das möchte. Du rüstest aber trotzdem nicht nach, oder? Aber sich vorher um ein ordentliches und aufgeräumtes System zu kümmern bringt allgemein mehr. Das neue rel Attribut ist ja lediglich eine Korrekturmöglichkeit. :D

    Seouxindianer (54 comments), 14. Feb 2009

  6. Gravatar von Henning

    Bei Wordpress mit sprechenden URLs als Permalinks scheint mir das vollkommen unnötig zu sein, denn da hängen dann ja gar keine Parameter per ?id=xxx oder so an der URL dran.

    Henning (13 comments), 5. Mai 2009

  7. Gravatar von Seouxindianer

    Da hast Du auch Recht, Henning. Außer jemand verlinkt Deine Artikel aus irgendeinem obskuren Grund mal mit und mal ohne Endslash oder sogar mit dem nicht überschriebenen Parameter URL.

    Seouxindianer (54 comments), 6. Mai 2009

  8. Gravatar von Henning

    Das mit dem Slash hab ich nach nem Tipp, den ich mal irgendwo gelesen habe über die .htaccess gelöst, wird immer per 301 auf die /-Variante umgeleitet. :-)

    Das mit den Parametern stimmt natürlich…

    Henning (13 comments), 6. Mai 2009

  9. Gravatar von Seouxindianer

    Naja, eigentlich lässt sich auch das mit den Parametern durch Anpassung der htacces lösen. Ich selbst nutze rel=”canonical” gar nicht. Solange es mir von Google Webmaster Tools nicht ausdrücklich bei einem Projekt empfohlen wird, spar ich mir die wahrscheinlich unnötige Arbeit.

    Seouxindianer (54 comments), 6. Mai 2009

  1. Trackbacks:
  2. Das neue Webdesign und SEO-Spielzeug rel=”canonical” | fob marketing
    22. Feb 2009
  3. Der Canonical-Tag – was kann man damit machen? | LinkVendor
    23. Feb 2009
  4. Wordpress mit neuem rel-Tag “canonical” - Punsk - Tim-Oliver Schulz
    23. Feb 2009
  5. rel=”canonical”-URL für WordPress - bueltge.de [by:ltge.de]
    24. Feb 2009
  6. Duplicate Content ist kein Problem mehr » She-Sign.de
    26. Feb 2009
  7. duplicate content verhindern mit canonical | SEO Blog
    2. Mrz 2009

Kommentieren zur Zeit deaktiviert.

Markiert: , , , , , , , , , , , , , , , , , ,