neues rel Tag „canonical“: Google Microsoft und Yahoo machen gemeinsame Sache (Update)

 5240 Mal gelesen

(Update ganz unten)

Google, Microsoft und Yahoo haben sich zusammen etwas Feines für uns SEOs überlegt: ein neues html-Tag zur Vermeidung von doppeltem Content.

Seit Äonen verzweifeln Suchmaschinenoptimierer an Duplicate Content (Doppelt indexierten Inhalten). Gerade dynamische URLs von Shopsystemen (CMS = Content Management Systemen) und für AdWords generierte Landing-Page-URIs sind auch Anfang 2009 noch ein ständig auftretendes Problem in der Optimierung. Gewesen.

Mit dem diese Woche eingeführten html Tag rel=“canonical“ ist das Problem ein für alle Mal gelöst! Es gibt sogar für CMS wie WordPress, Drupal und Magento ein Plugin, das die canonical Rel-Tags automatisch integriet damit die onpage Optimierung auch in großen Projekten schnell geht.

duplicate content vermeiden
mit neuem rel Tag canonical

Zuerst einmal will ich erklären, wo das Problem gelegen hat. Was es mit dem neu eingeführten Tag auf sich hat und wie man es einsetzt, steht unter diesem Abschnitt.

Bisher war es so, dass gerade die wichtigen eCommerce Projekte wie Onlineshops ihre Seiten dynamisch für jede Anfrage individuell erstellen aus den einzelnen Bestandteilen, die für die jeweilige Seite gebraucht werden. Dabei ist es üblich, dass die URLs, also Seiten-Adressen dem CMS entsprechende Parameter enthalten.

Zum Beispiel kann es so ausgesehen haben:

  • http://www.indianerfedern.de/chefschmuck?color=red&size=24&id=2138

Die Seite mit den roten Häuptlingsfedern ist bei den Suchmaschinen so indexiert. Erkennt das CMS hier aber einen Besucher, der von einer Partnerseite oder durch AdWords-Anzeigen kommt, könnte der URL anders aussehen und andere Parameter haben, aber den selben Seiteninhalt wie der oben genannte URL zeigen. Das gleiche kann auch mit seiteninternen Empfehlungslinks sein, wie sie in Shops oft vorkommen.

Die Seite wird dann plötzlich auch unter diesen Adressen indexiert:

  • http://www.indianerfedern.de/chefschmuck?color=red&size=X&id=2130&ref=int&article:id=4178
  • http://www.indianerfedern.de/chefschmuck?color=X&size=X&id=2120&ref=adwords&key_1=indianer&key_2=kostuem

Warum ist doppelter Content schlecht?

Es gibt zwei richtig große Probleme mit DC (= duplicate content).

Duplicate Content ist Spam

Suchmaschinen sind darum bemüht, ihren Nutzern also den Suchenden, die bestmöglichen Suchergebnisse zu liefern. Wenn die Suchmaschine nun 10 Mal den gleichen Inhalt findet, aber immer unter anderen Adressen, fasst sie das eventuell als Betrugsversuch (Spam) auf und listet die Seite weiter hinten oder indexiert sie sogar gar nicht in den ersten 50 Ergebnissen. Außerdem wird sie bei mehrfach vorkommenden Artikeln die hier oder dort aktualisiert worden sind möglicherweise eine alte Version indexieren.

Duplicate Content reduziert die Crawling Menge

Für jede Webseite im Internet steht einem Webcrawler nur eine gewisse Anzahl an Besuchen innerhalb eines festgelegten Zeitraums zur Verfügung. Er darf je Page nur eine gewisse Masse an Traffic aufkommen lassen und muss dann von dort für einige Zeit verschwinden. Die Kriterien dafür, auf welcher Seite ein Crawler häufiger und intensiver rumrennt kenne ich nicht. Das wissen nur die Suchmaschinenbetreiber und hoffentlich der Bot selbst 😉

Nehmen wir an der Bot darf auf unserer Domain erst einmal nur 50 Seiten indexieren. Er kommt nun aber auf 3 verschiedenen Wegen auf Seite A und auf 10 unterschiedlichen Wegen auf Seite B. Das CMS unserer Webseite liefert je nach Einstiegspfad immer andere URLs für die beiden Seiten A und B. Dann hat der Crawler bereits 13 von seinen erlaubten 50 Seiten unserer Domain indexiert. Wenn das mit den Seiten C, D und den anderen so weiter geht, wird er bei Seite F aufhören zu indexieren und ein ander Mal wieder kommen, wo aber das Gleiche passieren wird. Effektiv hat er dann ungefähr sechs Seiten von unserer Domain indexiert, statt 50 Stück. Und letztendlich kann es auch noch passieren, dass wir deswegen als Spammer abgestraft werden oder einfach weniger Besuch von den Spiders bekommen.

In beiden Fällen haben wir Nachteile in der organischen Suchplatzierung und damit weniger Besucher (= Kunden).

Das neue rel Tag „canonical“ hilft optimieren

Das neue HTML tag rel=“canonical“ verhindert die Entstehung von doppelten Inhalten auf diesen Wegen und hilft damit SEOs ihre Webseiten noch ein Stück weiter zu optimieren.

canonical in die Webseite einbinden

Eingebunden wird das Tag wie im Screenshot oben gezeigt im header einer Webseite. Der Code sieht so aus:

<link rel=“canonical“ href=“http://www.seouxindianer.de/“ />

Wo bei mir der URL meiner Startseite steht, wird die offizielle Adresse eingetragen. Mehr ist gar nicht notwendig, damit Suchmaschinen wissen, was Sache ist. Vergleichbar ist es mit dem Tag base, nur dass canonical keine Auswirkungen auf das Verhalten von Seiteninhalten an sich hat.

Damit es bei großen Projekten mit vielen dynamischen URLs keine Sisyphus Aufgabe wird, zeige am Ende dieses Artikels Plugins, die das Einbinden des rel Attributes automatisieren.

Was bedeutet das Tag für Suchmaschinen?

„Canonical“ ist englisch und heißt übersetzt „anerkannt“, „autorisiert“ oder „nach Vorschrift“.

Laut Matt Cutts, dem SEO-Sprachrohr von Google, sehen Suchmaschinen das neue Tag als besonders wichtige Empfehlung für die zu nutzende Seiten-Adresse an. Sie werden also nicht mehr nach eigenen Kriterien entscheiden, welche Adresse für die Inhalte zutreffen und dabei auch nicht mehr auf den unguten Gedanken kommen, es könne sich hier um einen Betrugsversuch handeln, die Webseite häufiger in den Index zu bringen.

Wenn der Webcrawler die Seite besucht, liest er die Empfehlung und indexiert die Seite gemäß dieser. Ich brauche an der Stelle nicht erwähnen, dass es deshalb wichtig ist, dabei keinen Fehler zu machen 😉

Wenn der Crawler den Inhalt ein weiteres Mal aufruft aber mit anderem URL, liest er wieder die Empfehlung im Rel-Tag und indexiert diesmal nicht, denn er hat ja die empfohlne Adresse bereits in der Datenbank hinterlegt. Er kümmert sich dann brav um neue Inhalte, statt die gleiche Seite immer und immer wieder zu kopieren.

Google, Microsoft und Yahoo arbeiten zusammen

Es ist nicht das erste Mal, dass die drei meistgenutztesten Suchmaschinen des wilden Westens kooperieren um die Indexierung des Internets einfacher zu gestalten.

Erst im Juni 2008 haben die 3 Giganten gemeinsam erklärt, wie ihre Bots mit den Anweisungen in der robots.txt umgehen und wie mit dem robots-Metatag.

Aber schon viel früher haben sie nicht nur über etwas gesprochen, sondern tatsächlich einen Standard aus den Kinderschuhen geholfen. Ende 2006 arbeiteten sie am sitemaps-Projekt mit.

Beides sehr wichtige Komponente für Suchmaschinenoptimierung.

Ich denke, dass auch rel=“canonical“ einen Knall auslösen wird, denn alle CMS Administratoren und Webmaster haben ja nur auf eine solche Verbesserung gewartet.

canonical einbinden mit Plugins

Wie gesagt wäre es bei dynamisch generierten URLs kaum möglich, die kleine Zeile mit dem rel Attribut einzubinden und das bei hunderten von Seiten. Deshalb hat Joost de Valk „schnell mal“ CMS Plugins kostenlos online gestellt.

canonical Plugin für WordPress

Das Plugin für WordPress CMS kann hier runtergeladen werden.

Update: Speziell wenn’s um WordPress geht findet Ihr bei Frank Bueltge.de eine Fachdiskussion und Tipps, wie es auch ohne Plugin geht.

canonical Plugin für Drupal

Das Plugin für Drupal CMS kann über diesen Link direkt herunter geladen werden.

canonical Plugin für Magento

Das Plugin für Magento CMS kann hier heruntergeladen werden.

Kommende Woche werde ich meine Blogs und die Projekte in der Arbeit nachrüsten. Wobei ich bei meinen Blogs vielleicht sogar erst im Sommer beginne und die Entwicklung abwarte. Bislang kommt DC nämlich nicht vor *aufholzklopf* und ich möchte mich erst noch ein bisschen mehr damit auseinander setzen.

Wenn Ihr schon Gedanken dazu habt oder etwas wisst, das mir noch niemand verklickert hat, dann immer raus mit der Sprache! Ich würde mich sehr über Infos und Meinungen von Euch in den Kommentaren freuen.

Update 14. Februar 2009

Wie in den Kommentaren von Marc schon deutlich wurde, ist das neue rel-Tag canonical nur eine sanfte Korrekturmöglichkeit, aber nicht wirklich eine Lösung. Wer bei der Konfiguration seiner CMS auf den URL-Aufbau achtet, vermeidet einige unnötige Varianten.

Und wie bei Sistrix zu lesen ist, wäre eine 301-Weiterleitung bei allen ungewollten URLs die beste Lösung.


+Benjamin Wingerter ist Inhouse-SEO und Affiliate seit 2008. Er hat zwei Steckenpferde: Conversion Rate Optimierung und Suchmaschinenoptimierung. Seit 2011 spricht er auf Fachkonferenzen, wie der SEO Campixx.

Advertisement

16 Responses to “neues rel Tag „canonical“: Google Microsoft und Yahoo machen gemeinsame Sache (Update)”

  1. André

    01. Aug 2013

    Hallo,
    ist zwar schon eine Weile her, aber das Thema bleibt ja aktuell. Was mach ich denn nun mit Seiten, bei denen ich über ein Query bestimmte Artikel einer Kategorie auflisten lasse? Da würde ja das Canonical Tag nicht richtig greifen. Die sollten weiterhin ein noindex bekommen, richtig?

    Antworten
    • SEOux Indianer

      22. Sep 2013

      Hi André, da wäre ein noindex wirklich geschickt, denn wohin sollen die Inhalte denn kanonisiert werden? Es gibt ja keine andere Seite, die einen ähnlichen Zweck erfüllt aber interessanter ist. Was Du jedoch machen könntest, wäre zusätzlich, einfach weil es sauberer ist, die eventuell vorhandenen Seiten 2-xx auf die erste Zusammenfassungspage zu kanonisieren. Also /baby-artikel/ als canonical Ziel einstellen für /baby-artikel/2 und /baby-artikel/3 usw.

      Antworten
  2. Seouxindianer

    06. Mai 2009

    Naja, eigentlich lässt sich auch das mit den Parametern durch Anpassung der htacces lösen. Ich selbst nutze rel=“canonical“ gar nicht. Solange es mir von Google Webmaster Tools nicht ausdrücklich bei einem Projekt empfohlen wird, spar ich mir die wahrscheinlich unnötige Arbeit.

    Antworten
  3. Henning

    06. Mai 2009

    Das mit dem Slash hab ich nach nem Tipp, den ich mal irgendwo gelesen habe über die .htaccess gelöst, wird immer per 301 auf die /-Variante umgeleitet. 🙂

    Das mit den Parametern stimmt natürlich…

    Antworten
  4. Seouxindianer

    06. Mai 2009

    Da hast Du auch Recht, Henning. Außer jemand verlinkt Deine Artikel aus irgendeinem obskuren Grund mal mit und mal ohne Endslash oder sogar mit dem nicht überschriebenen Parameter URL.

    Antworten
  5. Henning

    05. Mai 2009

    Bei WordPress mit sprechenden URLs als Permalinks scheint mir das vollkommen unnötig zu sein, denn da hängen dann ja gar keine Parameter per ?id=xxx oder so an der URL dran.

    Antworten
  6. Seouxindianer

    14. Feb 2009

    @Michael Fritz: Merci dass Du mich darauf aufmerksam gemacht hast. Hab’s ganz dreist überall falsch geschrieben und jetzt zumindest hier ausgebessert.

    @Marc: Danke, dass Du das länger ausgeführt hast. Die Einbindung mit der if-Abfrage ist ja ganz schlicht und einfach zu erweitern, wenn man das möchte. Du rüstest aber trotzdem nicht nach, oder? Aber sich vorher um ein ordentliches und aufgeräumtes System zu kümmern bringt allgemein mehr. Das neue rel Attribut ist ja lediglich eine Korrekturmöglichkeit. 😀

    Antworten
  7. Marc

    13. Feb 2009

    @ SEOux
    >>Gibt es in CMSystemen eine Möglichkeit,
    >>eine Standard-URL vorzugeben
    Sofern ein entsprechendes Modul diesen Job erledigt, sehe ich dabei kein Problem.

    Ich selbst leite z.B. alle Anfragen mit Session-ID in der URL auf die Original-URL um, sofern der Besucher ein Gast ist (=Bot). Registrierte benötigen diese bei mir unter Umständen, sofern sie kein Cookie akzeptieren. Das Prinzip für so eine Abfrage ist ja sehr einfach:
    if ($_SERVER[‚REQUEST_URI‘] != $perma_uri) {
    // spuck den canonical meta / noindex,follow meta aus
    }

    Ansonsten halte ich alle Filter-Konstrukte basierend auf URLs für fehlerhafte Lösungen. Schließlich besteht immer das Risiko, dass solche „ungewollten“ Links durch Besucher auf dritten Seiten verlinkt werden.

    Natürlich soll Google & Co. nun statt der zuerst aufgerufenen URL der canonical Variante folgen, aber glaubt wirklich jemand daran, dass Google das noch macht, wenn das zugewiesene Index-Volumen erreicht wurde? Ich kanns mir irgendwie nicht vorstellen. Auch darf man nicht unterschätzen, dass insbesondere sessionbasierte System nicht ohne zusätzlich Boterkennung auskommen. Denn wenn der Bot plötzlich immer wieder die Perma-URL aufruft heißt dass im Session-System auch immer wieder eine neue Session.

    Wer von Anfang an sauber arbeitet, der braucht auch keinen canonical-Tag.

    z.B. kennt das jeder aus Foren:
    topic.php?id=123
    topic.php?id=123&seite=2

    und wenn man dann von Seite 2 auf Seite 1 geht ist man plötzlich auf:
    topic.php?id=123&seite=1

    Die Coder, die sowas basteln, dürfen sich nicht wundern.

    Antworten
  8. Seouxindianer

    13. Feb 2009

    Hi @Marc, da habe ich gleich eine Frage, weil ich mich nicht gut genug auskenne:

    Wie hast Du Dir das eigentlich mit dem nofollow-linksculpting bei dynamischen URLs gedacht? Die sind ja flexibel zusammengesetzt. Gibt es in CMSystemen eine Möglichkeit, eine Standard-URL vorzugeben, bei der im header automatisch ein follow,index eingefügt wird und wenn die URL anders generiert wird, ein noindex?

    Bei Nofollow bin ich vorsichtig geworden, seit das Problem mit der Reihenfolge bekannt geworden ist. Normalerweise wird ja ein zweimal auftretender Link bei beiden Malen entwertet, sobald der im Quelltext oben stehende nofollow ist und der zweite nicht. Lässt man den ersten auf dofollow und setzt den zweiten nofollow, ist das normalerweise nicht so, aber vorkommen kann es trotzdem, dass die Suchmaschinen den Link dann nicht werten oder manche ihn auch gar nicht verfolgen. Impressum kommt bei mir auf nofollow, loginpages und so, aber ansonsten ist mir das Risiko momentan zu groß und bei neuen Projekten verzichte ich deshalb erst einmal darauf.

    Also der Nutzen von rel=“canonical“ ist noch nicht optimal, aber dass sie sich darum kümmern tut neben ihren eigenen Rankings auch uns Webmastern gut. Das Einbinden ist ja wie gesagt nicht so wild und der Codeschnipsel ist klein genug um die Ladezeiten nicht zu stören.

    Antworten
  9. Marc

    13. Feb 2009

    Hi,

    ich halte das neue Tag für unsinnig und es wird auch nichts am Volumen oder am Problem ändern.

    1.) canonical ist nichts anderes als noindex,follow
    2.) wird extern auf die eigene Seite verlinkt, gibt es keine Möglichkeit ein canonical davor zu schalten. Hier hilft nur noindex,follow. Also ist noindex,follow die bessere Wahl
    3.) jeder hat bekanntermaßen ein gewisses Index-Volumen, aber bei canonical wird dieses Volumen aufgebraucht, denn die Links werden trotzdem abgearbeitet, nur wird kein Content aufgenommen

    Es ist nach wie vor am besten, wenn man sich auf die Unterscheidung von follow und nofollow in der internen Linkstruktur konzentriert. Auf diese Art landen auch keine ungewollten Links auf dritten Seiten.

    Gruß

    Antworten

Trackbacks/Pingbacks

  1. duplicate content verhindern mit canonical | SEO Blog - Montag, 2. März 2009

    […] content verhindern kann hat der Whitehat SEO einmal ausführlich beschrieben. Auch der Seouxindianer hat sich darüber einmal Gedanken […]

  2. Duplicate Content ist kein Problem mehr » She-Sign.de - Donnerstag, 26. Februar 2009

    […] Den kompletten Beitrag lesen » Bookmarken bei: […]

  3. rel=”canonical”-URL für WordPress - bueltge.de [by:ltge.de] - Dienstag, 24. Februar 2009

    […] eure kanonische URL“, Golem liefert Infos, Kommentare und weitere Links und der SEOux Indianer erklärt es auf seine […]

  4. Wordpress mit neuem rel-Tag “canonical” - Punsk - Tim-Oliver Schulz - Montag, 23. Februar 2009

    […] lesenswerten Artikel zum rel-Tag gibt es auch beim Seouxindianer! Weitersagen: Diese Icons verlinken auf Bookmark Dienste bei denen Nutzer neue Inhalte finden […]

  5. Der Canonical-Tag – was kann man damit machen? | LinkVendor - Montag, 23. Februar 2009

    […] viel wichtiger und scheinbar noch nicht in der deutschen SEO-Szene angekommen ist, dass durch dieses Tag Linkpopularität an die […]

  6. Das neue Webdesign und SEO-Spielzeug rel=”canonical” | fob marketing - Sonntag, 22. Februar 2009

    […] Infos und Kritiken zum REL TAG CANONICAL finden sich beim SEOux Indianer und auch direkt im Google Webmaster Central Blog […]

Leave a Reply