neues rel Tag „canonical“: Google Microsoft und Yahoo machen gemeinsame Sache (Update)

 4734 Mal gelesen

(Update ganz unten)

Google, Microsoft und Yahoo haben sich zusammen etwas Feines für uns SEOs überlegt: ein neues html-Tag zur Vermeidung von doppeltem Content.

Seit Äonen verzweifeln Suchmaschinenoptimierer an Duplicate Content (Doppelt indexierten Inhalten). Gerade dynamische URLs von Shopsystemen (CMS = Content Management Systemen) und für AdWords generierte Landing-Page-URIs sind auch Anfang 2009 noch ein ständig auftretendes Problem in der Optimierung. Gewesen.

Mit dem diese Woche eingeführten html Tag rel=“canonical“ ist das Problem ein für alle Mal gelöst! Es gibt sogar für CMS wie WordPress, Drupal und Magento ein Plugin, das die canonical Rel-Tags automatisch integriet damit die onpage Optimierung auch in großen Projekten schnell geht.

duplicate content vermeiden
mit neuem rel Tag canonical

Zuerst einmal will ich erklären, wo das Problem gelegen hat. Was es mit dem neu eingeführten Tag auf sich hat und wie man es einsetzt, steht unter diesem Abschnitt.

Bisher war es so, dass gerade die wichtigen eCommerce Projekte wie Onlineshops ihre Seiten dynamisch für jede Anfrage individuell erstellen aus den einzelnen Bestandteilen, die für die jeweilige Seite gebraucht werden. Dabei ist es üblich, dass die URLs, also Seiten-Adressen dem CMS entsprechende Parameter enthalten.

Zum Beispiel kann es so ausgesehen haben:

  • http://www.indianerfedern.de/chefschmuck?color=red&size=24&id=2138

Die Seite mit den roten Häuptlingsfedern ist bei den Suchmaschinen so indexiert. Erkennt das CMS hier aber einen Besucher, der von einer Partnerseite oder durch AdWords-Anzeigen kommt, könnte der URL anders aussehen und andere Parameter haben, aber den selben Seiteninhalt wie der oben genannte URL zeigen. Das gleiche kann auch mit seiteninternen Empfehlungslinks sein, wie sie in Shops oft vorkommen.

Die Seite wird dann plötzlich auch unter diesen Adressen indexiert:

  • http://www.indianerfedern.de/chefschmuck?color=red&size=X&id=2130&ref=int&article:id=4178
  • http://www.indianerfedern.de/chefschmuck?color=X&size=X&id=2120&ref=adwords&key_1=indianer&key_2=kostuem

Warum ist doppelter Content schlecht?

Es gibt zwei richtig große Probleme mit DC (= duplicate content).

Duplicate Content ist Spam

Suchmaschinen sind darum bemüht, ihren Nutzern also den Suchenden, die bestmöglichen Suchergebnisse zu liefern. Wenn die Suchmaschine nun 10 Mal den gleichen Inhalt findet, aber immer unter anderen Adressen, fasst sie das eventuell als Betrugsversuch (Spam) auf und listet die Seite weiter hinten oder indexiert sie sogar gar nicht in den ersten 50 Ergebnissen. Außerdem wird sie bei mehrfach vorkommenden Artikeln die hier oder dort aktualisiert worden sind möglicherweise eine alte Version indexieren.

Duplicate Content reduziert die Crawling Menge

Für jede Webseite im Internet steht einem Webcrawler nur eine gewisse Anzahl an Besuchen innerhalb eines festgelegten Zeitraums zur Verfügung. Er darf je Page nur eine gewisse Masse an Traffic aufkommen lassen und muss dann von dort für einige Zeit verschwinden. Die Kriterien dafür, auf welcher Seite ein Crawler häufiger und intensiver rumrennt kenne ich nicht. Das wissen nur die Suchmaschinenbetreiber und hoffentlich der Bot selbst 😉

Nehmen wir an der Bot darf auf unserer Domain erst einmal nur 50 Seiten indexieren. Er kommt nun aber auf 3 verschiedenen Wegen auf Seite A und auf 10 unterschiedlichen Wegen auf Seite B. Das CMS unserer Webseite liefert je nach Einstiegspfad immer andere URLs für die beiden Seiten A und B. Dann hat der Crawler bereits 13 von seinen erlaubten 50 Seiten unserer Domain indexiert. Wenn das mit den Seiten C, D und den anderen so weiter geht, wird er bei Seite F aufhören zu indexieren und ein ander Mal wieder kommen, wo aber das Gleiche passieren wird. Effektiv hat er dann ungefähr sechs Seiten von unserer Domain indexiert, statt 50 Stück. Und letztendlich kann es auch noch passieren, dass wir deswegen als Spammer abgestraft werden oder einfach weniger Besuch von den Spiders bekommen.

In beiden Fällen haben wir Nachteile in der organischen Suchplatzierung und damit weniger Besucher (= Kunden).

Das neue rel Tag „canonical“ hilft optimieren

Das neue HTML tag rel=“canonical“ verhindert die Entstehung von doppelten Inhalten auf diesen Wegen und hilft damit SEOs ihre Webseiten noch ein Stück weiter zu optimieren.

canonical in die Webseite einbinden

Eingebunden wird das Tag wie im Screenshot oben gezeigt im header einer Webseite. Der Code sieht so aus:

<link rel=“canonical“ href=“http://www.seouxindianer.de/“ />

Wo bei mir der URL meiner Startseite steht, wird die offizielle Adresse eingetragen. Mehr ist gar nicht notwendig, damit Suchmaschinen wissen, was Sache ist. Vergleichbar ist es mit dem Tag base, nur dass canonical keine Auswirkungen auf das Verhalten von Seiteninhalten an sich hat.

Damit es bei großen Projekten mit vielen dynamischen URLs keine Sisyphus Aufgabe wird, zeige am Ende dieses Artikels Plugins, die das Einbinden des rel Attributes automatisieren.

Was bedeutet das Tag für Suchmaschinen?

„Canonical“ ist englisch und heißt übersetzt „anerkannt“, „autorisiert“ oder „nach Vorschrift“.

Laut Matt Cutts, dem SEO-Sprachrohr von Google, sehen Suchmaschinen das neue Tag als besonders wichtige Empfehlung für die zu nutzende Seiten-Adresse an. Sie werden also nicht mehr nach eigenen Kriterien entscheiden, welche Adresse für die Inhalte zutreffen und dabei auch nicht mehr auf den unguten Gedanken kommen, es könne sich hier um einen Betrugsversuch handeln, die Webseite häufiger in den Index zu bringen.

Wenn der Webcrawler die Seite besucht, liest er die Empfehlung und indexiert die Seite gemäß dieser. Ich brauche an der Stelle nicht erwähnen, dass es deshalb wichtig ist, dabei keinen Fehler zu machen 😉

Wenn der Crawler den Inhalt ein weiteres Mal aufruft aber mit anderem URL, liest er wieder die Empfehlung im Rel-Tag und indexiert diesmal nicht, denn er hat ja die empfohlne Adresse bereits in der Datenbank hinterlegt. Er kümmert sich dann brav um neue Inhalte, statt die gleiche Seite immer und immer wieder zu kopieren.

Google, Microsoft und Yahoo arbeiten zusammen

Es ist nicht das erste Mal, dass die drei meistgenutztesten Suchmaschinen des wilden Westens kooperieren um die Indexierung des Internets einfacher zu gestalten.

Erst im Juni 2008 haben die 3 Giganten gemeinsam erklärt, wie ihre Bots mit den Anweisungen in der robots.txt umgehen und wie mit dem robots-Metatag.

Aber schon viel früher haben sie nicht nur über etwas gesprochen, sondern tatsächlich einen Standard aus den Kinderschuhen geholfen. Ende 2006 arbeiteten sie am sitemaps-Projekt mit.

Beides sehr wichtige Komponente für Suchmaschinenoptimierung.

Ich denke, dass auch rel=“canonical“ einen Knall auslösen wird, denn alle CMS Administratoren und Webmaster haben ja nur auf eine solche Verbesserung gewartet.

canonical einbinden mit Plugins

Wie gesagt wäre es bei dynamisch generierten URLs kaum möglich, die kleine Zeile mit dem rel Attribut einzubinden und das bei hunderten von Seiten. Deshalb hat Joost de Valk „schnell mal“ CMS Plugins kostenlos online gestellt.

canonical Plugin für WordPress

Das Plugin für WordPress CMS kann hier runtergeladen werden.

Update: Speziell wenn’s um WordPress geht findet Ihr bei Frank Bueltge.de eine Fachdiskussion und Tipps, wie es auch ohne Plugin geht.

canonical Plugin für Drupal

Das Plugin für Drupal CMS kann über diesen Link direkt herunter geladen werden.

canonical Plugin für Magento

Das Plugin für Magento CMS kann hier heruntergeladen werden.

Kommende Woche werde ich meine Blogs und die Projekte in der Arbeit nachrüsten. Wobei ich bei meinen Blogs vielleicht sogar erst im Sommer beginne und die Entwicklung abwarte. Bislang kommt DC nämlich nicht vor *aufholzklopf* und ich möchte mich erst noch ein bisschen mehr damit auseinander setzen.

Wenn Ihr schon Gedanken dazu habt oder etwas wisst, das mir noch niemand verklickert hat, dann immer raus mit der Sprache! Ich würde mich sehr über Infos und Meinungen von Euch in den Kommentaren freuen.

Update 14. Februar 2009

Wie in den Kommentaren von Marc schon deutlich wurde, ist das neue rel-Tag canonical nur eine sanfte Korrekturmöglichkeit, aber nicht wirklich eine Lösung. Wer bei der Konfiguration seiner CMS auf den URL-Aufbau achtet, vermeidet einige unnötige Varianten.

Und wie bei Sistrix zu lesen ist, wäre eine 301-Weiterleitung bei allen ungewollten URLs die beste Lösung.

Gleich teilen:

  • Twitter
  • Google Plus
  • Facebook
  • LinkedIn
  • Email
  • RSS


+Benjamin Wingerter ist Inhouse-SEO und Affiliate seit 2008. Er hat zwei Steckenpferde: Conversion Rate Optimierung und Suchmaschinenoptimierung. Seit 2011 spricht er auf Fachkonferenzen, wie der SEO Campixx.

Advertisement

EmailEmail