Yahoo! & Google TrustRank

 7657 Mal gelesen

In der Suchmaschinenoptimierung hört man oft die Begriffe Trust Domain oder Source Trust (= vertrauenswürdige Domains, Grundvertrauen). In diesem Zusammenhang tauchen die Namen der Suchmaschinen Google und Yahoo! auf. Wer von beiden hat den TrustRank erfunden? Vielleicht beide? Findet er bei Google Search und Bing Anwendung? Und vor allem: wie verändert er die Suchergebnislisten (SERPs)?

Der Artikel ist wieder etwas länger, aber ich habe hier Sprungmarken für Euch:

  1. Zeig mir den Yahoo! TrustRank
  2. Zeig mir den Google TrustRank
  3. Ich möchte eine kurze Zusammenfassung

Geschichte des TrustRanks von Yahoo! und Google

Im Jahr 2004 entstand das Patent 0060095416 von Zoltán Gyöngyi, Jan Pedersen und Hector Garcia-Molina von der Universität Stanford und Yahoo! zur Sortierung von Webseiten nach Vertrauenswürdigkeit ihrer ausgehenden Links. Dem Patent liegt natürlich ein detailiertes PDF mit Ausführungen und Formeln zur Berechnung zugrunde. Sie sprechen darin über einen „TrustRank„. Google registrierte ein Jahr später den Markennamen „TrustRank“ als Trademark (TR), gab ihn aber im Februar 2008 wieder frei. Im Oktober 2009 dann wurde bekannt, dass Google ein Patent angemeldet habe, in dem es um einen eigenen TrustRank ginge (7603350, von Ramanathan Guha). Darin beschreibt Ramanathan eine Methode zum Sortieren von Webseiten anhand von aktiv abgegebenen Qualitätseinstufungen von Menschen, denen eine bestimmte Menge an Vertrauen zugesprochen wird.

TrustRank Prinzip laut Yahoo! oder der Inverse PageRank

Gemäß dem Patent „Combating Web Spam with TrustRank“ von Zoltan, Jan und Hector hängt der TrustRank einer Domain bzw. Seite davon ab, von wie vielen guten und schlechten Seiten sie verlinkt wird, aber auch zu wie vielen sie weiterverweist. Der PageRank verhält sich anders, wie wir alle wissen. Seine Power fließt von der Seite durch alle Links auf eigene Seiten und externe Dokumente ab.

PageRank Vererbung Beispiel

Beispiel für PageRank-Vererbung (Wikipedia)

Der PageRank schrumpft also lediglich und kann nur durch eingehende Links vermehrt werden. Beim TrustRank können auch ausgehende Links einen Effekt haben, wenn die verlinkten Seiten als untrusty eingestuft sind. Eine Seite kann also Vertrauen vererbt bekommen und weitervererben. Sie leidet aber an distrust, wenn sie zu vertrauensunwürdigen (untrusty/spammy) Zielen verlinkt.

Since trust flows out of the good seed pages, one approach is to give preference to pages from which we can reach many other pages. In particular, we could select seed pages
based on the number of outlinks. […] We can build the seed set from those pages that point to many pages that in turn point to many pages and so on. Interestingly, this approach leads us to a scheme closely related PageRank—the difference is that in our case the importance of a page depends on its outlinks, not its inlinks.

Der TrustRank wird daher auch als Inverse PageRank bezeichnet (vgl. 5.1, Abs. 1ff).

Manuelles Whitelisting in Schritt 1

Im Weiteren sagen sie in der Ausführung, dass zuerst Menschen einige Seiten als trusty (vertrauenswürdig) oder spammy (vertrauensunwürdig) klassifizieren müssen. Nur Menschen können entscheiden, ob eine Seite vertrauenswürdig ist und nicht spammy – also ob sie einfach eine gute Seite ist, oder ob sie Suchmaschinen gegenüber manipulativ auftritt, um ungerechtfertigterweise höher zu ranken, als solche mit passenden, nützlichen Inhalten. Manuelles white listing. Auch blacklisting gibt es.

Die Formel zur Berechnung setzt also voraus, dass das Web Spam Team zuerst ein Seed Set von möglichst vielen Webprojekten in die Kategorien „sauber“ und „spammy“ einteilt. Alle nicht geprüften Seiten (also der große Rest vom Internet) bekommt weder eine positive +1 noch eine negative -1 Wertung, sondern den sogenannten Ignorant Trust mit dem Wet 0.

Wie werden Ausgangsseiten festgelegt

Kennt Ihr den Spruch „Deine Webseite darf keine Sackgasse sein„? So ist das auch laut dem patentierten Konzept zum TrustRank im behandelten PDF-Auszug gewünscht. Als Seed Seiten werden daher vorzugsweise nicht einfach Seiten mit besonders gutem Inhalt zu einem Thema gewählt, sondern Seiten, die gleichzeitig besonders viele gute Seiten verlinken. Webprojekte mit beeindruckend gutem Inhalt, die aber auch als HubPages fungieren, sind demnach beliebt als Seed Seiten. Denn eine rein informative Seite ohne ausgehende Links, taugt als Startpunkt für das Computing nicht.

Webseiten von Universitäten (.edu Domains)

In einem geleakten Dokument wurden einmal an die 1.000 Domains verraten, die Google (angeblich) grundsätzlich als überdurchschnittlich vertrauenswürdig ansah; sogenannte white listed entities. Die Liste bestand zu einem großen Teil aus offiziellen Seiten von Universitäten (.edu) und Regierungsseiten (.gov), großen Zeitungen und einigen Organisationen (.org). Seitdem nehmen Suchmaschinenoptimierer an, dass diese Liste in dieser Art fortgeführt worden ist und allgemein Links von „solchen“ Seiten besonders viel Trust besitzen. Der Trust, so glauben viele, wird über einen Hyperlink an das Ziel anteilig weitervererbt (PageRank Prinzip).

Computing: So berechnet der Algorithmus Vertrauenswürdigkeit in Schritt 2

Gibt es einige „saubere“ seed sites und auch einige manuell vom Web Spam Team als „schlecht“ eingestufte Domains, beginnt der Algorithmus auszurechnen, wie der Trust über die ausgehenden Links vererbt wird und sich verteilt dort anteilig hinkoptiert. Aber auch wie er abgezogen wird, wenn Links zu Spamseiten führen.

Ausgehende Links zu guten Seiten verringern den Source Trust nicht, wie das bei der PageRank Power passiert. Geben wir Menschen im echten Leben eine Empfehlung – für zum Beispiel einen Musiker – ab, mögen wir ihn danach ja auch nicht etwas weniger, weil unser Mögen/unser Vertrauen in ihn beim Weiterempfehlen abfließt.

Aber ein kann ein Algorithmus den Trust nicht perfekt bestimmen. Er kann viel mehr eine Art maschineller Schätzung abgeben. Die Kalkulation kann dazu dienen, Seiten zu sortieren.

However, even if T does not accurately measure the likelihood that a page is good, it would still be useful if the function could at least help us order pages by their likelihood of being good. That is, if we are given a pair of pages p and q, and p has a lower trust score than q, then this should indicate that p is less likely to be good than q. Such a function would at least be useful in ordering search results, giving preference to pages more likely to be good. (vgl. 3.1, Abs. 9)

Nähe zur TrustDomain

Es gibt Überlegungen dazu, ob bei immer nur einem einzigen Ausgehenden Link sich der Trust nicht teilt und daher 1/1 weitervererbt werden sollte. Man könnte nämlich auch einen statisch festgelegten Verlustwert abziehen.

Beispiel: Eine Good Seed Seite wie eine Universität für Mathematik verlinkt auf eine private Seite eines Professors. Der verlinkt von dieser ausschließlich einmal raus und zwar zu einer Seite der Nachhilfeschule seiner Frau.
Frage: Sollte die komplette Power der Uni jetzt durchgeschleust und in voller Stärke der Nachhilfeseite seiner Frau weitervererbt werden?

Deshalb wurde die Trust Attenuation (Abschwächung/Dämpfung) eingebaut (Punkt 4.2). Zum Einen gibt es Beschneidungen beim vererbten Trust durch Trust Dampening (Entfernung zur Seed Page), sowie durch Trust Splitting (Trust geteilt durch Anzahl ausgehender Links).

Trust Dampening

Die eigene Domain bekommt etwas vom Grundvertrauen übertragen, wenn sie direkt von einer solchen Trust Seite verlinkt wird. Die Nähe zur Trustdomain ist entscheidend. Mit jeder Domain, die zwischen der eigenen und einer Trustdomain liegt, verringert sich das weitervererbte Vertrauen um einen geheimen Faktor. Heute ist vorstellbar, dass noch weitere Kriterien bewertet werden und diesen Faktor der Vererbung mitbestimmen:

  • die Platzierung der Links (Homepage/Unterseite, Contentanfang oder -ende)
  • die Art wie prägnant oder unauffällig sie optisch gestaltet sind (Schriftgröße, fontweight, verlinkte Grafik, Call To Action Text)
  • die anderen umgebenden ausgehenden Links
  • die Interaktion der Seitenbesucher mit diesem und anderen Links (siehe Google Analytics InpageAnalytics).
Trust Splitting

Der Punkt ist schnell geklärt. Wie beim PageRank wird der vorhandene Trust-Wert durch die Anzahl der ausgehenden Links geteilt. Verlinkt die Universität zu drei Professoren, bekommt nicht jeder 1/1 sondern nur 1/3.

menschliche Pyramide erfordert Vertrauen

Auf Vertrauen aufbauen (CC Ibrahim Iujaz @flickr)

TrustRank Prinzip laut Google

Im Jahr 2006 beantragte der Google Ramanathan Guha das Recht auf ein Patent zur Sortierung von Webseiten gemäß einer manuellen Etikettierung und Kommentierung von Menschen. Nutzern sollte dazu ein Wert, der das Vertrauen das sie genießen widerspiegelt, zugewiesen werden.

TrustRank auf Nutzer bezogen

Der Google TrustRank bezieht sich auf Nutzer, denen in einem Fachbereich Fachwissen unterstellt wird. Ihr Verhalten könnte Google fortan als Anregung betrachten, welche Inhalte (Webseiten, Videos, Social Media Posts) von Interesse für das jeweilige Fachpublikum sind.

Nutzer aus Communities

Beispielsweise sind aktive Nutzer in einem Forum über WiFi-Technik sicher kompetente Fachleute. Manche Foren lassen sogar die Bewertung anderer Nutzer und ihrer Beiträge zu. Sind gut bewertete aktive Nutzer auch noch unter einander vernetzt, gilt das wie eine weitere Empfehlung jedes einzelnen Betroffenen. Teilt sojemand einen Link über WiFi-Technik und beinhaltet der Beitrag vielleicht sogar eindeutig postive Wörter, die eine Maschine als solche erkennen kann, wie „sehr gut“, „toll“, „super seite“, „ich mag das“ kann die geteilte Webseite so schlecht nicht sein und profitiert zukünftig im Ranking von dieser Empfehlung.

Erinnert Euch außerdem an den Google Dienst SideWiki, bei dem man Kommentare zu Webseiten abgeben konnte. Oder denkt an die Google+ Funktionen, wie Teilen, Kommentieren, +1en. Zusätzlich sind alte Dienste wie knol und das direkte Rating in den SERPs, das es einst gab, Hinweise auf ein Ziel von Google: die Schwarmintelligenz endlich dem maschinellen Algorithmus überzuordnen. Wie in meinem Artikel über personalisierte Suchergebnisse von 2009 unter der Überschrift „Social Media Optimierung“ erwähnt, hat Google schon vor Jahren angekündigt, sich bezüglich der Qualität von Webinhalten auf sozialen Plattformen „umzuhören“.

Seitenbetreiber sind auch Fachleute

Mag ja sein, dass es mehr lieblos hingeklatschte Projekte mit rein finanziellem Hintergrund im Netz gibt, als solche ernst gemeinten. Trotzdem kann man anhand des Contents durchaus abschätzen, ob eine Seite fachlich gut oder schwach ist. Egal ob das vom Web Spam Team oder einer Maschine übernommen wird: eine als gut eingestufte Seite bzw deren Autor können als Authorität (hier füge ich später einen Link zu einer Begriffserklärung ein) gelten.

Die Webseite selbst ist womöglich bei Google Analytics angemeldet, nutzt AdSense oder die personalisierte Suche für Webseiten (Google CSE = Custom Search Engine). Das sind nur drei Möglichkeiten, mit denen Google das Nutzerverhalten messen und Verweildauer, Absprungrate usw. als Indiz für die Qualität einer Seite heranziehen kann. Dann werfe ich noch Google Chrome in den Raum. Auch Markup wie die Sternchenbewertungen (RichSnippets) waren sicher kurzzeitig im Blickfeld, für das mögliche Komponenten des neuen Rankingfaktors „TrustRank“.

Spam Reports, Disavow Tool, diverse Site Rating Portale

Es gibt zahlreiche Webseiten, auf denen man andere Webseiten bewerten kann. Manche wie Web of Trust beziehen sich speziell auf eine Eigenschaft, wie Datenverschlüsselung, andere auf Nutzerfreundlichkeit und wieder andere – wie in einfacher Form die Bookmarking Services – auf die Inhalte. Aber auch durch Spam Reports und das Google Webmasters Disavow Tool können Meinungen zu digitalen Inhalten abgegeben werden. Ja, auch so könnte sich der TrustRank in seiner heutigen Form bilden.

Zusammenfassung: Kurze Definition und Erklärung

Yahoo! entwickelte den TrustRank, um Webseiten nach Qualität zu sortieren. Ausgehend von manuell als sauber und spammy eingestuften Quellseiten (Seed Set) berechnet der Algorithmus die Vertrauenswürdigkeit aller Dokumente im Internet (http, ftp). Trust als Größe wird anteilig an verlinkte Ziele weitervererbt, nimmt dabei aber bei der linkgebenden Seite nicht ab, wie es der PageRank tut, wenn er abfließt. Eine Trust-Reduktion gibt es nur, wenn auf Seiten verlinkt wird, die manuell oder durch den Algo als manipulativ klassifiziert wurden. Seiten mit hohem Trust werden in SERPs weiter oben gelistet. Achtung, die Listung hängt auch noch vom PageRank und persönlichem Nutzerverhalten ab, nicht allein vom TrustRank!
[Ausführliche Abschnitt zum Yahoo! TrustRank]

Google entwickelte einen eigenen TrustRank aus einem Patent eines ehemaligen IBM Mitarbeiters. Dort spricht man Nutzern einer abgegrenzten Umgebung ein bestimmtes Maß an Vertrauen zu. Das könnte heute einfließen in das Surfverhalten der angemeldeten oder durch Cookies identifizierten User an Desktop PCs, Smartphones und Tablets. Die Kalkulation des TrustRanks wird auch beim Share und +1 Verhalten der googleeigenen Community Google+ und dem dort integrierten AuthorRank der angemeldeten publizierenden Nutzer Anwendung finden. Vermutlich adaptiert Google für die algorithmische Sortierung ihrer Suchergebnislisten aber auch das TrustRank Prinzip von Yahoo! und definiert laufend Seed Sets mit sauberen (trusty) und spammy Webinhalten (@mattcutts+team).
[Ausführlicher Abschnitt zum Google TrustRank]

Meine Meinung

Ich stelle mir vor, dass das errechnete Vertrauen einzelner Personen/Autoren/Seitenbetreibern/Verlagen/Firmen seit Knol, oder spätestens seit Google+ auf einzelne Branchen und Nischen (Themenbereiche) geclustert ist und automatisch sowie manuell rund um die Uhr immer wieder etwas verändert wird. Dank Google Caffeine kein Hexenwerk mehr. Zum einen wissen wir, dass Google bei gPlus registrierten Authoren Vertrauen nicht unbedingt allgemein, sondern innerhalb den von ihnen behandelten Themen zuweist. Und zum Anderen ist bekannt, dass Google allein 2012 über 7.000 Varianten der SERPs live getestet hat, um aus den Reaktionen der Nutzer die Tauglichkeit des eigenen Algorithmus zu verifizieren und zu verbessern. Und bei denen geht auch ab und zu einmal etwas schief. Optimierung ist ein Lernprozess. Wie die vielen Panda-Updates und Rückrollaktionen gezeigt haben, trifft das auch auf den zuverlässigen Suchgiganten zu.

Eure Meinung

Ich habe mir beim TrustRank von Google anders als zuvor bei Yahoo! nicht noch einmal die Mühe gemacht, die Fakten zusammenzufassen, sondern Beispiele aus der Vergangenheit und Gegenwart gesucht. Wer das Patent auch gelesen hat, sei herzlich dazu eingeladen, die essenziellen Punkte zu übersetzen und darüber zu bloggen. Ich füge bei Gefallen gerne einen sinnvollen Link in meinem Text oben ein. Auch Kommentare sind ausgesprochen erwünscht, weil das Thema doch eine ziemlich attraktive Spielwiese für argumentativ unterlegte Spekulationen ist. :)

Gleich teilen:

  • Twitter
  • Google Plus
  • Facebook
  • LinkedIn
  • Email
  • RSS


+Benjamin Wingerter ist Inhouse-SEO und Affiliate seit 2008. Er hat zwei Steckenpferde: Conversion Rate Optimierung und Suchmaschinenoptimierung. Seit 2011 spricht er auf Fachkonferenzen, wie der SEO Campixx.

Advertisement

EmailEmail