Ist das noch normal? – Teil III

Johannes Beus
Johannes Beus
4. September 2007
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Die Komplexität nimmt zu: während es im ersten Teil noch um die einfach zu beeinflussenden Onpage-Faktoren gibt, waren es im zweiten die Offpage-Faktoren, also das Linknetzwerk. Ist dies bereits deutlich schwieriger und aufwändiger „nachzubauen“, kommt jetzt noch eine Schwierigkeitsstufe hinzu: die zeitliche Entwicklung dieser beiden Anhaltspunkte.

Praktischerweise ist Yahoo zu diesem Thema vor einigen Wochen ein Patent mit dem Titel „Using exceptional changes in webgraph snapshots over time for internet entity marking“ zugeteilt worden, aus dem man einige Anhaltspunkte gewinnen kann. In dem Patent geht es, kurz zusammengefasst, darum, verdächtige Webseiten, die ihr Ranking künstlich verbessern wollen, zu entdecken. Dazu werden „Snapshots“ des Netzwerkes sowie der Verlinkungen untereinander zu unterschiedlichen Zeiten gespeichert. Bei dem Vergleich dieser Snapshots können nun extreme Veränderungen, die sich deutlich von den normalen Veränderungen abheben, erkannt und als verdächtig gekennzeichnet werden. Dieser Vergleich kann dabei nicht nur bei einzelnen Webseiten, sondern auch für Hosts oder ganze Domains angewendet werden. Als Beispiel nennt Yahoo eine Webseite, die zum Zeitpunkt des ersten Snapshots zehn ausgehende Links hatte, eine Woche später allerdings bereits über eintausend. Da das natürliche Wachstum lediglich fünf Links betragen hätte, würde diese Seite als verdächtig gekennzeichnet. Auf das Problem, dass solches Wachstum manchmal auch ganz natürliche Ursachen haben kann, beispielsweise, wenn ein Thema in den Medien gerade hochkocht und so Links entstehen, geht das Patent ebenfalls ein. So könne eine Whitelist existieren, von denen der Suchmaschinenbetreiber wisse, dass diese Seiten und Themen häufig größeren Schwankungen im Wachstum unterliege, diese aber nicht der Manipulation des Rankings diene. Als drei mögliche Reaktionen auf die Entdeckung verdächtiger Webseiten gibt das Patent den kompletten Rauswurf, die Verschiebung um eine gewisse Anzahl an Positionen nach hinten (kommt das nicht bekannt vor?) und die Überprüfung durch einen Menschen an.

Auch, wenn das Patent von Yahoo kommt, so kann man wohl davon ausgehen, dass auch bei Google ähnliche Überlegungen gemacht werden und eventuell sogar bereits vergleichbare Mechanismen im Einsatz sind. Gerade durch die Kombination verschiedener Erkennungsmöglichkeiten dürfte sich die Rate der „falses positives“, also zu Unrecht als Spam deklarierter Seiten deutlich senken lassen. Interessant in dem Zusammenhang ist, dass für die Erkennung von Webspam offenbar ähnliche Wege, wie sie bei E-Mail-Spam bereits seit längerem angewendet werden, ausprobiert werden. So klingt in dem Yahoo-Patent ebenfalls an, dass die Mechanismen zur Erkennung selbstlernend ausgeführt werden können – die Parallele zu den üblichen Bayes-Spamfiltern für E-Mails ist hier unverkennbar. Auch das Vorgehen, dass eine Vielzahl von Hinweisen untersucht und gewertet werden und der „Score“ aller Prüfungen unter einem festgelegten Wert liegen muss, kommt bekannt vor.

Ähnliche Beiträge
Kommentare
Pelle Boese   
4. September 2007, 16:43

Mal wieder eine super Artikelserie, Johannes. Ich denke schon, dass besagte Faktoren seit einiger Zeit bei G ins Ranking einfließen oder zumindest in der Erprobung sind. Ich denke schon, dass man sich durchaus Gedanken um „Bad Neighbourhood“ machen sollte, wenn man an einer dauerhaften und guten Positionierung seiner Seite interessiert ist.

Axel   
5. September 2007, 12:46

Denke auch, dass solche Mechanismen zumindest teilweise auch schon bei Google im Einsatz sind.

franz   
11. September 2007, 15:34

Bei Google wird eigentlich schon seit geraumer Zeit unnatürliches Linkwachstum als Ursache für einen Aufenthalt in der Sandbox gehandelt.

Es verwundert schon ein wenig, dass jetzt Yahoo ein Patent darauf bekommt, da Google ähnliche Fähigkeiten zumindest seit Anfang 2005 unterstellt werden.

Ralph   
1. März 2008, 13:54

Ich habe dieses Patent nicht durchgelesen, da ich das Prinzip wohl einigermaßen verstanden habe (Annahme von mir).

Interessant für mich ist, was alles in dem Snapshot erfasst wird und wie die Auswertung erfolgt. Wenn, wie als Beispiel erwähnt, das Thema gerade sehr aktuell ist, dass sollten doch die Ursprungsorte der eingehenden Links auf die Website mit dem aktuellen Thema ebenfalls im Zusammenhang mit dem Thema sein. Automatisiert werden sollte es doch auch können, da man ja nur die Überschrift und den Text der Ursprungsorte der eingehenden Links analysieren muss.

Aus Dresden grüssend

Ralph

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.