Ist das noch normal? – Teil III

Johannes Beus

(Autor)

Veröffentlicht: 04.09.2007

Die Komplexität nimmt zu: während es im ersten Teil noch um die einfach zu beeinflussenden Onpage-Faktoren gibt, waren es im zweiten die Offpage-Faktoren, also das Linknetzwerk. Ist dies bereits deutlich schwieriger und aufwändiger „nachzubauen“, kommt jetzt noch eine Schwierigkeitsstufe hinzu: die zeitliche Entwicklung dieser beiden Anhaltspunkte.

Praktischerweise ist Yahoo zu diesem Thema vor einigen Wochen ein Patent mit dem Titel „Using exceptional changes in webgraph snapshots over time for internet entity marking“ zugeteilt worden, aus dem man einige Anhaltspunkte gewinnen kann. In dem Patent geht es, kurz zusammengefasst, darum, verdächtige Webseiten, die ihr Ranking künstlich verbessern wollen, zu entdecken. Dazu werden „Snapshots“ des Netzwerkes sowie der Verlinkungen untereinander zu unterschiedlichen Zeiten gespeichert. Bei dem Vergleich dieser Snapshots können nun extreme Veränderungen, die sich deutlich von den normalen Veränderungen abheben, erkannt und als verdächtig gekennzeichnet werden. Dieser Vergleich kann dabei nicht nur bei einzelnen Webseiten, sondern auch für Hosts oder ganze Domains angewendet werden. Als Beispiel nennt Yahoo eine Webseite, die zum Zeitpunkt des ersten Snapshots zehn ausgehende Links hatte, eine Woche später allerdings bereits über eintausend. Da das natürliche Wachstum lediglich fünf Links betragen hätte, würde diese Seite als verdächtig gekennzeichnet. Auf das Problem, dass solches Wachstum manchmal auch ganz natürliche Ursachen haben kann, beispielsweise, wenn ein Thema in den Medien gerade hochkocht und so Links entstehen, geht das Patent ebenfalls ein. So könne eine Whitelist existieren, von denen der Suchmaschinenbetreiber wisse, dass diese Seiten und Themen häufig größeren Schwankungen im Wachstum unterliege, diese aber nicht der Manipulation des Rankings diene. Als drei mögliche Reaktionen auf die Entdeckung verdächtiger Webseiten gibt das Patent den kompletten Rauswurf, die Verschiebung um eine gewisse Anzahl an Positionen nach hinten (kommt das nicht bekannt vor?) und die Überprüfung durch einen Menschen an.

Auch, wenn das Patent von Yahoo kommt, so kann man wohl davon ausgehen, dass auch bei Google ähnliche Überlegungen gemacht werden und eventuell sogar bereits vergleichbare Mechanismen im Einsatz sind. Gerade durch die Kombination verschiedener Erkennungsmöglichkeiten dürfte sich die Rate der „falses positives“, also zu Unrecht als Spam deklarierter Seiten deutlich senken lassen. Interessant in dem Zusammenhang ist, dass für die Erkennung von Webspam offenbar ähnliche Wege, wie sie bei E-Mail-Spam bereits seit längerem angewendet werden, ausprobiert werden. So klingt in dem Yahoo-Patent ebenfalls an, dass die Mechanismen zur Erkennung selbstlernend ausgeführt werden können – die Parallele zu den üblichen Bayes-Spamfiltern für E-Mails ist hier unverkennbar. Auch das Vorgehen, dass eine Vielzahl von Hinweisen untersucht und gewertet werden und der „Score“ aller Prüfungen unter einem festgelegten Wert liegen muss, kommt bekannt vor.

Johannes Beus

(Autor)

Veröffentlicht: 04.09.2007