Neu registrieren / Login

Ist das noch normal? – Teil III

Die Komplexität nimmt zu: während es im ersten Teil noch um die einfach zu beeinflussenden Onpage-Faktoren gibt, waren es im zweiten die Offpage-Faktoren, also das Linknetzwerk. Ist dies bereits deutlich schwieriger und aufwändiger „nachzubauen“, kommt jetzt noch eine Schwierigkeitsstufe hinzu: die zeitliche Entwicklung dieser beiden Anhaltspunkte.

Praktischerweise ist Yahoo zu diesem Thema vor einigen Wochen ein Patent mit dem Titel „Using exceptional changes in webgraph snapshots over time for internet entity marking“ zugeteilt worden, aus dem man einige Anhaltspunkte gewinnen kann. In dem Patent geht es, kurz zusammengefasst, darum, verdächtige Webseiten, die ihr Ranking künstlich verbessern wollen, zu entdecken. Dazu werden „Snapshots“ des Netzwerkes sowie der Verlinkungen untereinander zu unterschiedlichen Zeiten gespeichert. Bei dem Vergleich dieser Snapshots können nun extreme Veränderungen, die sich deutlich von den normalen Veränderungen abheben, erkannt und als verdächtig gekennzeichnet werden. Dieser Vergleich kann dabei nicht nur bei einzelnen Webseiten, sondern auch für Hosts oder ganze Domains angewendet werden. Als Beispiel nennt Yahoo eine Webseite, die zum Zeitpunkt des ersten Snapshots zehn ausgehende Links hatte, eine Woche später allerdings bereits über eintausend. Da das natürliche Wachstum lediglich fünf Links betragen hätte, würde diese Seite als verdächtig gekennzeichnet. Auf das Problem, dass solches Wachstum manchmal auch ganz natürliche Ursachen haben kann, beispielsweise, wenn ein Thema in den Medien gerade hochkocht und so Links entstehen, geht das Patent ebenfalls ein. So könne eine Whitelist existieren, von denen der Suchmaschinenbetreiber wisse, dass diese Seiten und Themen häufig größeren Schwankungen im Wachstum unterliege, diese aber nicht der Manipulation des Rankings diene. Als drei mögliche Reaktionen auf die Entdeckung verdächtiger Webseiten gibt das Patent den kompletten Rauswurf, die Verschiebung um eine gewisse Anzahl an Positionen nach hinten (kommt das nicht bekannt vor?) und die Überprüfung durch einen Menschen an.

Auch, wenn das Patent von Yahoo kommt, so kann man wohl davon ausgehen, dass auch bei Google ähnliche Überlegungen gemacht werden und eventuell sogar bereits vergleichbare Mechanismen im Einsatz sind. Gerade durch die Kombination verschiedener Erkennungsmöglichkeiten dürfte sich die Rate der „falses positives“, also zu Unrecht als Spam deklarierter Seiten deutlich senken lassen. Interessant in dem Zusammenhang ist, dass für die Erkennung von Webspam offenbar ähnliche Wege, wie sie bei E-Mail-Spam bereits seit längerem angewendet werden, ausprobiert werden. So klingt in dem Yahoo-Patent ebenfalls an, dass die Mechanismen zur Erkennung selbstlernend ausgeführt werden können – die Parallele zu den üblichen Bayes-Spamfiltern für E-Mails ist hier unverkennbar. Auch das Vorgehen, dass eine Vielzahl von Hinweisen untersucht und gewertet werden und der „Score“ aller Prüfungen unter einem festgelegten Wert liegen muss, kommt bekannt vor.


Eintrag geschrieben am 04.09.2007 um 12:00 Uhr - Trackback setzen - Tags: Quality Seo
Pelle Boese
schrieb am 04.09.2007 um 16:43 Uhr
Mal wieder eine super Artikelserie, Johannes. Ich denke schon, dass besagte Faktoren seit einiger Zeit bei G ins Ranking einfließen oder zumindest in der Erprobung sind. Ich denke schon, dass man sich durchaus Gedanken um "Bad Neighbourhood" machen sollte, wenn man an einer dauerhaften und guten Positionierung seiner Seite interessiert ist.

Axel
schrieb am 05.09.2007 um 12:46 Uhr
Denke auch, dass solche Mechanismen zumindest teilweise auch schon bei Google im Einsatz sind.

franz
schrieb am 11.09.2007 um 15:34 Uhr
Bei Google wird eigentlich schon seit geraumer Zeit unnatürliches Linkwachstum als Ursache für einen Aufenthalt in der Sandbox gehandelt.

Es verwundert schon ein wenig, dass jetzt Yahoo ein Patent darauf bekommt, da Google ähnliche Fähigkeiten zumindest seit Anfang 2005 unterstellt werden.

Ralph
schrieb am 01.03.2008 um 13:54 Uhr
Ich habe dieses Patent nicht durchgelesen, da ich das Prinzip wohl einigermaßen verstanden habe (Annahme von mir).

Interessant für mich ist, was alles in dem Snapshot erfasst wird und wie die Auswertung erfolgt. Wenn, wie als Beispiel erwähnt, das Thema gerade sehr aktuell ist, dass sollten doch die Ursprungsorte der eingehenden Links auf die Website mit dem aktuellen Thema ebenfalls im Zusammenhang mit dem Thema sein. Automatisiert werden sollte es doch auch können, da man ja nur die Überschrift und den Text der Ursprungsorte der eingehenden Links analysieren muss.

Aus Dresden grüssend

Ralph


 
 

Kommentieren? Kommentieren?

Die Kommentare für diesen Beitrag wurden geschlossen. Angemeldete Benutzer haben weiterhin die Möglichkeit, auch ältere Beiträge zu kommentieren. Jetzt kostenlos anmelden.