Probleme der Backlink-Analyse

Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Backlinks, also eingehende Links sind bei allen aktuellen Suchmaschinen in der ein‘ oder anderen Form Hauptrelevanzkriterium für die Sortierung der Ergebnislisten. Verständlich also, dass ein großer Anteil der SEO-Arbeit üblicherweise ebenfalls auf diesen Bereich entfällt. Während man die Backlinks von eigenen Projekten relativ einfach und komplett über den CSV-Export der Google-Webmastetools oder Auswertung der Referrer-Informationen seiner Serverlogfiles erhält, ist dies bei Konkurrenzprojekten nicht möglich. Häufig wird dabei zu sogenannten „Backlink-Checkern“ gegriffen. Die Aufgabe dieser Tools ist es, mögliche Quellen für Backlink-Informationen abzufragen und die erhaltenen Daten aufzubereiten.

Da wir intern eine selber entwickelte Lösung zurückgreifen und eine Teilmenge davon vor ein paar Wochen auch öffentlich verfügbar gemacht haben, habe ich mir einige Gedanken zu solchen Tools gemacht. Ich glaube, dass auch reine Anwender um Möglichkeiten und Limitationen der Tools wissen sollten, um die Ergebnisse richtig zu deuten.

Das größte Problem aller Backlink-Checker ist die Beschaffung der zugrundeliegenden Daten. Der naheliegenste und auch am häufigsten beschrittene Weg zur Beschaffung dieser Daten ist es, Suchmaschinen abzufragen. Waren diese früher noch recht großzügig bei der Darstellung der Daten, hat sich das in den letzten Jahren deutlich geändert: Google zeigt, wenn überhaupt, eher unbrauchbare Links ans, MSN hat seine (ehemals exzellente) Backlink-Abfrage komplett abgeschaltet, bleibt von den drei Großen nur noch Yahoo übrig. Yahoo vermeldet zwar eindrucksvolle Zahlen (~340.000 Backlinks für sistrix.com), zeigt davon aber maximal 1.000 Backlinks an – gut möglich, dass die relevanten Backlinks, die für das Ranking der Domain verantwortlich sind, hierbei nicht zu sehen sind. Problematisch ist nun, dass alle folgenden Berechnungen von Domain- oder IP-Popularität, PageRank oder sonstiger Kennzahlen lediglich auf den Links aufbauen können, die das Tool auch wirklich kennt.

Um die Datenbasis etwas zu verbreitern gibt es unterschiedliche Herangehensweisen. Eine davon ist, zusätzlich zu den Yahoo-Daten noch weitere Suchmaschinen abzufragen und alle zurückbekommenen Links zusammenzuwerfen. Das Problem dabei ist, dass die Zahl der wirklich existierenden, unterschiedlichen Indizes doch deutlich geschrumpft ist. Es gibt zwar eine Vielzahl Frontends, dahinter steckt in den meisten Fällen dann allerdings doch wieder der Index von Google, Yahoo oder MSN. Wir haben uns deswegen und wegen der Vermutung, dass dies in Zukunft nicht besser wird dazu entschlossen, einen eigenen Backlink-Index für das deutschsprachige Internet aufzubauen. Ein eigener Crawler durchsucht (für uns relevante) Teile des Internets und bastelt draus eine Datenbank mit Verlinkungs-Informationen. Dieser Index ist zwar noch in seinen Anfängen, funktioniert aber größtenteils schon recht gut. Für gut verlinkte Seiten wie beispielsweise wikipedia.org bekommen wir so deutlich mehr Backlinks, als Yahoo oder andere Suchmaschinen liefern (wollen). Bei weniger gut verlinkten Seiten sieht es da zwar noch nicht ganz zu gut aus, ich denke aber, dass wir da in den nächsten Monaten deutlich Fortschritte sehen werden.

Ein weiteres Problem aller öffentlich verfügbaren Backlink-Checks ist die Skalierbarkeit. Mögen Suchmaschinen zehn oder zwanzig Linkabfragen noch ohne weiteres mitmachen, so sieht das bei einigen tausend oder gar zehntausenden, die ein beliebter Backlink-Check pro Tag macht, schon deutlich anders aus. Hier muss der Betreiber sich also Möglichkeiten überlegen, dies zu bewerkstelligen – in den meisten Fällen technisch und finanziell durchaus nicht ganz ohne. Noch deutlich schwieriger wird es, wenn man nicht nur Backlinks, sondern zu allen gefundenen Backlinks noch weitere Informationen externen Quellen wie beispielsweise den GooglePageRank oder den Alexa-Rank anzeigen möchte. Hier kann die Zahl der Abfragen für eine einzige Backlinklink-Abfrage schnell in die tausende gehen – Grund für uns, diese Erweiterungen nicht öffentlich und für jeden zugänglich anzubieten.

Ähnliche Beiträge
Kommentare
Avatar maxum   
28. März 2008, 19:09

Ist doch kein Problem, veröffentlicht doch einfach den Source-Code und macht einen distributed Service daraus 😉

Mit welchen Datenmengen habt ihr denn bei dem Backlink-Index zu kämpfen?

Gruß,
Martin

Avatar Loewenherz   
28. März 2008, 19:19

Die Differenzierung im letzten Satz gefällt mir besonders „nicht öffentlich und für jeden zugänglich anzubieten“, da es impliziert, dass es unter Umständen Zugänge geben könnte. Ich bin gespannt, was dir einfallen könnte, wenn du den Zugang zu diesem Tool in irgendeiner Weise öffnen würdest.

Was mir noch einfällt, wäre die Möglichkeit, die Abfragearbeit auf Workstations zu verteilen (á la Seti@home), um das Projekt nach vorn zu bringen. Und den Teilnehmer als Gegenleistung Zugang zur Nutzung einzuräumen.

Avatar Michael   
28. März 2008, 23:24

Die Veröffentlichung des Source-Codes wäre ein Problem, da sich dann wieder jeder drauf stürzen würde und alle 5 min. eine Abfrage starten würde nur um zu prüfen, ob nicht vielleicht doch noch ein Link dazugekommen ist.

Avatar David   
29. März 2008, 01:48

Um für die Zukunft gerüstet zu sein, ist eine eigene Datenbank fast unerlässlich. Was würde passieren, wenn Yahoo (z.B. nach dem Kauf durch Microsoft) sich auch entscheidet die Backlinkanzeige zu deaktivieren?

Für den größten Teil aller SEOs wäre eine zufriedenstellende Konkurrenzanalyse dann undenkbar, eigentlich kann man sein Geschäft dann schon fast an den Nagel hängen.

Vor einiger Zeit haben wir auch mit dem Gedanken gespielt eine derartige Datenbank aufzubauen aber der immense Ressourcenbedarf hat uns zu sehr abgeschreckt. Dabei ging es nicht primär um das Crawlen und die Datenspeicherung, vielmehr um die Anforderungen an die Aktualität. Eigentlich muss man mit den Suchmaschinen mithalten, und es kann sich wohl jeder ungefähr vorstellen wie groß die eigene Serverfarm sein müsste um das einigermaßen hinzubekommen.

Verteiltes Rechnen wie Löwenherz vorgeschlagen hatte, ist zwar von der Idee her nicht schlecht – allerdings müssten die Anwender eben davon etwa durch einen Nutzungszugang profitieren können. Dadurch wird es deutlich schwerer den eigenen Entwicklungs- und Ressourcenaufwand zu refinanzieren.

Ich bin jedenfalls froh, dass Ihr so eine Datenbank aufbaut – und vll. nach Yahoo’s Backlinkanzeige-Tod ihn kostenpflichtig als Webservice anbietet *g*

Johannes   
29. März 2008, 08:51

maxum, bislang ist das noch recht überschaubar. Es wurden rund 2TB an Webseiten gecrawled und ausgewertet. Mal sehen, wie sich das entwickelt, aber ich glaube, dass wir genügend Erfahrung mit dem Umgang mit größeren Datenmengen haben, um den Index noch eine zeitlang wachsen zu lassen.

Loewenherz, wäre natürlich eine Überlegung wert, PageRank-Abfragen via JavaScript/Ajax über den Rechner des Abfragenden zu machen, mal gucken 🙂

David, der Ressourcenbedarf ist tatsächlich nicht ganz ohne aber Hardware sowie Traffic sind in den letzten Jahren so günstig geworden, dass ich denke, dass wir mit den derzeit eingesetzten Mitteln schon recht weit kommen. Aktualität ist natürlich ein Thema, sollte aber auch nicht überbewertet werden. Links ziehen erst richtig, wenn sie altern … Ich glaube, wenn eine monatliche Aktualisierung des kompletten Indexes erreicht werden kann, ist das ausreichend, oder?

Avatar Peter   
29. März 2008, 09:28

Ich hatte so ein Tool mal für ne Firma als Diplomarbeit entwickelt. Natürlich auch mit den Backlinks, die Yahoo ausgespuckt hat, und dann jeden Backlink nach verschiedenen Kriterien bewertet.
Allein bei den Links dieser Firma wurden wir schon bei Google gesperrt 🙂 Das waren dann zuviele PageRank-Abfragen in kürzester Zeit…
Gibts das noch mit dem API-Key? Dann müßte halt jeder seinen Key zur Abfrage angeben, und nach 1000 Queries ist Schluss.

Johannes   
29. März 2008, 09:33

Peter, soweit ich weiss, gab es für die PageRank-Abfrage noch nie eine API. Lediglich für die Websuche und diese API haben sie schon vor einigen Jahren geschlossen.

Avatar Peter   
29. März 2008, 09:58

Ok, wußte das nicht mehr so genau. Ist auch schon 2 Jahre her. Aber schön dass sich jemand Gedanken macht (und diese wohl auch umsetzt), um sich nicht von den (im Bereich Backlinks) immer geizigeren Suchmaschinen abhängig zu machen.
Wenn die großen SuMas ihre Backlink-Dienste einstellen, dann hast du verdammt gute Karten…

Avatar Micha   
29. März 2008, 14:55

Mich würde mal interessieren mit welchen Datenmengen man für die deutschen Seiten rechnen muss.

Avatar Paulchen Panther   
29. März 2008, 19:01

Mmhh, also mal Hand aufs Herz: Warum muss so eine Backlink-Abfrage denn überhaupt öffentlich sein? Ich respektiere Deine Arbeit und hatte bislang auch nichts gegen die Crawler einzuwenden, allein wegen der aufschlussreichen statistischen Auswertungen, die hier veröffentlicht wurden. Seit dem aber jeder auf einen Teil dieses Datenbestandes zugreifen kann, habe ich die Crawler bei meinen Domains gesperrt. Und schwupps kam stattdessen dieses Cit..-Dingens vorbei…:)

Johannes   
29. März 2008, 23:23

Paulchen Panther, mal Hand aufs Herz: was spricht dagegen, diese Daten öffentlich verfügbar zu machen. Wenn du dieses Blog regelmäßig ließst, dürftest du mitbekommen haben, dass ich dagegen bin, dass SEO im stillen Hinterzimmer und ohne Tageslicht passiert. Ich sammel diese Daten und einen Teil davon stelle ich der Öffentlichkeit zur Verfügung – auch als Dank für die ganze Unterstützung der vergangenen Jahre.

Avatar Kralle   
31. März 2008, 10:21

Hast schon mal über eine Paid-Lösung nachgedacht? Ich bin schon immer der Ansicht dass gute Tools auch Geld kosten sollten/können/müssen. So liesse sich der Benutzerkreis auch überschaubar gestalten, und Betriebs- und Entwicklungskosten in einem gewissen Maße decken.

Johannes   
31. März 2008, 11:26

Kralle, ist natürlich auch ein Punkt, über den ich mir Gedanken gemacht rhabe und ich glaube, dass es darauf hinauslaufen wird. Haben da noch einige weitere, interessante Tools und Daten, die noch in gar keiner Form öffentlich sid. Denke, dass ich das alles zusammefassen werde und in einem monatlichen Abomodell verkaufe, mal sehen 😉

Avatar seoniko   
1. April 2008, 05:37

Ich finde die Initiative sehr gut und so ein Service ist sein Geld wert, wenn der Index aktuell genug ist.
Ich hatte mir zu dem Thema auch schon Gedanken gemacht und nach einer Möglichkeit gesucht sowas am besten aufzuziehen.
Ein Abo-Service ist eine gute Option, wenn der Index aktuell genug ist.
Eine anderen Option ist es einen kostenlosen Zugang für Leute die mithelfen anzubieten. Jeder der einen Zugang haben will, soll gefälligst seine eigenen Daten in den Index packen ( Google Webmaster Tools .csv hochladen. z.B.).
Ich weiß das kein SEO freiwillig seine Daten hergeben will, aber dann soll er gefälligst seine eigene Datenbank hochziehen und verwalten.

Johannes   
1. April 2008, 14:39

Niko, das Problem mit dem Hochladen einzelner CSV-Datei wird sein, dass dies de Vergleich zwischen Seiten nahezu unmöglich macht. So, wie es jetzt ist, ist der Index zwar unvollstädig, er ist aber für alle Seiten gleich unvollständig, man kann also gut zwische Seite A und B vergleichen. Auch ist es mit der Freiwilligkeit immer so eine Sache – ich glaube da einfach nicht an die Ehrlichkeit der Teilnehmede ;-). Wird wohl auf die Abosache hinauslaufen, werde dazu in ein paar Tagen nen Posting für Beta-Tester machen und ab 1.5. oder so gehts dann los.

Avatar Chris   
1. April 2008, 15:01

„Grund für uns, diese Erweiterungen nicht öffentlich und für jeden zugänglich anzubieten“

ich denke doch, das nicht lässt sich hier streichen^^. Fahre mit SEO SpyGlas eigentlich ganz gut, doch die oben genannten Probleme lassen sich damit trotzdem nicht aus der Welt schaffen. Um sich einen groben Überblick zu verschaffen, reicht es jedoch aus.

Finde ich übrigens eine tolle Idee – viel Erfolg dabei weiterhin!

Grüße, Chris.

Avatar Ralph   
1. April 2008, 22:43

Ich bin neugierig auf den Fortgang dieses Projektes mit einem eventuellen „halb“ öffentlichem Zugang.

Für eine Bezahlung bin ich auch, wenn sich diese in meinem finanziellen Rahmen bewegt und die Daten aktuell sind. Vielleicht kannst Du ja Deine Ansatzpunkte für das spätere Abo-Modell mit uns gemeinsam, ganz im Sinne von Web 2.o, erarbeiten :))

Aus Dresden grüssend

Ralph

Avatar Micha   
7. April 2008, 14:21

Ein interessanter Artikel. Natürlich ist es für Backlink Checker nicht einfach alles zu finden, besonders wenn es ihm die Suchmaschinen noch schwerer machen.

Avatar WhiteSide SEO   
12. Mai 2008, 14:39

Für Einsteiger ins SEO möchte ich heute mal eine Ãœbersicht geben, welche aktuellen AddOns oder Extensions für Firefox ich derzeit nutze und für SEO im Allgemeinen wie auch sehr speziell hilfreich sind, wenn ihr Euch über Eure eigene Seite, aber a…

Avatar imedo   
12. Dezember 2008, 23:14

Ich persönlich finde die Backlink-Analyse bei sistrix ganz interessant. Außerdem gut, nur kostenpflichtig ist das Tool „Spyglass“.

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.