OpenLinkGraph: Index-Größe & Benchmark

Johannes Beus
Johannes Beus
20. September 2011
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Wie groß und gut ist der aktuelle Link-Index von OpenLinkGraph? Die Beantwortung der Frage ist komplizierter, als es auf den ersten Blick erscheint. Zuerst zu den reinen Fakten: für den aktuellen Index haben wir rund 4,2 Milliarden Webseiten gecrawlt, auf diesen etwa 45 Milliarden Links ermittelt und daraus unseren ersten öffentlichen Index gebaut. Wenn man dann aber auf der einen Seite bedenkt, dass es noch gar nicht so lange her ist, dass eine Indexgröße von 100 Millionen Seiten für eine deutsche Suchmaschine als ausreichend erachtet wurde, auf der anderen Seite allerdings zum Beispiel auf der Startseite von Seomoz lesen kann, dass dort 400 Milliarden Seiten eingeflossen sind, so fällt die Einordnung dieser Zahlen auch uns nicht leicht.

Um uns ein besseres Gefühl für die Qualität und Quantität der Daten im Vergleich zu anderen Anbietern zu geben, haben wir für eine Reihe von Domains sowohl die komplette Anzahl gefundener Links als auch die Anzahl unterschiedlicher, verlinkender Domains verglichen. Die Komplettanzahl zeigt recht gut, wie tief der Crawler vorgeht. Die folgende Tabelle zeigt unser internes Benchmarking:

Während Seomoz in diesem Vergleich klar den kleinsten Index hat, empfinde ich die Ergebnisse des OpenLinkGraph für den ersten Versuch bereits als durchaus vorzeigbar. Gerade bei den Domains aus dem „täglichen Gebrauch“ wie den vertikalen Portalen in der zweiten Gruppe sowie den Bonn-bezogenen Domains aus der dritten Gruppe waren mir guten Zahlen wichtig. Dass Seomoz ausschließlich bei SEO-Domains (letzte Gruppe) so gut ist, spricht in meinen Augen nicht dafür, dass der Crawlvorgang bereits ausreichend gesteuert wurde. Etwas erstaunt hat mich der große Abstand bei amazon.com zwischen unseren Daten (474 Mio) zu Seomoz (137 Mio) sowie Majesticseo (247 Mio). Gerade bei US-Seiten hätten ich die beiden als stärker eingeschätzt. Als zweiten Benchmark haben wir die Domain-Popularität, also die Anzahl unterschiedlicher verlinkender Domains, herangezogen:

Die rote Laterne wird hier von Majesticseo getragen: man crawlt dort offenbar nicht breit genug, um ausreichend unterschiedliche Domains abzudecken. Seomoz macht sich in diesem Vergleich deutlich besser. Doch kann ich nicht ganz ohne Stolz konstatieren, dass unsere Daten auch hier vorne liegen. Gerade bei den mir wichtigen Domains erstrahlt hier erfreulich viel Grün. Trotzdem wird es natürlich wie hier im Vergleich schon offensichtlich, ausreichend Beispiele geben, in denen die Daten von Seomoz und/oder Majesticseo umfangreicher sind – da beide eine kostenlose Basisversion anbieten lohnt hier im Zweifel der Vergleich.

Ähnliche Beiträge
Kommentare
SUMAGO   
20. September 2011, 08:50

Hallo Johannes !

Ich reibe mir noch die Augen und freue mich schon auf die Vergleiche, die da in den kommenden Wochen gezogen werden. Mal sehen wie tragfähig die Daten sind. Aber wer dich kennt …..

Glückwunsch

Björn   
20. September 2011, 08:48

Das sieht schon sehr vielversprechend aus, ich bin schon sehr gespannt – vor allem auf die API

Andreas   
20. September 2011, 09:21

Echt krass, was du/ihr da aus dem Boden stampft, Johannes 🙂

xeomed   
20. September 2011, 09:54

Also ich kann gar nicht sagen, wie gespannt ich bin … Wir sehen uns am am Stand.

activetraffic   
20. September 2011, 09:58

sehr schön Johannes! Wir sehen uns morgen auf der DMEXCO und wehe es gibt keinen Beta-Zugang….. 😉

Grüße
Nico

Erdal   
20. September 2011, 10:31

Klingt echt vielversprechend Johannes! Aber etwas kritisch bin ich schon. Also werde schon meine eigenen Daten erheben, sobald wir Zugriff bekommen.
Ich mein. Warum gerade die Domains… 🙂

Besten Gruß

Arne   
20. September 2011, 11:02

Congratulations! Schaut echt super aus. Auf die API gfrei I mi au… 🙂

Tom   
20. September 2011, 13:21

Echt interessant, sieht umfangreicher aus, als alles Andere, was derzeit auf dem Markt ist. Dafür muss man euch Jungs von SISTRIX einfach mal loben.

Erdal >>Torun<<   
20. September 2011, 17:28

moin erdal,

tu uns beiden (erdal&erdal) einen gefallen und schreib deinen nachnamen dahinter. man könnte denken das ich es bin der hier kommentare hinterlässt und den ganzen tag nicht arbeitet ;-).

ach ja…wir sind auch MEGA gespannt!!!

Beste Grüße
Erdal >>Torun<<

Kevin   
21. September 2011, 21:10

Ist dieser Link-DB nun schon in die Sistrix Toolbox eingeflossen. Falls ja würde ich dir gerne per Mail eine Liste mit paar 50-100K Domains zu kommen lassen aus einem Bereich der noch etwas hinkt. (Aktuell knapp 20-50% der alten Zahlen)

Ansonsten Spitzen Ergebnis für den kurzen Zeitraum

Johannes   
22. September 2011, 07:02

Kevin, nein, diese Daten sind noch nicht in das Link-Modul eingeflossen. Was dort jetzt fehlt, sind ein Teil der Yahoo-Daten.

Tobias   
22. September 2011, 07:42

Hi Johannes,

ab wann kann man denn mit den Daten in der Toolbox rechnen?

Grüße

BeamMachine Blog   
22. September 2011, 10:36

Nachdem Yahoo verkündete, dass der Site Explorer bald keine API-Zugriffe mehr gestattet, wagt sich ein weiterer Branchenprimus an das Problem des Linkzählens. Die SISTRIX GmbH aus Bonn hat inzwischen ihr neues Produkt OpenLinkGraph in die geschlossene Beta-Phase geführt und erste Screenshots und Infos im hauseigenen Blog veröffentlicht.

Sandrachen   
22. September 2011, 10:54

Huhu,

sehr beeindruckend, freue mich schon 🙂

Eine Frage: Wie werden denn Subdomains behandelt (bei euch im Vergleich zu den anderen beiden Tools)? Ist das vielleicht der massive Unterschied bei Domains wie Amazon oder auch ebay?

Timo   
23. September 2011, 09:16

Vielen Dank für den Beta Testzugang, Johannes. Das Teil ist der Hammer, die Geschwindigkiet ist atemberaubend. So macht die Arbeit Spaß.

Viele Grüße
Timo

Markus   
23. September 2011, 14:27

Was ist denn der Unterschied zwischen dem neuen OpenLinkGraph und dem bisherigen Backlink-Modul der Toolbox?

Grüße

Paul   
23. September 2011, 18:28

Hi,

erst mal vielen Dank für den Beta-Zugang. Schöne Geschichte. Man sieht, ihr wisst was ihr macht und was gebraucht wird.

Wie kommt es aber Zustande, dass in der Toolbox momentan für einige Domains zwar weniger Links (Gesamtanzahl) dafür aber mehr Domains angezeigt werden? Gerade die Breite, also Domainpop, interessiert mich doch und ich habe angenommen, dass der OLG da mehr erfasst, als der alte Crawler+Yahoo. Die Tiefe, also Linkpop, ist zwar auch wichtig, interessiert mich aber logischerweise weniger. Hat die Yahoo API am Ende (trotz der Beschränkung auf 1000 Datenpunkte) da mehr erfasst und wiedergegeben?

sistrix   
24. September 2011, 09:45

Tobias, innerhalb der nächsten vier Wochen scheint realistisch, wenn kein großes Problem im Betatest auftauchen sollte.

Sandrachen, ich gehe davon aus, dass alle drei Anbieter diese gleich behandeln und Links von Subdomains nicht als externe Links werten. Wir machen es jedenfalls definitiv nicht.

Markus, die Daten im Link-Modul beruhen aktuell noch auf einer Mischung zwischen Yahoo-Daten sowie eigenen Daten, die von OpenLinkGraph sind komplett eigene Daten aus einem massiv erweiterten Index.

Paul, das kann durchaus vorkommen und hängt mit der Priorisierung des Crawls zusammen. Wir versuchen dabei möglichst „Google-like“ vorzugehen und haben dabei für den aktuellen Index die 5 Milliarden wichtigsten URLs gecrawlt. Jetzt ist es so, dass Links aus der 3. Ebene von Artikelverzeichnissen oder Webkatalogen dort häufig nicht drunter fallen, also auch nicht in der Auswertung erscheinen.

thomas   
24. September 2011, 12:54

Da ist ja eine immense Rechenleistung und Speicherkapazität nötig. In welcher Größenordnung kann man sich das vorstellen?
Gruß Thomas

Linkwissenschaft   
24. September 2011, 21:09

Die dmexco ist vorbei und hat mit 440 Ausstellern und über 19.000 Besuchern kräftig zugelegt. Unserer Branche geht es prächtig mit einem Zuwachs von 16 % im Bereich “Digitales Marketing” für das laufende Geschäftsjahr 2011, was einem Wert von über 6 Milliarden Euro entspricht.

Ein besonderes Highlight für alle Link Professionals auf der demexco war die Neuvorstellung des OpenLinkGraph von Sistrix, dem bekannten Bonner Toolbox Anbieter. Nach der am 15. September 2011 erfolgten Abschaltung der Yahoo Site Explorer API ist der OpenLinkGraph die erste sinnvolle Alternative am Markt und läuft aktuell im Betatest für eine begrenzte Auswahl von Nutzern. Die Indexgröße liegt laut Angaben von Sistrix bei 4,2 Milliarden Webseiten, die gecrawlt wurden. Auf diesen Seiten wurden etwa 45 Milliarden Links ermittelt und daraus der erste öffentlichen Index gebaut. Im internen Bechmarking Vergleich von Sistrix schlägt sich dieses Tool hervorragend im Vergleich zu SEOmoz und Majesticseo.

Hier nun ein erster Überblick über die neuen Funktionen dieses Tools, deren Datenbasis laut Anbieter komplett auf Eingenerhebungen basiert ohne Import von externen Fremddaten.

seo branding   
3. Oktober 2011, 15:10

Great Info. Excited to see the changes, I want the web to be more relevant for me and for the folks searching, too. Looking forward to the top 100 list from you. THANKS!

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.