OpenLinkGraph: Index-Größe & Benchmark

Wie groß und gut ist der aktuelle Link-Index von OpenLinkGraph? Die Beantwortung der Frage ist komplizierter, als es auf den ersten Blick erscheint. Zuerst zu den reinen Fakten: für den aktuellen Index haben wir rund 4,2 Milliarden Webseiten gecrawlt, auf diesen etwa 45 Milliarden Links ermittelt und daraus unseren ersten öffentlichen Index gebaut. Wenn man dann aber auf der einen Seite bedenkt, dass es noch gar nicht so lange her ist, dass eine Indexgröße von 100 Millionen Seiten für eine deutsche Suchmaschine als ausreichend erachtet wurde, auf der anderen Seite allerdings zum Beispiel auf der Startseite von Seomoz lesen kann, dass dort 400 Milliarden Seiten eingeflossen sind, so fällt die Einordnung dieser Zahlen auch uns nicht leicht.

Um uns ein besseres Gefühl für die Qualität und Quantität der Daten im Vergleich zu anderen Anbietern zu geben, haben wir für eine Reihe von Domains sowohl die komplette Anzahl gefundener Links als auch die Anzahl unterschiedlicher, verlinkender Domains verglichen. Die Komplettanzahl zeigt recht gut, wie tief der Crawler vorgeht. Die folgende Tabelle zeigt unser internes Benchmarking:

Während Seomoz in diesem Vergleich klar den kleinsten Index hat, empfinde ich die Ergebnisse des OpenLinkGraph für den ersten Versuch bereits als durchaus vorzeigbar. Gerade bei den Domains aus dem „täglichen Gebrauch“ wie den vertikalen Portalen in der zweiten Gruppe sowie den Bonn-bezogenen Domains aus der dritten Gruppe waren mir guten Zahlen wichtig. Dass Seomoz ausschließlich bei SEO-Domains (letzte Gruppe) so gut ist, spricht in meinen Augen nicht dafür, dass der Crawlvorgang bereits ausreichend gesteuert wurde. Etwas erstaunt hat mich der große Abstand bei amazon.com zwischen unseren Daten (474 Mio) zu Seomoz (137 Mio) sowie Majesticseo (247 Mio). Gerade bei US-Seiten hätten ich die beiden als stärker eingeschätzt. Als zweiten Benchmark haben wir die Domain-Popularität, also die Anzahl unterschiedlicher verlinkender Domains, herangezogen:

Die rote Laterne wird hier von Majesticseo getragen: man crawlt dort offenbar nicht breit genug, um ausreichend unterschiedliche Domains abzudecken. Seomoz macht sich in diesem Vergleich deutlich besser. Doch kann ich nicht ganz ohne Stolz konstatieren, dass unsere Daten auch hier vorne liegen. Gerade bei den mir wichtigen Domains erstrahlt hier erfreulich viel Grün. Trotzdem wird es natürlich wie hier im Vergleich schon offensichtlich, ausreichend Beispiele geben, in denen die Daten von Seomoz und/oder Majesticseo umfangreicher sind – da beide eine kostenlose Basisversion anbieten lohnt hier im Zweifel der Vergleich.

Ähnliche Beiträge