OpenLinkGraph: der SISTRIX Link-Index

SISTRIX OpenLinkGraphFast zwei Jahre sind seit den ersten Konzepten und Ideen vergangen, jetzt können wir endlich Ergebnisse unserer Arbeit zeigen: die Private Beta des SISTRIX OpenLinkGraph (UPDATE: mittlerweile eine Funktion des Link-Moduls) ist seit dem Wochenende online und erste Nutzer geben uns bereits wertvolles Feedback. Ausschlaggebend für die Entwicklung war die Erkenntnis, dass nur ein eigener Index mit selber gecrawlten und verarbeiteten Daten auf Dauer die Ergebnisse liefern kann, die wir erwarten. Zusätzlich kam hinzu, dass Yahoo nach der Übernahme durch Microsoft seine eigenen Crawling-Ambitionen einstellt. Da somit die Hauptquelle für Linkdaten wegfällt, war die Entwicklung eines eigenen Index unumgänglich.

Was sich zuerst so einfach anhört, war dann doch eine riesige Herausforderung: Milliarden von Webseiten müssen priorisiert, gecrawled und ausgewertet werden. Die Ergebnisse müssen in Sekundenbruchteilen in einer Datenbank auffindbar sein. Bei der Menge an Servern hinter dem System ist der Ausfall einzelner Rechner an der Tagesordnung und muss entsprechend abgefedert werden. Wie man sich vorstellen kann also ausreichend Komplexität, damit es spaßig wird.

Als Ergebnis haben wir nun eine Plattform, die zum einen die aktuellen Ideen und Anwendungen ermöglicht, aber auch für die Zukunft gerüstet ist: sowohl die Indexgröße als auch die Auswertungsmöglichkeiten stoßen an keine erkennbaren Grenzen und werden uns künftig noch viel Spaß bereiten. Da die Vorstellung des OpenLinkGraph für ein Blogposting zu lang würde, möchte ich das aufteilen und in den nächsten Tagen jeweils Teile präsentieren. Wer zufällig diese Woche auf der Dmexco ist, kann gerne an unserem Stand D-69 vorbeikommen, um sich das Tool live anzusehen und eine persönliche Beta-Einladung mitzunehmen.

Ähnliche Beiträge