OpenLinkGraph: der SISTRIX Link-Index

Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Fast zwei Jahre sind seit den ersten Konzepten und Ideen vergangen, jetzt können wir endlich Ergebnisse unserer Arbeit zeigen: die Private Beta des SISTRIX OpenLinkGraph (UPDATE: mittlerweile eine Funktion des Link-Moduls) ist seit dem Wochenende online und erste Nutzer geben uns bereits wertvolles Feedback. Ausschlaggebend für die Entwicklung war die Erkenntnis, dass nur ein eigener Index mit selber gecrawlten und verarbeiteten Daten auf Dauer die Ergebnisse liefern kann, die wir erwarten. Zusätzlich kam hinzu, dass Yahoo nach der Übernahme durch Microsoft seine eigenen Crawling-Ambitionen einstellt. Da somit die Hauptquelle für Linkdaten wegfällt, war die Entwicklung eines eigenen Index unumgänglich.

Was sich zuerst so einfach anhört, war dann doch eine riesige Herausforderung: Milliarden von Webseiten müssen priorisiert, gecrawled und ausgewertet werden. Die Ergebnisse müssen in Sekundenbruchteilen in einer Datenbank auffindbar sein. Bei der Menge an Servern hinter dem System ist der Ausfall einzelner Rechner an der Tagesordnung und muss entsprechend abgefedert werden. Wie man sich vorstellen kann also ausreichend Komplexität, damit es spaßig wird.

Als Ergebnis haben wir nun eine Plattform, die zum einen die aktuellen Ideen und Anwendungen ermöglicht, aber auch für die Zukunft gerüstet ist: sowohl die Indexgröße als auch die Auswertungsmöglichkeiten stoßen an keine erkennbaren Grenzen und werden uns künftig noch viel Spaß bereiten. Da die Vorstellung des OpenLinkGraph für ein Blogposting zu lang würde, möchte ich das aufteilen und in den nächsten Tagen jeweils Teile präsentieren. Wer zufällig diese Woche auf der Dmexco ist, kann gerne an unserem Stand D-69 vorbeikommen, um sich das Tool live anzusehen und eine persönliche Beta-Einladung mitzunehmen.

Ähnliche Beiträge
Kommentare
Avatar Wahid   
19. September 2011, 10:53

Respekt! Ich habe beruflich paar mal mit Big Data zu tun gehabt, aber hier geht um big big Data. Paar technische Details würde mich sehr interessieren. Was für DB-System steht dahinter? MongoDB, Cassandra oder doch MySql? Wie oft wird der Index aktualisiert und wie viele Crawler arbeiten parallel?

Avatar Rene   
19. September 2011, 11:05

Gibt es auch noch eine andere Möglichkeit einen Beta-Account abgreifen zu können?

Avatar sistrix   
19. September 2011, 11:06

Wahid, das läuft auf Microsoft Excel. Nein, Spaß beiseite, wir nutzen da individuelle Lösungen da wir auch recht individuelle Ansprüche haben. Die NoSQL-Versprechungen von MongoDB oder Cassandra hören sich zwar recht nett an, fliegen mit wenigen Milliarden Records aber doch auseinander 😉 Aktuell planen wir monatliche Aktualisierungen, sind da aber noch nicht festgelegt. Die Crawler haben für den aktuellen Index rund 2Gbit/s geschafft.

Avatar sistrix   
19. September 2011, 11:06

Rene, nein aktuell leider nicht.

Avatar Jan   
19. September 2011, 11:17

Euer Stand allein reicht für die demexco 🙂

Avatar asaaki   
19. September 2011, 11:51

Aber NoSQL wird’s doch wohl schon sein, oder? Selbst Google benutzt ja keine MySQL-DBs für ihre Indizes. So ein bisschen Technik-Generde wäre toll. ;o)

Wie open wird denn der OpenLinkGraph denn sein? Das Wort verspricht ja ganz schön viel in Bezug auf die SEO-Branche, wo eigentlich fast nix open ist.

Avatar C.   
19. September 2011, 11:56

Wie viele Seiten laufen in den Index?

Avatar Daniel   
19. September 2011, 11:57

Werde beim Stand mal vorbeischauen. Bis dann 😉

Avatar Timo   
19. September 2011, 12:12

Ein wenig Hintergrundinfos zu Anzahl der Server usw. wäre interessant.

Ansonsten freue ich mich über die folgenden Infos, der Screenshort sieht schon vielversprechend aus. Ich werde auf der dmxeco vorbei kommen und mir einen Invite abholen 🙂

Avatar eAM   
19. September 2011, 12:39

OK, ok, ich komme zur DMEXCO

Avatar eisy.eu   
19. September 2011, 13:28

Erste Bilder aus dem OPENLINKGRAPH inkl. kurzen Erläuterungen zu den Features. Außerdem der Hinweis darauf, wie jeder ins neue Tool kommt.

Avatar sistrix   
19. September 2011, 15:53

asaaki, ich glaube, dass die Wahl der konkreten Datenhalde gar keinen so ganz großen Einfluss hat. Wichtiger ist denke ich ein grundlegendes Verständnis davon, wie Datenbanken arbeiten, was wie funktioniert, was ein Index kann und was auch nicht. Open im Namensbestandteil deutet genau darauf hin, was es sein wird: öffentlich zugänglich aber nicht verschenkt 😉

C., dazu schreibe ich in einem späteren Blogposting noch etwas. Die Sache ist komplexer als man zunächst annimmt.

Timo, sind über 100 Server, die da aktuell werkeln.

Avatar MaxBerlin   
19. September 2011, 16:00

Das schaue ich mir gerne an eurem Stand auf der dmexco an, Stand D-69 ist notiert.
Beste Grüße aus Berlin
Max.

Avatar Andreas   
19. September 2011, 17:59

Wow, das ist mal wieder ein Monster-Tool. Herzlichen Glückwunsch zum launch!

Avatar Micha   
20. September 2011, 08:47

Klasse. Bin auch schon sehr gespannt das Tool live auf Eurem Stand zu sehen.

Avatar Patrick   
20. September 2011, 08:55

Die ersten Eindrücke sind echt der Hammer…, da kann euer Mitbewerb langsam aber sicher Einpacken!

Avatar Janek   
20. September 2011, 10:12

Sehr interessant und sogar ein „Nicht-Informatiker“ ahnt die Größenordnung 😉
Prima, dass der OpenLinkGraph rechtzeitig zur DMEXCO fertig geworden ist!

Avatar Tobias   
22. September 2011, 05:00

Sehr interessantes Projekt, insbesondere seit der Yahoo! Site Explorer… naja, das weiß hier ja jeder…

Mich interessiert momentan aber am meisten der Name: Open… soll das bedeuten, dass das Tool am Ende kostenfrei verfügbar sein wird (zumindest in einem gewissen „semiprofessionellen“ Umfang)?

Avatar jan   
25. September 2011, 15:51

Hallo
Sie haben sehr gute Arbeit geleistet, nutze noch das Programm Ihres Mitbewerbers. Was ich aber auf diesen Seiten lese überzeugt mich sehr.

Gruss
Jan

Avatar Ben   
25. September 2011, 16:41

Wie Open wird denn er Openlinkgraph sein?

Avatar dreamworker   
26. September 2011, 11:28

@ ben letzter Post von Johannes klärt es eindeutig

Avatar Mike   
19. Oktober 2011, 06:26

Hallo, das hört wirklich sich sehr vielversprechend an – so ein Tool könnten viele Webmaster sicher ganz gut gebrauchen! Würd mich auch über weitere Infos freuen!

Avatar sebastian   
10. Januar 2012, 11:40

Wann werden die Daten des OLG denn eigentlich geupdated?

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.