Suchmaschinen- & SEO-Blog
OpenLinkGraph: der SISTRIX Link-IndexJohannes Beus
Fast zwei Jahre sind seit den ersten Konzepten und Ideen vergangen, jetzt können wir endlich Ergebnisse unserer Arbeit zeigen: die Private Beta des SISTRIX OpenLinkGraph ist seit dem Wochenende online und erste Nutzer geben uns bereits wertvolles Feedback. Ausschlaggebend für die Entwicklung war die Erkenntnis, dass nur ein eigener Index mit selber gecrawlten und verarbeiteten Daten auf Dauer die Ergebnisse liefern kann, die wir erwarten. Zusätzlich kam hinzu, dass Yahoo nach der Übernahme durch Microsoft seine eigenen Crawling-Ambitionen einstellt. Da somit die Hauptquelle für Linkdaten wegfällt, war die Entwicklung eines eigenen Index unumgänglich.Was sich zuerst so einfach anhört, war dann doch eine riesige Herausforderung: Milliarden von Webseiten müssen priorisiert, gecrawled und ausgewertet werden. Die Ergebnisse müssen in Sekundenbruchteilen in einer Datenbank auffindbar sein. Bei der Menge an Servern hinter dem System ist der Ausfall einzelner Rechner an der Tagesordnung und muss entsprechend abgefedert werden. Wie man sich vorstellen kann also ausreichend Komplexität, damit es spaßig wird. Als Ergebnis haben wir nun eine Plattform, die zum einen die aktuellen Ideen und Anwendungen ermöglicht, aber auch für die Zukunft gerüstet ist: sowohl die Indexgröße als auch die Auswertungsmöglichkeiten stoßen an keine erkennbaren Grenzen und werden uns künftig noch viel Spaß bereiten. Da die Vorstellung des OpenLinkGraph für ein Blogposting zu lang würde, möchte ich das aufteilen und in den nächsten Tagen jeweils Teile präsentieren. Wer zufällig diese Woche auf der Dmexco ist, kann gerne an unserem Stand D-69 vorbeikommen, um sich das Tool live anzusehen und eine persönliche Beta-Einladung mitzunehmen. 1
schrieb am 19.09.2011 um 10:53 Uhr
Respekt! Ich habe beruflich paar mal mit Big Data zu tun gehabt, aber hier geht um big big Data. Paar technische Details würde mich sehr interessieren. Was für DB-System steht dahinter? MongoDB, Cassandra oder doch MySql? Wie oft wird der Index aktualisiert und wie viele Crawler arbeiten parallel?
2
schrieb am 19.09.2011 um 11:05 Uhr
Gibt es auch noch eine andere Möglichkeit einen Beta-Account abgreifen zu können?
3
schrieb am 19.09.2011 um 11:06 Uhr
Wahid, das läuft auf Microsoft Excel. Nein, Spaß beiseite, wir nutzen da individuelle Lösungen da wir auch recht individuelle Ansprüche haben. Die NoSQL-Versprechungen von MongoDB oder Cassandra hören sich zwar recht nett an, fliegen mit wenigen Milliarden Records aber doch auseinander ;-) Aktuell planen wir monatliche Aktualisierungen, sind da aber noch nicht festgelegt. Die Crawler haben für den aktuellen Index rund 2Gbit/s geschafft.
4
schrieb am 19.09.2011 um 11:06 Uhr
Rene, nein aktuell leider nicht.
5
schrieb am 19.09.2011 um 11:17 Uhr
Euer Stand allein reicht für die demexco :-)
6
schrieb am 19.09.2011 um 11:51 Uhr
Aber NoSQL wird's doch wohl schon sein, oder? Selbst Google benutzt ja keine MySQL-DBs für ihre Indizes. So ein bisschen Technik-Generde wäre toll. ;o)
Wie open wird denn der OpenLinkGraph denn sein? Das Wort verspricht ja ganz schön viel in Bezug auf die SEO-Branche, wo eigentlich fast nix open ist. 7
schrieb am 19.09.2011 um 11:56 Uhr
Wie viele Seiten laufen in den Index?
8
schrieb am 19.09.2011 um 11:57 Uhr
Werde beim Stand mal vorbeischauen. Bis dann ;)
9
schrieb am 19.09.2011 um 12:12 Uhr
Ein wenig Hintergrundinfos zu Anzahl der Server usw. wäre interessant.
Ansonsten freue ich mich über die folgenden Infos, der Screenshort sieht schon vielversprechend aus. Ich werde auf der dmxeco vorbei kommen und mir einen Invite abholen :-) 10
schrieb am 19.09.2011 um 12:39 Uhr
OK, ok, ich komme zur DMEXCO
Trackback - eisy.eu - 19.09.2011 13:28 Erste Bilder aus dem OPENLINKGRAPH inkl. kurzen Erläuterungen zu den Features. Außerdem der Hinweis darauf, wie jeder ins neue Tool kommt. 11
schrieb am 19.09.2011 um 15:53 Uhr
asaaki, ich glaube, dass die Wahl der konkreten Datenhalde gar keinen so ganz großen Einfluss hat. Wichtiger ist denke ich ein grundlegendes Verständnis davon, wie Datenbanken arbeiten, was wie funktioniert, was ein Index kann und was auch nicht. Open im Namensbestandteil deutet genau darauf hin, was es sein wird: öffentlich zugänglich aber nicht verschenkt ;-)
C., dazu schreibe ich in einem späteren Blogposting noch etwas. Die Sache ist komplexer als man zunächst annimmt. Timo, sind über 100 Server, die da aktuell werkeln. 12
schrieb am 19.09.2011 um 16:00 Uhr
Das schaue ich mir gerne an eurem Stand auf der dmexco an, Stand D-69 ist notiert.
Beste Grüße aus Berlin Max. 13
schrieb am 19.09.2011 um 17:59 Uhr
Wow, das ist mal wieder ein Monster-Tool. Herzlichen Glückwunsch zum launch!
14
schrieb am 20.09.2011 um 08:47 Uhr
Klasse. Bin auch schon sehr gespannt das Tool live auf Eurem Stand zu sehen.
15
schrieb am 20.09.2011 um 08:55 Uhr
Die ersten Eindrücke sind echt der Hammer..., da kann euer Mitbewerb langsam aber sicher Einpacken!
16
schrieb am 20.09.2011 um 10:12 Uhr
Sehr interessant und sogar ein "Nicht-Informatiker" ahnt die Größenordnung ;)
Prima, dass der OpenLinkGraph rechtzeitig zur DMEXCO fertig geworden ist! 17
schrieb am 22.09.2011 um 05:00 Uhr
Sehr interessantes Projekt, insbesondere seit der Yahoo! Site Explorer... naja, das weiß hier ja jeder...
Mich interessiert momentan aber am meisten der Name: Open... soll das bedeuten, dass das Tool am Ende kostenfrei verfügbar sein wird (zumindest in einem gewissen "semiprofessionellen" Umfang)? 18
schrieb am 25.09.2011 um 15:51 Uhr
Hallo
Sie haben sehr gute Arbeit geleistet, nutze noch das Programm Ihres Mitbewerbers. Was ich aber auf diesen Seiten lese überzeugt mich sehr. Gruss Jan 19
schrieb am 25.09.2011 um 16:41 Uhr
Wie Open wird denn er Openlinkgraph sein?
20
schrieb am 26.09.2011 um 11:28 Uhr
@ ben letzter Post von Johannes klärt es eindeutig
21
schrieb am 19.10.2011 um 06:26 Uhr
Hallo, das hört wirklich sich sehr vielversprechend an - so ein Tool könnten viele Webmaster sicher ganz gut gebrauchen! Würd mich auch über weitere Infos freuen!
22
schrieb am 10.01.2012 um 11:40 Uhr
Wann werden die Daten des OLG denn eigentlich geupdated?
|















