Wie Google das Deep-Web durchsucht

Obwohl jetzt bereits seit fast einem Jahr in freier Wildbahn zu beobachten, sind die Fähigkeiten von Google im Ausfüllen und Auswerten von Formularen noch immer recht unbekannt. Anlässlich der VLDB (Very Large Data Bases) 2008 gab es von Google in Paper zu dem Thema, das die Hintergründe und Überlegungen zu dem Thema detailliert darstellt.

Das „Deep Web“ ist jener Teil des Internets, der durch herkömmliche Suchmaschinen nicht indexiert wird, da seine Inhalte erst nach dem Abschicken von Formularen dynamisch generiert und angezeigt werden. Da man davon ausgeht, dass dort deutlich mehr Inhalte als im „normalen“ Web vorhanden sind, haben Suchmaschinen wie Google naturgemäß ein großes Interesse daran, diese Inhalte in den Index aufzunehmen.

Es gibt verschiedene Wege, mit denen man das Deep-Web indexieren kann; Google hat sich entschieden, Formulare auszufüllen und die daraus resultierenden (GET)-URLs zu crawlen. Das hat zum einen den Vorteil, dass an der Suchmaschinentechnik selber nichts geändert werden muss (es sind „ganz normale“ URLs die indexiert werden) und zum anderen ist dieses Vorgehen nicht auf bestimmte Seiten oder Datentypen beschränkt. Das eigentliche Problem ist nun, wie die zu crawlenden URLs generiert werden – und da hat Google ein paar interessante Ansätze. Ich möchte hier nicht ins Detail gehen (wen es interessiert, das PDF gibt es zum Download) aber im Kern hat Google einen Mechanismus entwickelt, um möglichst viele unterschiedliche Ergebnisse (Daten) mit einer möglichst geringen Anzahl von URLs zu crawlen. Textfelder in den Formularen werden dabei mit Worten von der jeweiligen Seite ausgefüllt, von denen Google sich gute Ergebnisse erhofft, Drop-Down-Menüs und ähnliche Fehler werden ebenfalls genutzt. Laut Paper sind mit dieser Methode einige Millionen von Formularen ausgefüllt worden und die Ergebnisse bereits seit längerem im Googleindex zu finden.

Aus technischer Sicht hochinteressant, was Google da macht, aus SEO- und Seitenbetreiber-Sicht allerdings etwas zwiespältig. Ich glaube, dass es derzeit besser ist, die Inhalte seiner Datenbanken durch diverse Maßnahmen in Eigenverantwortung für den Googlebot sichtbar zu machen als sich darauf zu verlassen, dass der Algorithmus die passenden Worte und Suchoptionen auswählt.

Ähnliche Beiträge