Wie Google das Deep-Web durchsucht

Johannes Beus
Johannes Beus
2. Februar 2009
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Obwohl jetzt bereits seit fast einem Jahr in freier Wildbahn zu beobachten, sind die Fähigkeiten von Google im Ausfüllen und Auswerten von Formularen noch immer recht unbekannt. Anlässlich der VLDB (Very Large Data Bases) 2008 gab es von Google in Paper zu dem Thema, das die Hintergründe und Überlegungen zu dem Thema detailliert darstellt.

Das „Deep Web“ ist jener Teil des Internets, der durch herkömmliche Suchmaschinen nicht indexiert wird, da seine Inhalte erst nach dem Abschicken von Formularen dynamisch generiert und angezeigt werden. Da man davon ausgeht, dass dort deutlich mehr Inhalte als im „normalen“ Web vorhanden sind, haben Suchmaschinen wie Google naturgemäß ein großes Interesse daran, diese Inhalte in den Index aufzunehmen.

Es gibt verschiedene Wege, mit denen man das Deep-Web indexieren kann; Google hat sich entschieden, Formulare auszufüllen und die daraus resultierenden (GET)-URLs zu crawlen. Das hat zum einen den Vorteil, dass an der Suchmaschinentechnik selber nichts geändert werden muss (es sind „ganz normale“ URLs die indexiert werden) und zum anderen ist dieses Vorgehen nicht auf bestimmte Seiten oder Datentypen beschränkt. Das eigentliche Problem ist nun, wie die zu crawlenden URLs generiert werden – und da hat Google ein paar interessante Ansätze. Ich möchte hier nicht ins Detail gehen (wen es interessiert, das PDF gibt es zum Download) aber im Kern hat Google einen Mechanismus entwickelt, um möglichst viele unterschiedliche Ergebnisse (Daten) mit einer möglichst geringen Anzahl von URLs zu crawlen. Textfelder in den Formularen werden dabei mit Worten von der jeweiligen Seite ausgefüllt, von denen Google sich gute Ergebnisse erhofft, Drop-Down-Menüs und ähnliche Fehler werden ebenfalls genutzt. Laut Paper sind mit dieser Methode einige Millionen von Formularen ausgefüllt worden und die Ergebnisse bereits seit längerem im Googleindex zu finden.

Aus technischer Sicht hochinteressant, was Google da macht, aus SEO- und Seitenbetreiber-Sicht allerdings etwas zwiespältig. Ich glaube, dass es derzeit besser ist, die Inhalte seiner Datenbanken durch diverse Maßnahmen in Eigenverantwortung für den Googlebot sichtbar zu machen als sich darauf zu verlassen, dass der Algorithmus die passenden Worte und Suchoptionen auswählt.

Ähnliche Beiträge
Kommentare
sbrinkmann   
2. Februar 2009, 15:48

Mich würde in dem Zusammenhang interessieren: Wie sperre ich Formulare für Google? Denn es nervt ein wenig, jeden Tag eine Mail über das Kontaktformular zu bekommen, nur weil der Google-Crawler das Ding abgeschickt hat. Ein „Noindex“ hilft da nichts. Ich habe mir jetzt dadurch beholfen, dass ich überprüfe, ob ein Feld ausgefüllt wurde. Der User bekommt dann einen Hinweis und Google rennt vor die Wand. Nicht schön, aber zumindest Postfach-schonend. 🙂

Website Boosting   
2. Februar 2009, 16:00

Über die robots.txt ausschließen hilft auch nicht? Notfalls den Sendebutton mit einem in Variablen zerschnittenen Java-Skript maskieren.
Jetzt wo ich das schreibe, wunder ich mich selber. Müssen wir denn jetzt schon Vorsichtsmaßnahmen gegen den Google-Bot treffen? Ein noindex sollte doch eigentlich reichten. Komisch, dass die sich hier nicht dran halten.
Wie auch immer, der Tipp mit dem Javaskript funktioniert auf jeden Fall zuverlässig, weil der Bot das nicht auslösen kann. Dann ist Ruhe.

Johannes   
2. Februar 2009, 16:02

Aussperren über robots.txt funktioniert und ist imho auch die beste Lösung, da der Crawler so nicht sinnlos Formulare abschickt und danach erst das Noindex sieht.

Ole   
2. Februar 2009, 16:05

Seit einiger Zeit lässt sich das schon beobachten. Besondere Freude dürften Webmaster haben, die beispielsweise eine Suche für die eigene Webseite anbieten (wie beispielsweise nahezu jedes CMS). Hier werden reihenweise unnötige Seiten mit internem DC in den Index geschaufelt. Die Quantität steigt, die Qualität nicht wirklich.

David   
2. Februar 2009, 17:01

Ich hab bisher bei meinen Seiten nur unsinnige Suchen im Index gefunden. Das Problem ist, dass man erstmal sauber 404er auf den von google generierten Seiten braucht damit sie dann wieder ausm Index kommen.
Ich habe auf einer Seite ein Kategoriensystem, Hauptkategorie und eine Unterkategorie und die sind nicht über eine Suche generierbar. Selstsamerweise hat Google mehrere Kombinationen aus Haupt- und Unterkategorien gemischt. Das gaze obwohl ich sprechende Urls habe und keine einzige Variable in der gesamten Urlstruktur…
Meiner Meinung nach klappt das noch gar nicht automatisch. Zumindest bei meinen Seiten nicht 😉

Black Friday   
2. Februar 2009, 17:30

Google macht da meiner Meinung nach grossen Unsinn. Bei mir habe ich das erst über eine Site: Abfrage gemerkt damals. Lauter DC im Index. Das haben die doch gar nicht im Griff

Loewenherz   
2. Februar 2009, 18:27

Ich finde diese Geschichte ebenfalls idiotisch. Webmaster, die ihre Seiten in den Index bekommen wollen, sollen für Lösungen sorgen – ist nicht wirklich schwer und man kann es kontrollieren. Mich nerven automatisierte Abfragen, Kontaktanfragen etc. jedenfalls. Einmal wieder ein Beispiel für die Bevormundung durch Google, gegen die man sich zusätzlich schützen muss – unnötiger Aufwand.

Johannes   
2. Februar 2009, 18:40

Ich kann Google irgendwie schon verstehen. Hätte Google beim „normalen“ Web darauf gewartet, dass sich jeder Seitenbetreiber zuerst einträgt, damit die Seite gecrawlt wird, gäb‘ es Google heute nicht mehr. Gerade irgendwelche wissenschaftlichen Datenbanken legen von sich aus keinen Wert drauf, dass Google die Inhalte crawlen muss => also wird Google selber aktiv.

David   
2. Februar 2009, 19:26

@Johannes
Ursprünglich ging es ja glaube ich auch vor allem um die wissenschftlichen Datenbanken. Irgendwelche internen Suchen von beliebigen Websites als Deep Web zu bezeichnen find ich auch sonderbar.
Eine Möglichkeit wärs doch schonmal, wenn google vorher schaut, ob es eine sitemap gibt. Wenn dies der Fall ist, dann kann schon eher davon ausgegangen werden, dass es bei dieser Seite unsinniger wäre Formular zu befüllen, geschweigedenn eigene Url Kominationen auszuprobieren.
Das google von sich aus aktiv wid finde ich auch nur konsequent, aber nicht mit solchen Ergebnissen live gehen.

der-Heiko   
3. Februar 2009, 05:20

MoinMoin,
also ich finde es auch äußerst Interessant, sehe die Sache jedoch eher Kritisch und das nicht nur aus SEO / Seitenbetreiber Sicht.

Allein, wenn ich an grosse Foren denke mit Kalender, XY Settingsoptionen, etc. Ich vermute mal, dass es so auch ungewollt schnell mal zu tausenden Seiten DC kommt. Der Webmaster wird sich bedanken…

Auch in Hinsicht Security ist das mal blöd, weil schon Einiges getan wird um Hackingversuche in Textfeldern zu filtern (traue keiner Usereingabe). Die Eingabeversuche des Bots könnten so auch schnell mal als Hackingangriff interpretiert werden ( Injections) was genau genommen gar nicht so abwegig ist. Nach Absenden des Formulars werden Daten in die DB geschrieben und an der Stelle versucht diese Technik die zurück gegebenen Daten wieder mitzuschneiden.

Aber gut, vielleicht bin ich da auch einfach nur paranoid, es hat ja Jeder so seine eigenen Wahnvorstellungen 🙂

Grüssle Heiko

Marokus   
3. Februar 2009, 12:03

Ich sehe das als sehr kritisch mitunter Copyright Inhalte zu crawlen. Das hat neben vermeintlichen den Hacking-Angriffen der Bots (nichts anderes ist dies, wenn automatisiert Sinn- u. Wahlos Formulare ausgefüllt werden) rechtliche Folgen.
Es kann kein Interessesein Rechtlich Geschützte Werke zu kopieren und frei zu verwenden um damit letztendlich Geld verdienen zu wollen.

Warum hätten sie sonst Interesse solche Aufwände zu betreiben? Aus reiner Menschenliebe sicherlich nicht.

SEO   
3. Februar 2009, 17:23

Wieso so geheimnisvoll? „diverse Maßnahmen in Eigenverantwortung“. Sag doch einfach „durch das Anlegen und Übermitteln einer Sitemap“. Gruß

Elfriede Schneckenbichler   
3. Februar 2009, 17:24

Wenn Google auf einen Schlag der Durchbruch zum Deep Web gelingt (wie am Ende von Matrix III) dann wird der Index ja komplett überflutet. Durch die neuen Deep Web Contents könnte es dann zu einer massiven Neuverteiling in den SERPs kommen, da in den Tiefen vielleicht die besseren, sprich relevanteren Contents liegen. Oder geht da meine Fantasie mit mir durch?

Johannes   
3. Februar 2009, 23:17

SEO, weil es eben mehr ist als das schlichte Anlegen einer Sitemap. Deswegen auch das Wort „diverse“.

Elfriede :-), ich bin auch davon überzeugt, dass hinter den ganzen Formularen Unmengen toller Content liegt und genau das wird Google auch treiben, da selber aktiv zu werden. Diese Bereitstellung für Suchmaschinen wird derzeit hauptsächlich von kommerziellen Beitreibern umgesetzt, weil die sich davon Profit versprechen. Die ganzen kostenlosen und öffentlichen Datenbank sind noch längst nicht soweit – wenn sie es denn je sein werden.

Martin   
4. Februar 2009, 00:27

Wenn neue Kontinente entdeckt werden, passiert mit den alten natürlich etwas. Ich sehe das ganze einfach mal positiv.

Ralph   
7. Februar 2009, 13:34

@Martin: Eine sehr interessante Argumentation bzw. Sichtweise mit den Kontinenten.

Die Frage stellt sich mir, welche Maßnahmen werden von Website-Betreibern ergriffen, um das Vertrauen ihrer Nutzer nicht zu verlieren, wenn sich durch diese Maßnahmen von Google interne Probleme ergeben? Kommt es hier zu einem neuen Wettstreit Google vs. Website-Betreibern jeglicher Art?

Ralph

Widget68   
11. Februar 2009, 18:03

Wie Google das Deep-Web durchsucht – SISTRIX Suchmaschinen- & SEO-Blog (via FriendFeed) http://tinyurl.com/d739bp

El   
18. Juli 2009, 19:27

Ich finde, das vor allem durch das Absenden des Formulares unnützer Traffic entsteht. Man sollte von vornherein jedegliche Formularseiten ausschließen von den SUMA’s

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.

Kostenlosen Testaccount jetzt aktivieren

Aktiviere jetzt deinen kostenlosen Testaccount für die SISTRIX Toolbox. Garantiert ohne Kosten und unverbindlich. Jetzt aktivieren!