Googlebot füllt Formulare aus

Johannes Beus
Johannes Beus
11. April 2008
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Ein Beitrag im Webmaster Central Blog von Google bestätigt ein Gerücht, dass so schon seit einiger Zeit zu hören ist: der Googlebot füllt unter bestimmten Umständen selbständig HTML-Formulare aus und crawlt die zurückgegebene Seite. Bislang waren Formulare aus SEO-Sicht komplett bedeutungslos; Suchmaschinen haben sie seit jeher ignoriert. Google möchte mit diesem Schritt nun einen Teil des „Deep-Webs“, also jenes Teil des Internets, der in Datenbanken und hinter Formularen versteckt ist und so bislang für Suchmaschinen unerreichbar war, entdecken und indexieren.

Ein Interessanter Schritt, der – wenn er in Zukunft ausgeweitet und konsequent umgesetzt wird – sicherlich einen großen Einfluss auf die tägliche SEO-Arbeit haben wird. Ist gerade bei umfangreicheren, datenbankgetriebenen Seiten derzeit die „Sichtbarmachung“ der Inhalte eine der Hauptaufgaben der Suchmaschinenoptimierung, könnte sich dies reduzieren und eventuell sogar überflüssig werden. Etwas kritisch sehe ich allerdings, dass Google auf der einen Seite keine „SERPs in SERPs“ haben möchte, potentielle Suchen nun aber selber ausführt und indexiert – hier bin ich gespannt, wie das gehandhabt wird.

Ähnliche Beiträge
Kommentare
Manuel Hirsch   
11. April 2008, 23:44

Ist der Googlebot der, der mir die ganze Zeit V1@gr@ links spammt? (Scherz). Die sollen blos aufpassen, dass sie nicht auf allen möglichen Blacklists landen mit dieser Methode.

Jetzt wieder ernsthaft: Was füllt er denn so aus, der Googlebot? Random keywords? Sachen, die Toolbar-Benutzer verwendet haben?

Ich kann das so wirklich nicht gutheissen…

Markus   
12. April 2008, 03:00

Das ist ja echt mal interessant. Würde auch mal gerne wissen was der Inhalt der Formulare ist und ob Google auch versucht den Spamschutz /Catchpa zu umgehen.

Black Friday   
12. April 2008, 08:03

Wenn man Matt Cutts Post ein wenig liest, dann wird klarer, um was es geht. Google will einfach Links finden zu Seiten, die noch nicht indexiert sind. Er sagt auch, dass die Suchergebnisse natürlich nichts im Index zu suchen haben, jedoch die Seiten, die da über Links zu finden sind, eventuell ja doch. Pseudo Sumas werden da sowieso keine Chance haben, da Google ja auch schreibt, dass nur trusted Sites auf diese Weise abgegrast werden sollen. Ich vermute mal, dass es um schlecht intern verlinkte Uniseiten geht.

Sascha   
12. April 2008, 10:43

Gegen das WordPress Problem mit den indexierten Suchergebnissen sollte man mal bei texto.de/texto/seo-wordpress-doppelter-content-feeds-aus-suchergebnissen/ vorbei schauen. Die Tests scheinen sich aber nicht nur auf trusted Sites zu beschränken. Selbst einige frische WordPress Installationen mit Suchbox werden direkt mit Anfragen versorgt.

Johannes   
12. April 2008, 08:53

Dass Google keine Suchergebnisse im Index haben will, sie jetzt aber selber generiert, sehe ich als Problem. Bislang hat man URLS, die durch Formulare generiert wurden nur recht selten in den robots.txt ausgeschlossen, da Suchmaschinen sie ja sowieso nicht finden würden. Wenn ich mir jetzt aber eine Site-Abfrage wie diese hier ansehe, könnte es passieren, dass sich viele Seitenbetreiber in Zukunft in irgendwelchen DC/SERPS-in-SERPS/Etc-Filtern wiederfinden, weil Google die Spielregeln geändert hat.

Black Friday   
12. April 2008, 12:42

Diese Suchergebnisse wie bei seoroi.com hatte ich neulich selbst in einem Blog. Hatte es allerdings auf eine externe Verlinkung der Suche von irgendeinem Banditen geschoben gehabt. Dass der Googlebot da selbst Schindluder treibt, hätte ich nicht gedacht.

IT intouch News   
12. April 2008, 13:03

Sehr ineteressant was Google dort in seinem offiziellen Webmaster Blog verlauten lässt. Demnach soll es dem Google Bot bald schon möglich sein Formulare selbstständig auszufüllen und den zurückgelieferten Inhalt in seinem Index aufzunehmen. Webseitenbetreibern könnte diese Technologie aber auch ein Dorn im Auge sein.

Uwe   
12. April 2008, 22:32

Währe auch eine tolle Sache für Webshops um den Umsatz anzukurbeln.
🙂

freezerlein   
12. April 2008, 23:19

Die ganze Zeit war es nur ein Gerücht und ich hoffte insgeheim das es dabei bleiben würde. Freuen kann ich mich darüber nicht wirklich..

Aber solange Google das was in der Robots.txt steht beachtet, bin ich zufrieden und kann ruhig schlafen 🙂

Robert Fischer, Inhaber   
13. April 2008, 11:51

Prinzipiell sicherlich eine interessante Sache bei Webseiten mit sehr umfangreichen Datenbanken, die bislang praktisch nur über eine Suche erreichbar sind. Aber:

1) Werden so kaum alle vorhandenen Inhalte darüber in den Index gelangen, da der Googlebot ja nur „n“ Anfragen über das Formular stellt und somit nur ein kleiner Teil der Ergebnisse sichtbar wird.

2) Möglicherweise Duplicate Content erzeugt wird, wenn die Inhalte bereits über eine Navigationsformen, wie z.B. Kategorien oder Tags bereitgestellt werden.

3) Möglicherweise massenhaft Formulare ausgefüllt werden, die nichts mit einer Suche zu tun haben, z.B. Callback- und Kontaktformulare, Newsletteranmeldungen, Bestellformulare etc. Sicherlich wird Google hier Methoden haben, anhand der Feldnamen/Formularziele den Sinn und Zweck des Formulares zu ermitteln. Diese Methoden/Kriterien sollte man aber besser auch veröffentlichen, so dass man hier keine Probleme für die Webmaster erzeugt.

Xel   
14. April 2008, 00:27

Tja – also ich weiß ja nicht…

Zitat W3C:

The „get“ method should be used when the form is idempotent (i.e., causes no side-effects). Many database searches have no visible side-effects and make ideal applications for the „get“ method.

If the service associated with the processing of a form causes side effects (for example, if the form modifies a database or subscription to a service), the „post“ method should be used.

Soll heißen, wer sich an den Sinn der Methoden zurückerinnert hat hat keine Probleme. Schade eigentlich, dass die meisten das nicht tun. Aber man könnte jetzt auch sarkastisch sagen: Wurde auch Zeit, dass die endlich mal eins auf den Deckel bekommen und lernen, dass man Code nicht einfach nur schreiben sondern auch verstehen sollte – und dass Codequalität nicht nur durch die tatsächliche Funktion nachweisbar ist.

Soll ich das jetzt positiv sehen oder nicht – ich weiß es nicht. Glücklicherweise halte ich mich schon länger peinlichst genau an solche Sachen, so dass ich da noch relativ gut schlafen kann. Das dürfte aber nicht für jeden Progger gelten… Ansonsten – mal schauen, was das neues bringt…

Positiv: Es könnte auch mal ne Maßnahme sein um festzustellen, was für Google denn nun wirklich alles DC ist, denn angeblich nehmen sie ja nur Unique Content auf 😉

Alex

DRISOL   
14. April 2008, 15:43

Wie im Google Webmaster Central Blog zu lesen  ist, testet Google schon bereits seit ein paar Monaten das Spidern von Seiten, die sich hinter einem HTML-Formular verstecken. Dabei versucht der Googlebot herauszufinden, was der Besucher der jeweili…

Websiteplanung   
15. April 2008, 18:08

Es kursierte bereits seit längerem das Gerücht das der Google auch Formulare ausfüllen kann und nun hat der Webmaster Central Blog von Google bestätigt.
Mit den Schritt auch Formulare in Webseiten zu erkennen und zu benutzen geht …

Wolfi   
15. April 2008, 23:36

Interessante Tatsache – aber wie soll dann noch nachvollziebar bzw. bewertbar sein, ob es sich um Spamming oder einfach nur Datenmuell handelt.

Bleibt abzuwarten, ob sich Google mit dem Formular-Spidern nicht selbst ein Ei legt und von selbst damit wiedre aufhoert.

Hirnhamster   
23. April 2008, 00:15

Da fragt man sich, wie Links bewertet werden, die durch so eine Anfrage ausgespuckt werden. In den meisten Fällen lässt sich ja jede Suchanfrage aus der URL extrahieren und wenn diese dann als Eigenständige Seite gewerte wird, müssten entsprechend auftauchende Links ja auch gewertet werden…

luzie   
23. April 2008, 08:56

hmm … der bot füllt formulare aus? ich kann das weiterhin NICHT glauben und halte das einfach für eine fehlinterpretation von ungenauen beobachtungen … (vorerst). schon eher glaube ich, dass sie den usern mittels google-spybar hinterherschnüffeln. oder sie machen’s über google-adspam? aber formulare ausfüllen … nä, wenn man’s durchdenkt ist das einfach zu unsicher, das kann nur ein heilloses durcheinander ergeben^^

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.

Kostenlosen Testaccount jetzt aktivieren

Aktiviere jetzt deinen kostenlosen Testaccount für die SISTRIX Toolbox. Garantiert ohne Kosten und unverbindlich. Jetzt aktivieren!