Crawling und Indexierung umfangreicher Webseiten

21. August 2013, 10:40

Sobald Webseiten den typischen Umfang einer privaten Homepage übersteigen, gibt es zahlreiche neue Herausforderungen. Eine davon ist, dass die vorhandenen Inhalte möglichst vollständig und aktuell in den Google-Index gehören. Was sich so einfach anhört, birgt gerade bei sehr großen Webseiten, deren Inhalte aus zahlreichen unterschiedlichen Datenbanken und von verschiedenen Zulieferern kommen, ungeahntes Potential für schwerwiegende Fehler.

Da sogar bei Google die Ressourcen für das Erfassen und Speichern von Webseiten begrenzt sind, nutzt Google hierfür individuelle Begrenzungen pro Domain: wie viele URLs werden pro Tag gecrawlt, wie viele dieser Seiten davon dürfen in den Googleindex? Umfangreiche Webseiten stoßen schnell an diese Grenzen. Daher ist es wichtig, die verfügbaren Ressourcen möglichst intelligent und produktiv einzusetzen. In diesem Blogposting möchte ich kurz die Hintergründe erläutern, mögliche Verfahren zur Steuerung vorstellen und ihre Vor- und Nachteile aufzeigen.


Crawling-Budget & Index-Budget

Auch wenn diese beiden Begriffe inhaltlich eng zusammenhängen, gibt es doch wichtige Unterschiede. Um diese zu verstehen, schaut man sich den schematischen (und vereinfachten) Aufbau einer Internetsuchmaschine an:

graphic-blog02

Damit Inhalte einer Domain überhaupt die Chance haben, für einen gesuchten Begriff in die engere Auswahl des Ranking-Algorithmus zu kommen, müssen sie zuerst durch den Crawler gefunden sowie erfasst und schließlich in den Index aufgenommen werden.

Google hat für das Verhalten des Googlebot einige Annahmen getroffen, die dafür sorgen, dass der Googlebot zwei Ziele erreicht: neue Inhalte schnell zu finden und tief in der Seite versteckte Inhalte zuverlässig auszulesen. In welchem Umfang Google hierbei vorgeht, hängt vom Crawling-Budget der Domain ab. Google hat bislang Vorstöße zur Gleichstellung aller Domains abgewehrt und weist jeder Domain ihre eigenes Crawling-Budget zu. Dieses Crawling-Budget bestimmt maßgeblich, wie häufig der Googlebot die ersten Ebenen einer Domain crawlt und wie tief ein regelmäßigen “Deep-Crawl” der Domain stattfindet.

Ähnlich sieht es mit dem Index-Budget aus: dieses bestimmt die maximale Anzahl der URLs einer Domain, die in den Google-Index aufgenommen werden. Wichtig ist im Hinterkopf zu behalten, dass nur URLs, die regelmäßig vom Crawler erfasst werden, auch dauerhaft im Index bleiben werden.

Deine Feinde: Webentwickler, JavaScript und allgemeines Chaos

In der Theorie könnte die Welt so einfach sein: jedes inhaltlich zusammenhängende Stück Content hat genau eine, logische und sprechende URL. Die URL bleibt für die nächsten Jahrzehnte bestehen. Die Praxis sieht leider oft anders aus: Webentwickler bauen mal eben die dritte Druck-Version des Artikels, der Googlebot lernt wieder etwas JavaScript und erfindet damit komplett neue URLs und nach dem dritten CMS-Relaunch in zwei Jahren ist von dem ursprünglichen URL-Konzept auch nicht mehr viel übrig. Allen Problemen gemein ist, dass sie zu einem Effekt führen: Google wird die URLs crawlen und damit Crawling-Budget der Domain verbrauchen. Gerade bei umfangreichen Projekten wird diese Crawling-Power häufig an anderen Stellen fehlen. Das kann dazu führen, dass die Domain nicht die ihr maximal zugestandene Seitenanzahl im Google-Index belegt und somit unterhalb ihres möglichen Longtail-Potentials bleibt.

Panda- & Duplicate-Content-Schreck: Indexhygiene

Es sollte mittlerweile deutlich geworden sein, dass eine gezielte Steuerung von Crawling sowie Indexierung einer Domain bei umfangreichen Webseiten nahezu unumgänglich ist. Als Bonus ergeben sich dadurch sogar noch weitere Vorteile. So bemüht Google sich zwar seit Jahren zu beteuern, dass Duplicate-Content für sie überhaupt kein Problem darstelle, die Realität spricht jedoch leider eine andere Sprache. Ordnung und Systematik im Crawling helfen dabei, mögliche interne Duplicate-Content-Probleme früh zu erkennen und gegenzusteuern. Und auch bei einem der pelzigen Schreckensverbreiter können eher wenige, dafür qualitativ hochwertige Inhalte im Index helfen: Google Panda.

Wähle Deine Waffen: robots.txt, noindex, canonical

Soweit zur Theorie, jetzt kommt die Praxis: wie halte ich meine Domain sauber? Zum Glück gibt es mittlerweile ein sehr großes und umfangreiches Arsenal an Werkzeugen, um zum Ziel zu kommen. Ich möchte die wichtigsten mit ihren Vor- und Nachteilen kurz vorstellen.

Robots.txt-Datei

Anweisungen in der robots.txt-Datei sind das älteste Instrument, um Suchmaschinen am Besuchen von bestimmten Inhalten zu hindern. War die Syntax anfangs noch recht simpel, hat insbesondere Google mittlerweile zahlreiche Erweiterungen implementiert und ermöglicht so die Abdeckung fast aller Fälle. Der Vorteil der robots.txt: der Googlebot wird die so gesperrten Inhalte gar nicht erst besuchen, es fällt also kein Crawling-Budget an. Der Nachteil: wenn Google davon überzeugt ist, dass die Inhalte trotzdem wichtig sind (weil beispielsweise viele externe Links auf genau diese URL zeigen), wird die URL trotzdem in den SERPs angezeigt – nur ohne Titel und Snippet.

Noindex-Anweisung

Die Noindex-Anweisung bezieht sich immer auf eine spezifische URL. Sie kann entweder als Meta-Tag im HTML der Seite hinterlegt werden oder aber im HTTP-Header stehen. Letzteres ist insbesondere für andere Dateiformate wie PDF- oder Word-Dokumente interessant. Um die Noindex-Anweisung beachten zu können, muss der Googlebot die URL zuerst einlesen. Dafür wird Crawling-Budget verbraucht, allerdings kein Index-Budget. Noindex ist die einzige zuverlässige Methode um sicherzustellen, dass eine URL unter keinen Umständen in den SERPs erscheint. Dabei bitte darauf achten, dass Google die Anweisung auch lesen kann, die URL also nicht zusätzlich in der robots.txt gesperrt ist.

Canonical-Hinweis

Direkt vorneweg: es gibt nur sehr wenige legitime Anwendungsfälle für den Einsatz des Canonical-Hinweis. Schlägt ein Webentwickler den Einsatz vor, liegt das in der Regel daran, dass das eigentliche Problem nicht gelöst werden soll, sondern die Auswirkungen mit dem Canonical-Tag nur abgeschwächt werden. Der Canonical-Tag ist nicht, wie robots.txt und Noindex, eine verbindliche Anweisung an Google, sondern lediglich ein Hinweis unter welcher URL sich die Inhalte finden lassen. Häufig folgt Google diesem Hinweis, aber natürlich nicht immer. Seiten mit dem Canonical-Tag verbrauchen Crawling-Budget, damit Google den Tag finden kann und sehr wahrscheinlich auch Index-Budget, so dass Google die Inhalte auf der Seite mit anderen Inhalten im Index abgleichen kann. Zum Abschluss: Finger weg vom Canonical-Tag wo es nur geht.

Monitoring ist Pflicht

Beim Crawling großer und dynamisch gewachsener Seiten gibt es nur eine Konstante: alle Fehler, die irgendwie passieren könnten, werden definitiv passieren. Daher ist eine regelmäßige Kontrolle aller wichtigen Parameter unerlässlich. Google bietet in der Search Console mittlerweile wichtige Unterstützung dabei: Anzahl der gecrawlten und indexierten Seiten sollte ein Pflicht-Indikator sein. Aber auch ein Faible für das Lesen von Serverlogfiles und der gekonnte Umgang mit Shell-Werkzeugen ist hilfreich. Sei mir noch der Hinweis erlaubt, dass auch unsere Toolbox Aufgaben zur Kontrolle übernehmen kann.

Dieser Beitrag hat 14 Kommentare

 

[…] SISTRIX: Crawling und Indexierung umfangreicher Webseiten […]

 
Andre
  22. August 2013, 11:47

Hi Johannes,
der unlautere Wettbewerb nimmt bei Google weltweit noch nie dagewesene Ausmaße an. Es werden eigene Ergebnisse / Angebote bevorzugt und Seiten die nicht für Google von Vorteil sind abgwertet. Dabei nimmt man auch keine Rücksicht auf die Informationen, die dem Nutzer dabei vorenthalten werden. Es betrifft Reiseseiten, Kartendienste, Videoportale, Preisvergleiche, sowie jeden anderen Markt in den Google seine Fühler ausstrecken will. Begründen tut Google das dann auch gerne mal Alternativ mit Linkspam, wenn es gerade fü die passt.

Die Indexierungsgeschwindigkeit der Seiten ist da nur ein Bereich. Beispiel: Um 1.170.000.000 Seiten von Youtube in den Index zu bekommen, bräuchte man mit einem normalen Seite ca. 100.000 Jahre und das auch nur, wenn unsere Seiten einen Mehrwert bieten, was man bei 70% der Youtubevideos nicht behaupten kann ! Fairer Wettberwerb sieht für mich anderes aus!

http://www.fairsearch.org oder http://www.i-comp.org organsieren sich, damit wir uns alle nicht in Zukunft nen anderen Job suchen müssen oder das Internet bald nicht nur noch aus Google besteht. Die Europäische-Kommision, die http://www.ftc.gov und weitere internationale Behörden nehmen sich dem Problem des unlauteren Wettberwebs schon seit 2010 an und suchen nach Lösungen.

 
  22. August 2013, 12:59

Hi Johannes,

freut mich, dass mal das Canonical Thema in dem Zusammenhang die entsprechende Erwähnung findet.
Ich predige meinen Kunden schon seit dessen Einführung Canonical so wenig wie möglich zu nutzen, da es einfach unzuverlässig ist & leider oft einfach auch falsch (schon als Shop-Grundeinstellung) verwendet wird.

Leider haben es ja die meisten relevanten Shopsysteme mittlerweile als Allheilmittel an Bord. Deine Argumente bzgl. Crawling- & Indizierungsbudget sind hilfreich, um Shop-Entwicklern zu vermitteln, dass Canonical bestenfalls ne Krücke oder Notlösung ist, wenn Noindex & Co nicht umgesetzt werden können …

 
  22. August 2013, 19:39

Der Hinweis auf die canonical Thematik im Bezug auf das Crawling finde ich spannend. Werde hier mehr darauf achten. Bisher hatte ich canonical auch oft als Standard zusätzlich mit angegeben. Selbst wenn beide URL identisch sind.

 
  23. August 2013, 08:41

Gerade im E-Commerce ist die Problematik der vielen Seiten sehr häufig gegeben, daher ein interessanter Artikel. Die Frage: bezieht sich das Domainbudget wirklich ausschließlich auf die Hauptdomain oder kann man durch den gezielten Einsatz von z.B. Subdomains das Budget ein wenig erweitern? Gibt es dazu gesicherte Erkenntnisse?

 

[…] Crawling und Indexierung umfangreicher Webseiten – Sobald Webseiten den Umfang einer privaten Homepage übersteigen, gibt es zahlreiche neue Herausforderungen. Eine davon ist, dass die vorhandenen Inhalte vollständig in den Google-Index gehören. Weiter… […]

 
  27. August 2013, 18:04

Schöner Blog – lese immer wieder gerne hier und muss euch mal ein Kompliment aussprechen.

 
  27. August 2013, 23:25

Ich kann mich meinem Vorredner nur anschließen. Kann toller Blog wo nicht nur viel Gerede und Vermutungen stehen, sondern erstklassige Beiträge die Hand und Fuß haben. Weiterhin ist der Hinweis von Andre super! (fairsearch.org) Werde mich in die Thematik gern einlesen. Ihr von Sistrix macht weiter so!

 
  5. September 2013, 16:43

Sehr guter Artikel, ich werde wohl öfter hier vorbeischauen 🙂

 
  19. September 2013, 11:51

Ups, das war aber mal sehr Interessant, vor allem wenn man sich nicht mit Suchmaschinen beschäftigt und die Seite die man hat langsam aber sicher immer größer wird.

Mal schauen, wie weit das schon für meine Seite zutrifft und welche Ausmaße das hat für mich 😉

 
  18. Oktober 2013, 14:53

Hallo Johannes,

danke für den ausführlichen Artikel. Was bedeutet für Dich in diesem Zusammenhang „umfangreich“? Sind das 50 Seiten? 100 Seiten? 1000 Seiten? Zählen dazu auch verschiedene Sprachvarianten (z.B. 50 Seiten x 5 Sprachen = 250 Seiten)?

Wäre schön, wenn Du das noch ein wenig eingrenzen bzw. definieren könntest.

 

[…] Sistrix-Blog: Crawling und Indexierung umfangreicher Webseiten […]

 
  8. Dezember 2013, 10:48

Immer wieder gut … und lesenswert!

 
  29. Dezember 2013, 22:23

Interessanter Beitrag hat Spaß gemacht ihn zu lesen.

LG

Himsed

 

Kommentare geschlossen

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.