Webcrawler: Wie funktionieren sie?

Webcrawler sind Programme, die das Internet nach Inhalten durchsuchen und diese indexieren. Sie sind entscheidend für die Funktionsweise von Suchmaschinen. Hier gehen wir darauf ein, wie Webcrawler funktionieren und was das für SEO bedeutet. 

Ein Webcrawler wird auch als Spider bezeichnet, denn er bewegt sich mithilfe von Hyperlinks wie eine Spinne durch ihr Netz. Dabei sammelt er Informationen und legt daraus einen Index an. Nach diesem Prinzip funktionierte schon der erste Webcrawler, der ab 1993 unter dem schönen Namen World Wide Web Wanderer tätig war. Am bekanntesten sind Webcrawler als Crawler von Suchmaschinen. Sie lassen sich aber auch für andere Funktionen einsetzen.  

So funktionieren Webcrawler

Webcrawler erledigen automatisch vorher definierte und sich wiederholende Aufgaben. Damit handelt es sich bei ihnen um Bots. Abhängig von dem zugrundeliegenden Code werten sie unter anderem Hashtags und Keywords aus und indexieren URLs sowie Inhalte. Außerdem können sie im Zusammenspiel mit diversen Tools Daten vergleichen oder Verlinkungen aufrufen.

Grafik: Die Verarbeitung von Suchanfragen über Google

Arten von Webcrawlern

Am bekanntesten sind die Crawler von Suchmaschinen, die sogenannten Searchbots. Dazu gehört der Googlebot, den es in mehreren Versionen gibt. Die zentrale Aufgabe von Searchbots besteht darin, Content im Internet zu indexieren und ihn über Suchergebnisse für Nutzer verfügbar zu machen.

Anders ausgedrückt: Nur durch Crawler gibt es Suchergebnisse und nur das, was Crawler crawlen, taucht als Suchergebnis auf. 

Daneben werden Crawler unter anderem eingesetzt, um

  • Data Mining zu betreiben und zum Beispiel Adressen zu sammeln
  • Webanalyse zu betreiben
  • für Vergleichsportale Daten zu Produkten zu vergleichen
  • Nachrichten zu sammeln
  • fehlerhafte Inhalte ausfindig zu machen

Wichtig: Crawler sind nicht gleich Scraper. Während Webcrawler in erster Linie dazu dienen, Informationen auszulesen, zu analysieren und zu indexieren, entnehmen Scraper Daten von Webseiten, zum Beispiel für Fahrpläne, aber auch im Rahmen von Urheberrechtsverletzungen. 

Diese Bedeutung haben Crawler für SEO

Es gibt Möglichkeiten, das Crawling deiner Seiten durch Searchbots zu beeinflussen. Zum Beispiel kannst du sicherstellen, dass der Webcrawler alle wichtigen Inhalte findet und bestimmte Inhalte nicht crawlt oder nicht indexiert. Beides kann auch das Ranking positiv beeinflussen.

Außerdem gibt es Möglichkeiten, günstig auf das Crawl Budget einzuwirken. Dabei handelt es sich um die Zahl der Unterseiten, die Google pro URL crawlen kann und „möchte“. Man spricht in diesem Zusammenhang auch von Crawl Optimization oder Crawl Budget Optimierung. Durch eine solche Optimierung schaffst du die Voraussetzungen dafür, dass das Budget für alle URLs ausreicht. 

Bitte beachte: Google selbst hat in der Vergangenheit darauf hingewiesen, dass das Crawl Budget in den meisten Fällen problemlos ausreicht. Vor alle Besitzer kleinerer oder mittelgroßer Webseiten brauchen sich darum in aller Regel wenig Gedanken machen. 

Tipps für die Crawl Optimization

Um dem Webcrawler seine Arbeit zu erleichtern und das Crawl Budget zu optimieren, achte auf Folgendes:

  • Bevorzuge eine flache Seitenarchitektur mit kurzen Wegen.
  • Optimiere die interne Verlinkung
  • Verwende die robots.txt, um zu verhindern, dass der Webcrawler unwichtige Seiten crawlt. 
  • Stelle dem Crawler unbedingt eine XML-Sitemap zur Verfügung. 
  • Tracke das Crawling auf deinen Seiten. Nur so weißt du, was sich vielleicht noch verbessern lässt. 

Tipp: Trotz entsprechendem Eintrag in der robots.txt-Datei kann es passieren, dass die betreffende Seite von Google indexiert wird. Willst du eine Indexierung verhindern, bietet sich ein Noindex-Befehl an. 

14.09.2021