Warum meldet der Crawler massenhaft 5XX Server-Fehler?

Du hast einen Onpage-Crawl gestartet und erhältst im Report plötzlich eine riesige Anzahl an 500 Internal Server Error, 502 Bad Gateway oder 503 Service Unavailable Meldungen? Wenn du die fehlerhaften Links jedoch manuell im Browser öffnest, lädt die Seite ganz normal?

Keine Sorge, das Tool ist nicht kaputt und deine Website ist für normale Besucher sehr wahrscheinlich auch weiterhin erreichbar. Hier erklären wir dir, warum dieser Fehler entsteht und wie du ihn mit zwei Klicks beheben kannst.

Die Ursache: Wenn der Crawler zu schnell ist

Ein 5XX-Statuscode bedeutet, dass das Problem auf der Seite deines Servers (Hosting) liegt. Aber warum passiert das nur beim Crawlen?

Wenn ein normaler Nutzer deine Website besucht, lädt er in der Regel eine URL. Der SISTRIX-Bot arbeitet jedoch anders: Um deine Seite möglichst schnell und effizient zu analysieren, ruft er viele URLs gleichzeitig ab.

Verfügt dein Server nicht über die nötigen Ressourcen (z. B. bei kleineren Hosting-Paketen) oder ist deine Datenbank nicht für solche plötzlichen Lastspitzen ausgelegt, „verschluckt“ sich der Server. Er ist kurzzeitig überlastet und bricht die Verbindung zum SISTRIX-Bot ab. Das Resultat ist ein 500er-Fehler in deiner Auswertung.

Sobald der Crawler weiterzieht, erholt sich dein Server meist innerhalb von Millisekunden wieder, weshalb du bei einem manuellen Test im Browser keinen Fehler feststellen kannst.

Die Lösung: Crawl-Verhalten anpassen

Wir müssen dem Crawler beibringen, deinen Server schonender zu behandeln. Das machst du, indem du die Lastverteilung in deinem Projekt anpasst. Es gibt dafür drei zentrale Stellschrauben in den Einstellungen.

Schritt 1: Gleichzeitige Anfragen reduzieren

  1. Öffne dein betroffenes Onpage-Projekt in der SISTRIX Toolbox.
  2. Klicke oben rechts auf das kleine Zahnrad-Symbol ⚙️ Einstellungen.
  3. Wähle im Inhaltsverzeichnis den Punkt Onpage-Crawler.
  • Anzahl gleichzeitiger Crawler: Dieser Wert bestimmt, wie viele unserer Bots im exakt selben Moment bei deinem Server anklopfen. Wenn hier ein sehr hoher Wert (z. B. 10 oder mehr) eingestellt ist, reduziere ihn auf 1 bis 3. Das nimmt die absolute Spitze der Server-Belastung heraus.

Schritt 2: Das Feintuning

Um den Server noch besser abzusichern, gehen wir nun eine Ebene tiefer:

  1. Wähle im Inhaltsverzeichnis nun den Unterpunkt Onpage-Crawler: Experteneinstellungen.

Hier findest du zwei weitere, sehr hilfreiche Optionen:

  • Crawl-Delay (Verzögerung): Das Delay ist die künstliche Pause (in Sekunden), die unser Bot zwischen zwei Seitenaufrufen einlegt. Erhöhe diesen Wert (z. B. auf 1 oder 2 Sekunden), um deinem Server zwischen den Anfragen mehr Zeit zum „Atmen“ und Verarbeiten zu geben.
  • Autothrottle (Automatische Drosselung): Unsere absolute Empfehlung! Wenn du diese Funktion aktivierst, verhält sich unser Crawler „intelligent“. Er misst während des Crawlens permanent die Antwortzeit deines Servers. Merkt das System, dass dein Server langsamer wird oder anfängt zu schwitzen, drosselt der Bot automatisch seine Geschwindigkeit, um einen 500er-Absturz von vornherein zu verhindern.

Der Kompromiss: Wenn du die gleichzeitigen Crawler reduzierst und das Delay erhöhst, wird der nächste Crawl-Durchlauf zwar insgesamt etwas länger dauern, dafür läuft er aber sauber durch und die 500er-Fehler verschwinden aus deinem Report.

Tipp für Profis: Wenn deine Website generell stark frequentiert ist, solltest du deine Analysen auf Zeiten legen, in denen deine Server ohnehin weniger belastet sind (z. B. nachts). Nutze dafür in den Projekt-Einstellungen einfach die Einstellung für Crawling-Zeitpunkt, um den Crawl beispielsweise jeden Montag um 02:00 Uhr nachts starten zu lassen.

Hat das dein Problem nicht gelöst? Wenn die Fehler trotz stark gedrosselter Geschwindigkeit weiterhin auftreten, könnte es sein, dass eine Firewall oder dein Hoster unsere IP-Adressen blockiert, sobald wir anfangen zu crawlen. Wie du das prüfst, erfährst du in unserem Artikel: SISTRIX wird blockiert (403 Forbidden/Firewall).