Du hast ein Onpage-Projekt angelegt, aber der Crawler kommt gar nicht erst über die Startseite hinaus? Oder dein Report zeigt für fast alle URLs den Fehlerstatus 403 Forbidden an?
Wenn deine Website im Browser ganz normal erreichbar ist, SISTRIX aber massenhaft 403-Fehler meldet, liegt das Problem fast immer an einem strengen Sicherheitssystem auf deiner Seite. Hier erfährst du, was dahintersteckt und wie du (oder deine IT-Abteilung) das Problem in wenigen Minuten lösen kannst.
Die Ursache: Eine Firewall sperrt unseren Bot aus
Der Fehlercode 403 Forbidden bedeutet übersetzt: „Zugriff verweigert“. Dein Server hat die Anfrage unseres Crawlers empfangen, verweigert ihm aber absichtlich die Antwort.
Der Grund dafür sind in der Regel Sicherheits-Plugins (wie Wordfence) oder Web Application Firewalls (wie Cloudflare, Sucuri oder strenge Firmen-Firewalls). Diese Systeme überwachen den Traffic auf deiner Website. Wenn unser SISTRIX-Bot anfängt, deine Seite zu crawlen, ruft er in kurzer Zeit viele URLs hintereinander ab.
Die Firewall erkennt dieses Verhalten, stuft unseren Bot fälschlicherweise als „Angreifer“ oder „schädlichen Traffic“ ein und blockiert ihn rigoros.
Die Lösung: SISTRIX auf die Whitelist setzen
Um deine Seite erfolgreich analysieren zu können, musst du deinem Sicherheitssystem mitteilen, dass der SISTRIX-Bot ein „guter Bot“ ist und Zugriff erhalten darf. Diesen Vorgang nennt man Whitelisting.
Damit deine IT-Abteilung oder Web-Agentur weiß, wen genau sie durchlassen muss, stellen wir feste Erkennungsmerkmale zur Verfügung.
Schritt 1: Feste IP-Adresse aktivieren (Wichtig!) Standardmäßig nutzt SISTRIX ein rotierendes Netzwerk von IP-Adressen. Da Firewalls am besten über feste IPs gesteuert werden, solltest du in deinem Projekt zunächst unsere statische IP-Adresse aktivieren:
- Gehe in der Toolbox in dein Projekt und klicke oben rechts auf ⚙️ Einstellungen.
- Wähle in der Navigation den Punkt Onpage-Crawler: Experteneinstellungen.
- Aktiviere die Option Feste IP-Adresse verwenden.
Schritt 2: Daten an die IT / Web-Agentur weitergeben Kopiere einfach den folgenden Textblock und sende ihn an die Person, die für das Hosting oder die Sicherheit (Firewall/Cloudflare) deiner Website verantwortlich ist:
Hallo IT-Team,
wir nutzen das SEO-Tool SISTRIX, um unsere Website auf technische Fehler zu crawlen. Aktuell wird der SISTRIX-Bot von unserer Firewall (oder unserem CDN) mit einem 403-Fehler blockiert.
Bitte setzt die folgenden Identifikationsmerkmale des Bots auf die Whitelist, damit der Crawler unsere Seite fehlerfrei auslesen darf:
- Erlaubter User-Agent: SISTRIX Crawler (oder Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/))
- Feste IP-Adresse (IPv4): 138.201.126.223 (Hinweis: Tragt hier die aktuelle feste IP ein, die in euren Einstellungen angezeigt wird)
Vielen Dank!
Kann ich den User-Agent auch ändern?
Falls deine IT-Abteilung aus Sicherheitsgründen keine neuen IP-Adressen freigeben möchte, gibt es noch einen Workaround: Du kannst unseren Crawler in den Experteneinstellungen deines Projekts „tarnen“.
Unter dem Feld User-Agent ändern kannst du den Crawler so einstellen, dass er sich gegenüber deinem Server beispielsweise wie der Googlebot ausgibt. Da der Googlebot von fast allen Firewalls automatisch durchgelassen wird, kann dies das 403-Problem ebenfalls schnell beheben. (Achtung: Einige sehr smarte Firewalls prüfen via Reverse-DNS, ob ein angeblicher Googlebot wirklich von Google kommt – in diesem Fall hilft nur das echte Whitelisting).