Warum werden im Projekt nicht alle URLs erfasst?

In manchen Fällen erfasst der Projekt-Crawler nicht alle URLs, die man erwartet hätte. Oft liegt das aber nicht an einem Fehler, sondern ist eine Frage der Einstellungen. In diesen Fällen hilft es, die Projekt-Einstellungen unter “Einstellungen > Crawling” durchzugehen und ggf. anzupassen. Die wichtigsten Punkte, die es dabei zu beachten gilt, findest du unten aufgeführt.

Inhaltsverzeichnis

Projekt Einstellungen
Welchen Projektumfang hast du eingestellt ?
Hast du eine Startseite angegeben?
Crawling Umfang
Ist das Kontingent der abzufragenden URLs hoch genug?
Crawling-Quellen
Steht dem Crawler eine Sitemap zur Verfügung?
Willst du darüber hinaus mehr Quellen berücksichtigen?

Projekt Einstellungen

Welchen Projektumfang hast du eingestellt ?

Prüfe zunächst, welchen Projektumfang du gewählt hast. Sollte es sich dabei zum Beispiel um ein Verzeichnis handeln, werden Inhalte aus anderen Verzeichnissen ignoriert. Als Projektumfang kann nämlich ein Verzeichnis, ein einzelner Host oder die ganze Domain definiert werden. So zum Beispiel

als Domain: sistrix.de

als Host: www.sistrix.de

als Verzeichnis: https://www.sistrix.de/tutorials/

Hast du eine Startseite angegeben?

Der Crawl beginnt zwar fast immer mit der Startseite einer Domain, der Weg, den der Crawler einschlägt, kann aber je nach Erreichbarkeit der Seiten von Crawl zu Crawl variieren. Um dem Crawler einen weiteren Einstiegspunkt an die Hand zu geben, kann man unter “Onpage-Crawler: Experteneinstellungen > Weitere Startseiten” eine URL hinterlegen, die der Crawler als zusätzlichen Einstiegspunkt für den Crawl verwendet.

Crawling Umfang

Ist das Kontingent der abzufragenden URLs hoch genug?

Als nächstes solltest du sicherstellen, dass der “Crawling Umfang” ausreichend hoch angesetzt ist. Bei einer kleinen, lokalen Seite mögen 25.000 Requests noch mehr als genug sein, für einen mittelgroßen Shop ist das aber oft schon zu wenig. Sollte dein Projekt etwas größer sein, kann der Beitrag zu Crawling und Indexierung umfangreicher Webseiten vielleicht auch interessant sein.

Crawling-Quellen

Steht dem Crawler eine Sitemap zur Verfügung?

Nicht immer wird in der robots.txt auf eine Sitemap verwiesen. Du kannst jedoch unter “Onpage-Crawler: Experteneinstellungen“ die Funktion „XML‑Sitemap” aktivieren und in der Zeile darunter eine Sitemap eintragen, um so die Abdeckung des Crawls zu verbessern.

Willst du darüber hinaus mehr Quellen berücksichtigen?

Schließlich kannst du noch weitere Quellen für URLs nutzen. Gibt es zum Beispiel eine nicht intern verlinkte URL, die aber bei Google rankt, kannst du sie mit der Einstellung „URL-Quelle: Google-SERPs“ für den Crawler sichtbar machen. In den Einstellungen deines Projektes findest du dazu:

URL-Quelle: Google-SERPs

URL-Quelle: Externe Links

URL-Quelle: Social-Likes

URL-Quelle: Google Search Console

Veröffentlicht: 18.02.2020