Warum werden nicht alle URLs gecrawlt?

In manchen Fällen erfasst der Crawler des Optimizers nicht alle URLs, die man erwartet hätte. Oft liegt das aber nicht an einem Fehler, sondern ist eine Frage der Einstellungen. In solchen Fällen hilft es die Crawling Einstellungen unter “Einstellungen > Crawling” durchzugehen und ggf. anzupassen. Die wichtigsten Punkte, die es dabei zu beachten gilt findest du unten aufgeführt.

Projekt Einstellungen

Welchen Projektumfang hast du eingestellt ?

Prüfe zunächst, welchen Projektumfang du gewählt hast, sollte es sich dabei zum Beispiel um ein Verzeichnis handeln, werden Inhalte aus anderen Verzeichnissen ignoriert. Als Projektumfang kann nämlich, ein Verzeichnis, ein einzelner Host oder die ganze Domain definiert werden.

Hast du eine Startseite angegeben?

Der Crawl beginnt zwar fast immer mit der Startseite einer Domain, der Weg den der Crawler einschlägt, kann aber, je nach Erreichbarkeit der Seiten, von Crawl zu Crawl variieren. Um dem Crawler einen weiteren Einstiegspunkt an die Hand zu geben, kann man unter “Onpage-Crawler: Experteneinstellungen > Weitere Startseiten” eine URL hinterlegen, die der Crawler als zusätzlichen Einstiegspunkt für den Crawl verwendet.

Crawling Umfang

Ist das Kontingent der abzufragenden URLs hoch genug?

Als nächstes solltest du sicherstellen, dass der “Crawling Umfang” ausreichend hoch angesetzt ist. Bei einer kleinen, lokalen Seite mögen 25.000 Request noch mehr als genug sein, für einen mittelgroßen Shop ist das aber oft schon zu wenig. Sollte dein Projekt etwas größer sein, kann der Beitrag zum Crawling und Indexierung umfangreicher Webseiten vielleicht auch interessant sein.

Crawling-Quellen

Steht dem Crawler eine Sitemap zur Verfügung?

Nicht immer wird in der robots.txt auf eine Sitemap verweisen. Du kannst jedoch unter “Onpage-Crawler: Experteneinstellungen“ die Funktion  „XML‑Sitemap” aktivieren und in der Zeile darunter eine Sitemap eintragen, um so die Abdeckung des Crawls zu verbessern.

Willst du darüber hinaus mehr Quellen berücksichtigen?

Schließlich kannst du, sofern du neben dem Optimizer noch ein anderes Modul nutzt oder eine Anbindung an die Google Search Console eingerichtet hast, weitere “Crawling-Quellen” berücksichtigen. Gibt es zum Beispiel eine nicht intern verlinkte URL, hast du hier die Möglichkeit diese sichtbar zu machen.