Seit sich Google, Yahoo und Microsoft 2006 auf das XML-Sitemap-Format geeinigt haben, gibt es regelmäßig Diskussionen über den (richtigen) Einsatz dieser Möglichkeit. Da eine aktuelle Veröffentlichung eines Google-Mitarbeiters in das Thema etwas Klarheit bringen kann, möchte ich sie hier zusammenfassen. In „Sitemaps: Above and Beyond the Crawl of Duty“ stellen Narayanan Shivakumar und Uri Schonfeld einige Überlegungen an, bei denen ich davon ausgehe, dass sie so oder in ähnlicher Form auch bei Google im Einsatz sind.
Laut der Veröffentlichung benutzen Ende 2008 bereits über 35 Millionen Domains mit einigen Milliarden URLs Sitemaps. Anhand von drei Domains werden unterschiedliche Methoden, die Sitemaps zu organisieren vorgestellt: Amazon.com legt für jeden Tag eine neue Sitemap mit neuen und geänderten URLs an, CNN hat Sitemaps für URLs, die heute, in dieser Woche und in diesem Monat geändert wurden und aktualisiert diese drei Sitemaps regelmäßig. Pubmed, eine Seite mit Medizinartikeln, hat kein wirkliches System, sondern eine Menge an Sitemaps, die in einer Index-Sitemap zusammengefasst und jeden Tag aktualisiert werden.
Wenn man sich den Crawl-Vorgang ansieht, so haben Suchmaschinencrawler hauptsächlich zwei Probleme: Zum einen müssen sie möglichst viele Seiten einer Domain abdecken. Das kann, wenn diese hinter Formularen oder Ajax versteckt sind, recht schwierig sein. Um die Wirksamkeit von Sitemaps bei diesem Problem zu beurteilen, nutzen die Autoren zwei Werte: a) Wie viele Seiten sind werden erfasst und b) wie viele „sinnvolle“ Seiten der Domain werden mit der Sitemap erfasst. Das messen sie unter anderem dadurch, wie viel des kompletten PageRanks einer Domain durch die URLs, die in der Sitemap stehen, abgedeckt wird. Gerade der zweite Wert ist interessant, da hier klassischer Duplicate Content, also Inhalte, die unter mehr als einer URL erreichbar sind und dazu führen, dass der Crawler jede Variante abrufen muss um die „richtige“ Version zu bestimmen, sichtbar wird. Bei der Pubmed-Seite kommen sie zu dem Ergebnis, dass der normale Crawlvorgang zu 63% effizient ist, der über die Sitemap zu 99%. Ähnliche Ergebnisse, wenn auch nicht ganz so extrem, ergeben sich auch bei weiteren Auswertungen.
Das zweite Problem der Suchmaschinencrawler ist, dass der Index aktuell gehalten werden muss, neue sowie veränderte Seiten also schnell erkannt und gecrawled werden müssen. Dazu vergleichen die Autoren die Anzahl der Seiten, die zuerst vom „normalen“ Webcrawler gesehen wurden mit der Anzahl, die über die Sitemap erkannt wurde. Bei einem Test mit über 5 Milliarden Seiten, die über beide Wege erreichbar sind, wurden 78% der URLs zuerst über die Sitemap-Methode gesehen. Ein Vergleich zwischen Pubmed und Cnn.com zeigt, dass je kleiner (Anzahl der Seiten) und wichtiger eine Seite ist, desto höher wird der Anteil der durch den normalen Webcrawler erkannten Dokumente, da der Robot auf dieser Art Seiten mit deutlich höherer Frequenz crawled als bei Archiven. Zum Schluss gibt an Suchmaschinenbetreiber noch den Hinweis, dass man Angaben in den Sitemaps nicht trauen sollte (ach) und einen Weg, wie man zwischen dem normalen Webcrawl und Sitemap-URLs gewichten kann.