Wie gehen Suchmaschinen mit XML-Sitemaps um?

· 2. April 2009 · 17 Kommentare
Johannes Beus
Johannes Beus
Johannes Beus ist Gründer und Geschäftsführer von SISTRIX.

Seit sich Google, Yahoo und Microsoft 2006 auf das XML-Sitemap-Format geeinigt haben, gibt es regelmäßig Diskussionen über den (richtigen) Einsatz dieser Möglichkeit. Da eine aktuelle Veröffentlichung eines Google-Mitarbeiters in das Thema etwas Klarheit bringen kann, möchte ich sie hier zusammenfassen. In „Sitemaps: Above and Beyond the Crawl of Duty“ stellen Narayanan Shivakumar und Uri Schonfeld einige Überlegungen an, bei denen ich davon ausgehe, dass sie so oder in ähnlicher Form auch bei Google im Einsatz sind.

Laut der Veröffentlichung benutzen Ende 2008 bereits über 35 Millionen Domains mit einigen Milliarden URLs Sitemaps. Anhand von drei Domains werden unterschiedliche Methoden, die Sitemaps zu organisieren vorgestellt: Amazon.com legt für jeden Tag eine neue Sitemap mit neuen und geänderten URLs an, CNN hat Sitemaps für URLs, die heute, in dieser Woche und in diesem Monat geändert wurden und aktualisiert diese drei Sitemaps regelmäßig. Pubmed, eine Seite mit Medizinartikeln, hat kein wirkliches System, sondern eine Menge an Sitemaps, die in einer Index-Sitemap zusammengefasst und jeden Tag aktualisiert werden.

Wenn man sich den Crawl-Vorgang ansieht, so haben Suchmaschinencrawler hauptsächlich zwei Probleme: Zum einen müssen sie möglichst viele Seiten einer Domain abdecken. Das kann, wenn diese hinter Formularen oder Ajax versteckt sind, recht schwierig sein. Um die Wirksamkeit von Sitemaps bei diesem Problem zu beurteilen, nutzen die Autoren zwei Werte: a) Wie viele Seiten sind werden erfasst und b) wie viele „sinnvolle“ Seiten der Domain werden mit der Sitemap erfasst. Das messen sie unter anderem dadurch, wie viel des kompletten PageRanks einer Domain durch die URLs, die in der Sitemap stehen, abgedeckt wird. Gerade der zweite Wert ist interessant, da hier klassischer Duplicate Content, also Inhalte, die unter mehr als einer URL erreichbar sind und dazu führen, dass der Crawler jede Variante abrufen muss um die „richtige“ Version zu bestimmen, sichtbar wird. Bei der Pubmed-Seite kommen sie zu dem Ergebnis, dass der normale Crawlvorgang zu 63% effizient ist, der über die Sitemap zu 99%. Ähnliche Ergebnisse, wenn auch nicht ganz so extrem, ergeben sich auch bei weiteren Auswertungen.

Das zweite Problem der Suchmaschinencrawler ist, dass der Index aktuell gehalten werden muss, neue sowie veränderte Seiten also schnell erkannt und gecrawled werden müssen. Dazu vergleichen die Autoren die Anzahl der Seiten, die zuerst vom „normalen“ Webcrawler gesehen wurden mit der Anzahl, die über die Sitemap erkannt wurde. Bei einem Test mit über 5 Milliarden Seiten, die über beide Wege erreichbar sind, wurden 78% der URLs zuerst über die Sitemap-Methode gesehen. Ein Vergleich zwischen Pubmed und Cnn.com zeigt, dass je kleiner (Anzahl der Seiten) und wichtiger eine Seite ist, desto höher wird der Anteil der durch den normalen Webcrawler erkannten Dokumente, da der Robot auf dieser Art Seiten mit deutlich höherer Frequenz crawled als bei Archiven. Zum Schluss gibt an Suchmaschinenbetreiber noch den Hinweis, dass man Angaben in den Sitemaps nicht trauen sollte (ach) und einen Weg, wie man zwischen dem normalen Webcrawl und Sitemap-URLs gewichten kann.

Ähnliche Beiträge

Google wirft sistrix.de aus dem Index

[Um künftigen Verwirrungen vorzubeugen, das folgende Posting war ein Aprilscherz.] Heute Nacht, laut unserer internen Tracking-Tools um genau 01:33.07 Uhr hat Google offenbar unsere komplette Domain aus dem Index geworfen. Eine entsprechende Site-Abfrage hat dies soeben bestätigt: Auch der Test auf weiteren Datencentern hat daran nichts ändern können – sistrix.de […]

Johannes Beus
2. April 2009
Google Produktsuche: Quo Vadis?

Dem aufmerksamen Beobachter der verschiedenen Universal-Search-Integrationen wird in den letzten Wochen nicht entgangen sein, dass Google aktuell sehr viele unterschiedliche Möglichkeiten austestet. Dabei kommt jetzt auch ein Bereich dran, dem in den letzten Jahren sehr wenig Beachtung geschenkt wurde: die Google Produktsuche. Ende 2002 noch unter der Bezeichnung „Froogle“ gestartet, […]

Johannes Beus
2. April 2009
Google-SERPs: Längere Snippets, bessere Suchvorschläge

Google hat heute zwei Änderungen für einen Teil der SERPs angekündigt und auch direkt umgesetzt. Zum einen sollen die Snippets, also die Auszüge aus dem Seitentext in Zukunft länger als die bislang bekannten zwei Zeilen werden, wenn die Suchanfrage aus mindestens drei Worten besteht. Damit stellt man sich wohl auf […]

Johannes Beus
2. April 2009

Kommentare

Marco   
2. April 2009, 20:17

Das leidige Thema Sitemap. Wir haben bei einem unserer Projekte ein recht umfangreiches Forum und sind uns derzeit uneinig ob wir dazu monatlich eine Sitemap anlegen sollten. Bei Test-Crawls liefen die Crawler satte 33 Stunden durch bis alles indexiert war. Diesen Aufwand ständig betreibben? Ich bin ja dafür in diesem Falle keine Sitemap hochzuladen

Johannes   
2. April 2009, 20:25

Marco, ich glaube das Problem ist in dem Falle dann eher, wie ihr die Sitemap erstellt. Da die Daten des Forums in der Datenbank liegen ist es sicherlich deutlich einfacher, ein Script erstellen zu lassen, das die XML-Sitemap direkt mit Zugriff auf die Datenbank zusammenstellt und nicht den Umzug über einen HTTP-Crawler geht. So könnt ihr die Sitemap auch durchgehend aktuell halten.

Loewenherz   
2. April 2009, 22:48

Johannes, grade bei Foren (oder auch CMS) gibt es aber zuweilen das Problem, dass die internen URLs, die man aus der Datenbank generieren könnte, nicht optimiert sind – dafür sorgt erst die htaccess. Insofern bildet ein Crawlvorgang den Ist-Zustand 1:1 ab.

Profo   
3. April 2009, 00:09

@Loewenherz, die Foren-URLs über die htaccess zu bearbeiten ist ja aber eigentlich auch ein suboptimaler Zustand. Eine Sitemap-Strategie wäre vielleicht ein guter Anlass, das Rewriting vom htaccess hin zu PHP/Perl zu verlagern; und das dann gleich zum Erstellen der Sitemaps mitzunutzen…

@Johannes, danke für Link und Zusammenfassung!

Johannes   
3. April 2009, 09:07

Loewenherz, da geht denk ich was durcheinander. Die .htaccess macht ja nur die Umwandlung zwischen „SEO-Url“ auf „Parameter-Url“. Zur Erstellung der XML-Sitemap braucht man aber den anderen Weg und der ist üblicherweise irgendwie in die Foren-Logik eingebaut.

stormy   
3. April 2009, 09:17

Zum Thema Modrewrite und CMS. Wir handeln das bei unserem CMS so das wir einfach die Regulären Ausdrücke mit denen wir die URL´s in der hta umschreiben 1:1 in php übersetzen und so per Skript die Sitemap mit identischen URL´s generieren.

@Loewenherz. Genau dahin geht der Trend. Die URL´s direkt mit in die DB zu schreiben (siehe WordPress). Das ist wohl das optimaltest. Zumal der User so auch einfluß auf seine URL hat ohne dabei zwangsläufig Title, headline oder ähnliches als Rewrite-Regel vorgesetzt zu bekommen.

Marco   
4. April 2009, 11:21

Den letzten Satz finde ich etwas unverständlich: „Zum Schluss gibt an Suchmaschinenbetreiber noch den Hinweis, dass man Angaben in den Sitemaps nicht trauen sollte (ach) und einen Weg, wie man zwischen dem normalen Webcrawl und Sitemap-URLs gewichten kann.“

Johannes   
5. April 2009, 09:14

Marco, was möchtest du denn gerne genauer wissen?

Exi   
6. April 2009, 09:00

Hallo zusammen,

ist es jetzt besser eine rießen Sitemap mit allen URLs zu erstellen, oder nur eine Sitemap mit allen geänderten URLs im letzten Monat?

greatz

Johannes   
6. April 2009, 09:04

Es gibt kein „Besser“ – kommt auf den speziellen Anwendungsfall an.

Jack   
13. April 2009, 14:59

Ich frage mich warum es keine offiziellen Zahlen über die Anzahl der Webseiten mit Sitemaps XML gibt – Vanessa Fox (als die noch dafür Verantwortlich) war hat keine Zahlen nennen wollen / können

.

Norbert   
20. April 2009, 14:07

Danke für diesen interessanten Beitrag. Bei mir bleibt aber eine Frage offen:

Bringen sitemaps einen Vorteil für Betreiber von kleinen Internetseiten, also Seiten mit eine Unterseitenzahl in der Größenordnung 10-100 Pages?

axelm   
21. April 2009, 17:48

Der Link zum PDF ist tot, unter http://www2009.eprints.org/100/ findet man das Dokument bzw. googeln

Tobias   
21. April 2009, 22:27

Das sind ja teilweise lustige Beiträge. 🙂

Wie das Forum von Marco funktioniert verstehe ich nicht ganz. Normalerweise steht doch sowas, wie ([a-z|A-Z|0-9]+)_([0-9]+).html in der .htacces. In der Forendatenbank hat man z.B. einen Title und eine ID. Das Forum macht aus Title und ID dann eine (google-freundliche) URL. Und genau so, wie das Forum das macht, macht man es eben auch für die Sitemap. Also alle Threds lesen, URL zusammenbauen und dann in die Sitemap schreiben.
Und damit die Sitemap noch mehr Sinn macht, liest man noch das Datum des lezten Beitrags aus und gibt es auch in die Sitemap-Datei. Dann sieht google, wenn sich etwas geändert hat und kann erneut crawlen kommen…

@Norbert: Möglicherweise bringen sie keine Nachteile. Und in der Reaktion, z.B. wenn sich Inhalte ändern oder dazukommen, kann google sicher schneller reagieren, vorallem wenn man die veränderte Sitemap an google pingt.

argh   
25. April 2009, 11:17

Eigentlich hatte ich einen sinnvollen eintrag geschrieben, jetzt muss ich nur noch meinen Frust loswerden über das miese script hier:
– kein spamschutzbild anngezeigt
– trotzdem abgeschickt (was soll man sonst machen?)
– MEldung „Spamschutz nicht eingegeben“ , ACH WAS?!
– browserbutton zurück
– Eintrag weg
– Danke … usability ungenügend

Gladiii   
1. Mai 2009, 19:11

Hiho!

Nen Kumpel hat mich grad drauf aufmerksam gemacht, dass ich mir den Artikel wegen meiner Page durchlesen soll. Zu wenig Inhalt, google bot guckt ständig vorbei bei mir. Tja nun weß ichs uch. 🙂
Super Artikel. Was würden wir Laien nur ohne euch machen. 🙂

Nach 10 Jahren immer noch ne Page mit PR 1 haben, kaum guten Content, kaum Plan von SEO aber denken wir sind die tollsten. lol :-))

Mfg Gladiii

buy car insurance online   
27. September 2012, 09:23

Canada, I don’t know. All the sites I have looked are different, from small business to sites that have 40,000 pages of just stuff to larger resource sites. MSN has given people a lot “no answers”. I think they updated, as they mentioned on their blog on November 15th and the problems began then.

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.