Verbreitung strukturierter Daten im Web

14. Juli 2015, 14:51

Wenn der kleine Googlebot abends in seinem Bett liegt und sich überlegt, was er macht, wenn er groß ist, dann hat er nur einen Wunsch: er wäre gerne so richtig schlau. Er will verstehen, aus welchen verschiedenen Elementen eine Webseite besteht, welchen Sinn die ganzen Zahlen und Buchstaben haben und in welchem Zusammenhang sie zueinander stehen. Leider, und da müssen wir ganz ehrlich mit dem Googlebot sein, hat er in den letzten gut zehn Jahren nur geringe Lernerfolge erzielt.

Zum Glück gibt es für geforderte Crawler Lernhilfen: die strukturierte Auszeichnung von Daten im HTML-Quellcode. Seit Sergey Brin und Larry Page, seine liebevollen Eltern, die Anzeige von strukturierten Daten in die Google Ergebnisse eingebaut haben und subtil das Gerücht streuen, dass Webseiten mit solchen Auszeichnungen besser ranken, kann der Googlebot so gekennzeichnete Daten immer häufiger finden und verarbeiten.

Wir wollten nun wissen, wie weit strukturierte Daten im Web eigentlich verbreitet sind. Dafür gibt es den SISTRIX Crawler. Dieser hat sich in der letzten Zeit gut 65 Milliarden URLs (65.650.465.110 um genau zu sein) angeschaut und zusätzlich die dort hinterlegten, strukturierten Daten nach der schema.org-Auszeichnung analysiert. Das ist die Datengrundlage für die kommenden Auswertungen. Hier ist sie:

schema-org

Es gibt vier Typen, die auf mehr als 1 Prozent aller gecrawlter URLs zu finden waren. Blogposting und Blog sind auch dadurch stark vertreten, dass die großen Bloghosting-Dienste wie blogger.com & blogspot.com (beides von Google) diese Auszeichnung unterstützen. Eng damit im Zusammenhang steht Person als Schema.org-Typ: auch diesen nutzt Google intensiv, beispielsweise auf allen GooglePlus-Seiten. Die Popularität von Breadcrumb hängt vermutlich damit zusammen, dass man durch diese Auszeichnung eine schöne Anzeige in den Google-Ergebnissen erhält. Dass es für kostenlose CMS wie WordPress zahlreiche kostenlose und einfache Plugins dafür gibt, dürfte auch nicht schaden.

Zusammenfassend kann man sagen, dass die Auszeichnung strukturierter Daten bereits überraschend weit fortgeschritten ist. Zahlreiche Standard-Softwarelösungen integrieren diese Auszeichnung bereits ab Werk. Dass man sich damit (als Branche) nicht immer einen Gefallen tun, muss aber aber wohl erst rumsprechen. Gut für den Googlebot.

Dieser Beitrag hat 6 Kommentare

 
  14. Juli 2015, 16:27

Vielen Dank für diese Erhebung, aber es ist doch erstaunlich das noch nicht mal 1% aller Produktseiten auf dem dazugehörigen itemtype „Product“ basieren. Und wenn, dann teilen sich diesen relativ kleinen Anteil wahrscheinlich auch noch einige wenige große Shops.

 
  14. Juli 2015, 16:37

Heiko, es sind ja nicht weniger als 1% aller Produktseiten, sondern weniger als 1% aller insgesamt gecrawlten Seiten. Je nachdem, wie hoch man den Anteil von Onlineshops am Gesamtinternet schätzt, finde ich das gar nicht so wenig. In absoluten Zahlen sind es derzeit übrigens 5.327.74.057 (also mehr als 5 Mrd.) URLs mit dieser Auszeichnung.

 
Alexander Trust
  14. Juli 2015, 17:01

Persönlich ziehe ich aus diesen Zahlen ebenfalls einen anderen Schluss. Es ist erschreckend wenig, finde ich. Das Glas ist ja nicht mal halb voll unter den Seiten, die ihr untersucht habt. Man darf ja nicht vergessen, dass uns das „Semantische Netz“ schon Anfang der 2000er bekannt gemacht wurde. Schema Org als Initiative wurde zwar erst 2011 gestartet, doch es gab ja schon vorher Möglichkeiten und außerdem sind das nun auch schon wieder 4 Jahre.

Ich nutze auf Webseiten, die ich betreue, fast ein Dutzend dieser Tags. Manche kann man schlecht zusammen nutzen, und andere soll man sogar nicht zusammen nutzen. Aber zum Beispiel das Videoobject oder die Tags für Reviews und Ratings werden durch die Suchmaschinen prima in den Serps visualisiert. Wir nutzen dazu zwar eigene Tools, aber selbst wenn man gar keine Ahnung davon hätte, gäbe es für WordPress-Nutzer (und auch einige andere CMS) super viele Plugins, die diese Daten hinzufügen helfen. Die Brotkrumen helfen dem Googlebot die Struktur der Webseite besser zu verstehen. Es gibt sehr viele Gründe, warum man anfangen sollte, die Inhalte seiner Webseite semantisch zu kennzeichnen.

 
  14. Juli 2015, 17:23

Alexander, ich glaube, dass Dein Blickwinkel auf das Internet recht stark von Deiner täglichen Arbeit geprägt ist. Die meisten Webseiten sind eben keine regelmäßig auf einen aktuellen Softwarestand gehobene Webshops, sondern häufig statische Uni-Webseiten, irgendwelche alten privaten Homepages, vergessene Vereinsseiten und so weiter. Zum einen kümmert sich da niemand drum und zum anderen hat auch niemand ein (kommerzielles) Interesse an der Integration von strukturierten Daten.

 
  15. Juli 2015, 11:04

Mich würde jetzt noch interessieren, wieviele davon diese Auszeichnung falsch verwenden ;). Es gibt ja sicher einige, die nichtmal wissen, dass ihr Theme oder Template diese Auszeichnungen nutzt.
Habt ihr zufälligerweise auch mal geschaut, was mit der Verbreitung von JSON-LD ist? Vermutlich kann man diese Webseiten an einer Hand abzählen?

 
Diriliş Ertuğrul
  22. Juli 2015, 22:14

Ich nutze auf Webseiten, die ich betreue, fast ein Dutzend dieser Tags. Manche kann man schlecht zusammen nutzen, und andere soll man sogar nicht zusammen nutzen. Aber zum Beispiel das Videoobject oder die Tags für Reviews und Ratings werden durch die Suchmaschinen prima in den Serps visualisiert.

 

Kommentare geschlossen

Die Kommentarfunktion wird 30 Tage nach der Veröffentlichung des Beitrags deaktiviert.