Google Caffeine: Vortrag auf der SEO-Campixx

Gerade eben habe ich am zweiten Tag der SEO-Campixx in Berlin einen Vortrag zu Google Caffeine gehalten. Für alle, die nicht dabei sein konnten, möchte ich die wichtigsten Inhalte hier im Blog kurz zusammenfassen. Den Vortrag selber gibt es auf seo.at als PDF-Datei zum Download.

Als Marco mich vor Weihnachten gefragt hat, welches Thema er zu meinem Namen auf das Programm schreiben darf, hatte Matt Cuts kurz vorher verkündet, dass die Veröffentlichung von Caffeine nicht mehr vor Weihnachten passieren wird. Naiv wie ich war, bin ich davon ausgegangen, dass sie es also im Januar 2010 rausbringen und ich damit ein schönes Thema hab. Jetzt haben wir Mitte März und von Caffeine weit und breit nichts zu sehen. Die folgenden Überlegungen sind also eher ein „Educated Guess“ und nicht zwangsläufig Realität.

Vereinfacht dargestellt kann man die Technik einer Suchmaschine in drei Bereiche unterteilen: Crawler, Index und Suchfrontend. In letztem Teil spielt sich das ab, was SEOs unter Ranking verstehen: Google schaut sich das Keyword an, fragt dazu ein paar Indizes ab, schaut in seinen Algorithmus, rankt die Treffer entsprechend und baut SERPs. Entgegen der allgemeinen Auffassung ist das aber nicht der Bereich, in dem Caffeine Verbesserungen bringt sondern es geht um den Index oder „Suchinfrastruktur“ wie Google es gerne nennt. Dieser Teil der Suchmaschine baut auf Software auf, die Google ziemlich früh konzipiert und entwickelt hat. Mit MapReduce werden große Datenmengen verteilt verarbeitet, BigTable kann etwas mehr als ein normales Excel und das Google File System (GFS) stellt sicher, dass alle Daten da sind, wo sie gebraucht werden.

Das GFS hat man zum einen unter Zeitdruck entwickelt, da andere Komponenten auf ihm aufbauen und zum anderen wurden damals Entscheidungen getroffen, die heute eher hinderlich sind. So passen Prämissen wie „Hoher Durchsatz ist wichtiger als kurze Wartezeit“ nicht mehr zu den Anforderungen, die aktuell an Suchmaschinen gestellt werden. Mit GFS2 soll das besser werden und Google rüstet sich technologisch für die nächsten Jahre. So wie bei dieser Verbesserung werden unter dem Titel Caffeine vermutlich noch zahlreiche weitere Umstellungen vorgenommen, die alle das Ziel haben, die Google-Grundlagen den neuen Erfordernissen anzupassen – dazu gehört auch, dass der Algorithmus in Zukunft weitere und vermutlich auch aktuellere Signale verarbeiten kann.

Was ändert sich durch Caffeine? Google wird mit der neuen Grundlage einen großen Schritt in Richtung Realtime-Index gehen können. Zwar sind viele neuen Artikel bereits jetzt schnell aufzufinden, aber die Umsetzung hat Grenzen die es durch die neue Infrastruktur nicht mehr gibt. Eine schnellere Verarbeitung von Daten wird dazu führen, dass zahlreiche Signale für den Algorithmus entweder aktueller sind oder überhaupt erst nutzbar werden. Heute behilft man sich damit, dass domainweite Werte wie „Trust“ genommen werden, in Zukunft können wir vermutlich mit genaueren Bewertung einzelner Dokumente rechnen.

Caffeine wird auch als Grundlage dienen, um mehr Seiten in den Index aufzunehmen: Ajax-Seiten, Teile des berüchtigten Deep-Webs und vergleichbare Seitentypen werden ihren Weg in den Index finden. Da die Software mit Caffeine effizienter arbeiten kann und die Beschränkungen der alten Infrastruktur nicht mehr umgehen muss, werden Ergebnisse schneller ausgeliefert.

Empfehlung wie man sich nun auf Caffeine vorbereiten sollte, gleichen etwas dem Blick in eine Glaskugel: vielleicht kommt es so, vielleicht aber auch nicht. Also bitte nicht aufgrund der folgenden Zeilen komplette, derzeit gut funktionierende Konzepte umwerfen. Wenn dem Google-Algorithmus nach Caffeine neue Signale zur Verfügung stehen, so ist anzunehmen, dass dies primär solche sind, die etwas mit der Realtime-Suche zu tun haben. Es dürfte also kein Fehler sein, bereits jetzt eine solide Präsenz in Diensten wie Twitter oder Facebook zu etablieren. Dabei bitte darauf achten, dass sinnvolle Kontakte und Netzwerke geknüpft werden. Die Enttarnung von gefakten Netzen ist im Social-Bereich aus verschiedenen Gründen deutlich einfacher als bei Linknetzwerken.

Auch wird die Realtime-Suche andere Konzepte der Datenübermittlung an Google benötigen. Der klassische Crawlvorgang ist einfach zu langsam als dass Google die Ziele damit erreichen kann. Es wird also darauf hinauslaufen, dass man Google über neue Schnittstellen (PuSH ist da zum Beispiel ein Schlagwort) über neue Informationen benachrichtigt und die Daten vielleicht sogar direkt mitschickt.

Wenn Google den Index durch umfangreichere Crawlvorgänge vergrößert, wird das nicht ohne ein tieferes Crawlen der bekannten Webseiten ablaufen. Google hat ja bereits in letzter Zeit schon gezeigt, dass AJAX kein Hindernis ist, der Bot auch gerne mal Formulare ausfüllt und abschickt und ob man die Einträge in der robots.txt nicht irgendwann eher als Empfehlung denn als bindende Richtlinie sieht, ist auch nicht klar. Vor diesem Hintergrund ist es sinnvoll, in nächster Zeit genau zu beobachten, was Google bei euch crawled und in den Index aufnimmt.

Ähnliche Beiträge