robots.txt

Die robots.txt-Datei ist eine Textdatei, mit der Du den Googlebot daran hindern kannst, bestimmte Seiten Deiner Website zu crawlen. Dazu müssen in dieser Textdatei Befehle, wie "Allow" und "Disallow" enthalten sein – damit definierst Du, welche Inhalte gecrawlt werden dürfen und welche Inhalte nicht gecrawlt werden dürfen. URLs, die mit "Disallow" vom Crawling ausgeschlossen wurden, werden nicht in den Google Suchergebnissen angezeigt.
IndexWatch 08/2014

Gewinner Juli 2014 # Domain Veränderung Daten 1 jobs.de +585,15% 2 chemie.de +457,76% 3 fashionid.de +229,08% 4 bodensee.de +132,93% 5 lindenstrasse.de +130,12% 6 pokerstars.eu +119,25% 7 outlook.com +93,83% 8 koelnerbranchen.de +87,83% 9 drwindows.de +86,15% 10 macuser.de +82,78% 11 prospektangebote.de +79,64% 12 internetworld.de +74,10% 13 faq4mobiles.de +57,02% 14 windows-7-forum.net +54,92% 15 mlp.de […]

IndexWatch 01/2014 & 02/2014

Wir haben unseren monatlichen Überblick über die Gewinner und Verlierer im Google-Index in Form des IndexWatches nicht vergessen, sondern zu Gunsten des zweiteiligen Jahresrückblickes aufgeschoben. Nachdem wir vergangenen Monat das Jahr 2013 Revue passiert haben lassen und die Top-100 Gewinner sowie die Top-100 Verlierer im SISTRIX Sichtbarkeitsindex für euch analysiert […]

Crawling und Indexierung umfangreicher Webseiten

Sobald Webseiten den typischen Umfang einer privaten Homepage übersteigen, gibt es zahlreiche neue Herausforderungen. Eine davon ist, dass die vorhandenen Inhalte möglichst vollständig und aktuell in den Google-Index gehören. Was sich so einfach anhört, birgt gerade bei sehr großen Webseiten, deren Inhalte aus zahlreichen unterschiedlichen Datenbanken und von verschiedenen Zulieferern […]

Fallstudie: Warum stürzt stuttgart.de bei Google ab?

Das Stadtportal stuttgart.de gehört mit einem Rückgang von 65 Prozent zu den fünf Verlierern der Woche im SISTRIX Sichtbarkeitsindex. Schon in der Vorwoche war die Sichtbarkeit stark eingebrochen und seit dem 15.04.2013 ist der Sichtbarkeitsindex von 14,95 Punkte auf 2,79 Punkte (-81 Prozent) gefallen. Was ist los im Ländle? Für […]

IndexWatch 06/2011

Besser spät als nie: hier sind die IndexWatch-Zahlen für Juni 2011. Wie immer, haben wir die Gewinner und Verlierer im Google-Index anhand ihres Sichtbarkeitsindizes am Anfang und am Ende des Monats ermittelt. Los geht es mit den Gewinnern des letzten Monats: Gewinner # Domain Veränderung 1 ohost.de +203% 2 youtube.com […]

Skoda.de – mit Vollgas aus dem Ranking

Auch wenn mein Jetta fast täglich ein Quell neuer Freude ist und die 1.6 Liter Maschine schnurrt, als sei sie gerade erst gebaut worden, so schaue ich doch ab und an auf die praktischen Autos der VW-Tochtermarke aus Tschechien. Jetzt hat man sich offensichtlich dazu durchgerungen, den reichlich antiquierten Webauftritt […]

IndexWatch 05/2010

Der Monat ist rum und zeitgleich mit dem guten Wetter kommen auch die aktuellen IndexWatch-Zahlen für Mai 2010. Wie immer zeigen wir hier auf Basis des SISTRIX Sichtbarkeitsindexes die Auf- und Absteiger im Googleindex. Los geht es wie üblich mit den Gewinnern: Gewinner # Domain Veränderung 1 sport.de +100.000% 2 […]

Etwas ist faul im Staate Qype – Teil II

Qype hat ein Ranking-Problem. Im ersten Teil der Serie habe ich gestern etwas dazu geschrieben, wie man den konkreten Bereich einer Domain eingrenzen kann. Heute soll es darum gehen, die Ursache festzustellen. Hier helfen etwas Erfahrung mit solchen Geschichten, genügend Zeit und eine gute Auffassungsgabe weiter. Zuerst schau ich mir […]

Google Caffeine: Vortrag auf der SEO-Campixx

Gerade eben habe ich am zweiten Tag der SEO-Campixx in Berlin einen Vortrag zu Google Caffeine gehalten. Für alle, die nicht dabei sein konnten, möchte ich die wichtigsten Inhalte hier im Blog kurz zusammenfassen. Den Vortrag selber gibt es auf seo.at als PDF-Datei zum Download. Als Marco mich vor Weihnachten […]

Problem SERPs in SERPs

In den USA bestimmt seit Tagen ein ebenso altes wie polarisierendes Thema die SEO-Branche: SERPs in SERPs, also die Indexierung von Suchergebnissen und zusammengescrapten Inhalten durch Google. Das auf der einen Seite Jason Calacanis, der als Betreiber von Mahalo.com im Kreuzfeuer steht, beständig gegen SEO anwettert, gibt der Diskussion erst […]

Google enteignet Burda, oder?

Hubert Burda hat sich in der FAZ öffentlich beschwert: Suchmaschinen wie Google würden die Content-Produzenten „schleichend enteignen“. Die Argumentation geht folgendermaßen: während Qualitätsmedien (Burda produziert übrigens auch Superillu und Glücks-Revue) für viel Geld tolle Inhalte erschaffen, würden Suchmaschinen diese Inhalte übernehmen und einen Großteil der Werbeerlöse einstreichen. Es ist sicherlich […]

Fairrank klagt, Zeitungen lamentieren & Google wächst

Drei Informationen, die für Twitter zu lang, für ein eigenes Blogposting aber zu kurz waren: Fairrank hat Thomas Bindl verklagt. Auf OmTalk.com wurden offenbar Beiträge eingestellt, die Fairrank nicht passten. Nun war es scheinbar nicht ausreichend, dass die Beiträge umgehend entfernt wurden, Fairrank will auch noch eine Unterlassungserklärung, dass sowas […]

Google Produktsuche: Quo Vadis?

Dem aufmerksamen Beobachter der verschiedenen Universal-Search-Integrationen wird in den letzten Wochen nicht entgangen sein, dass Google aktuell sehr viele unterschiedliche Möglichkeiten austestet. Dabei kommt jetzt auch ein Bereich dran, dem in den letzten Jahren sehr wenig Beachtung geschenkt wurde: die Google Produktsuche. Ende 2002 noch unter der Bezeichnung „Froogle“ gestartet, […]

Interview mit deutschem Search Quality Team

Ich hatte die Gelegenheit, dem deutschen Search Quality Team einige Fragen zu SEO-Themen zu stellen. Eigentlich kein Fan von Interviews (dieses ist seit Start dieses Blogs vor über fünf Jahren auch das Erste), hoffe ich, einige interessante und häufig diskutierte Punkte angesprochen zu haben. SISTRIX: Google geht seit einigen Monaten […]

Steuerung der Suchmaschinenindexierung

Derzeit erzähle ich auf der SEMSEO in Hannover etwas dazu, welche Seiten man überhaupt für Suchmaschinen erreichbar machen sollte, welche Gründe es dafür gibt und wie man sowas technisch umsetzt. Sowohl zum Nachlesen für die Anwesenden, als auch zur Information für die, die es leider nicht nach Hannover schaffen konnten, […]

SERPs in SERPs

Ein SEO-Thema, das mich seit Jahren beständig begleitet, ist die Indexierung von Suchergebnisseiten durch andere Suchmaschinen, kurz: SERPs in SERPs. Eigentlich ist die Sache ganz einfach: Suchmaschinen wollen ihren Nutzern eigene Ergebnisse liefern und keine, von anderen Suchmaschinen zusammengestellten Treffer listen. So schreibt Google in seinen Webmaster-Richtlinien auch: Mit der […]

New Tag in Town: X-Robots

Seit Google der Ankündigung Yahoos, Metatags künftig auch in HTTP-Headern zu unterstützen, gefolgt ist, wird es höchste Zeit, sich Gedanken über Einsatzmöglichkeiten und Auswirkungen zu machen. Im Grunde geht es darum, dass Anweisungen, die Suchmaschinencrawlern bisher über einen Meta-Tag imder HTML-Seite bekamen, nun auch innerhalb des HTTP-Headers übermittelt werden können. […]

XML-Sitemap schützen

Seit es die sinnvolle Erweiterung des Sitemaps.org-Standards gibt, die erlaubt, dass man den Pfad zu seiner Sitemaps-Datei in der robots.txt hinterlegt und sich diese nicht für jede Suchmaschine einzeln anmelden, authentifizieren und einreichen muss, ist leider auch die Gefahr gestiegen, dass Scraper und sonstiger Webabschaum sich dort bedient. Gerade Contentdieben […]

Supplemental Index – Wie entkomme ich dem Google Hell?

In den ersten beiden Teilen haben wir gesehen, wieso es überhaupt eine Zweiteilung des Indexes gibt, wie man auslesen kann, wie viel Seiten des eigenen Projektes betroffen sind und welche Kriterien dazu führen können, dass eine Seite vom ersten in den zweiten Index rutscht. Nun ist es abhängig vom jeweiligen […]

Robots.txt Deluxe – Die Erweiterungen, die Google unterstützt

Die sogenannte Robots.txt – eine im Rootverzeichnis der Domain abgelegte, reine Textdatei mit dem Namen robots.txt dient dazu, Suchmaschinen, die diese Datei beachten von bestimmten Bereichen der Webseite auszusperren. Obwohl bereits die Standardversion, die von den meisten großen Suchmaschinen unterstützt wird, immer wieder für Verwirrung sorgt, hat Google seinem Parser […]

Linkverkauf – ein Problem für Google

Seit Matt Cutts in einem Beitrag in seinem Blog dazu aufgerufen hat, Seiten, die offensichtlich Links verkaufen per Spamreport zu melden, kochten die Meinungen in Blogs und Foren zu diesem Thema hoch: Einmischung, Ausnutzung der Monopolstellung oder auch Vortrieb dem Denunziantentum sind nur einige Vorwürfe, denen sich Cutts und Google […]

Neues von Sitemaps.org

Nachdem der Sitemaps.org-Standard bereits von Google, Yahoo und Microsoft unterstütz wurde, hat nun auch Ask.com angekündigt, das Format zu verarbeiten. Neu ist auch, dass nun eine Möglichkeit, den Suchmaschine die Pfad zur Sitemaps-Datei zu zeigen, ohne, dass man sich bei jeder einen eigenen Account für Webmaster erzeugen muss, geschaffen wurde. […]

Spider Trap jetzt in Version 1.0

Spider Trap, ein Projekt von Thomas Zeithaml – vielen aus Foren auch unter dem Pseudonym jr-ewing bekannt – liegt nun in Version 1.0 vor. Spider-Trap erkennt Crawler, die sich nicht an die Vorgaben der robots.txt halten und sperrt den Zugriff für die betreffenden IP-Adressen automatisch. In der jetzigen ersten „vollen“ […]

Echtheit der MSN-Bots feststellen

Nach Google hat jetzt auch MSN eine Methode implementiert, um die Echtheit der MSN-Bots zu bestätigen. Grund hierfür ist vermutlich, dass mittlerweile eine Vielzahl der Scraperbots die Useragents der großen Suchmaschinen nutzen, um nicht aufzufallen. Die Überprüfung läuft, wie bei Google, über DNS- und Reverse-DNS-Auflösung. So ist dies zum Beispiel […]

Tool für die Robots.txt

Über Google Sitemaps stellt Google jetzt ein Tool zur Überprüfung der eigenen robots.txt bereit. Das Tool zeigt einem nach Auslesen der Datei die erlaubten sowie verbotenen Verzeichnisse an.

Opera und der Googlebot

Laut intern.de gibt der aktuelle Opera-Browser Daten an Google weiter, wenn man anstelle der Banner die Google Adwords anzeigen lässt. Dies kann kritisch sein, wenn man mit Opera in Verzeichnissen surft, die eigentlich nicht im Googleindex landen sollten. Hier ist der Auschluss per robots.txt nun also zwingend notwendig. Update: Der […]