Index-Monster

Johannes Beus
Die Zahl der durch Google indexierten Seiten ist gerade bei Projekten, die hauptsächlich im Long-Tail-Bereich arbeiten enorm wichtig. Je mehr Seiten, also Content durchsuchbar ist, desto größer die Chance, zu einer Vielzahl unterschiedlicher Suchanfragen gefunden zu werden. Während es früher so war, dass Google jede Seite, die der Crawler finden konnte, in den Index aufgenommen hat, wird mittlerweile ein recht effektiver Algorithmus genutzt, der die maximale Anzahl indexierbarer Seiten an einer Reihe unterschiedlicher Signale bemisst. Ich habe mal geguckt, welche Seiten mir so einfallen, die extrem viele Seiten im Index haben und habe diese Tabelle erstellt:

#DomainSeiten
1yahoo.com339.000.000
2yahoo.co.jp171.000.000
3myspace.com136.000.000
4blogspot.com120.000.000
5ebay.com111.000.000
6youtube.com105.000.000
7msn.com86.200.000
8wikipatents.com (stark schwankend?)67.000.000
9amazon.com53.300.000
10amazon.de52.600.000
11ebay.de51.700.000
12flickr.com50.200.000
13alibaba.com49.200.000
14wordpress.com46.600.000
15live.com45.700.000
16aol.com45.100.000
17livejournal.com44.600.000
18rootsweb.com41.900.000
19meetup.com41.600.000
20amazon.ca41.400.000
43google.com25.600.000
46chefkoch.de23.300.000
81meinestadt.de13.000.000
99yatego.com10.900.000
114cylex.de9.740.000

Neben den ersten 20 gibt es noch 5 weitere, aus deutscher Sicht ganz interessante Einträge. Die Daten basieren auf der „site:domain.tld“-Abfrage und sind von gerade eben. Wer weitere Domains, die in diese Listen passen kennt, kann sie gerne in den Kommentaren posten.
Eintrag geschrieben am 14.04.2008 um 22:25 Uhr - Trackback setzen - Tags: Daten Google
Macks
1
schrieb am 14.04.2008 um 22:38 Uhr
Wenn man mal alle Wikipedia-Subdomains überpüft... :)
de.wikipedia.org, en.wikipedia.org, etc....

Da kommt bestimmt auch einiges zusammen.

Lg,
Macks

sistrix
2
schrieb am 15.04.2008 um 09:08 Uhr
Macks, für die Top20 reicht es jedenfalls nicht und de.wikipedia.org alleine hat nur knapp über 1 Mio Seiten. Da müssen die noch viel schreiben ;-)

loptr
3
schrieb am 15.04.2008 um 09:27 Uhr
Hab da noch einen kleinen Fav:
27.200.000 von deviantart.com

Özgür
4
Özgür
schrieb am 15.04.2008 um 10:58 Uhr
Shopping.com hat 18,6 Mio :-)

Adam Parusel
5
Adam Parusel
schrieb am 15.04.2008 um 11:35 Uhr
imdb.com hat 38,1 Mio Einträge!
microsoft.com kommt auf 16,7 Mio Einträge.

Am meisten erstaunt bin ich eigentlich über die Anzahl der Einträge bei chefkoch.de :)

Malte Landwehr
6
schrieb am 15.04.2008 um 17:42 Uhr
Du hast den kompletten Regierungs- und Universitätsbereich vergessen. Zum Beispiel:
harvard.edu 12.600.000
nasa.gov 9.640.000

Mike
7
schrieb am 16.04.2008 um 17:30 Uhr
Hallo Johannes,
da das Indexieren, wie Du schreibst im Long-tail Bereich wichtig ist, gib doch mal nen Tipp, wie ich Google dazu kriege auch in die untersten Ebenen zu spidern bzw. die Seiten dann auch anzuzeigen, wenn man nach den Keywords sucht... mittels Deeplinks ?

Hab da ne Last Minute Seite die rankt immer recht wechselhaft.... die Seite hat gut 4000 generierte Unterseiten, die zwar mit der "site:" Abfrage aufgelistet werden, aber ansonsten wohl kaum gefunden werden ;-(

Kannst DU da helfen ?

Gruss und Danke!

Pelle Boese
8
schrieb am 16.04.2008 um 17:34 Uhr
Ordentlichen Content drauf, auch die Unterseiten aktuell halten, hochwertige (Deep)Links. Ja :)

Mike
9
schrieb am 17.04.2008 um 00:18 Uhr
Hi Pelle,
hhmmm...und dann gehts wie von selber ? Kann man den Google Bots zum "deepspidern" zwingen ;-) ? "Hochwertige Deeplinks"...hast Du da nen paar übrig für mich, da ich da immer nen akuten Mangel habe !

gruss,
Mike

adamp
10
adamp
schrieb am 18.04.2008 um 10:33 Uhr
Mike, benutzt du Sitemaps? Die kannst du Google über das Webmastertool (www.google.de/webmastertools) zur Verfügung stellen und so alle deine Seiten bekannt machen.
Eine Garantie für eine Verlinkung ist das aber leider auch nicht.

Erstell auch eine eigene HTML-Sitemap, die du dann z.B. im Footer jeder Seite verlinkst.

Stefan
11
schrieb am 19.04.2008 um 13:39 Uhr
Z.B. noch
Bebo.com mit 32,3 Mio Seiten
Digg.com mit 9,93 Mio

luzie
12
schrieb am 23.04.2008 um 08:31 Uhr
http://www.behaupte.es/

noch ein kandidat, der bald, bald auch ne ganze menge drin haben wird ;-)

David
13
schrieb am 08.05.2008 um 10:44 Uhr
@adamp

stimmt nicht ganz google findet die seiten auch ohne. wenn diese genug links aufweisen kommt der crawler von ganz alleine. das gleiche gilt auch für seiten die du nie bei google anmeldest.


Kommentieren?

mehr
Die Kommentare für diesen Beitrag wurden geschlossen. Angemeldete Benutzer haben weiterhin die Möglichkeit, auch ältere Beiträge zu kommentieren. Jetzt kostenlos anmelden