Halihallo Peter
Mich interessiert es, wie man Seiten eigentlich durchforsten kann, ohne sie runterzuladen (ein Download kann ja wohl bei dieser Zahl von Seiten nicht erfolgen).
Doch. Alle Seiten, die über google gefunden werden können, sind
bereits heruntergeladen. Es gibt einen etwa allmonatlichen "Google-
Dance", der alle Seiten die irgendwie miteinander verlinkt sind (man
muss die Seiten eben nicht anmelden) herunterlädt und in einer
lokalen, für die Suche optimierten Form, im Google-Netzwerk (den
sogenannten Clustern) speichert.
Außerdem wundert es mich sehr, dass auch ohne Download eine _so_große_ Zahl von Seiten zu schaffen ist. Das Netzt wartet doch nicht nur auf Google-Anfragen.(4 Milliarden * 2000 = 8000 Milliarden "Seiten-Durchforstungen" weltweit pro Sekunde!) Wie ist das möglich? Habe ich vielleicht eine falsche Vorstellung von "Seiten-Durchforsten"?
Ja. Die Anfragen gehen nicht auf einen einzigen Rechner, sondern
werden (Lastenverteilend) auf mehr als 6000 Rechner verteilt. Die
Seiten müssen bei einer Suchabfrage nicht heruntergeladen werden,
da sie bereits auf jedem Suchanfragerechner (etwas korrekter: alle
indizierten Seiten werden auf einem Cluster von 10 Rechnern gespeichert, jede Anfrage wird von so einem Cluster verarbeitet) in
geeigneter Form gespeichert sind. Die Seiten müssen also nicht
heruntergeladen werden, sondern einfach von der *lokalen Festplatte*
eingelesen werden.
Falls nun eine Suchanfrage stattfindet, wirst du also auf eines
dieser Cluster "weitergeleitet". Dieses Cluster (10 parallel
geschaltene Computer) sucht dann auf der *Festplatte* nach passenden
Dokumenten. Die Suche ist sehr schnell, da die Dokumente nicht
einzeln durchsucht werden müssen, sondern alle Dokumente in einem
für die Suche optimierten (auf der lokalen Festplatte liegenden)
Struktur vorliegen (ein sogenannter invertierter Index, der z.B.
Wort->Dokumentenliste abbildet).
So und nun wünsche ich allen eine schöne Zeit, denn ich verschwinde
nach Frankreich! Bis bald, arme Bürosesselpupser :-)
Viele Grüsse
Philipp