Ein Programm holt das Dokument von einer URL ab und
- sucht in diesen nach Links (URL, Adressen) die er in eine Liste schreibt
- parst das Ergebnis in Abhängigkeit vom Mime-Typ
- schaut noch nach diesen, jenem und solchen und stellt einen ganzen Haufen Überlegungen und Vergleiche an ... und
- schreibt das Ergebnis in die Datenbank.
Ist das Programm fertig, so nimmt es die nächste URL aus der (selbst erzeugten) Liste um von vorn zu beginnen.
Das ganze klug verteilt auf eigenständige Prozesse und Threads - fertig ist der Suchmaschinen-Bot.
Fred Furunkelstein 2013
P.S. Für einen einzelnen Server ist das Web viel zu groß. Deshalb gibts neben dem obigen Programm eine ganze Menge derer mehr, die das alles nach klugen Algorithmen auf mehrere Server und sogar ganze Rechenzentren verteilen.