Webcrawler programmieren
Taschmahal
- programmiertechnik
Guten Tag.
Mich würde mal interessieren wie man einen Webcrawler programmieren kann, der selbstständig das Web durchsucht und anhand der verschiedenen Informationen eine Datenbank erstellt.
Google treibt das ja auf die Spitze.
Dass man dann diese Datenbank nach Informationen durchsucht ist ja dann relativ einfach.
Weiß da jemand was? Würde mich interessieren!
Danke!
Ein Programm holt das Dokument von einer URL ab und
Ist das Programm fertig, so nimmt es die nächste URL aus der (selbst erzeugten) Liste um von vorn zu beginnen.
Das ganze klug verteilt auf eigenständige Prozesse und Threads - fertig ist der Suchmaschinen-Bot.
Fred Furunkelstein 2013
P.S. Für einen einzelnen Server ist das Web viel zu groß. Deshalb gibts neben dem obigen Programm eine ganze Menge derer mehr, die das alles nach klugen Algorithmen auf mehrere Server und sogar ganze Rechenzentren verteilen.