Webcrawler programmieren von Fred Furunkelstein 2013, 11.02.2013 17:18

Webcrawler programmieren

Taschmahal 11.02.2013 16:04

programmiertechnik

Guten Tag.

Mich würde mal interessieren wie man einen Webcrawler programmieren kann, der selbstständig das Web durchsucht und anhand der verschiedenen Informationen eine Datenbank erstellt.
Google treibt das ja auf die Spitze.

Dass man dann diese Datenbank nach Informationen durchsucht ist ja dann relativ einfach.
Weiß da jemand was? Würde mich interessieren!

Danke!

Beitrag melden

– Informationen zu den Bewertungsregeln

Webcrawler programmieren
Fred Furunkelstein 2013 11.02.2013 17:18

programmiertechnik
– Informationen zu den Bewertungsregeln
Ein Programm holt das Dokument von einer URL ab und
- sucht in diesen nach Links (URL, Adressen) die er in eine Liste schreibt
- parst das Ergebnis in Abhängigkeit vom Mime-Typ
- schaut noch nach diesen, jenem und solchen und stellt einen ganzen Haufen Überlegungen und Vergleiche an ... und
- schreibt das Ergebnis in die Datenbank.
Ist das Programm fertig, so nimmt es die nächste URL aus der (selbst erzeugten) Liste um von vorn zu beginnen.

Das ganze klug verteilt auf eigenständige Prozesse und Threads - fertig ist der Suchmaschinen-Bot.

Fred Furunkelstein 2013

P.S. Für einen einzelnen Server ist das Web viel zu groß. Deshalb gibts neben dem obigen Programm eine ganze Menge derer mehr, die das alles nach klugen Algorithmen auf mehrere Server und sogar ganze Rechenzentren verteilen.
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Taschmahal: Webcrawler programmieren

Webcrawler programmieren

Webcrawler programmieren

Webcrawler programmieren