Taschmahal: Webcrawler programmieren

Guten Tag.

Mich würde mal interessieren wie man einen Webcrawler programmieren kann, der selbstständig das Web durchsucht und anhand der verschiedenen Informationen eine Datenbank erstellt.
Google treibt das ja auf die Spitze.

Dass man dann diese Datenbank nach Informationen durchsucht ist ja dann relativ einfach.
Weiß da jemand was? Würde mich interessieren!

Danke!

  1. Ein Programm holt das Dokument von einer URL ab und

    • sucht in diesen nach Links (URL, Adressen) die er in eine Liste schreibt
    • parst das Ergebnis in Abhängigkeit vom Mime-Typ
    • schaut noch nach diesen, jenem und solchen und stellt einen ganzen Haufen Überlegungen und Vergleiche an ... und
    • schreibt das Ergebnis in die Datenbank.

    Ist das Programm fertig, so nimmt es die nächste URL aus der (selbst erzeugten) Liste um von vorn zu beginnen.

    Das ganze klug verteilt auf eigenständige Prozesse und Threads - fertig ist der Suchmaschinen-Bot.

    Fred Furunkelstein 2013

    P.S. Für einen einzelnen Server ist das Web viel zu groß. Deshalb gibts neben dem obigen Programm eine ganze Menge derer mehr, die das alles nach klugen Algorithmen auf mehrere Server und sogar ganze Rechenzentren verteilen.