Hallo Fabi,
Nun habe ich jetzt das Problem, dass ich nicht so recht weiß wie ich es anstellen soll.
Du bist zu bescheiden. Du hast doch bereits einen ersten Ansatz, den ich aus Deinem Posting mal extrahiere. Bitte entschuldige, dass ich die Reihenfolge etwas abändere:
Die Daten (Quellcode) einer Html-Seite auszulesen, ist kein Problem
erster Schritt getan.
Zum Beispiel weiß ich noch nicht wie ich alle Links (Standard-Links, Bilder als Links, E-mail-Verknüpfungen, Anker) einer Webseite finden kann?
zweiter Schritt, noch zu tun, aber bereits ein Ansatz.
Oder wie kann ich die Links auf ihre Gültigkeit überprüfen? Ist das ein broken-Link oder ist der Link gültig?
dritter Schritt, noch zu tun, aber bereits ein Ansatz:
aber die Links abzufragen(http://.../bla.com, ftp://ftp.bla.de, gopher://ftp.std.com/1, telnet://locis.loc.gov, usw.) ist nicht so einfach...
Ich programmiere in Java.
Deswegen von mir nur ein paar Anregungen zu Schritt 2:
Wo können überall Ressourcen referenziert werden? Was fällt Dir dazu ein?
Inwieweit willst Du Ressourcen, die in einer externen Ressource referenziert werden, überprüfen? Welche Schachtelungstiefe willst Du berücksichtigen?
Beispiel gefällig: Ein externes Stylesheet, das im <head>-Element eingebunden ist, enthält Referenzen auf Hintergrundbilder.
Reicht es Dir, wenn die CSS-Datei vorhanden ist, oder müssen auch die dort angegebenen Bilder vorhanden sein?
Auch wenn der Tipp _nichts_ mit Java zu tun hat, sondern mit PHP; schau Dir dennoch an, auf was in einem anderen Thread Tobias verweist. Versuche zu verstehen, was dort das Ziel ist, inwieweit dieses Ziel mit Deinem Ziel verwandt ist, ob Du den Weg verwenden kannst. Falls ja, setze dies mit Java um.
Ich selbst habe nur sehr wenig Kenntnisse von Java, und kann Dir deswegen insbesondere nicht weiterhelfen, was Schritt 3 betrifft.
Freundliche Grüße
Vinzenz