HTML-Parser in Java
Jürgen Melchhammer
- java
Hallo Forumlaner!
Ich muß eine "QuickNDirty" - Lösung als Prototyp in Java bauen, der HTML-Seiten parsen können soll.
Hier nun meine Frage: Gibt es einen einfachen HTML-Parser in Java, im besten Fall nach dem Motto:
Document doc = parse(InputStream);
wobei nicht unbedingt das DOM dahinterliegen muß, eine andere Baumstruktur wäre ebensogut, da ich nur "ein paar Tags" auslesen muß.
Hat jemand schon davon gehört? Welche Klassen/Packages braucht man dafür? Wie gesagt, am besten importieren, tippen, ... fertig (und wer träumt nicht davon;-)
Danke erstmal für Eure Mühen und schönes Wochenende.
Jürgen
hi!
Ich muß eine "QuickNDirty" - Lösung als Prototyp in Java bauen,
der HTML-Seiten parsen können soll.
Hier nun meine Frage: Gibt es einen einfachen HTML-Parser in Java,
im besten Fall nach dem Motto:
Java hat doch schon einen HTML-Parser mitgeliefert. Aber ich habe
mich noch nicht damit befasst und keine Ahnung, wie komfortabel der
ist. Siehe auch:
http://java.sun.com/j2se/1.3/docs/api/javax/swing/text/html/parser/package-summary.html
bye, Frank!
Hallo Leute, hallo Frank!
Java hat doch schon einen HTML-Parser mitgeliefert. Aber ich habe
mich noch nicht damit befasst und keine Ahnung, wie komfortabel der
ist. Siehe auch:
http://java.sun.com/j2se/1.3/docs/api/javax/swing/text/html/parser/package-summary.html
Stimmt. Aber der ist nicht so das gelbe vom Ei... . Er läuft im Endeffekt darauf hinaus, daß Du für die Tags die Dich interessieren, Methoden überschreiben mußt... :-(
Desweiteren ist das Ding halt schon ein bisschen alt... ich habe leider keinen Überblick dazu gefunden, was darin "noch" funktioniert und was nicht.
Trotzdem Danke!
Jürgen
Hi Jürgen!
Einen Parser kenn ich zwar nicht, aber wenn Du einen findest, würde ich mich freuen, von Dir benachrichtigt zu werden.
Ganz abgesehen davon gibt es einen XML-Parser - wenn Dir das weiterhilft. Ich weiß jetzt nicht direkt, wo man den bekommt - im Quellcode steht package com.microstar.xml; also kannst Du ja mal unter microstar.com gucken.
Ich werde auf jeden Fall auch noch suchen...
MfG Simon
Hallo
Zusammen.
XML-Parser gibt es auch einen von SUN (java.sun.com->produkte->JAXP)
oder bei http://www.jclark.com/ (soll recht gut sein, der programierer hat auch an w3cspecs geschrieben)
Da gibts auch einen SGML-Parser. Mit dem kannst du HTML parsern.
Musst dir nur die html-dtd vom w3c besorgen und in den documenten <!DOCTYPE nicht vergessen.
Tschüs
Daniel