Jürgen Melchhammer: HTML-Parser in Java

Hallo Forumlaner!

Ich muß eine "QuickNDirty" - Lösung als Prototyp in Java bauen, der HTML-Seiten parsen können soll.
Hier nun meine Frage: Gibt es einen einfachen HTML-Parser in Java, im besten Fall nach dem Motto:

Document doc = parse(InputStream);

wobei nicht unbedingt das DOM dahinterliegen muß, eine andere Baumstruktur wäre ebensogut, da ich nur "ein paar Tags" auslesen muß.

Hat jemand schon davon gehört? Welche Klassen/Packages braucht man dafür? Wie gesagt, am besten importieren, tippen, ... fertig (und wer träumt nicht davon;-)

Danke erstmal für Eure Mühen und schönes Wochenende.

Jürgen

  1. hi!

    Ich muß eine "QuickNDirty" - Lösung als Prototyp in Java bauen,
    der HTML-Seiten parsen können soll.
    Hier nun meine Frage: Gibt es einen einfachen HTML-Parser in Java,
    im besten Fall nach dem Motto:

    Java hat doch schon einen HTML-Parser mitgeliefert. Aber ich habe
    mich noch nicht damit befasst und keine Ahnung, wie komfortabel der
    ist. Siehe auch:
      http://java.sun.com/j2se/1.3/docs/api/javax/swing/text/html/parser/package-summary.html

    bye, Frank!

    1. Hallo Leute, hallo Frank!

      Java hat doch schon einen HTML-Parser mitgeliefert. Aber ich habe
      mich noch nicht damit befasst und keine Ahnung, wie komfortabel der
      ist. Siehe auch:
        http://java.sun.com/j2se/1.3/docs/api/javax/swing/text/html/parser/package-summary.html

      Stimmt. Aber der ist nicht so das gelbe vom Ei... . Er läuft im Endeffekt darauf hinaus, daß Du für die Tags die Dich interessieren, Methoden überschreiben mußt... :-(
      Desweiteren ist das Ding halt schon ein bisschen alt... ich habe leider keinen Überblick dazu gefunden, was darin "noch" funktioniert und was nicht.

      Trotzdem Danke!

      Jürgen

  2. Hi Jürgen!

    Einen Parser kenn ich zwar nicht, aber wenn Du einen findest, würde ich mich freuen, von Dir benachrichtigt zu werden.
    Ganz abgesehen davon gibt es einen XML-Parser - wenn Dir das weiterhilft. Ich weiß jetzt nicht direkt, wo man den bekommt - im Quellcode steht package com.microstar.xml; also kannst Du ja mal unter microstar.com gucken.

    Ich werde auf jeden Fall auch noch suchen...

    MfG Simon

    1. Hallo

      Zusammen.
      XML-Parser gibt es auch einen von SUN (java.sun.com->produkte->JAXP)
      oder bei http://www.jclark.com/ (soll recht gut sein, der programierer hat auch an w3cspecs geschrieben)
      Da gibts auch einen SGML-Parser. Mit dem kannst du HTML parsern.
      Musst dir nur die html-dtd vom w3c besorgen und in den documenten <!DOCTYPE nicht vergessen.

      Tschüs

      Daniel