Chris: Modul für HTML->Text

Hi,

ich suche ein Modul, das HTML in Plaintext konvertiert. Und zwar nicht
nur einfach alle Tags rauswirft, sondern versucht solche Formatierungen
wie Listen, Tabellen und Absätze am Leben zu erhalten.

Im CPAN habe ich leider nur was für den umgekehrten Weg (HTML::FromText)
gefunden.

TIA

Chris

  1. Hi,

    ich suche ein Modul, das HTML in Plaintext konvertiert. Und zwar nicht
    nur einfach alle Tags rauswirft, sondern versucht solche Formatierungen
    wie Listen, Tabellen und Absätze am Leben zu erhalten.

    Im CPAN habe ich leider nur was für den umgekehrten Weg (HTML::FromText)
    gefunden.

    Eine Möglichkeit wäre HTML::Parse in Verbindung mit HTML::FormatText. Funktioniert recht einfach, hat aber den Nachteil, dass keine Tabellen geparst werden. Dabei bekommst du nur ein unschönes [Table not shown], was bei manchen Seiten dann den kompletten Inhalt ausmacht, da alles in Tabellen verpackt ist.

    Falls dich das nicht stört, gehts wie folgt:

    use HTML::Parse;
    use HTML::FormatText;
    $text = HTML::FormatText->new->format(parse_html($html_string));

    Grüße,
    Crunch