Axel Richter: Textknoten aus HTML rippen (HTML2TXT)

Beitrag lesen

Hallo,

aber hier geht es nur darum Textknoten rauszulösen. Den ganzen restlichen Kladderadatsch brauche ich nicht. Denn der bringt eine ungeheure Menge Komplexität mit in's Boot, mit unbekannten Seiteneffekten und unbekannten Fehlern. Wenn ich das gleiche Ziel mit einem knappem Dutzend Zeilen erreichen kann ist mir das lieber.

Mit der allgemeinen Vorgabe "HTML", was zur Zeit von HTML3.x über HTML4.x bis zu XHTML1.1 alles bedeuten kann, glaube ich an diesen max.11-Zeiler erst, wenn ich ihn sehe ;-)).

Wenn Du natürlich weitere Vorgaben außer HTML machst, dann...

Bedenke, dass eie gültiges HTML4.01-Dokument so aussehen kann:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
        "http://www.w3.org/TR/html4/strict.dtd">
<title>Der Titel</title>
<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
<h1>Überschrift</h1>
<p>Der erste Textabsatz ........
........ Ende erster Textabsatz.
<p>Der zweite Textabsatz ........
........ Ende zweiter Textabsatz.

viele Grüße

Axel