Peter Graugans: Homepagetexte auslesen

Hallo zusammen,

ich will von meiner Homepage alle Texte auslesen und in ein xml File packen.
Allerdings nur die Texte und nicht Formatierung oder html-Code.
Gibt es ein Program, welches das automatisch für alle html Seiten macht.
Hintergrund ist, dass die Texte in eine andere Sprache übersetzt werden sollen und diese Firma will ein xml File von allen Texten.

Jeden Text einzeln zu kopieren wäre sehr aufwändig.

Viele Grüße,
Peter

  1. @@Peter Graugans:

    nuqneH

    ich will von meiner Homepage alle Texte auslesen und in ein xml File packen.

    Wie soll das XML denn aussehen?

    Allerdings nur die Texte und nicht Formatierung oder html-Code.

    Du hast deinen Quelltext nicht zufällig in XHTML geschrieben?

    Qapla'

    PS: Vermutlich gebrauchst du das Wort Homepage fälschlicherweise für Website.

    --
    Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
    (Mark Twain)
  2. Hallo,

    bei den kargen Angaben und den großen Wünschen habe ich das Gefühl, das bei jeder Antwort ein Einwand kommt, der für den Antwortenden aus der Fragestellung nicht ersichtlich sein kann.

    Ein Programm, das das direkt kann, ist mir nicht bekannt.

    Ich würde bei der Problemstellung zum Editor UltraEdit greifen. Der kostet zwar, ist aber auch als 30-Tage Sharewareversion runterzuladen.

    Der hat eine schöne einfach selbst zu programmierende Makrosprache, mit der ein passendes Makro erstellt wird. Dann werden einfach alle Seiten gleichzeitig geladen und das Makro gestartet, das dann alle Seiten abarbeitet und alle Inhalte löscht, die nicht gewünscht sind. Gleichzeitig kann es den Text auch formatieren, z. B. bestimmte Tags durch Zeilenumbrüche ersetzen. Übrig bleibt dann der gesamte Inhalt, der nach Wunsch in eine einzige Datei zusammengefasst werden kann.

    Gruss

    MrMurphy

  3. Om nah hoo pez nyeetz, Peter Graugans!

    ungetestete Idee:

    öffnen in Word, abspeichern als "nur Text"

    kann auch ein Makro erledigen.

    Matthias

    --
    1/z ist kein Blatt Papier. http://www.billiger-im-urlaub.de/kreis_sw.gif