ChrisB: Worddokument in sauberes HTML

Beitrag lesen

Hi,

im Zuge eines eBooks und anschließender Umwandlung in das ePub-Format möchte ich aus Word eine saubere HTML-Datei erstellen. Leider ist da ziemlich viel Schrott drin (warum eigentlich ?)

Weil MicroSoft diesen Schrott für nützlich hielt, wenn es darum gehen sollte, dieses „HTML“ anschließend auf umgekehrtem Wege wieder in Office-Produkte zu importieren, und dabei kleine Zusatzinfos zu übermitteln.

mein Ansatz war nun mittels php unnötige Tags rauszufiltern

Stellst du dich bitte in die Ecke und geisselst dich selber – oder müssen wir letzteres übernehmen?

HTML-Code plus Verarbeitung mittels regulärer Ausdrücke gleich ganz dickes Pfui.
Bitte hinter die Ohren schreiben (oder an eine andere Stelle, die selten gewaschen wird).

Leider steht danach immer noch ziemlich viel Unsinn in der HTML-Datei, kennt jemand eine Lösung mit einem möglichst schlanken Ergebnis ? Vorzugsweise in PHP ?

Tidy
HTML Purifier

MfG ChrisB

--
RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?