Hi,
im Zuge eines eBooks und anschließender Umwandlung in das ePub-Format möchte ich aus Word eine saubere HTML-Datei erstellen. Leider ist da ziemlich viel Schrott drin (warum eigentlich ?)
Weil MicroSoft diesen Schrott für nützlich hielt, wenn es darum gehen sollte, dieses „HTML“ anschließend auf umgekehrtem Wege wieder in Office-Produkte zu importieren, und dabei kleine Zusatzinfos zu übermitteln.
mein Ansatz war nun mittels php unnötige Tags rauszufiltern
Stellst du dich bitte in die Ecke und geisselst dich selber – oder müssen wir letzteres übernehmen?
HTML-Code plus Verarbeitung mittels regulärer Ausdrücke gleich ganz dickes Pfui.
Bitte hinter die Ohren schreiben (oder an eine andere Stelle, die selten gewaschen wird).
Leider steht danach immer noch ziemlich viel Unsinn in der HTML-Datei, kennt jemand eine Lösung mit einem möglichst schlanken Ergebnis ? Vorzugsweise in PHP ?
MfG ChrisB
RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?