Hallo,
im Zuge eines eBooks und anschließender Umwandlung in das ePub-Format möchte ich aus Word eine saubere HTML-Datei erstellen. Leider ist da ziemlich viel Schrott drin (warum eigentlich ?), mein Ansatz war nun mittels php unnötige Tags rauszufiltern, nämlich so:
class convertWord {
private function cleanHTML($html) {
$html = preg_replace("#<(/)?(font|span|del|ins)[^>]*>#","",$html);
$html = preg_replace("#<([^>]*)(class|lang|style|size|face)=(\"[^\"]*\"|'[^']*'|[^>]+)([^>]*)>#","<\\1>",$html);
$html = preg_replace("#<([^>]*)(class|lang|style|size|face)=(\"[^\"]*\"|'[^']*'|[^>]+)([^>]*)>#","<\\1>",$html);
return $html;
}
}
Leider steht danach immer noch ziemlich viel Unsinn in der HTML-Datei, kennt jemand eine Lösung mit einem möglichst schlanken Ergebnis ? Vorzugsweise in PHP ? Danke schon mal.
--
Science flies you to the moon.
Religion flies you into buildings.
selfcode: ie:{ fl:| br:^ va:? ls:< fo:{ rl:( n4:{ ss:} de:[ js:} ch:{ sh:) mo:? zu:)
Science flies you to the moon.
Religion flies you into buildings.
selfcode: ie:{ fl:| br:^ va:? ls:< fo:{ rl:( n4:{ ss:} de:[ js:} ch:{ sh:) mo:? zu:)