berlinsurfer: Worddokument in sauberes HTML

Beitrag lesen

Hallo,
im Zuge eines eBooks und anschließender Umwandlung in das ePub-Format möchte ich aus Word eine saubere HTML-Datei erstellen. Leider ist da ziemlich viel Schrott drin (warum eigentlich ?), mein Ansatz war nun mittels php unnötige Tags rauszufiltern, nämlich so:

class convertWord {  
	private function cleanHTML($html) {  
		$html = preg_replace("#<(/)?(font|span|del|ins)[^>]*>#","",$html);  
  
		$html = preg_replace("#<([^>]*)(class|lang|style|size|face)=(\"[^\"]*\"|'[^']*'|[^>]+)([^>]*)>#","<\\1>",$html);  
		$html = preg_replace("#<([^>]*)(class|lang|style|size|face)=(\"[^\"]*\"|'[^']*'|[^>]+)([^>]*)>#","<\\1>",$html);  
  
		return $html;  
	}  
}

Leider steht danach immer noch ziemlich viel Unsinn in der HTML-Datei, kennt jemand eine Lösung mit einem möglichst schlanken Ergebnis ? Vorzugsweise in PHP ? Danke schon mal.

--
Science flies you to the moon.
Religion flies you into buildings.
selfcode: ie:{ fl:| br:^ va:? ls:< fo:{ rl:( n4:{ ss:} de:[ js:} ch:{ sh:) mo:? zu:)