Michael Schröpl: Word-Dokument in HTML konvertieren. Was eignet sich?

Beitrag lesen

Der Nachteil von Word 2000 ist jedoch, dass der einen irrsinnig großen Quelltext aufbaut. Daher eignet sich sowas eher fürs Intranet, als fürs Internet. Es soll zwar bei Microsoft ein Toll zu runterladen geben, welches den Quelltext kleiner hält, aber wie klein er dann wird, weiß ich nicht. Bei komplexen Dateien mit viel Tabellen, Textfeldern etc. kannste das auch vergessen.

Wenn man sich so einen generierten Quelltext ansieht, dann wird man erkennen, daß bestimmte Dinge immer wieder generiert werden (beispielsweise Angaben zu Schriften usw.).
Wenn man etwa weiß, daß man sein HTML-Dokument ohne Schriftangaben machen will, dann kann man mit einem Filter (Perl-Skript etc.) oder einem guten programmierbaren Editor einiges bewirken.

Die Kandidaten, wo Generatoren meiner Meinung nach schlecht sind, sind diejenigen, wo Konzepte nicht hinreichend kompatibel sind. Generatoren tendieren dazu, bei Schriftangaben sehr geschwätzig zu sein (daß es in HTML eine Defaultschrift gibt, kann man Word schlecht begreiflich machen) und bei Tabellen wahnsinnig exakte Größenangaben zu machen (auch wenn man eine einfach nur logisch ge-tag-te Tabelle im Browser sehr schön ansehen könnte.
Also: Suchen und Ersetzen nach <FONT> und <TD> mit geeigneten Attributen; ein Editor mit regular expressions kann hier sehr hilfreich sein.

Was ein solcher Editor natürlich nicht leisten kann, ist die Umsetzung eines monolithischen Word-Dokuments in ein Web aus vielen kleinen HTML-Seiten mit schöner Navigation ...