Hi Jörg,
mit regulären Ausdrücken kenne ich mich recht gut aus und habe auch schon diverse Word-Killer-Ausdrücke im Netz gefunden. Aber diese machten entweder zu viel kaputt oder es blieben Reste übrig. Scheint eine komplizierte Sache zu sein.
Wenn Du Dir den irren Code ansiehst, den Word produziert, kannst Du Dir leicht vorstellen, dass nicht ganz leicht zu sagen ist, was man herausnehmen kann, ohne die Funktion zu zerstören.
Wirklich gut kann das der hier so unbeliebte Dreamweaver. Ich zitiere mal, was er alles so entfernt (die Auswahl ist konfigurierbar):
HTML
"Word-spezifischen HTML-Code, einschließlich XML von html-Tags, eigene Word-Metadaten und Link-Tags im Head-Bereich des Dokuments, Word-XML-Marken, bedingte Tags und ihren Inhalt sowie leere Absätze und Randdefinitionen aus Formatvorlagen."
CSS
"alle Word-spezifischen CSS-Elemente, einschließlich Inline-CSS-Stile, wenn zulässig (dabei hat der übergeordnete Stil die gleichen Stileigenschaften), Stilattribute, die mit mso beginnen, alle Stildeklarationen, die nicht CSS entsprechen, alle CSS-Stile aus Tabellen sowie alle nicht benutzten Stildefinitionen aus dem Head-Bereich"
Weitere typische Word-Fehler:
- endlose font-tags und font-tags außerhalb von Absätzen und Überschirften
- falsche Codierung der Hintergrundfarben
Es sind doch einige Dinge dabei, die Du mit einem RegEx nicht erwischen kannst.
Viele Grüße
Mathias Bigge