JürgenB: HTML mit REGEXP bereinigen

Beitrag lesen

Hallo zusammen,

Ich habe mir verkniffen, das zu kommentieren, weil Jürgen eine sehr spezifische Anwendung hatte, in der das vermutlich unschädlich ist.

so ist es. Die Word-Dokumente liegen inzwischen als html vor.

Es hat letztendlich viel mehr Arbeit gemacht, die Word-Eigenarten zu beandeln. Word neigt beim html-Export dazu, Sonderzeichen als &#nnnnnn; darzustellen, oder auch als Grafik. Auch Formeln waren teilweise als Grafik, teiweise als html exportiert. Dann neigt Word dazu, sehr großzügig mit <span>s umzugehen, und an aus meiner Sicht willkürlich gesetzten Stellen findet mann ein <a name="_Hlk123831769">...</a>. Aber genug gemeckert, das Problem ist gelöst.

Noch mal: vielen Dank.

Gruß
Jürgen