Jörg: HTML Code bereinigen mittels regulärem Ausdruck

Beitrag lesen

Hi,

mittlerweile sind einige Tipps eingegangen, die mir aber nicht wirklich weiterhelfen.

Ich brauche eine Lösung, die clientseitig im Browser läuft und beim reinkopieren eines Textes aus Word in einen DHTML-Editor das HTML bereinigt. Eine Teillösung habe ich gefunden, aber leider bleiben die mso-Attribute im STYLE-Attribut übrig. Den Text vor der Quellcodeansicht jedesmal zum Server zu schicken und z. B. Tidy drüberlaufen zu lassen, wäre reichlich umständlich.

Hier ein Teilauszug des Script-Codes, der schon sehr viel filtert, aber leider noch zu wenig:

if (/(<[^>]*)class=Mso[^>]+(>)/gi.test(sBuffer))
{
  fHTMLCodeCleaned=true;
  sBuffer=sBuffer.replace(/(<[^>]*)class=Mso[^>]+(>)/gi, "$1$2");
}

Wie ihr seht, komme ich mit euren Tipps nicht weit, es muss eine scriptbasierte Lösung sein.

Gruß
Jörg