leider bin ich mit regulären Ausdrücken nicht so fit, und komme daher bei folgendem nicht weiter:
das bin ich genauso wenig, habe mich um das zeug bisher immer rumgedrückt. aber ich hoffe meine idee taugt zumindest als denkanstoß.
Ich bekomm es leider nur hin HTML-Tags zu finden: /<[?>]*?>/,aber keine nicht-HTML-Tags.
ich kenne jetzt die komplexität der inhalte deiner seiten nicht, aber wie wäre es denn im ersten schritt mal die wörter durch die inverse der html-tags zu bestimmen, sprich alles was nicht die kriterien für die html-tags erfüllt als wort zu identifizieren?
hih,
matthias