tags kannst Du grundsätzlich auch mit Regulären Ausdrücken entfernen. Dann bliebe nur noch der Plain-Text übrig (im Idealfall) und denn kannst Du dann ja irgendwie parsen, z. B. alle Satzzeichen und Zeilenumbrüche raus, dann explode auf Leerzeichen und dann durchläufst Du dieses Array und speicherst in einem zweiten die Häufigkeit der Wörter.