Hallo Christian und Christian,
Naja, es spricht durchaus etwas dafür, HTML-Code zu entfernen, um Tricks wie <span>V</span><span>I</span>... entgegenzuwirken.
Wobei bei passender Tokenisierung der String „</span><span>“ und ähnliche beknackte Konstrukte wunderbar signifikante Spamwahrscheinlichkeiten abgeben. Das Problem ist also eher nicht, HTML oder sonstigen Code herauszufiltern, sondern in der Tokenisierung. Leider ist das dann etwas komplizierter zu lösen, der goldglänzende Ausweg isses ja nicht, einen besseren Tokenizer für viele strukturierte Textformate (HTML, vCard, whateverML) plus „normalen Text“ zu bauen, auch wenn MIME das einem erleichtert und es für unsere derzeitige, bislang nur aus Text und HTML bestehende Mailwelt noch praktikabel ist. Dummerweise sind andere Möglichkeiten in Rechenzeit betrachtet beschissen, sei es n Mal den String in Token mit n Zeichen Länge aufzuteilen oder gleich alle möglichen Substrings zu berücksichtigen. Dann doch lieber erstmal einen Tokenizer, der auf „<“ und „>“ achtet.
Tim