Hallo Christian,
Das stimmt nicht. Er sucht nicht nach Wörtern, sondern er gewichtet Wörter.
Und aus der Gewichtung der Wörter folgt durch ein wenig Statistik-Magie
eine Klassifizierung des Textes (in Ham bzw. Spam).
Ja stimmt, blöd ausgedrückt meinerseits. Danke für die Klarstellung.
Die Urpsprungsidee war übrigens, die Mail völlig unverändert inkl. Header
und allem drum und dran durch den Filter laufen zu lassen, damit gerade
auch kurze HTML-Mails korrekt klassifiziert werden können. Ausserdem sind
Spam-Header sich häufig ähnlich (meist der gleiche X-Mailer-Header, etc,
pp.), wodurch die Gewichtung dieser Header-Felder bei ausreichend Training
sehr hoch ausfallen würde. Viele Mail-Clients machen das jedoch nicht,
meist aus rein technischen Gründen, manche haben auch (für mich abstruse)
Argumente für diese Verfahrensweise.
Naja, es spricht durchaus etwas dafür, HTML-Code zu entfernen, um Tricks wie <span>V</span><span>I</span>... entgegenzuwirken. Man könnte allerdings beides anwenden, um so auch Mini-HTML-Mails zu erwischen.
Viele Grüße,
Christian