Hallo Freunde des gehobenen Forumsgenusses,
Theoretisch klingen Deine Ausführungen gut, de facto machen die DInger den Filtern Probleme...
Ich habe inzwischen auf Basis von "A Plan for Spam" eine Software in PHP geschrieben, die auf Basis von Häufigkeiten Texte kategorisiert (in Spam/nicht-Spam oder beliebige andere Kategorien). Ich habe dann meine Mail-Korrespondenz und meine Spams in die Häufigkeiten-Tabelle eingetragen und eine Spam-Mail, die ich später erhalten habe und die nur ein Bild enthält kategorisieren lassen.
Das Ergebnis:
Wahrscheinlichkeit für Spam: 0.59332102638312
Wahrscheinlichkeit für nicht-Spam: 0.40667897361688
Hier die verräterischen Worte:
word spam ham
account4 1212 2
<brockalexander@web 446 1
multipart/related 322 1
brockalexander@web 807 7 << Meine alte Adresse, an die kommt fast nur noch Spam.
Content-ID 332 3
src=3Dcid 77 0
mx25 106 1
image/gif 267 10
web 5296 641
gif" 2125 284
news 229 30
<img 517 71
#340 11 1
BTW: Es gibt da noch ein paar Ungereimtheiten und Unsauberkeiten in der Software,
sobald ich die gefixt habe stelle ich sie unter die GPL und auf meine Homepage.
Gruß
Alexander Brock
[latex]\lim_{3 \to 4}{\sqrt{3}} = 2[/latex]