你好 Christian,
mal eine Frage an den Mailexperten. Ich nutze zur Zeit Mozilla-Mail und
der Spam an Bildern über meine Selfadressen wächst stetig. Warum kann
er Mails wie die folgende nicht erkennen?Mozilla Mail verwendet einen Bayes-Filter, der nach Wörtern sucht.
Das stimmt nicht. Er sucht nicht nach Wörtern, sondern er gewichtet Wörter.
Und aus der Gewichtung der Wörter folgt durch ein wenig Statistik-Magie
eine Klassifizierung des Textes (in Ham bzw. Spam).
Vermutlich werden HTML-Tags einfach weggeworfen, bevor der Bayes-Filter
drauf losgelassen wird. Deswegen sind so kleine Mails schlecht bis gar
nicht zu erkennen mit einem Bayes-Filter.
Kleine Mails sind deshalb schwer zu erkennen, weil die statistischen
Methoden, die zur Klassifizierung verwendet werden, besonders gut bei
großen Datenmengen funktionieren. Je mehr Daten, desto sicherer kann
klassifiziert werden, weil mehr Wörter vorliegen, die gewichtet werden
können. Je weniger Daten vorliegen, desto unsicherer ist die
Klassifizierung.
Die Urpsprungsidee war übrigens, die Mail völlig unverändert inkl. Header
und allem drum und dran durch den Filter laufen zu lassen, damit gerade
auch kurze HTML-Mails korrekt klassifiziert werden können. Ausserdem sind
Spam-Header sich häufig ähnlich (meist der gleiche X-Mailer-Header, etc,
pp.), wodurch die Gewichtung dieser Header-Felder bei ausreichend Training
sehr hoch ausfallen würde. Viele Mail-Clients machen das jedoch nicht,
meist aus rein technischen Gründen, manche haben auch (für mich abstruse)
Argumente für diese Verfahrensweise.
再见,
克里斯蒂安
Wundert euch nicht, … | Noch eine Block-Installation: SELFHTML Aktuell
Wenn gewöhnliche Menschen Wissen erlangen, sind sie weise. Wenn Weise Einsicht erlangen, sind sie gewöhlnliche Menschen.
http://wwwtech.de/