Henryk Plötz: Spam-Schutz

Beitrag lesen

Moin,

Zwei Postings in der hart erstrittenen Mittagsruhe und gleich zwei peinliche Fehler eingebaut.

Make that three:

Hi Hendrik

;-)

Den hatte ich noch nicht. Wie langsam ist er denn?

Die Implementierung ist ziemlich aufwendig und in meinen Versuchen hat es so ungefähr 15 Minuten gebraucht um ein Megabyte Mails einzulernen (klassifizieren geht dann nachher deutlich schneller). Die >30h die es da für meinen gesamten Corpus gebraucht hätte, wollte ich nicht warten. Vermutlich könnte man das beschleunigen, wenn man den Algorithmus aus der aktuellen Implementierung, die ja eigentlich eher ein Schweizer Taschenmesser für Streamverarbeitung ist, herausnimmt und getrennt von den regulären Ausdrücken nur für diesen einen Zweck einsetzt.

--
Henryk Plötz
Grüße aus Berlin
~~~~~~~~ Un-CDs, nein danke! http://www.heise.de/ct/cd-register/ ~~~~~~~~
~~ Help Microsoft fight software piracy: Give Linux to a friend today! ~~