Hallo Freunde des gehobenen Forumsgenusses,
Ich habe jetzt einen Bayes-Filter implementiert, ich weiß aber nicht, ob ich das auch wirklich richtig verstanden habe. Hier meine Vorgehensweise:
Ich habe zwei Tabellen in einer Datenbank:
Eine, in der steht wie viele Wörter alle Spam-Mails zusammen haben und wie viele alle erwünschten Mails.
Eine, in der steht welches Wort wie oft in Spam und wie oft in erwünschten Mails auftritt.
Wenn jetzt eine neue Mail getestet werden soll, wird für jedes Wort abgefragt,
wie häufig es in Spam-Mails und wie häufig in erwünschten Mails auftrat.
Dann werden die Summen gebildet und jeweils durch die gesamt-Zahl aller Wörter in den Spam- bzw. erwünschten Mails geteilt. Dann hat man zwei Zahlen, deren Betrag sehr nahe an null ist (wie nahe liegt an dem Verhältnis Textlänge/Größe der vorhandenen Datenbank), diese werden so umgerechnet, dass sie zusammen eins ergeben (wie sich das für Wahrscheinlichkeiten gehört) und das Verhältnis erhalten bleibt.
Ist das soweit verständlich?
Als Trenner für Wörter habe ich übrigens folgenden regulären Ausdruck: #[\s.:,;(){}\[\]!?´`']+# hat da jemand einen besseren?
Gruß
Alexander Brock
[latex]\lim_{3 \to 4}{\sqrt{3}} = 2[/latex]