Alexander Brock: Maßnahmen gegen Spammer

Beitrag lesen

Hallo Freunde des gehobenen Forumsgenusses,

Moin!

Ich habe zwei Tabellen in einer Datenbank:

Eine, in der steht wie viele Wörter alle Spam-Mails zusammen haben und wie viele alle erwünschten Mails.

Die Anzahl der Wörter in Spammails halte ich zwar nicht unbedingt für ein Kriterium, aber man weiß ja nie. Wenn Spammer sich üblicherweise sehr kurz fassen, und deine regulären Mailsender immer Romane schreiben, wäre das allein ja eventuell schon ein Kriterium.

Ich wusste, dass man mich missverstehen würde ;-)
Ich ziehe diese Zahlen nicht zur Bewertung heran, sondern verhindere mit ihnen,
dass 1Mio Spam-Mails die wenigen hundert erwünschten Mails erdrücken.

Alle in der Mail gefundenen Worte werden in der Datenbank gesucht. Die dort am häufigsten in den Kategorien HAM oder SPAM eingetragenen 10 Worte werden zur Bewertung herangezogen - wenn die Mehrzahl der Worte "SPAM" sagt, scheint die Mail wohl SPAM zu sein, und umgekehrt.

Also so etwa?
select ham, spam from spamfilter order by ((ham+1)/(spam+1)) limit 10;

An diesem Vorgehen stört mich, dass es im Vergleich zu folgender Abfrage ewig dauert:
select ham, spam from spamfilter where word='wort1' or word='wort2' etc.;

Wobei jedes Wort natürlich sowohl einen HAM als auch einen SPAM-Wert besitzt, also selten wirklich eindeutig böse ist. Aber nur die eindeutigsten Worte heranzuziehen bedeutet unter Umständen einen Vorteil, weil man damit gegen die Verwässerungstaktiken in Spammails wirkt.

Ich weiß nicht, ob das gut ist. Mein Spamfilter hat gerade einer Mail,
die Thunderbird nicht aussortiert hat eine Spam-Wahrscheinlichkeit von 0.6322 gegeben.

Es ist natürlich immer das Problem, wo man die Grenze setzt.

Als Trenner für Wörter habe ich übrigens folgenden regulären Ausdruck: #[\s.:,;(){}\[\]!?´`']+# hat da jemand einen besseren?

Wo du deine Worte trennst, ist ebenfalls komplett dir überlassen.

Ja, es hätte ja sein können, dass jemand meint, ein anderer Trenner wäre besser geeignet,
und zwar aus dem und dem Grund.

Gruß
Alexander Brock

--
[latex]\lim_{3 \to 4}{\sqrt{3}} = 2[/latex]
0 72

Maßnahmen gegen Spammer

Fabienne
  • meinung
  1. -1
    Zeromancer
    1. 0
      Fabienne
      1. 0
        TomIRL
        1. 0
          Fabienne
          1. 0
            Armin
          2. 0
            Sven Rautenberg
            1. 0
              Fabienne
    2. 0
      Chris
      1. 0
        Zeromancer
        1. 0
          Chris
          1. 0
            Fabienne
  2. 0
    Stefano Albrecht
    1. 0
      TomIRL
  3. 0
    Mathias Bigge
    1. 0
      wahsaga
    2. 0
      Der Martin
      1. 0
        wahsaga
        1. 0
          Chris
          1. 0
            Der Martin
      2. 0
        Armin
        1. 0

          Vernünftiger Mail-Client?

          Chris
          • e-mail
          1. 0
            Der Martin
          2. 0
            Armin
            1. 0
              Ashura
            2. 0
              Der Martin
        2. 0
          Alexander Brock
          1. 0
            Armin
            1. 0
              Alexander Brock
              1. 0
                Mathias Bigge
                1. 0
                  Alexander Brock
                  1. 0
                    Mathias Bigge
                    1. 0
                      Alexander Brock
    3. 0
      Sven Rautenberg
      1. 0
        Mathias Bigge
        1. 0
          Christian Seiler
          1. 3
            Christian Kruse
            1. 0
              Christian Seiler
              1. 0
                Tim Tepaße
  4. 0
    Christoph Zurnieden
    1. 0

      Wie funktioniert SMTP?

      Chris
      • e-mail
      1. -1
        Vinzenz Mai
        1. 0
          Henryk Plötz
          1. 0
            Vinzenz Mai
      2. 2
        Sven Rautenberg
        1. 0
          Der Martin
        2. 0

          Wie RICHTIG Mails versenden?

          Chris
          1. 1
            Henryk Plötz
            1. 0
              Chris
              1. 0
                Der Martin
        3. 0
          Henryk Plötz
          1. 0
            Sven Rautenberg
            1. 0
              Christian Kruse
      3. 0
        Christoph Zurnieden
  5. 0
    Alexander Brock
    1. 0
      Sven Rautenberg
      1. 0
        Alexander Brock
  6. 0
    Andreas Lindig
    1. 0
      Alexander Brock
      1. 0
        at
        1. 0
          Alexander Brock
          1. 0
            at
            1. 0

              Formmailer

              Alexander Brock
      2. 0
        Andreas Lindig
        1. 0
          Andreas Lindig
        2. 0
          Alexander Brock
        3. 0
          Detlef G.
    2. 0
      Detlef G.
      1. 0
        Andreas Lindig
    3. 0
      Johannes Zeller
    4. 0
      Christian Seiler
  7. 0

    Software gegen Spammer

    Alexander Brock