Hallihallo!
Hey, nach dem Artikel habe ich schon fast verstanden, wie die Theorie dahinter aussieht! Und das, obwohl ich mit Stochastik schon seit jeher auf Kriegsfuss stehe...
Mir sind beim Lesen Deines Artikels nur drei Kleinigkeiten aufgefallen:
- Abschnitt "Konzepte von Spamfiltern", Absatz 9:
"Der Kommentartext selbst enthält aber oft keine oder nur ein oder zwei URLs enthält."
-> 2mal "enthält"... - In der Herleitung, direkt unter dem ersten Produkt:
"ist gleich das Produkt aller aller Einzelwahrscheinlichkeiten."
-> das "aller" ist doppelt - In der Erklärung Deiner Klasse:
Ich weiß als Leser jetzt, wie ich händisch einen Text in eine der beiden Kategorien einordnen kann.
Aber wie frage ich die Klasse, zu welcher Kategorie ein Text wahrscheinlich gehört?
Ein kleiner Satz würde da IMHO reichen. So, wie es jetzt da steht, kann der Verdacht aufkommen, daß Deine Klasse eher Statistik über die manuelle Sortierung führt, mit dieser Statistik aber im Endeffekt nicht "selbst" arbeitet. Ich hoffe, ich habe mich halbwegs verständlich ausgedrückt...
Alles in Allem gefällt mir der Artikel. Schwere Kost, fast leicht verdaulich :)
Viele liebe Grüße,
Der Dicki