dedlfix: Website parsen und adult/spam content erkennen

Beitrag lesen

Hi!

Ich suche ein php Skript, das eine Seite parsed und erkennt ob es sich um eine "ordentliche" Seite handelt, oder um eine "Müllseite"...

Für eine (verlässliche!) Lösung benötigst du:
KI

Oder MI (Menschliche Intelligenz). Eine Seite, die über das Porno-Business berichtet, verwendet sehr wahrscheinlich die gleichen Begriffe, ist aber deswegen nicht gleich als Müllseite zu kategorisieren. Vielleicht lässt sich ein Bewertungsautomatismus verfeinern, indem er das Verhältnis zwischen "guten" und "Schmuddelwörtern" analysiert. Es kommt darauf an, wie komplex die Lösung und wie treffsicher das Ergebnis ausfallen soll.

Lo!