dedlfix: Website parsen und adult/spam content erkennen

Beitrag lesen

Hi!

gerade diese furchtbaren werbelink seiten weiss ich gar nicht wie man finden sollte. dachte schon auf anzahl der links im vergelich zur gesamttextlänge etc. aber da kommt auch irgendwie nix raus.

Das sehe ich nicht als schwierig an. Eine URL oder einen Link zu finden, bekommt man mit einem Regexp hin. Die Wörter vom restlichen Text (also ohne Links/URLs) zählen lassen, kannst du mit str_word_count(). Das Verhältnis von Links zu Wörtern auszurechnen ist doch auch nicht schwer?

hätte gehofft dass es vielleicht sogar eine api gibt, wo man domains auf einer blacklist anfragen kann etc.

Sowas wie Akismet?

Lo!