gnarf: Website parsen und adult/spam content erkennen

Hallo !

Ich werde einfach gar nicht fündig im grossen Netz, vielleicht kann mit ja wer helfen !?!

Ich suche ein php Skript, das eine Seite parsed und erkennt ob es sich um eine "ordentliche" Seite handelt, oder um eine "Müllseite". Zu zweiterer Kategorie würde ich Pornoseiten, aber auch reine Werbeseiten, so Seiten die nur google-ad-links enthalten, Seiten die nur Wörterlisten enthalten um Suchmaschinentreffer zu kriegen und was es halt sonst noch so gibt....

Kennt wer so etwas ?

(Ich weiß ! Google hat so was, aber die wollen es mir nicht geben ;-)

danke / lg

gnarf

  1. Ich suche ein php Skript, das eine Seite parsed und erkennt ob es sich um eine "ordentliche" Seite handelt, oder um eine "Müllseite"...

    Für eine (verlässliche!) Lösung benötigst du:

    KI

    1. Hi!

      Ich suche ein php Skript, das eine Seite parsed und erkennt ob es sich um eine "ordentliche" Seite handelt, oder um eine "Müllseite"...

      Für eine (verlässliche!) Lösung benötigst du:
      KI

      Oder MI (Menschliche Intelligenz). Eine Seite, die über das Porno-Business berichtet, verwendet sehr wahrscheinlich die gleichen Begriffe, ist aber deswegen nicht gleich als Müllseite zu kategorisieren. Vielleicht lässt sich ein Bewertungsautomatismus verfeinern, indem er das Verhältnis zwischen "guten" und "Schmuddelwörtern" analysiert. Es kommt darauf an, wie komplex die Lösung und wie treffsicher das Ergebnis ausfallen soll.

      Lo!

      1. Hallo !

        dass das keine ganz triviale sache ist ist mir klar. auch zum programmieren ist das nicht ganz einfach, weshlab ich gehofft hätte dass es da was fertiges gibt. finde aber leider gar nichts, vielleicht suche ich aber auch nur falsch.

        es muss nicht perfekt funktionieren, und sollte notfalls eher etwas streng sein.

        etwas auf die schnelle selbst gemachtes ist sicher nix. sollte auch mehr sein als ein "schmuddelwörtersucher". gerade diese furchtbaren werbelink seiten weiss ich gar nicht wie man finden sollte. dachte schon auf anzahl der links im vergelich zur gesamttextlänge etc. aber da kommt auch irgendwie nix raus.

        hätte gehofft dass es vielleicht sogar eine api gibt, wo man domains auf einer blacklist anfragen kann etc.

        naja vielleicht findet sich ja noch was. ich suche noch ;-)

        lgm

        1. Hi!

          gerade diese furchtbaren werbelink seiten weiss ich gar nicht wie man finden sollte. dachte schon auf anzahl der links im vergelich zur gesamttextlänge etc. aber da kommt auch irgendwie nix raus.

          Das sehe ich nicht als schwierig an. Eine URL oder einen Link zu finden, bekommt man mit einem Regexp hin. Die Wörter vom restlichen Text (also ohne Links/URLs) zählen lassen, kannst du mit str_word_count(). Das Verhältnis von Links zu Wörtern auszurechnen ist doch auch nicht schwer?

          hätte gehofft dass es vielleicht sogar eine api gibt, wo man domains auf einer blacklist anfragen kann etc.

          Sowas wie Akismet?

          Lo!

          1. hi !

            so war das nicht gemeint. das prgrammieren bekomm ich schon hin, aber ich meine, dass ich damit keine "schlechten" seiten halbwegs zuverlässig entdecke. es gibt auch sehr viel gute seiten mit sehr hohem wort/links verhältnis, deshalb meine ich, da kommt nix raus.

            askimet ist en super einfall, aber soweit ich das vorerst überblicke ist das nur für blog pingbacks und kommentare...

            aber das sehe ich mir an..

            danke / lg

            Hi!

            gerade diese furchtbaren werbelink seiten weiss ich gar nicht wie man finden sollte. dachte schon auf anzahl der links im vergelich zur gesamttextlänge etc. aber da kommt auch irgendwie nix raus.

            Das sehe ich nicht als schwierig an. Eine URL oder einen Link zu finden, bekommt man mit einem Regexp hin. Die Wörter vom restlichen Text (also ohne Links/URLs) zählen lassen, kannst du mit str_word_count(). Das Verhältnis von Links zu Wörtern auszurechnen ist doch auch nicht schwer?

            hätte gehofft dass es vielleicht sogar eine api gibt, wo man domains auf einer blacklist anfragen kann etc.

            Sowas wie Akismet?

            Lo!

            1. aber dein tipp hat mich mal auf das gebracht ! auch noch nicht 100% für links, aber da kann man vielleicht improvisieren.

              http://defensio.com

  2. nachdem ich das nicht mag, wenn menschen fragen stellen und dann die lösung nie im forum steht, teile ich noch meinen lösungsweg mit:

    ich werde blacklists verwenden und die doamins checken. das ist auch schnell selber programmiert. blacklists gibts haufenweise hier:

    http://spamlinks.net/

    oder die beste die ich gefunden hab (1,6 mio einträge, nach theme sortiert):

    http://www.shallalist.de/

    danke für die antworten !

    lgm