Siechfred: Kleiner Erfolg im Kampf gegen Spambots

Hi,

in den letzten Wochen gab es ein paar Threads zum Thema Spambots, darunter auch einer von mir. Darauf hin hatte ich aus Verzweiflung am Anfang aller meiner Perl-Scripts folgende Zeilen ergänzt:

if ($ENV{'HTTP_USER_AGENT'} =~ /robot|spider|wget|crawl|slurp|bot|openfind|missauga|locator|finder|library/ig) {
  exit(1);
}

Nun habe ich heute mal wieder einen Blick in meine transfer.log geworfen und zu meiner Schadenfreude festgestellt, dass die Spambots bei Anforderung aller Perl-Scripte den Statuscode 500 erhalten. Das müsste imho mit dem exit(1) zu tun haben.

Viele Grüße
Torsten

--
Wäre Stoizismus eine Programmiersprache, würde ich ein Experte sein.
  1. Hi Siechfred,

    if ($ENV{'HTTP_USER_AGENT'} =~ /robot|spider|wget|crawl|slurp|bot|openfind|missauga|locator|finder|library/ig) {
      exit(1);
    }

    Nun habe ich heute mal wieder einen Blick in meine transfer.log geworfen und zu meiner Schadenfreude festgestellt, dass die Spambots bei Anforderung aller Perl-Scripte den Statuscode 500 erhalten. Das müsste imho mit dem exit(1) zu tun haben.

    Würdest du mir erklären, warum du wget ausschließen möchtest? Ist wget per sé böse?

    Grüße aus Barsinghausen,
    Fabian

    1. Hi,

      Würdest du mir erklären, warum du wget ausschließen möchtest?
      [...] robot|spider|wget|crawl|slurp|bot|openfind|missauga|locator|finder|library

      bis hier war es eine Vorlage, die ich     |
      mal irgendwo im Web gefunden habe.        |

      Ist wget per sé böse?

      Ich gestehe meine Unwissenheit, da ich wget nicht wirklich kenne. Würde dem nicht so sein, hätte ich es bereits rausgenommen :)

      Viele Grüße
      Torsten

      --
      Wäre Stoizismus eine Programmiersprache, würde ich ein Experte sein.
      1. Hallo Siechfred,

        Ich gestehe meine Unwissenheit, da ich wget nicht wirklich kenne. Würde dem nicht so sein, hätte ich es bereits rausgenommen :)

        wget ist ein Kommandozeilentoll (auch für Windows) mit dem man Dateien herunterladen kann oder gar ganze Server spiegeln kann. Such mal danach, ich finde es sehr praktisch.

        Viele Grüße,
        Christian

        1. Moin!

          wget ist ein Kommandozeilentoll (auch für Windows) mit dem man Dateien herunterladen kann oder gar ganze Server spiegeln kann. Such mal danach, ich finde es sehr praktisch.

          Und genau deswegen wird es in der Vorlage mit drin gestanden haben... Die weitere Filterung der Texte ist ein Klax....

          Generell ist die Methode aber unbrauchbar: Es sind die Spambot's, die sich hinter fremden Browserstrings verstecken...

          Die beste Methode ist immer noch die Maildresse menschenlesbar, aber "verballhornt" anzubieten. Also keinen mailto:  Link. Besser ein Formular, wo aber die Mailadresse auch wieder nicht im Quelltext steht, sondern vor dem Versand aus einer Datenbank herausgesucht wird.

          Noch ein Typ: Genau das, was Suchmaschinen nicht können, können auch die Spamrobots nicht:

          Vor der Seite, auf der eine e-maildresse auftaucht steht ein Formular (das nicht leer abgeschickt werden darf) ... Mir ist noch keine Maschine untergekommen, die versucht hat irgendwas per Post in Forulare einzutragen um eine Seite weiterzukommen....

          Zusammengerechnet: Formular davor + Adresse Verballhornt + (sicheres) Mailformular: Wie sind dann die Chancen der Spammer?

          Beispiel? http://www.diewohnung.de

          MFFG (Mit freundlich- friedfertigem Grinsen)

          fastix®

          --
          Meinereinerselbst ist auf der Suche nach Aufträgen
  2. Hallo Siechfred,

    if ($ENV{'HTTP_USER_AGENT'} =~ /robot|spider|wget|crawl|slurp|bot|openfind|missauga|locator|finder|library/ig)

    Bist Du Dir sicher, dass Du damit nicht vielleicht doch Besucher ausschließt? Außerdem - was hindert einen Spambot daran, sich einen "richtigen" UA-String zuzulegen? Und vor allem: Wenn Deine Mail sowieso schon in einer Liste ist, ist es doch egal, ob sie wieder und wieder von den gleichen Spambots gelesen wird...

    Das müsste imho mit dem exit(1) zu tun haben.

    Jain. Du sendest keine Header, aber Dein Script beendet sich => 500.

    Viele Grüße,
    Christian

    1. Hi,

      Bist Du Dir sicher, dass Du damit nicht vielleicht doch Besucher ausschließt?

      Bis jetzt kamen noch keine Klagen :)

      Außerdem - was hindert einen Spambot daran, sich einen "richtigen" UA-String zuzulegen?

      Wahrscheinlich nichts, deswegen auch nur ein "kleiner" Erfolg.

      Und vor allem: Wenn Deine Mail sowieso schon in einer Liste ist, ist es doch egal, ob sie wieder und wieder von den gleichen Spambots gelesen wird...

      Es ging dabei weniger um meine kleine Heimseite, mehr um unsere Vereinsseite, da taucht im GB auch in Zukunft sicher die ein oder andere E-Mail auf. Ich bin allerdings für jeden Tipp, wie es besser zu lösen wäre, dankbar.

      Das müsste imho mit dem exit(1) zu tun haben.
      Jain. Du sendest keine Header, aber Dein Script beendet sich => 500.

      Alles klar.

      Viele Grüße
      Torsten

      --
      Wäre Stoizismus eine Programmiersprache, würde ich ein Experte sein.
      1. Hallo Torsten,

        Es ging dabei weniger um meine kleine Heimseite, mehr um unsere Vereinsseite, da taucht im GB auch in Zukunft sicher die ein oder andere E-Mail auf.

        Jeder, der seine Email irgendwo öffentlich eingibt, muss sich der Konsequenzen bewußt sein.

        Ich bin allerdings für jeden Tipp, wie es besser zu lösen wäre, dankbar.

        Du könntest dem Eintragenden die Möglichkeit geben, die Email vor der Öffentlichkeit zu vertecken, so dass nur Du als Seitenbetreiber sie siehst.

        Es gibt kein effektives Mittel gegen Spammer, das nicht auch gleichzeitig enorme Probleme mit sich führt.

        Viele Grüße,
        Christian

        1. Hi,

          Es gibt kein effektives Mittel gegen Spammer, das nicht auch gleichzeitig enorme Probleme mit sich führt.

          Das ist mir schon klar, man kann es den Spambots nur so schwer wie möglich machen. Irgendwie ist das Ganze wie der berühmte Kampf gegen Windmühlen oder die ewig junge Frage nach dem Bilder- und Quelltextschutz. Aber vielleicht habe ich jetzt wenigstens ein bisschen mehr Ruhe, du weißt ja, die Hoffnung stirbt zuletzt :-)

          BTW habe ich festgestellt, dass ein "anständiger" Robot (Googlebot, Inktomisearch, Firefly) zuerst nach der robots.txt fragt, da sind bei mir schon ziemlich restriktive Disallows drin. Aber die E-Mail-Sammler (zumindest die, die sich auf unserer Vereinsseite umgesehen haben) kümmern sich leider einen feuchten Kehricht um die robots.txt.

          Viele Grüße
          Torsten

          --
          Wäre Stoizismus eine Programmiersprache, würde ich ein Experte sein.
          1. Hi,

            Das ist mir schon klar, man kann es den Spambots nur so schwer wie möglich machen.

            es existiert kein Weg, einen Spambot als solchen zu erkennen.

            Irgendwie ist das Ganze wie der berühmte Kampf gegen Windmühlen

            Nur dass Du bei diesem Kampf auch hinreichend viele unschuldige Tulpen zertrampelst. Proxies verändern User-Agent-Strings ebenfalls.

            Aber vielleicht habe ich jetzt wenigstens ein bisschen mehr Ruhe,

            Ja, auch vor Besuchern.

            BTW habe ich festgestellt, dass ein "anständiger" Robot (Googlebot, Inktomisearch, Firefly) zuerst nach der robots.txt fragt, da sind bei mir schon ziemlich restriktive Disallows drin. Aber die E-Mail-Sammler (zumindest die, die sich auf unserer Vereinsseite umgesehen haben) kümmern sich leider einen feuchten Kehricht um die robots.txt.

            U.a. auch darum existiert kein Schutz, bis auf kompletter Verzicht auf die Veröffentlichung der Mailadresse.

            Cheatah

            --
            X-Will-Answer-Email: No
            X-Please-Search-Archive-First: Absolutely Yes
            1. Hi,

              Das ist mir schon klar, man kann es den Spambots nur so schwer wie möglich machen.
              es existiert kein Weg, einen Spambot als solchen zu erkennen.

              Keinen absoluten, aber immer noch den über den UA.

              Irgendwie ist das Ganze wie der berühmte Kampf gegen Windmühlen
              Nur dass Du bei diesem Kampf auch hinreichend viele unschuldige Tulpen zertrampelst. Proxies verändern User-Agent-Strings ebenfalls.

              Mag sein, allerdings habe ich bisher mehr Beschwerden von Spam-Opfern bekommen als von Opfern meiner zugegeben nicht optimalen Variante, zumal es zu 99% IE-Surfer sind.

              Aber vielleicht habe ich jetzt wenigstens ein bisschen mehr Ruhe,
              Ja, auch vor Besuchern.

              Mit an Sicherheit grenzender Wahrscheinlichkeit nicht ;-)

              BTW habe ich festgestellt, dass ein "anständiger" Robot (Googlebot, Inktomisearch, Firefly) zuerst nach der robots.txt fragt, da sind bei mir schon ziemlich restriktive Disallows drin. Aber die E-Mail-Sammler (zumindest die, die sich auf unserer Vereinsseite umgesehen haben) kümmern sich leider einen feuchten Kehricht um die robots.txt.
              U.a. auch darum existiert kein Schutz, bis auf kompletter Verzicht auf die Veröffentlichung der Mailadresse.

              Das Problem sind immer die jenigen, die wollen, dass es ein Gästebuch, einen Counter und ein Eingabefeld "E-Mail" im GB gibt. Warum soll ich mich mit den Herren rumärgern, so kriegen sie, was sie wollen. Erkläre mal einem Laien, warum er _nichts_ aber auch _gar nichts_ von der Steuer absetzen kann :-))

              Viele Grüße
              Torsten

              --
              Wäre Stoizismus eine Programmiersprache, würde ich ein Experte sein.
      2. Ja es gibt einige Läsungen dazu.... Du könntest den String der mail Adresse untersuchen und das ganze mit Blchen pro Buchstaben ersetzten.
        Damit kann kein Spambot was anfangen.
        Du kannst aber auch das @ durch # ersetzen. Das hilft auch und blickt auch fast kein Spam er mehr.

  3. hallo,

    [...]crawl|slurp|bot|[...]

    du dürftest mit dieser methode auch einigen suchspidern das handwerk legen.
    z.b. nennt inktomi seinen spider "slurp".

    lg
    MADU