Robert: bzw. (CLIENTS): bekannte IPs von robots

Hallöle,

gibt es irgendwo Listen mit bekannten IPs von Suchrobots?

Klar, ich kann mir die im Laufe der Jahre auch selbst zusammensuchen aus meinen Logfiles - wenn es aber schon irgendwelche Listen fertig gäbe, wäre das schon mal ein schöner Start ...

Das sind die, die ich bis jetzt kenne:

66.196.90.*   Inktomi
66.196.91.*   Inktomi
66.249.64.*   google
66.249.66.229 google
66.249.71.*   google
68.142.249.*  Inktomi
68.142.250.*  Inktomi
68.142.251.*  Inktomi
207.46.98.77  msnbot
207.46.98.78  msnbot
207.46.98.79  msnbot

cu,
Robert

  1. Hi,

    Klar, ich kann mir die im Laufe der Jahre auch selbst zusammensuchen aus meinen Logfiles - wenn es aber schon irgendwelche Listen fertig gäbe, wäre das schon mal ein schöner Start ...

    In AWStats z.B. ist eine ziemlich komplette Liste intergiert, da kannst du dir die raussuchen

    1. Hallöle,

      Klar, ich kann mir die im Laufe der Jahre auch selbst zusammensuchen aus meinen Logfiles - wenn es aber schon irgendwelche Listen fertig gäbe, wäre das schon mal ein schöner Start ...

      In AWStats z.B. ist eine ziemlich komplette Liste intergiert, da kannst du dir die raussuchen

      Hm - was ich da in den Sourcen gefunden habe, ist eine Liste von Strings, die mit dem User-Agent verglichen wird.
      IP-Adressen hab ich nicht gefunden. Ich suche aber nicht nach User Agent Strings, sondern nach IP-Adressen von Robots.

      cu,
      Robert

      1. Hi,

        IP-Adressen hab ich nicht gefunden. Ich suche aber nicht nach User Agent Strings, sondern nach IP-Adressen von Robots.

        Das sind die, die die robots.txt abfragen (OK, nebst Spidern). ;-) Sorg also dafür, daß die robots.txt ein Script ist, welches
        a) den erwarteten Inhalt ausliefert und
        b) die IP abspeichert!

        Und vor dem Abspeichern kann man noch überprüfen, ob die IP schon drin ist. Das hält die Liste dann klein und übersichtlich.

        Gruß, Cybaer

        --
        Hinweis an Fragesteller: Fremde haben ihre Freizeit geopfert, um Dir zu helfen. Helfe Du auch im Archiv Suchenden: Beende deinen Thread mit einem "Hat geholfen" oder "Hat nicht geholfen"!
        1. Hallöle,

          Das sind die, die die robots.txt abfragen (OK, nebst Spidern). ;-) Sorg also dafür, daß die robots.txt ein Script ist, welches

          überflüssig ist.
          Das kann ich auch aus dem Logfile rauslesen.

          Schade, daß keiner meine Frage nach Listen bekannter Robot-IPs beantworten will.

          Daß ich die Logfiles auswerten kann, hab ich schon im ersten Posting geschrieben.

          cu,
          Robert

          1. Hi,

            Schade, daß keiner meine Frage nach Listen bekannter Robot-IPs beantworten will.

            Weil das mit Sicherheit keine Lösung für Deine Problem ist, sondern nur ein Workaround oder wie ich sowas gerne bezeichen: ein "Würgaround". Woher ich das wissen will, obwohl ich Dein Problem überhaupt nicht kenne? Weil manche Dinge und Fragen genau darauf hinweisen, so auch Deine:

            Eine IP-Liste von Robost? Kann es nicht geben da sie schon ebi der Herstellung schon veraltet wäre. IPs von Robots ändern sich zwar selten, aber sie können sich durchaus ändern. Auch können Suchmaschinen wegsterben und welche hinzukommen. Sodann kann es sein, das sich das Verhalten eines Robots ändern kann.
            Wie kann man also sicherer feststellen, ob es sich um einen Robot handelt? In dem man sein Verhalten nutzt. Z.B. mit einer robots.txt.
            Alleine schon das Aufsuchen der robots.txt ist ein recht sicheres Zeichen. Ordentliche Suchrobots halten sich dann noch an die Anweisungen darin, also könntest Du eine Falle stellen. Das ist jedoch zweckfrei, wenn sich üble Zeitgenossen die robots.txt gar nicht erst anschauen. Bei ehrlichen Robots wird aber auch der UA nicht wesentlich geändert. Du würdest also mit der UA-List in der einen und dem GET auf die robots.txt in der andern Hand einen ehrlichen Robot gut feststellen können.
            Aber was ist mit den unehrlichen? Die kannst Du ignorieren, wenn sie keinen Schaden anrichten. Schaden können sie eigentlich nur anrichten, in dem sie den Traffic hochjubeln bis es in Deiner Brieftasche schmerzt. Das ist dann aber eine Art DoS, bei dynamischen IPs nicht einfach zu behandeln und würde den Rahmen dieses Postings sprengen.

            Nur ein sehr kleiner Auszug aus den Möglichkeiten. Ist Dein Problem darunter? Oder möchtest Du nach der Suchmaschinenanmeldung lediglich wissen, ob überhaupt und wenn ja, wann der Robot vorbeigekommen ist? Dafür ist die Liste aus AWStats und anderen Logfileanalysatoren sehr gut geeignet.

            Oder Du benutzt die Arbeit anderer Leute und schaust z.B. mal bei http://www.robotstats.com/ (vermischte Lizenzen: "nur Link auf Seite", QPL-1.0 und GPL ) vorbei. Im Paket ist in der Datei "install.php" eine Liste mit bekannten Namen und IPs drin.

            so short

            Christoph Zurnieden

            1. Hi Christoph,

              Prima erklärt - wäre doch fast schon einen Tipps&Tricks Beitrag wert, findest du nicht?

              Das ist dann aber eine Art DoS, bei dynamischen IPs nicht einfach zu behandeln und würde den Rahmen dieses Postings sprengen.

              Einen Gedankenaustausch und Lösungsansätze gab es in diesem Thread, durch Ingo angestoßen. Sicherlich lesenswert.

              MfG, Dennis.

              --
              Mein SelfCode: ie:{ fl:( br:> va:) ls:[ fo:) rl:( n4:# ss:) de:] js:| ch:{ sh:| mo:} zu:|
              Man sollte nie aufhören zu fragen (Alber Einstein)
              ... aber natürlich erst, nachdem man sämliche FAQ's und Archive durchgelesen hat :-P
              1. Hi,

                Prima erklärt - wäre doch fast schon einen Tipps&Tricks Beitrag wert, findest du nicht?

                Ja genau und hier hast Du schon das Begehrte: <I>

                Das ist dann aber eine Art DoS, bei dynamischen IPs nicht einfach zu behandeln und würde den Rahmen dieses Postings sprengen.

                Einen Gedankenaustausch und Lösungsansätze gab es in diesem Thread, durch Ingo angestoßen. Sicherlich lesenswert.

                Ja, ich sagte nicht umsonst, das es den Rahmen dieses Postings sprengen würde. Im besagtem Thread kommt man ja schließlich auch dahinter, das das generell nicht lösbar ist, nur individuell. Und wenn man davon auch nur einen kleinen Teil listet käme ganz schnell die Forumssoftware und würde ihren ungeliebten Spuch "Das war jetzt etwas viel" ablassen.

                so short

                Christoph Zurnieden

          2. Hi,

            Das sind die, die die robots.txt abfragen (OK, nebst Spidern). ;-) Sorg also dafür, daß die robots.txt ein Script ist, welches
            überflüssig ist.
            Das kann ich auch aus dem Logfile rauslesen.

            Willst Du Dich prinzipiell informieren? Ja? Da IP-Adressen wechseln können, sind die dann ja auch gänzlich egal.

            Du willst aber die IP-Adressen? Nun, vermutlich nicht zum Ausdrucken und übers Klo hängen, oder doch? >;-> Ich meine, so eine schöne Liste a la "gestern waren es diese IPs, vorgestern jene" ist natürlich wirklich sinnvoll. ;->

            Anders ist es, wenn Du wirklich die IP-Adressen brauchst ("nichts ist so alt wie die IP-Adresse von gestern" ;-)). Aber OK: Wenn Du kaum Seitenabrufe und somit Kleinstlogfiles hast, geht natürlich auch bei steter Auswertung der Logs der Server nicht in die Knie ... >;->

            Schade, daß keiner meine Frage nach Listen bekannter Robot-IPs beantworten will.

            Schade, daß Du nicht nachdenkst.

            Daß ich die Logfiles auswerten kann, hab ich schon im ersten Posting geschrieben.

            Die Sinnlosigkeit dessen kam dabei allerdings nicht rüber - nur das Unwollen. ;-)

            Gruß, Cybaer

            --
            Hinweis an Fragesteller: Fremde haben ihre Freizeit geopfert, um Dir zu helfen. Helfe Du auch im Archiv Suchenden: Beende deinen Thread mit einem "Hat geholfen" oder "Hat nicht geholfen"!
            1. Hi,

              muß man denn immer zu den schweren Säbeln greifen, wenn das Florett, ach was sag' ich: das Rohr schon genügt hätte?

              Ach, Ungestüm der Jugend ... ;-)

              so short

              Christoph Zurnieden

              1. Hi,

                muß man denn immer zu den schweren Säbeln greifen, wenn das Florett, ach was sag' ich: das Rohr schon genügt hätte?

                "Ping! - mich! - an!" ;->

                Ach, Ungestüm der Jugend ... ;-)

                "Laß doch der Jugend, der Juhugend ihren Lauf ..."

                Gruß, Cybaer (summend)

                --
                Hinweis an Fragesteller: Fremde haben ihre Freizeit geopfert, um Dir zu helfen. Helfe Du auch im Archiv Suchenden: Beende deinen Thread mit einem "Hat geholfen" oder "Hat nicht geholfen"!
                1. Hi,

                  "Ping! - mich! - an!" ;->

                  mach'n wa doch gerne:
                  $ ping Coding.binon.net
                  PING Coding.binon.net (212.227.119.96) from 217.253.219.109 : 56(84) bytes of data.
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=1 ttl=58 time=189 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=2 ttl=58 time=159 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=3 ttl=58 time=159 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=4 ttl=58 time=169 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=5 ttl=58 time=149 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=6 ttl=58 time=149 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=7 ttl=58 time=159 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=8 ttl=58 time=149 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=9 ttl=58 time=149 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=10 ttl=58 time=149 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=11 ttl=58 time=139 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=12 ttl=58 time=139 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=13 ttl=58 time=139 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=14 ttl=58 time=149 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=15 ttl=58 time=139 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=16 ttl=58 time=139 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=17 ttl=58 time=139 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=18 ttl=58 time=139 ms
                  64 bytes from kundenserver.de (212.227.119.96): icmp_seq=19 ttl=58 time=139 ms

                  --- Coding.binon.net ping statistics ---
                  20 packets transmitted, 19 received, 5% loss, time 19209ms
                  rtt min/avg/max/mdev = 139.880/150.417/189.060/12.630 ms

                  so short

                  Christoph Zurnieden

                  1. Hi,

                    mach'n wa doch gerne:
                    $ ping Coding.binon.net
                    PING Coding.binon.net (212.227.119.96) from 217.253.219.109 : 56(84) bytes of data.
                    64 bytes from kundenserver.de (212.227.119.96): icmp_seq=1 ttl=58 time=189 ms

                    Oh, oh, oh - jaaaa!

                    Kann man Dich millisekundenweise mieten? Als Pingboy? O;-)

                    Gruß, Cybaer

                    --
                    Hinweis an Fragesteller: Fremde haben ihre Freizeit geopfert, um Dir zu helfen. Helfe Du auch im Archiv Suchenden: Beende deinen Thread mit einem "Hat geholfen" oder "Hat nicht geholfen"!
  2. Hi,

    66.196.90.*   Inktomi
    66.196.91.*   Inktomi

    Du meinst 66.196.64.0 - 66.196.127.255; schau' immer auf die kompletten IP-Blöcke.

    66.249.64.*   google
    66.249.66.229 google
    66.249.71.*   google

    auch hier: 66.249.64.0 - 66.249.95.255; einer der größeren Google-Blöcke.

    68.142.249.*  Inktomi
    68.142.250.*  Inktomi
    68.142.251.*  Inktomi

    da gibt's auch viel mehr: 68.142.192.0 - 68.142.255.255.

    207.46.98.77  msnbot
    207.46.98.78  msnbot
    207.46.98.79  msnbot

    hier könntest Du ausnahmsweise mal ein bzw. sogar zwei Sternchen nehmen: 207.46.*.*

    Aber wozu brauchst Du die IPs eigentlich?
    Ich habe sie mir für mein Logfile Auswertungsprogramm selbst zusammengesucht; aus meinen eigenen Logs sowie auch aus einigen im Internet veröffentlichen Logs mit IPs und DNS-Lookup, für die ich mir extra ein kleines Auswertungsprogrämmchen gestrickt hatte..;-)

    freundliche Grüße
    Ingo