Hacky: Google bot verfängt sich in meiner Seite...

Moin
Ich habe folgendes Problem: Auf der Seite wo bei mir Scripts downloadsbar sind gibt es eine Kommentarfunktion.. Die Kommentare werden auf mehrere Seiten aufgeteilt. Und es hängt schon seit mehrern Stnden (anscheinent) ein Bot auf meiner page und verursacht traffic und verunstaltet meine Statistiken. Gerade ist er auf der Seite:
http://www.stuff24.de/index.php?site=scripts&page=4&page=2&page=3&page=4&page=2&page=4&page=2&page=1

Das komische ist das ich voreiner Weile schonmal versucjt habe dieses Problem zu lösen in dem ich
<a href="index.php?site=".$_GET['site']."&page=$i">".$i."</a> das einfügen um die Seitenzahlen zu wählen...
trotzdem verfängt sich der Bot.

mag hacky

  1. Hi,

    index.php?site=".$_GET['site']."&page=$i">".$i."</a>

    index.php?site=irgendwas&page=1

    Ein korrekter Browser bzw. ein Bot erkennt das als Adresse:

    index.php?site=irgendwas%00page=1&page=1

    wobei das %00 das & darstellt - schließlich fängt hier kein neuer Parameter an, das wäre korrekt mit &amp;. PHP sieht das %00, nimmt also das page=1 als Inhalt von site auf. Du gibst dann aus:

    "site=" . GET(klartext:irgendwas%00page=1) . "&page=$i"

    So geht das rekursiv runter...

    Alles nur eine Raterei, aber denkbar...

    E7

  2. Hi,

    http://www.stuff24.de/index.php?site=scripts&page=4&page=2&page=3&page=4&page=2&page=4&page=2&page=1

    Eigentlich solltest Du Dich freuen, daß Google Deine Seite so wichtig einstuft und so vielen Parametern folgt. ;-)
    Wenn Du diesen Traffic vermeiden willst, solltest Du dafür sorgen, daß eine bestimmte Ausgabe nur über eine bestimmte Eingabe zu erreichen ist. Alternativ könntest Du bei Anfragen über die IP-Bereiche von Google die Parameter ändern.

    freundliche Grüße
    Ingo

    1. Hi,

      Ho
      http://www.stuff24.de/index.php?site=scripts&page=4&page=2&page=3&page=4&page=2&page=4&page=2&page=1

      Eigentlich solltest Du Dich freuen, daß Google Deine Seite so wichtig einstuft und so vielen Parametern folgt. ;-)

      Ja bei Google ist sie ganz gut plaziert. Aber wie kommt Google denn darauf dass es eine solche Seite mit diesem parametern gibt?

      Wenn Du diesen Traffic vermeiden willst, solltest Du dafür sorgen, daß eine bestimmte Ausgabe nur über eine bestimmte Eingabe zu erreichen ist. Alternativ könntest Du bei Anfragen über die IP-Bereiche von Google die Parameter ändern.

      Die ändern sich aber doch.. Oder kann ich genau erkennen dass es ein Bot ist?

      mag hacky

      1. Hi,

        Aber wie kommt Google denn darauf dass es eine solche Seite mit diesem parametern gibt?

        Er folgt allen ausgegebenen HTML-Links.

        Alternativ könntest Du bei Anfragen über die IP-Bereiche von Google die Parameter ändern.
        Die ändern sich aber doch.. Oder kann ich genau erkennen dass es ein Bot ist?

        Der Googlebot kommt zwar über zig verschiedene IPs, aber diese liegen in einem überschaubaren Rahmen von IP-Bereichen.

        freundliche Grüße
        Ingo

        1. nabend

          Er folgt allen ausgegebenen HTML-Links.

          Ja aber ich habe ja vor einigen wochen mein script so geändert dass genau so ein salat net mehr rauskommen kann. Vorher gimg das. Nur Google macht den quatsch immer noch...

          1. Hi,

            Ja aber ich habe ja vor einigen wochen mein script so geändert dass genau so ein salat net mehr rauskommen kann. Vorher gimg das. Nur Google macht den quatsch immer noch...

            Geduld. Bei mir hatte es ein halbes Jahr gedauert, bis Google die letzten Parameter "vergessen" hatte. Das könntest Du nur beschleunigen, wenn Du bei Parametern 404er oder 301er lieferst.

            freundliche Grüße
            Ingo