tiresias: Such-Bots erkennen

Beitrag lesen

Hi alle,

ich weiß, das Thema gab es schon ein paarmal und das Ergebnis war meistens, dass es 100%ig nun einmal nicht geht. Ich brauche es aber zum Glück auch nicht 100%ig. :-)

Mein Problem: Ich protokolliere mit, welche Suchbegriffe wie oft eingegeben werden. Daraus generiere ich eine Liste der beliebtesten Suchbegriffe, wobei die Begriffe in dieser Liste natürlich wieder anklickbar sind und dann wieder die Suche Suche nach dem betreffenden Begriff ausführen. Das nutzen natürlich nicht nur menschliche Besucher, sondern auch die Bots. Und das sollen sie auch, diese Seiten sind dadurch ja auch so etwas wie "landing pages" zu dem betreffenden Thema.

Nur bringt der Bot-Traffic mir die Statistik total durcheinander. Die Kerlchen tummeln sich in so großer Zahl und Frequenz auf der Seite, dass sich die Suchbegriffe in der Liste ständig "festfressen", obwohl ich bereits ein Zeitlimit eingebaut habe: Begriffe, die einmal in dieser Liste sind, fallen so gut wie nie mehr heraus.

Deshalb würde ich gerne eine Liste an Bots anlegen, damit ich diese beim Loggen ausfiltern kann. Das muss, wie gesagt, nicht 100%ig sein. Ich dachte deshalb daran, einfach den HTTP_USER_AGENT heranziehen. Gibt es irgendwo eine Liste der User Agents der wichtigsten Bots? Gegoogelt habe ich schon, aber höchstens IP-Listen gefunden -- die sicher exakter sind, aber auch undurchsichtiger.

Oder hat jemand eine bessere Idee?

t