hi,
wie hier im thread-verlauf auch schon einige male angesprochen, sehe auch ich das hauptproblem darin, dass die SuMa-bots sich so leicht "ein x für ein u vormachen" lassen - sprich die server der spammer erkennen die bots, an UA-string, IP-adressrange oder was-auch-immer, und bieten diesen anderes "futter" als meinem browser, wenn ich die seite besuche.
sich hinter bekannten UAs zu verstecken, sollte für die bots kein problem sein - aber bei festen IP-bereichen ist es eben auch kein großes für die spammer, sie trotzdem zu erkennen.
an genau der stelle müsste man also m.E. ansetzen:
wenn die spammer SuMa-bots von "gewöhnlichen" besuchern unterscheiden - ja warum denn dann nicht den "gewöhnlichen" besucher beim spidern helfen lassen?
ich könnte mir da distributed computing-anwendungen vorstellen, analog zu seti@home halt ein google@home.
ich als user stelle google einen teil meiner bandbreite und der leerlaufzeit meines rechners zur verfügung - wie und auf welche weise mich google dafür entlohnen könnte, lassen wir erst mal dahingestellt.
vom google-server bekommt mein client mitgeteilt, welchen URL er untersuchen soll - und liefert dann nach abruf der seite entweder gleich ein nach googles algorithmen gespidertes ergebnis, oder - falls google das zu "riskant" sein sollte - lediglich den ermittelten seitenquelltext zurück.
natürlich müsste man das über kodierung/prüfsummenverfahren etc. absichern, damit nicht die spammer ihrerseits über eigene clients google falsche ergebnisse melden und somit wiederum einfluss nehmen können. (ich weiß, hier liegt die schwachstelle, mit der das ganze modell steht oder fällt.)
damit dürften doch m.E. die chancen der spammer, anhand der anfragenden IP auf einen SuMa-bot zu schließen, geringer werden ...
wie sind eure meinungen zu diesem konzept?
gruß,
wahsaga
"Look, that's why there's rules, understand? So that you _think_ before you break 'em."