Hi Christian,
Dann hatte ich weiterhin daran gedacht, CSS, HTML und JavaScript auszuwerten. Denn dadurch koennte man viele Spam-Versuche schonmal von vornherein zum Scheitern verurteilen
Nachdem ich mir den Quelltext einiger Spam-Seiten angesehen habe, halte ich das auch für wichtig, habe aber auch etwas gelernt, was früheren Asukünften im Selfraum widerspricht: Selbst die einfachste String-Zerlegung scheint für die BOTs doch schwerer zu knacken sein als angenommen. Wir hatten das hier im Forum mehrfach diskutiert, etwa in Bezug auf das Verbergen von e-Mail-Adressen durch Stringzerlegung per JS. Nicht dass ich etwas davon halten würde, aber damals war der einfache Tenor, dass die BOTs das längst im Griff hätten.
In den Quelltexten, die ich mir angeschaut habe, habe ich vor allem simple String-Zerlegungen per JS als Tarnung gefunden, über die dann eine Weiterleitung oder ein Link aufgebaut wurde. Du kannst besser beurteilen als ich, ob das ohne weiteres zu knacken wäre, oder ob man da auf Schwierigkeiten stößt. Also:
- Könnte man nicht ein simples Script in Perl oder C schreiben, dass die JS-Stringzerlegung auflöst und den Klartext zur Verfügung stellt?
- Würde das die Performance des Google Bots zerstören, der ja Millionen Seiten durchlaufen muss?
- Könnte man da optimieren, indem man JS-Scripte zunächst grob auf bestimmte Codes scannt, um etwa nicht an einem Dreamweaver-Bildwechsel-Dingen ein längeres Päuschen einlegen zu müssen?
Vielleicht bin ich auch ganz auf der falschen Spur, viellleicht siehst Du viel bessere Möglichkeiten, da heran zu gehen?
Dort ist versteckter Inhalt auf der Seite, der wuerde aus dem Index rausfliegen.
Versteckter Inhalt wäre für mich auch ein klares Abwertungskriterium.
Das mit der Validität halte ich für wenig nützlich, es würde lediglich garantieren, dass die Spammer noch vor Google valide Seiten präsentieren würden. Keiner der Mechanismen, die ich in den Quelltexten gesehen habe, erfordert prinzipiell eine Verletzung der Kriterien für Validität.
Prinzipiell finde ich auch wahsagas Idee faszinierend, wäre selbst aber nicht bereit, auf diesem Wege eine Firma zu unterstützen, es müsste dann schon ein Open Source Projekt sein.
Viele Grüße
Mathias Bigge