dedlfix: automatisches Auslesen von Webseiten erschweren.

Beitrag lesen

Tach!

Ansonsten gibt es ein paar "Abwehrmaßnahmen gegen PHP-CURL".

Nein, die gibt es nach wie vor nicht (auch nicht unter diesem Stichwort zu finden). Ob ein Request von curl, von ein Browser oder aus einzeln zusammengefügten Bytes erstellt wurde, lässt sich am Server nicht erkennen.

Es gibt nur die üblichen Verdächtigen, um Menschen von Maschinen zu unterscheiden. Captchas einzugeben, allein schon zum Stöbern auf einer Seite, ist bisher noch unüblich und vermutlich nicht zielführend/gewünscht. Zudem ist es auch recht billig, sie lösen zu lassen. Und es wird sicherlich nicht jede Seite vercaptchat werden sollen, um die normalen Besucher nicht zu vergraulen. Ein einzelnes löst der Angreifer mal eben nebenbei, während er das Crawlen startet. Ein geschlossener Nutzerkreis mit Login wäre wohl eher angebracht. Doch auch hier ist es nicht übermäßig schwer, Logins zum Zwecke des Crawlens zu erstellen, wenn man die Logins nicht handverlesen nur an bekannte Nasen vergeben möchte.

Um ein wenig die Maschinen zu behindern und Menschen kaum, könnte man die Inhalte mit Ajax nachladen. Aber auch Ajax-Requests kann man nachbauen. Da kann man nur den Parse-Aufwand hochtreiben, indem man die Abruf-URL nicht direkt lesbar im Code liegen hat, auf sie nicht ohne Key zugreifen kann und diesen Key möglichst verschleiert erzeugt. Letztlich hilft das aber alles nichts, weil jeder Browser alle Daten im Klartext braucht. Man kann das Javascript analysieren und die Funktionalität nachbauen.

dedlfix.