automatisches Auslesen von Webseiten erschweren. von dedlfix, 08.06.2013 01:46

Beitrag lesen

automatisches Auslesen von Webseiten erschweren.

dedlfix 08.06.2013 01:46

+1 Informationen zu den Bewertungsregeln

Tach!

Ansonsten gibt es ein paar "Abwehrmaßnahmen gegen PHP-CURL".

Nein, die gibt es nach wie vor nicht (auch nicht unter diesem Stichwort zu finden). Ob ein Request von curl, von ein Browser oder aus einzeln zusammengefügten Bytes erstellt wurde, lässt sich am Server nicht erkennen.

Es gibt nur die üblichen Verdächtigen, um Menschen von Maschinen zu unterscheiden. Captchas einzugeben, allein schon zum Stöbern auf einer Seite, ist bisher noch unüblich und vermutlich nicht zielführend/gewünscht. Zudem ist es auch recht billig, sie lösen zu lassen. Und es wird sicherlich nicht jede Seite vercaptchat werden sollen, um die normalen Besucher nicht zu vergraulen. Ein einzelnes löst der Angreifer mal eben nebenbei, während er das Crawlen startet. Ein geschlossener Nutzerkreis mit Login wäre wohl eher angebracht. Doch auch hier ist es nicht übermäßig schwer, Logins zum Zwecke des Crawlens zu erstellen, wenn man die Logins nicht handverlesen nur an bekannte Nasen vergeben möchte.

Um ein wenig die Maschinen zu behindern und Menschen kaum, könnte man die Inhalte mit Ajax nachladen. Aber auch Ajax-Requests kann man nachbauen. Da kann man nur den Parse-Aufwand hochtreiben, indem man die Abruf-URL nicht direkt lesbar im Code liegen hat, auf sie nicht ohne Key zugreifen kann und diesen Key möglichst verschleiert erzeugt. Letztlich hilft das aber alles nichts, weil jeder Browser alle Daten im Klartext braucht. Man kann das Javascript analysieren und die Funktionalität nachbauen.

dedlfix.

Beitrag melden

+1 Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

dedlfix: automatisches Auslesen von Webseiten erschweren.

Beitrag lesen

automatisches Auslesen von Webseiten erschweren.

automatisches Auslesen von Webseiten erschweren.

Anstand und Fairness - hier: Sockenpuppen

Frei zugängliche Webinhalte lassen sich nicht schützen