Raketenwilli: archive.today geht in manchen Browsern nicht mehr

Beitrag lesen

problematische Seite

Ursache sind offensichtlich verzweifelt wirkende Versuche, automatisierte Abfragen zu unterbinden.

hmm, offensichtlich finde ich das ueberhaupt nicht.

Lass uns überlegen:

wget und curl sind Werkzeuge, mit denen automatisierte Abfragen gestellt werden können und oft auch werden. Deiner eigenen Aussage nach bekommt man keine Antwort, wenn man diese ohne Angabe eines gewillkürten User-Agent-Headers benutzt. Denn dann weisen diese sich mit eigenem Name und Version aus:

  • wget: „User-Agent: Wget/1.21.3“
  • curl: „User-Agent: curl/7.88.1“

Gemäß deren Handüchern und nach meiner eignen Erfahrungen, ergo meinem durch eigene Erfahrung gesicherten Wissen machen das PHP, Perl und Python (bzw. deren curl-Libarys) das auch so.

Damit ist - jedenfalls für mich - der Versuch der Abweisung automatisierter Zugriffe „höchst offensichtlich“.

Interessanter Weise ist auch das Captcha-Dingens kaputt…

welches?

Guggst Du Pic:

Kaputtes Captcha behindert Seitenbesuch

Wenn sodann in der Kombination aus Auslesen des User-Agenten aus dem Request-Header und Captcha etwas derart kaputtes herauskommt, ist der Versuch, automatisierte Abfragen zu unterbinden, nicht nur „offensichtlich“, sondern auch „verzweifelt“ - und im Übrigen als gescheitert anzusehen.

Dann wäre da noch das hier:

Auf der Webseite erscheint (im nicht gezeigten Bereich) folgender Text:

„Completing the CAPTCHA proves you are a human and gives you temporary access to the web property.“

Der Webseitenbetreiber veröffentlicht also selbst, dass er alles, was nach seiner Ansicht und gemäß seiner, durch technische Vermutungen eines Automaten generierten Ansicht kein „Menschen“ ist, auschließen will.


Bevor gefragt wird:

Ich habe nur zwei Add-Ons (Privacy Badger und uBlock) und sperre zusätzlich bekannte AddServer per DNS.