Offline Explorer verhindern!
Benjamin Wilger
- browser
0 Sven Schrodt0 Zerbe0 Sven Rautenberg0 Kai Lahmann0 Michael Keller0 Carsten
Schönen guten Abend! :-)
in der Browserstatistik der Seite taucht im beträchtlichen Maße der Offline Explorer auf. Die Leute saugen uns noch arm! Letzten Monat hat jemand die ganze Seite gezogen und dabei mehrere Gigabyte(die schweineteuer bei unserem Provider sind) an Traffic verursacht.
Hat jemand eine Idee, wie man diese teuflischen Programme überwinden kann? Es besteht die Möglichkeit PHP3/PHP4 und Perl auszuführen.
Grüße,
Benjamin
Schönen guten Abend! :-)
Ja genau wünsche ich dir auch!
in der Browserstatistik der Seite taucht im beträchtlichen Maße der Offline Explorer auf. Die Leute saugen uns noch arm! Letzten Monat hat jemand die ganze Seite gezogen und dabei mehrere Gigabyte(die schweineteuer bei unserem Provider sind) an Traffic verursacht.
gehe ich recht in der Annahme, daß Ihr die Inhalte der Website per http -get via TCP/IP anbietet?
Wenn das nicht gewünscht wird, hätte ich eine Idee:
Seite offline nehmen
Sven
Schönen guten Abend! :-)
dito
in der Browserstatistik der Seite taucht im beträchtlichen Maße der Offline Explorer auf. Die Leute saugen uns noch arm! Letzten Monat hat jemand die ganze Seite gezogen und dabei mehrere Gigabyte(die schweineteuer bei unserem Provider sind) an Traffic verursacht.
Die einzige Möglichkeit die ich kenne ist den Server ab einem gewissen Traffic vom netz zu nehmen ;(
Hat jemand eine Idee, wie man diese teuflischen Programme überwinden kann? Es besteht die Möglichkeit PHP3/PHP4 und Perl auszuführen.
Grüße,
Benjamin
Gruß Zerbe
MoiN!
Hat jemand eine Idee, wie man diese teuflischen Programme überwinden kann? Es besteht die Möglichkeit PHP3/PHP4 und Perl auszuführen.
Das ist ein echtes Problem, denn wenn die Sauger rauskriegen, daß ihr "Offline Explorer" nicht mehr kriegt, was er will, dann tarnen die den möglicherweise als ganz was anderes.
Aber zunächst mal das naheliegende: URL-Rewriting (mod_rewrite) benutzen basierend auf dem User-Agent. Damit leitet man alle User-Agents, die auf ein gewisses Muster passen, auf eine Hinweisseite um, die wenig Traffic verursacht, und erklärt das Problem.
Vielleicht noch gleich mit dem Angebot, eine ZIP-Abbild eures Servers runterzuladen - dann tut's nicht mehr so weh auf der Rechnung.
http://httpd.apache.org/docs/mod/mod_rewrite.html
http://httpd.apache.org/docs/misc/rewriteguide.html
Das Problem tiefer anfassen tut man, wenn man die Verhaltensweise des jeweiligen Users genauer beleuchtet. Normale Surfer rufen immer mal wieder, aber mit unregelmäßigen Pausen, Seiten ab. Websauger rufen soviele Seiten wie möglich ab (wenngleich die Programme auch einen Server-Überlastschutz eingebaut haben).
Ein Ansatzpunkt wäre also, die Datenrate einfach zu drosseln. Die Sauger können dann nur noch langsam saugen. Für Apache gibts dazu ein Modul namens mod_bandwidth.
http://www.cohprog.com/mod_bandwidth.html
Vermutlich besser ist, wenn man dem normal surfenden User einfach gestattet, pro Minute ungefähr 10 Seiten abzurufen (inklusive zugehöriger Bilder), aber danach nur noch Leerseiten ausliefert (oder einen kleinen Hinweis dranmacht). Sowas erfordert dann natürlich Programmunterstützung, weil Seitenabrufe irgendwie geloggt werden müssen. Diese Geschichte ist sicherlich ziemlich aufwendig.
Ich stelle mir vor, daß alle Seiten bei einem Abruf die Session-ID in eine Datenbank schreiben und damit einen Zähler erhöhen. Die Seite prüft dann, ob ein Limit erreicht wurde, und verweigert im Zweifelsfall, selbst geladen zu werden. Nach einer gewissen Zeit wird der Zähler automatisch wieder verringert. Um das ganze auch sicher zu machen, müssen Zugriffe ohne Session-ID dann leider abgelehnt werden, sofern du nicht irgendwelche anderen Kriterien zur Identifikation des Users heranziehen kannst, wie User-Agent, IP etc. Da es ja nicht auf Datensicherheit ankommt, muß es keine ultimativ eindeutige Session-ID sein, sondern nur ein Hinweis, daß ein bestimmter User sich von anderen aktuellen Usern unterscheidet.
Wirklich seligmachend wird sich das Problem aber mit Sicherheit nicht lösen lassen - vor allem, wenn die Sauger viel Zeit und eine Flatrate haben.
- Sven Rautenberg
hi
etwas gehässig aber vielleicht wirkt's:
wenn sich ein Programm als ein solcher Akkord-Saufer herausstellt, wäre es mal einen versuch Wert, auf Browser-Erkennung basierend nur die obersten Seiten (2-3 Ebenen) auszuliefern, am Ende werden einfach nur riesige Leer-Dateien (100MB Nullen je oder so - umso mehr, umso besser (alles-Sauger haben Platten, wo man da schon mit der Holzhammer-methode ran muss), aber bei 1 GB streiken einige Datei- und Betriebssysteme) ausgeliefert. Das Kombiniert mit mod_gzip sorgt dafür, dass sich die Platte des Surfers sehr schnell füllt, dafür aber nichts davon haben. DER saugt wohl nicht nochmal :)
Vergiss aber bitte nicht Dateien, die zum Download gedacht sind davon auszunehmen.
hi!
Das Kombiniert mit mod_gzip sorgt dafür, dass sich die Platte des
Surfers sehr schnell füllt, dafür aber nichts davon haben.
Blöde Idee, denn das bringt aber nur was, wenn der Offline Explorer
oder ein äquivalentes Programm auch die Möglichkeit der komprimierten
Übertragung nutzt. Sonst schneidt man sich ja ins eigene Fleisch.
bye, Frank!
hi
Blöde Idee, denn das bringt aber nur was, wenn der Offline Explorer
oder ein äquivalentes Programm auch die Möglichkeit der komprimierten
Übertragung nutzt. Sonst schneidt man sich ja ins eigene Fleisch.
davon bin ich jetzt mal ausgegangen. Wobei mod-Gzip alleine schon _massiv_ Traffic spart!
Ist wahrscheinlich nicht die Antwort, die du suchst aber sicher die sicherste und einfachste...
Gehe zu einem Provider, der dir den Traffic nicht verrechnet.
www.genotec.ch z.B. aber es gibt hunderte anderer...
Gruss Michael
Hallo Benjamin!
in der Browserstatistik der Seite taucht im beträchtlichen Maße der Offline Explorer auf. Die Leute saugen uns noch arm! Letzten Monat hat jemand die ganze Seite gezogen und dabei mehrere Gigabyte(die schweineteuer bei unserem Provider sind) an Traffic verursacht.
Das geht im Prinzip mit einer serverseitigen Browserweiche. Die Offline Browser bekommen andere Seiten zu sehen(weniger/gar nicht verlinkt, 404...) als der normale Browser.
Damit das geht muss sich der Offline-Reader erkennbar identifizieren, da der IE das tut sollte es >90% des so verbockten Traffics erwischen.
Die Serverweiche kann entweder ein Script sein (z.B.) - dann müssten aber viele Seiten als PHP ausgelegt werden, selbst wenn sie nur statische Inhalte haben - oder per mod_rewrite, das braucht einen Apache als Webserver und die entsprechenden Rechte, das auch benutzen zu dürfen.
http://httpd.apache.org/docs/misc/rewriteguide.html dort unter 'Browser Dependent Content'
In PHP:
<?
if(preg_match("~offline~i",$HTTP_USER_AGENT)
{
echo( "<html><head><title>Active VB></title></head><body><a href="http://www.ActiveVB.de">Active VB</a></html></body>");
exit;
}
?>
Damit sieht der Offline-Browser einen anderen Inhalt und kann den Links der eigentlichen Seite nicht folgen.
Und letzlich kannst du es auch noch mit Javascript machen. Etwas wie <a href="#" onClick="document.location.href=linkfeld[14]">blablub</a> kann der Offline Reader nicht folgen, ebensowenig wie die Spider der Suchmaschinen oder Besucher mit abgeschaltetem Javascript.
Ausserdem könntest du eine ge'zip'te Version zum Download anbieten, evtl. auch mit Teilbereichen. Dann braucht derjenige der die Tips auf seiner Platte haben möchte nicht die ganze Site zu saugen.
Gruss,
Carsten