Hi Stefan,
Multipliziere die Datenmenge mal 10, dann hast du in etwa den
tatsaechlichen Wert. Dass die Trafficzahlen "bescheiden" sind,
liegt naemlich daran, dass hier datenkomprimiert uebertragen wird.
äh, mit einer solchen Aussage wäre ich denn doch _sehr_ vorsichtig.
Unsere Firma, die mod_gzip seit ein paar Wochen in einer neuen Server-
farm einsetzt, liefert bevorzugt HTML-Seiten aus, welche mit ziemlich
schauerlichem, von einer black box generierten HTML3.2-Code voller
Tabellen ohne die Möglichkeit zur Verwendung von CSS 100-200 kB pro
Seite groß sind und durch mod_gzip um Faktoren bis 25 komprimiert wer-
den können. Dies sind auch die größten Dateien unseres Produkts, und
sie machen als MIME-Typ den größten Anteil des gesamten Traffic aus.
Nach Deiner Logik würde ich also einen enormen Faktor einsparen können,
auch wenn der wahrscheinlich eher bei 10 als bei 25 liegen dürfte ...
würde man schätzen.
Aber trotzdem reduziert mod_gzip die Menge der ausgelieferten Inhalte
(also das, was der Webalizer mißt) nur um einen Faktor knapp unterhalb
von 3! Die nicht komprimierten, weil nicht komprimierbaren Dokumente
(GIF, aber in unserem Falle auch CSS und JavaScript sowie alles unter
halb eines Schwellwertes, wo sich die Komprimierungswirkung gegenüber
dem CPU-Aufwand nicht mehr lohnt) machen in der Summe verglichen mit
den komprimierten HTML-Seiten doch eine ganze Menge aus.
Und was tatsächlich an Traffic über die Leitung geht (also was der Provider
leisten muß), das ist noch mal erheblich viel mehr. Denn jeder HTTP-Zugriff
beinhaltet ja u. a. zwei HTTP-Header (vom Client und vom Server), die zu-
sammen etwa 600-800 bytes ausmachen. Das Apache-Log zählt diese aber nicht
mit. (Man kann mod_gzip so konfigurieren, daß es den Response-Header zur
Ausgabegrößer addiert und damit dem Webalizer wenigstens korrekte Zahlen
über das ausgesandte Volumen 'unterschiebt'; der eingehende Traffic wird
aber immer noch in der Rechnung fehlen, welche Du für das Komprimierungs-
verhältnis aufgestellt hast.)
Wenn Du jetzt noch die Verpackung auf niederen Ebenen (TCP/IP-Header) mit-
zählst, wirst Du herausfinden, daß ein HTTP-Request (Frage plus Antwort)
selbst ohne Daten einen Grund-Overhead von fast einem KB hat.
Wir messen auch den Traffic auf der Leitung (um selbige zu dimensionieren)
und haben diese Zahlen mal mit den Webalizer-Zahlen verglichen ...
Bei der Ausliederung einer 200-KB-Datei ist das noch vernachlässigbar.
Wird diese auf 20 KB komprimiert, dann macht es schon 5 % aus. Verglichen
mit der Übertragung eines kleinen Markierungspfeil-GIF von gerade mal 100
Byte sind es aber 1000%! Es gibt also praktisch keine "kleinen" Bildchen.
Und noch schlimmer sind diejenigen Zugriffe, die der Webalizer überhaupt
nicht zählt - diejenigen mit Statuscode 304. Der Server liefert 0 Bytes
an Nutzinformation aus - aber trotzdem geht ein KB über die Leitung.
Und das sind _viele_ Zugriffe! Selbst beim Forum mit seinem dynamischen
Inhalt weist der Webalizer 20% an 304-Cache-Validations aus; bei SelfHTML8
sind es über 40%. Diese Quote hängt natürlich u. a. auch von den Browser-
Einstellungen der Benutzer ab.
Wie sagte schon Churchill: "Glaube keiner Statistik, die Du nicht selbst
gefälscht hast". In diesem Sinne:
http://www.schroepl.net/projekte/mgzta/mgzta.html
Ich gehe davon aus, daß mod_gzip für das Self-Portal mehr Ersparnis bringt
als bei dem dort beschriebenen Server, aber Faktor 4 für den effektiven
Traffic wäre schon eine sehr starke Leistung. Ich rechne eigentlich mit
weniger, auch wenn der Dateien-Mix des Portals sich für die Komprimierung
wirklich gut eignet.
Ich möchte mit diesem Posting den Effekt von mod_gzip nicht klein reden.
Im Gegenteil: Der psychologische Effekt ist sicherlich höher als der meß-
bare, weil man die Wirkung bei den großen Dateien mehr spürt als die Nicht-
Wirkung bei den kleinen.
Aber bei Gesamt-Traffic-Zahlen, wie sie beispielsweise für Primekom rele-
vant wären, sollte man nicht zu enthusiastisch sein.
Dennoch würde ich den Einsatz von mod_gzip besonders bei SelfHTML8 (was
bisher m. E. unkomprimiert angeboten wird und _viel_ Traffic produziert)
befürworten - im Moment sind die Webalizer-Zahlen wegen des nur sporadi-
schen Einsatzes von mod_gzip untereinander gar nicht vergleichbar. Schal-
tet das mal ein und beobachtet, wie der Traffic herunter geht, die Zahl
der Hits aber nicht ...
Viele Grüße
Michael