Dr. No: Transfairvolumen

Hallo,
was gehört eigentlich "standartmäßig" zum Transfairvolumen?
Auch 404-Seiten, etc, denn mit verschiedenen Programmen zur Logfileauswertung kamen bei der gleichen Logdatei verschiedene Transfairvolumen heraus.

Dr. No

  1. Hi,

    was gehört eigentlich "standartmäßig" zum Transfairvolumen?

    erst habe ich ja gedacht, die Schreibweise "Transfair" sei Absicht, so wie ein paar Provider ja "Unlimited Traffic" bieten, dann aber auf eine Fair Use Policy hinweisen, die sinngemäß lautet: Du kriegst soviel du willst, aber wenn du's übertreibst, gibt es einen Rüffel."
    Nebenbei: "Standard" schreibt sich immer noch mit 'd' am Ende. Ich versteh gar nicht, woher die ach so häufige Variante mit dem 't' kommt.

    Also nochmal:

    was gehört eigentlich "standartmäßig" zum Transfairvolumen?

    Das kann jeder Provider ein wenig unterschiedlich definieren.
    Normalerweise würde ich ja einfach sagen: Alles. Punkt.

    Auch 404-Seiten, etc.

    Das auf jeden Fall.

    denn mit verschiedenen Programmen zur Logfileauswertung kamen bei der gleichen Logdatei verschiedene Transfairvolumen heraus.

    Das leuchtet mir nicht ein. An dem, was im Log steht, ist IMHO nichts mehr zu deuteln.

    Ich könnte mir eher vorstellen, dass Unterschiede daher kommen, ob ein Provider die HTTP-Header, die FTP-Transfers oder Mailtransfers mitrechnet. Das wären aber alles Sachen, die im HTTP-Log nicht auftauchen (okay, die Header kann man schätzen), also könnten sich bei der Auswertung desselben Logs nicht verschiedene Ergebnisse einstellen.

    So long,
     Martin

    --
    Schildkröten können mehr über den Weg berichten als Hasen.
    1. Hello,

      denn mit verschiedenen Programmen zur Logfileauswertung kamen bei der gleichen Logdatei verschiedene Transfairvolumen heraus.

      Das leuchtet mir nicht ein. An dem, was im Log steht, ist IMHO nichts mehr zu deuteln.

      Beim request steht im Log i.a. nur der Traffic, der von der Response verusrsacht wurde, nicht aber der vom Request. Guckst Du "fileupload" und siehste nix...

      Liebe Grüße aus dem schönen Oberharz

      Tom vom Berg

      --
      Nur selber lernen macht schlau
      http://bergpost.annerschbarrich.de
      1. Hallo,

        »» An dem, was im Log steht, ist IMHO nichts mehr zu deuteln.
        Beim request steht im Log i.a. nur der Traffic, der von der Response verusrsacht wurde, nicht aber der vom Request. Guckst Du "fileupload" und siehste nix...

        das ist wahr, daran habe ich auch tatsächlich nicht gedacht. Stimmt, den Request Header kann man schätzen; der Request Body eines POST-Requests fällt da komplett durchs Raster.

        Allerdings erklärt das ebensowenig, warum verschiedene Programme aus demselben Logfile verschiedene Ergebnisse kriegen. Wenn eine Information nicht drinsteht, steht sie halt nicht drin.
        Bestenfalls würde das erklären, dass alle Programme aus diesem Logfile einen anderen Wert errechnen als der Provider selbst aus anderen Quellen. Dann müssten aber immer noch alle das gleiche "falsche" Ergebnis zeigen.

        So long,
         Martin

        --
        Arzt:    Gegen Ihr Übergewicht hilft wohl nur noch Gymnastik.
        Patient: Sie meinen, Kniebeugen und so?
        Arzt:    Nein, Kopfschütteln. Immer dann, wenn Ihnen jemand was zu essen anbietet.
        1. Hello,

          Allerdings erklärt das ebensowenig, warum verschiedene Programme aus demselben Logfile verschiedene Ergebnisse kriegen. Wenn eine Information nicht drinsteht, steht sie halt nicht drin.
          Bestenfalls würde das erklären, dass alle Programme aus diesem Logfile einen anderen Wert errechnen als der Provider selbst aus anderen Quellen. Dann müssten aber immer noch alle das gleiche "falsche" Ergebnis zeigen.

          Das liegt wohl an den sehr unterschiedlichen Speicherformaten der Logs.

          Manche Scripte können dann manche Zeilen nicht ordnungsgemäß zerlegen und das führt dann dazu, dass in den Zahlenspalten Texte auftauchen, die wiederum je nach verwendeter Sprache zu 0 oder zu einem Fantasiewert werden.

          Ich habe mich mal ziemlich lange damit beschäftigt, als ich von regulären Ausdrücken noch nichts wissen wollte und war nachher stolz, dass es überhaupt irgendwie funktioniert hat.

          Je besser die Implementation, desto besser und reproduzierbarer werden die Ergebnisse.

          Liebe Grüße aus dem schönen Oberharz

          Tom vom Berg

          --
          Nur selber lernen macht schlau
          http://bergpost.annerschbarrich.de
          1. Hallo,

            »» Dann müssten aber immer noch alle das gleiche "falsche" Ergebnis zeigen.
            Das liegt wohl an den sehr unterschiedlichen Speicherformaten der Logs.

            wobei das übliche Log-Format ja auch ein "unmögliches Chaos" ist: Leerzeichen als Field Delimiter; Timestamp in eckigen Klammern; Request, User Agent und Referrer (sinnvollerweise) in Anführungszeichen; aber sowohl im Timestamp als auch in Request und im UA treten Leerzeichen auf ...
            Deswegen habe ich meinem Server aufgetragen, seine Logs CSV-kompatibel zu schreiben: Alle Felder, die nicht streng numerisch sind, in Anführungszeichen, und alle Felder mit Komma getrennt.

            Manche Scripte können dann manche Zeilen nicht ordnungsgemäß zerlegen und das führt dann dazu, dass in den Zahlenspalten Texte auftauchen, die wiederum je nach verwendeter Sprache zu 0 oder zu einem Fantasiewert werden.

            Das könnte eine Erklärung sein.

            Ciao,
             Martin

            --
            Bitte komme jemand mit einem *g* zum Wochenende, damit nicht über mich gelacht wird.
              (Gunnar Bittersmann)
            1. Hello,

              »» Dann müssten aber immer noch alle das gleiche "falsche" Ergebnis zeigen.
              Das liegt wohl an den sehr unterschiedlichen Speicherformaten der Logs.

              wobei das übliche Log-Format ja auch ein "unmögliches Chaos" ist: Leerzeichen als Field Delimiter; Timestamp in eckigen Klammern; Request, User Agent und Referrer (sinnvollerweise) in Anführungszeichen; aber sowohl im Timestamp als auch in Request und im UA treten Leerzeichen auf ...

              das meinte ich. Und es ist darüber hinaus ja uch noch ziemlich frei beeinflussbar

              Deswegen habe ich meinem Server aufgetragen, seine Logs CSV-kompatibel zu schreiben: Alle Felder, die nicht streng numerisch sind, in Anführungszeichen, und alle Felder mit Komma getrennt.

              genau! Das ist das Positive an LogFormat
              http://httpd.apache.org/docs/2.2/mod/mod_log_config.html#logformat
              dass man das Format auch verbessern kann, nicht nur verschlechtern ;-)

              Ich habe alle Spalten in " und nehme die Trennung durch ; vor.

              Theoretisch könnte es aber immer noch passieren, dass Dir ein Irrer da ein nicht codiertes " in den Querystring reinhaut. Die Browser codieren das zwar zum Glück automatisch, aber bei der wachsenden Zahl von "Post2Host"-Benutzern ist es mMn nicht ausgeschlossen.

              Oder sehe ich das falsch?

              Liebe Grüße aus dem schönen Oberharz

              Tom vom Berg

              --
              Nur selber lernen macht schlau
              http://bergpost.annerschbarrich.de
              1. Hello,

                ich habe nochmal nachgesehen.
                Das ist entweder neu, oder ich habe es damals (zu Apache 1.3-Zeiten) übersehen.

                http://httpd.apache.org/docs/2.2/mod/mod_log_config.html#formats

                %I   Bytes received, including request and headers,
                        cannot be zero. You need to enable mod_logio to use this.

                Das wäre doch eine Maßnahme, um den Traffic besser in den Griff zu bekommen

                Allerdings wird das zusätzliche Modul benötigt.

                Liebe Grüße aus dem schönen Oberharz

                Tom vom Berg

                --
                Nur selber lernen macht schlau
                http://bergpost.annerschbarrich.de
              2. Hallo Tom,

                »» wobei das übliche Log-Format ja auch ein "unmögliches Chaos" ist: Leerzeichen als Field Delimiter; Timestamp in eckigen Klammern; Request, User Agent und Referrer (sinnvollerweise) in Anführungszeichen; aber sowohl im Timestamp als auch in Request und im UA treten Leerzeichen auf ...
                Ich habe alle Spalten in " und nehme die Trennung durch ; vor.

                ja, das sind dann Feinheiten. Aber in beiden Fällen (sowohl bei meinem wie auch bei deinem Format) ist es konsequenter strukturiert und dadurch leichter maschinell auszuwerten. Ich lese es z.B. mit Excel, das dann so schlau ist, allen Feldern in Anführungszeichen gleich den Typ "Text" zuzuordnen und allen anderen den Typ "Zahl".
                Wobei ich festgestellt habe, dass das Komma als Trennzeichen bei Excel-Versionen ab 2003 (vielleicht auch schon 2000, nie probiert) ungünstig ist, weil neuere Versionen anscheinend ein Semikolon als Trennzeichen erwarten. Hat man komma-getrennte Felder, muss man sich durch den Import-Assistenten quälen und das manuell angeben, während die 97er Version das automatisch erkennt: Öffnen und gut.
                Das nennt sich dann Fortschritt, glaube ich. ;-)

                Theoretisch könnte es aber immer noch passieren, dass Dir ein Irrer da ein nicht codiertes " in den Querystring reinhaut. Die Browser codieren das zwar zum Glück automatisch, aber bei der wachsenden Zahl von "Post2Host"-Benutzern ist es mMn nicht ausgeschlossen.

                Nicht ausgeschlossen, aber im Query doch eher unwahrscheinlich. Im UA könnte ich mir ein Anführungszeichen (oder ein Pärchen davon) aber durchaus vorstellen. Dagegen habe ich auch noch nichts unternommen, aber den Fall hatte ich auch bisher nicht.

                Schönes Wochenende noch,
                 Martin

                --
                Man sollte immer wissen was man sagt
                 - aber auf keinen Fall alles sagen, was man weiß.
                1. Hello,

                  ja, das sind dann Feinheiten. Aber in beiden Fällen (sowohl bei meinem wie auch bei deinem Format) ist es konsequenter strukturiert und dadurch leichter maschinell auszuwerten. Ich lese es z.B. mit Excel, das dann so schlau ist, allen Feldern in Anführungszeichen gleich den Typ "Text" zuzuordnen und allen anderen den Typ "Zahl".
                  Wobei ich festgestellt habe, dass das Komma als Trennzeichen bei Excel-Versionen ab 2003 (vielleicht auch schon 2000, nie probiert) ungünstig ist, weil neuere Versionen anscheinend ein Semikolon als Trennzeichen erwarten. Hat man komma-getrennte Felder, muss man sich durch den Import-Assistenten quälen und das manuell angeben, während die 97er Version das automatisch erkennt: Öffnen und gut.

                  Das nennt sich dann Fortschritt, glaube ich. ;-)

                  Für die mit Excel auszuwertenden Files (z.B. gleich als Webabfrage von Excel) nehme ich als Trennzeichen zwischen den Feldern den Tabulator.

                  das sind dann TSV-Files ;-)

                  Liebe Grüße aus dem schönen Oberharz

                  Tom vom Berg

                  --
                  Nur selber lernen macht schlau
                  http://bergpost.annerschbarrich.de
  2. was gehört eigentlich "standartmäßig" zum Transfairvolumen?

    Dazu gehört alles, was an Daten zum und vom Rechner läuft/kommt.
    Also HTTP-, FTP- und Mailtraffic (eingehend und ausgehend) und auch anderer Traffic der durch andere Protokolle verursacht wird.

    Wie das dein Provider berechnet, weiss ich nicht, ich berechne z.B. nur HTTP und FTP-Traffic, dafür rechne ich die Mails in den Webspace mit ein, da ich standardmässig IMAP anbiete und mir sonst die Leute die Server mit riesigen Mails zumüllen, nur weils nix kostet.

    1. Hallo,

      ich berechne z.B. nur HTTP und FTP-Traffic, dafür rechne ich die Mails in den Webspace mit ein, da ich standardmässig IMAP anbiete und mir sonst die Leute die Server mit riesigen Mails zumüllen, nur weils nix kostet.

      habe ich irgendwann letztes Jahr, als du noch ein anderes Pseudonym verwendet hast, auch schon mal richtig vermutet, wer du tatsächlich bist? Ich hatte damals nur die Stadt erwähnt, und du hast es durch die Blume bestätigt ...

      Schönes Wochenende noch,
       Martin

      --
      Die letzten Worte des Architekten:
      Mir fällt da gerade was ein...