Michi: Mehrseitige Dokumente? Ausser PDF auch etwas anderes?

Hallo Form

Kennt jemand andere Möglichkeiten um mehrseitige Dokumente (Scan´s) ins Internet zu stellen? ausser PDF. Bei PDF´s find ich die Größe ein bischen problematisch. Gibts etwas, das weniger Speicher benötigt.

Danke

  1. Hallo Michi,

    ganz ehrlich: Das Format für Browser ist HTML.
    Wenn ich an Dokumentenbäume von machen gut gemachten PDFs denke, so fällt mir nichts anderes ein.

    Gruß aus Berlin!
    eddi

    --
    Manchmal trifft es einen doch ganz unverhofft t86591:
    > '..."Vorläufig abgebrochen" ist ungefähr so sinnvoll formuliert, wie "einstweilig erschossen" oder "temporär verbrannt"...'
    Ich danke Sven für diese Erkenntnis - Gott, was habe ich gelacht ;)
    1. Hallo Michi,

      ganz ehrlich: Das Format für Browser ist HTML.

      Das ist mir schon klar...nur hier geht es um dokumente die könnt ich zwar in html darstellen aber die kunden unterschrift nicht....du verstehst.

      Ich weiß das es noch mehrseitige TIF´s gibt oder so etwas änliches....

      Ciao

      1. Hallo Michi,

        ganz ehrlich: Das Format für Browser ist HTML.

        Das ist mir schon klar...nur hier geht es um dokumente die könnt ich zwar in html darstellen aber die kunden unterschrift nicht....du verstehst.

        Nein (sorry)

        Geht es jetzt darum, daß die Unterschrift nicht zu sehen sein soll, oder wei sie grade zu sehen sein soll?
        Mim letzten Fall referenzierst Du einfach das gescannte Bild mit einem üblichen Link.

        Das hat den einfachen Vortei: HTML ist dann doch wesentlich kleiner als eine A4-Seite in 72dpi und es werden deutlich mehr nur den Text lesen wollen, als sich von der relativen Echtheit zu überzeugen.

        Gruß aus Berlin!
        eddi

        --
        Manchmal trifft es einen doch ganz unverhofft t86591:
        > '..."Vorläufig abgebrochen" ist ungefähr so sinnvoll formuliert, wie "einstweilig erschossen" oder "temporär verbrannt"...'
        Ich danke Sven für diese Erkenntnis - Gott, was habe ich gelacht ;)
        1. Das hat den einfachen Vortei: HTML ist dann doch wesentlich kleiner als eine A4-Seite in 72dpi und es werden deutlich mehr nur den Text lesen wollen, als sich von der relativen Echtheit zu überzeugen.

          Es geht darum das das ORIGINAL mittels Link geöffnet wird. Leidergottes muss es ein Original(-Bild) sein. Da aber PDF Dateien relativ groß sind und ich Platz sparen möchte/muss suche ich nun andere möglichkeiten. Weiters ist das Problem das die Dokumente fast immer mehrseitig (A4) sind und alle seiten abrufbar sein müssen. Ich muss auch dazu sagen das es egal ist ob sich das Bild im Browser darstellen lässt oder einfach nur zum download bereit steht. Insgesamt geht es derzeit um ca. 2500 (Mehrseitige-)Dokumente und jeden Tag kommen welche hinzu. Das heisst auch nur eine kleine verbesserung gegenüber einem PDF würde viel bewirken.

          LG Michi

          1. Hallo Michi,

            Es geht darum das das ORIGINAL mittels Link geöffnet wird. Leidergottes muss es ein Original(-Bild) sein.

            Welcher I.... verlangt den so ein Quatsch? Eine Bilddatei zu fäschen geht wesentlich schneller als beispielsweise dieses Posting zu verfassen.

            Da aber PDF Dateien relativ groß sind und ich Platz sparen möchte/muss suche ich nun andere möglichkeiten.

            PDFs haben nicht die gleiche Kompression, wie beispielsweise das Format jpeg, sind aber an und für sich schon recht klein.

            Weiters ist das Problem das die Dokumente fast immer mehrseitig (A4) sind und alle seiten abrufbar sein müssen.

            Das hört sich aber für mich an, als könnte man auf einem HTML-Dokument nicht auf das nächstfolgende Referenzieren.
            Das gleiche ist bei einem PDF der fall, nur das es dort ein Fluß ist (auch das ginge in HTML und Anker-Referenzen)

            Ich muss auch dazu sagen das es egal ist ob sich das Bild im Browser darstellen lässt oder einfach nur zum download bereit steht.

            HTML fürs Auge und Zippakete zum Download. Ich denke, das ist ein gangbarer Weg.

            Insgesamt geht es derzeit um ca. 2500 (Mehrseitige-)Dokumente und jeden Tag kommen welche hinzu. Das heisst auch nur eine kleine verbesserung gegenüber einem PDF würde viel bewirken.

            Da ist natürlich eine Software, die Schrift extrahiert, goldwert.

            Abschließendes:
            Auch wenn es vielleicht auf Dich den Eindruck machen sollte, daß ich Dir nur Gegenrede erteilen will, bin ich wirklich nur versucht Dir die beste Möglichkeit aufzuzeigen.
            Denke beispielsweise an SelfHTML selbst. Würdest Du es anders lesen, selbst wenn es als PDF lesbar wäre?

            Gruß aus Berlin!
            eddi

            --
            Manchmal trifft es einen doch ganz unverhofft t86591:
            > '..."Vorläufig abgebrochen" ist ungefähr so sinnvoll formuliert, wie "einstweilig erschossen" oder "temporär verbrannt"...'
            Ich danke Sven für diese Erkenntnis - Gott, was habe ich gelacht ;)
            1. Hi

              Abschließendes:
              Auch wenn es vielleicht auf Dich den Eindruck machen sollte, daß ich Dir nur Gegenrede erteilen will, bin ich wirklich nur versucht Dir die beste Möglichkeit aufzuzeigen.

              Davon würde ich nie ausgehen...ich bin jedem dankbar der mir diesbezüglich ein paar tipps gibt. zb Sven dessen Ausführung sehr Umfangreich ist Herzlichen Dank!!!

              Denke beispielsweise an SelfHTML selbst. Würdest Du es anders lesen, selbst wenn es als PDF lesbar wäre?

              Das ist nicht zu vergleichen. Im Detail geht es um eine Organisation von mehr als 100 Personen...-ich möchte einfügen das ich nicht möchte das dies in eine diskussion ausartet- und der Auftrag lautet nun mal so...und wenn der kunde verlangt das die Kundenaufträge ZUSÄTZLICH zu den daten in der datenbank als original abrufbar sein müssen ist das halt so.

              Der Grund meiner Frage ist eigentlich der, dass das Unternehmen den Webserver (weil das ganze nicht nur intern sonder auch in aller welt (ohne VPN) funktionieren soll) bei einem provider hat. Nun ist die Frage:

              1. Kann ich den Speicherpaltz so reduzieren, dass es rentabel ist den server noch beim provider zu belassen?
                oder 2)Sollte ein eigener Webserver angekauft werden und eine Hochgeschwindigkeitsanbindung (natürlich ist kein adsl/cable gemeint)bezahlt werden?
                Ich bin zwar für dies nicht zuständig und auch ist das nicht mein fachgebiet aber ich wurde gebeten mich auf beides einzustellen und eine empfehlung abzugeben....was mir nun leichter fällt,..den wie sven gesagt hat: macht es einen unterschied ob ich bei einer stättig ansteigenden datenmenge 20% mehr platz brauche oder nicht? NEIN.

              Danke für eure Hilfe

          2. Moin!

            Es geht darum das das ORIGINAL mittels Link geöffnet wird. Leidergottes muss es ein Original(-Bild) sein. Da aber PDF Dateien relativ groß sind und ich Platz sparen möchte/muss suche ich nun andere möglichkeiten.

            Wie groß PDF-Dateien sind, hängt doch eindeutig von dir bzw. dem von dir gewählten Komprimierungsfaktor ab.

            Ausgangsbasis ist doch, egal was am Ende herauskommt, immer ein Scan einer A4-Seite mit einer gewissen DPI-Zahl. Diese DPI-Zahl orientiert sich daran, was mit der Seite noch weiter geschehen soll. Da spielen Faktoren wie "Wie klein ist die Schrift auf der Seite?" oder "Soll man die Seite später mal annähernd 1:1 neu ausdrucken können?" eine Rolle. Ein Scan mit 600 dpi bringt für die Reproduzierbarkeit tolle Ergebnisse - aber eben auch eine riesige Datenmenge. Ein Scan mit 75 DPI bringt eine wesentlich geringere Datenmenge - aber man kann das Ergebnis eben noch schlechter lesen, als ein Fax (das arbeitet normal mit 100 DPI, im Fein-Modus horizontal sogar mit 200 DPI, vertikal bleiben es 100 DPI).

            Das bedeutet: Schon beim Scannen entscheidest du über eine Rohdatenmenge, die im weiteren Prozess irgendwie kleingemacht werden muß. Und dabei können die Dateiformate nun mal nicht hexen. PDF ist, was Grafiken angeht, ein Containerformat für JPG, TIFF und CCITT (oder wie das Zeug heißt - gemeint ist ein Datenformat, wie man es vom FAX her kennt). Das bedeutet: Wenn du es schaffst, dass eine TIFF-Grafik dir pro Seite ausreichend klein geworden ist, dann kannst du alle Grafiken zusammen in ein PDF tun, was nur wenig größer als die Gesamtmenge der Einzelgrafiken ist. Wenn du mit JPG gute Erfolge erzielen kannst, dann kannst du eben JPGs kombinieren.

            Entscheidend ist immer, dass du schon beim Scannen der Grafiken weißt, was gut für deine endgültige Dateigröße ist. Brauchst du 24-Bit-Farbe? Vermutlich nicht. Bei Schwarz-Weiß-Dokumenten reicht 256 Graustufen vollkommen aus. Oder noch besser: 4 Graustufen (weiß, hellgrau, dunkelgrau, schwarz) sind meist auch noch vollkommen in Ordnung und gut zu lesen - da wird das Bild dann nicht ganz so pixelig, und du kannst es als GIF abspeichern. Oder du versuchst es direkt mit einem 2-Farben-Scan (schwarz und weiß). Da erhälst du sehr kleine Datenmengen (je Pixel nur ein Bit, anstatt 24), und wenn du das als TIFF (oder GIF) speicherst, wird das Resultat trotzt verlustFREIER Komprimierung relativ klein werden und im PDF auch genauso klein bleiben.

            Die Erstellung eines PDFs ist aber natürlich auch sehr wichtig. Es hängt stark davon ab, wie man das macht. Wenn man mit Adobe Acrobat ein PDF "druckt", dann kann man beispielsweise einstellen, mit welcher Auflösung (in DPI) die enthaltenen Grafiken in das PDF gespeichert werden sollen. Vorher grob (100 dpi) gescannte Grafiken könnten dadurch vollkommen unnötig wieder auf 300 dpi aufgepustet werden. Ebenso kann man den Komprimierungsgrad von JPG-Bildern (oder was dazu werden soll) einstellen, und noch vieles mehr.

            Diese Einstellbarkeit der Komprimierungsfaktoren hast du aber bei allen anderen Dateiformaten ebenso - und da keinerlei Hexenwerk am Start ist, werden die optischen Ergebnisse eines JPG-Bildes, welches eine ganze A4-Seite umfaßt und 100 KB groß ist, so ziemlich identisch sein mit einem PDF, welches ein JPG dieser Seite enthält, und auch nur 100 KB groß ist.

            Der Zugrundeliegende Komprimierungsmechanismus ist eben bei beiden Versionen identisch. Und so viele Komprimierungsmethoden kennt die Welt für Bilder noch nicht. JPEG ist der verbreitetste, wenn es darum geht, Pixelbilder (also Fotos) verhältnismäßig stark zu komprimieren, ohne dass man es großartig sieht. Aber JPEG ist beispielsweise eher ungeeignet, wenn es darum geht, eine Textseite in Schwarzweiß zu speichern - eben aufgrund der starken Kontraste und der scharfen Kanten im Bild.

            Weiters ist das Problem das die Dokumente fast immer mehrseitig (A4) sind und alle seiten abrufbar sein müssen.

            Da werden deine Möglichkeiten dann ja sowieso eingeschränkt. Es gibt nicht so schrecklich viele verwendbare Dateiformate, die mehrere Bilder in einer Datei zulassen. PDF ist klar, mit TIFF geht es auch. Bei GIF sollte es ebenfalls hinhauen (vom Dateiformat her - im Zweifel als Animation), aber es gibt kaum Anzeige- und Erstellungssoftware, die damit auch tatsächlich umgehen kann. Und das war's dann nach meinem Kenntnisstand auch schon.

            Ich muss auch dazu sagen das es egal ist ob sich das Bild im Browser darstellen lässt oder einfach nur zum download bereit steht. Insgesamt geht es derzeit um ca. 2500 (Mehrseitige-)Dokumente und jeden Tag kommen welche hinzu. Das heisst auch nur eine kleine verbesserung gegenüber einem PDF würde viel bewirken.

            Ok, du hast als Datenmenge in Fax-Qualität 1170 * 826 Pixel aus einer A4-Seite zu gewinnen, oder 966420 Pixel. In Graustufen also ein knappes Megabyte unkomprimiert. Wie klein könnte man das Bild jetzt kriegen?

            Wenn man es auf 4 Graustufen (2 Bit je Pixel) reduziert, wäre es nur noch ein Viertel so groß: 250 KB. Das als GIF gespeichert wird vielleicht nur 80% des Originals haben, also 200 KB - das hängt extrem von den Bildinhalten ab. Große einfarbige Flächen (bzw. genauer: einfarbige PixelZEILEN) sind toll zu komprimieren.

            Man sollte die Fax-Dateiformate nicht außer Acht lassen. Fax ist dafür optimiert, schwarz-weiß-Dokumente (allenfalls noch welche mit 16 Graustufen) gut komprimiert über langsame Telefonleitungen zu schicken. Ich vermute (habe es aber nicht ausprobiert), dass dieses Dateiformat gegenüber GIF noch leichte Vorteile hätte.

            Was ist mit JPG? Eine gute Qualität kriegt man ja mit 50% Komprimierung schon hin, nur leider: Reale Scans tun einem nicht den Gefallen, nur aus einheitlich farbigen (bzw. weißen) Flächen zu bestehen, sondern sie sind immer irgendwie dreckig, fleckig, schief oder sonst "un-schwarzweiß". JPG wird im Zweifel der Komprimierung eines optimierten GIFs oder gar des Fax-Formats unterlegen sein und vielleicht bei 300 KB enden. Spannend ist natürlich auch, was man mit den Bildern hinherher anfangen will. Es dürfte sicher kein Problem sein, bei JPG die Komprimierungsrate hochzusetzen und dann am Ende besser als das GIF zu sein - aber die Frage bleibt, ob man das dann noch lesen kann.

            Du hast Größenprobleme angesprochen. Die sehe ich angesichts verfügbarer Hardware nicht!

            Wenn man davon ausgeht, dass eine A4-Seite rund 200 KB groß ist, dann werden 2500 mehrseitige Dokumente (also mindestens mal 5000 Seiten) die wahnsinnige Datenmenge von nur 1 GB einnehmen.

            Eine 200GB-Festplatte kostet heute um die 150 Euro. Das bedeutet, dass da drauf etwa eine Million Dokumentenseiten draufpassen werden.

            Bitte vergleiche einmal den zeitlichen Aufwand, den du jetzt treibst, um statt der einen Million vielleicht 1,2 Millionen Seiten auf die Platte zu kriegen, mit dem notwendigen Aufwand, die existierenden Dokumente überhaupt erstmal einzuscannen und möglichst zeitsparend auf die Platte zu packen. Festplatten sind einfach derartig billig, dass dein Zeitlicher Aufwand, eine Optimierung herbeizuführen, schon nach spätestens drei Stunden so teuer geworden ist, dass die Anschaffung einer Festplatte längst bezahlt gewesen wäre. Es ist aus betriebswirtschaftlicher Sicht unsinnig, sich hinsichtlich der benötigten Datenmenge totzuoptimieren. Bedenke auch, dass der wirklich entscheidende Kostenfaktor ist, wie schnell die 2500 jetzt vorliegenden Dokumente gescannt und gespeichert werden können. Wenn an jeder A4-Seite durch deine Optimierungslösung 10 Minuten herumoptimiert werden muß, anstatt die Seite nach einer Minute fertig im PDF zu haben, dann dürfte nicht nur der Verzögerungseffekt (10 Tage vs. 100 Tage) relevant sein. Und alles für nur ein einziges lausiges Gigabyte!

            - Sven Rautenberg

  2. Hallo Form

    Kennt jemand andere Möglichkeiten um mehrseitige Dokumente (Scan´s) ins Internet zu stellen? ausser PDF. Bei PDF´s find ich die Größe ein bischen problematisch. Gibts etwas, das weniger Speicher benötigt.

    Wie wäre es mit Rich Text Format?

    --
    Gruss Martin