Stefan Heitmann: PDF nach XY konvertieren

Guten Tag,

ich stehe seit einigen Tagen vor dem folgendem Problem:

Ich versuche ein e-Paper im PDF-Format nach Textformat oder HTML oder so zu konvertieren, das Problem ist, dass e-Paper meist mehrspaltig sind und so kommen dann so lustige Dinge wie:

"Das Kreuz als Symbol der Erlösung
In dieser Ausgabe
Verbundwerkstoffe zu unterstützen. ,,Die
Wirtschaft könnte sich an der Finanzierung
An Karfreitag stehen das Leiden und der Tod
klagten das Sterben und den Tod Jesu, weil sie
Feiertage. Unser Bild zeigt ein Holzkreuz, das
des Lehrstuhls beteiligen", sagte er. SGL Car-
Jesu Christi am Kreuz im Mittelpunkt. Das"

Ich bin jetzt auf der Suche nach einem Open Source-Projekt, da ich wenn ich den Code habe, es leichter umschreiben kann.

Es wäre auch hilfreich wenn jemand wüsste wo es eine RFC über den genauen Aufbau von PDF-Dateien gäbe.

Vielen, vielen Dank für eure Hilfe im Voraus

Stefan Heitmann

  1. Hi,

    Es wäre auch hilfreich wenn jemand wüsste wo es eine RFC über den genauen Aufbau von PDF-Dateien gäbe.

    Das PDF-Format "gehört" IIRC zur Weiterentwicklung der Firma Adobe, darf aber frei implementiert werden. Die aktuelle Spezifikation findest du ebenfalls bei denen.

    MfG
    Rouven

    --
    -------------------
    ss:) zu:) ls:& fo:) de:< va:{ ch:? sh:) n4:( rl:? br:$ js:| ie:) fl:(
  2. Hi

    Ich versuche ein e-Paper im PDF-Format nach Textformat oder HTML oder so zu konvertieren, das Problem ist, dass e-Paper meist mehrspaltig sind

    ... Du suchst 'pdftotext' ?

    Es wäre auch hilfreich wenn jemand wüsste wo es eine RFC über den genauen Aufbau von PDF-Dateien gäbe.

    Wie schon mein Co-Poster sagte: Das PDF-Format gehoert der Forma Adobe, und die legt auch die Spezifikationen fest.

    Gruss,

    • Joerg