LanX: PS oder PDF zu HTML konvertieren

Hi

Ich will ne groBe Zahl von PS bzw PDFs unter Linux in HTML konvertieren.

Allerdings will ich dazu nicht gleich nen Postscript Interpreter
schreiben muessen.  Ich bräuchte also eine Methode die mir ne Art Plotterformat
gibt, also

Zeichensatz X-Position Y-Position Charactercode

gibts sowas? Kann man Ghostscript vielleicht dazu kriegen sowas zu
produzieren? Ich habs nicht geschafft!

Dank für jede Hilfe
 Rolf

PS: Ja ich hab PDF2HTM gegoogelt aber des is nunmal ein Win-Tool :(

  1. Hallo,

    Ich will ne groBe Zahl von PS bzw PDFs unter Linux in HTML konvertieren.

    PS: Ja ich hab PDF2HTM gegoogelt aber des is nunmal ein Win-Tool :(

    ??? Ich habe den Code gerade von http://atrey.karlin.mff.cuni.cz/~clock/twibright/pdf2html/ heruntergeladen, kompiliert und ueber ein PDF drueberlaufen lassen (unter Debian). Die Qualitaet ist zwar bescheiden, aber das kann man wohl einstellen.

    Also: nochmal googlen.

    Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?

    Gruss
    Thomas

    1. Hi

      Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?

      Deswegen frag ich hier ja nach ner gescheiten Loesung! :)

      Tschau
        Rolf

      1. Moin!

        Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?

        Deswegen frag ich hier ja nach ner gescheiten Loesung! :)

        Das dürfte problematisch werden. PDFs sind, je nach Input, wohl nicht mehr unbedingt in der Lage, den enthaltenen Text freizugeben, weil er in dieser Form garnicht mehr existiert (?), und für PS-Dateien dürfte unter Umständen das gleiche gelten (ich hab' mal in ein paar Dateien reingeschaut - etwas zu finden ist da mit bloßem Auge sehr schwierig).

        Wenn der Text seine textliche Form zugunsten einer vektorbasierten Zeichenbeschreibung aufgegeben hat, hast du mit direkter Konvertierung verloren.

        Ich würde mal sagen: Mit Ghostscript einen recht hochaufgelösten "Screenshot" erstellen und mit OCR-Software Texterkennung betreiben.

        - Sven Rautenberg

        1. hi,

          Das dürfte problematisch werden. PDFs sind, je nach Input, wohl nicht mehr unbedingt in der Lage, den enthaltenen Text freizugeben, weil er in dieser Form garnicht mehr existiert (?), und für PS-Dateien dürfte unter Umständen das gleiche gelten (ich hab' mal in ein paar Dateien reingeschaut - etwas zu finden ist da mit bloßem Auge sehr schwierig).

          ich denke aber doch, daß, zumindest, wenn der Input in Textform war und nicht,
          wie bei uns hier in der Firma z.T. üblich, Schreiben in Word erstellt, dann ausgedruckt, eingescannt und
          durch den Distiller gejagt werden, sich der ursprüngliche Text irgendwie
          "rekonstruieren" läßt, da ja z.B. Google auch PDF-Dokumente im Web durchsucht
          und als Text darstellt. Und genau das, was die da verwenden, dürfte das gesuchte sein.

          Gruß aus Bilk

          Rainer

          1. Hi Rainer,

            durch den Distiller gejagt werden, sich der ursprüngliche Text
            irgendwie "rekonstruieren" läßt, da ja z.B. Google auch PDF-
            Dokumente im Web durchsucht und als Text darstellt.
            Und genau das, was die da verwenden, dürfte das gesuchte sein.

            da0 Google _einige_ PDF-Dokumente analysieren kann, heißt noch lange
            nicht, daß das mit _allen_ möglich sein muß.

            Ich habe nicht wirklich Ahnung von PDF, aber ich kann mir eben gut
            vorstellen, daß es darauf ankommt, was genau darin verwendet wurde.

            Wenn Du Dir den Inhalt eines Browser-Fensters ansiehst, kannst Du
            auf den ersten Blick (d. h. ohne Mausklick bzw. view-source) ja
            auch nicht erkennen, ob das HTML ist oder GIF.

            Viele Grüße
                  Michael

            1. Hallo Michael,

              da0 Google _einige_ PDF-Dokumente analysieren kann, heißt noch lange
              nicht, daß das mit _allen_ möglich sein muß.

              das ist klar. Natürlich täuscht die Google-Funktion, weil sie eben nicht
              die PDF-Dokumente anzeigt, die sie nicht analysieren kann.
              Was ich sagen wollte, ist, daß es grundsätzlich - unter der Voraussetzung,
              daß ein Textdokument dem PDF zugrundeliegt - möglich sein müßte, Texte aus
              PDF-Dateien zu extrahieren. Dafür spricht halt auch die Möglichkeit im
              Acrobat Reader, (wenn das Dokument nicht geschützt ist) Texte zu markieren
              und über die Zwischenablage in Editoren, Textverarbeitungsprogramme o.ä.
              einzufügen.
              Ähnliches, denke ich, wird für PostScript gelten.

              Grüße aus Bilk

              Rainer

        2. Hi

          Wenn der Text seine textliche Form zugunsten einer vektorbasierten Zeichenbeschreibung aufgegeben hat, hast du mit direkter Konvertierung verloren.

          PS udn PDF sind eng verwandt. Wenn der Input textbasiert war dann wird auf der
          untersten Interpretationsebene auch Text "chronologisch" ausgespuckt.
          Sonst würde es ja auch keine PS-Fonts geben.

          Was ein Wort und was ein Leerzeichen ist muß man allerdings dann abschätzen!

          Ich hab in den ghostscript-mans einen Hinweiß auf pstotext gefunden, kapier
          aber nicht wie man's zum laufen kriegt.

          Ich würde mal sagen: Mit Ghostscript einen recht hochaufgelösten "Screenshot" erstellen und mit OCR-Software Texterkennung betreiben.

          Never!!! :)

          Cheers
            Rolf

  2. Hallo,

    habe auch mal gegooglet und folgenden sehr wertvoellen und praktischen Hinweis (für MS Word) gefunden:

    http://www.microsoft.com/intlKB/germany/support/kb/d39/d39901.htm

    Ich finde, für einen KnowledgeBase-Artikel ist das der absolute Hammer, oder?

    Gruß aus Bilk

    Rainer

  3. Hallo Rainer, hallo Forum

    Wie einige schon sagten, setzt die Konvertierung voraus, dass der Text im PDF auch wirklich noch Text ist.

    Sollte das der Fall sein, kannst Du mal bei http://access.adobe.com/adv_form.html vorbeigucken.

    Grüße,

    Florian

  4. Hi,

    hab noch was gefunden, ist allerdings sehr, sehr spärlich (nämlich fast gar nicht) dokumentiert:

    http://pdftohtml.sourceforge.net/

    Gruß aus Bilk

    Rainer

    1. Hi Rainer

      Super, mal sehen ob ichs vernünftig zum laufen kriege :)

      Tschau
        Rolf