PS oder PDF zu HTML konvertieren von Thomas W., 08.05.2002 17:23

PS oder PDF zu HTML konvertieren

LanX 08.05.2002 17:04

software

Ich will ne groBe Zahl von PS bzw PDFs unter Linux in HTML konvertieren.

Allerdings will ich dazu nicht gleich nen Postscript Interpreter
schreiben muessen. Ich bräuchte also eine Methode die mir ne Art Plotterformat
gibt, also

Zeichensatz X-Position Y-Position Charactercode

gibts sowas? Kann man Ghostscript vielleicht dazu kriegen sowas zu
produzieren? Ich habs nicht geschafft!

Dank für jede Hilfe
Rolf

PS: Ja ich hab PDF2HTM gegoogelt aber des is nunmal ein Win-Tool :(

Beitrag melden

– Informationen zu den Bewertungsregeln

PS oder PDF zu HTML konvertieren
Thomas W. 08.05.2002 17:23

software
– Informationen zu den Bewertungsregeln
Hallo,

Ich will ne groBe Zahl von PS bzw PDFs unter Linux in HTML konvertieren.

PS: Ja ich hab PDF2HTM gegoogelt aber des is nunmal ein Win-Tool :(

??? Ich habe den Code gerade von http://atrey.karlin.mff.cuni.cz/~clock/twibright/pdf2html/ heruntergeladen, kompiliert und ueber ein PDF drueberlaufen lassen (unter Debian). Die Qualitaet ist zwar bescheiden, aber das kann man wohl einstellen.

Also: nochmal googlen.

Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?

Gruss
Thomas
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. PS oder PDF zu HTML konvertieren
  
  LanX 08.05.2002 17:41
  
  software
  – Informationen zu den Bewertungsregeln
  Hi
  
  Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?
  
  Deswegen frag ich hier ja nach ner gescheiten Loesung! :)
  
  Tschau
  Rolf
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. PS oder PDF zu HTML konvertieren
    
    Sven Rautenberg Homepage des Autors 08.05.2002 17:52
    
    software
    
    – Informationen zu den Bewertungsregeln
    Moin!
    
    Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?
    
    Deswegen frag ich hier ja nach ner gescheiten Loesung! :)
    
    Das dürfte problematisch werden. PDFs sind, je nach Input, wohl nicht mehr unbedingt in der Lage, den enthaltenen Text freizugeben, weil er in dieser Form garnicht mehr existiert (?), und für PS-Dateien dürfte unter Umständen das gleiche gelten (ich hab' mal in ein paar Dateien reingeschaut - etwas zu finden ist da mit bloßem Auge sehr schwierig).
    
    Wenn der Text seine textliche Form zugunsten einer vektorbasierten Zeichenbeschreibung aufgegeben hat, hast du mit direkter Konvertierung verloren.
    
    Ich würde mal sagen: Mit Ghostscript einen recht hochaufgelösten "Screenshot" erstellen und mit OCR-Software Texterkennung betreiben.
    
    - Sven Rautenberg
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. PS oder PDF zu HTML konvertieren
      
      Rainer S. 08.05.2002 18:04
      
      software
      
      – Informationen zu den Bewertungsregeln
      
      hi,
      
      Das dürfte problematisch werden. PDFs sind, je nach Input, wohl nicht mehr unbedingt in der Lage, den enthaltenen Text freizugeben, weil er in dieser Form garnicht mehr existiert (?), und für PS-Dateien dürfte unter Umständen das gleiche gelten (ich hab' mal in ein paar Dateien reingeschaut - etwas zu finden ist da mit bloßem Auge sehr schwierig).
      
      ich denke aber doch, daß, zumindest, wenn der Input in Textform war und nicht,
      wie bei uns hier in der Firma z.T. üblich, Schreiben in Word erstellt, dann ausgedruckt, eingescannt und
      durch den Distiller gejagt werden, sich der ursprüngliche Text irgendwie
      "rekonstruieren" läßt, da ja z.B. Google auch PDF-Dokumente im Web durchsucht
      und als Text darstellt. Und genau das, was die da verwenden, dürfte das gesuchte sein.
      
      Gruß aus Bilk
      
      Rainer
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. PS oder PDF zu HTML konvertieren
        
        Michael Schröpl 08.05.2002 20:20
        
        software
        
        – Informationen zu den Bewertungsregeln
        
        Hi Rainer,
        
        durch den Distiller gejagt werden, sich der ursprüngliche Text
        irgendwie "rekonstruieren" läßt, da ja z.B. Google auch PDF-
        Dokumente im Web durchsucht und als Text darstellt.
        Und genau das, was die da verwenden, dürfte das gesuchte sein.
        
        da0 Google _einige_ PDF-Dokumente analysieren kann, heißt noch lange
        nicht, daß das mit _allen_ möglich sein muß.
        
        Ich habe nicht wirklich Ahnung von PDF, aber ich kann mir eben gut
        vorstellen, daß es darauf ankommt, was genau darin verwendet wurde.
        
        Wenn Du Dir den Inhalt eines Browser-Fensters ansiehst, kannst Du
        auf den ersten Blick (d. h. ohne Mausklick bzw. view-source) ja
        auch nicht erkennen, ob das HTML ist oder GIF.
        
        Viele Grüße
        Michael
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        PS oder PDF zu HTML konvertieren
        
        Rainer S. 08.05.2002 20:41
        
        software
        
        – Informationen zu den Bewertungsregeln
        
        Hallo Michael,
        
        da0 Google _einige_ PDF-Dokumente analysieren kann, heißt noch lange
        nicht, daß das mit _allen_ möglich sein muß.
        
        das ist klar. Natürlich täuscht die Google-Funktion, weil sie eben nicht
        die PDF-Dokumente anzeigt, die sie nicht analysieren kann.
        Was ich sagen wollte, ist, daß es grundsätzlich - unter der Voraussetzung,
        daß ein Textdokument dem PDF zugrundeliegt - möglich sein müßte, Texte aus
        PDF-Dateien zu extrahieren. Dafür spricht halt auch die Möglichkeit im
        Acrobat Reader, (wenn das Dokument nicht geschützt ist) Texte zu markieren
        und über die Zwischenablage in Editoren, Textverarbeitungsprogramme o.ä.
        einzufügen.
        Ähnliches, denke ich, wird für PostScript gelten.
        
        Grüße aus Bilk
        
        Rainer
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
    2. PS oder PDF zu HTML konvertieren
      
      LanX 08.05.2002 22:14
      
      software
      
      – Informationen zu den Bewertungsregeln
      
      Hi
      
      Wenn der Text seine textliche Form zugunsten einer vektorbasierten Zeichenbeschreibung aufgegeben hat, hast du mit direkter Konvertierung verloren.
      
      PS udn PDF sind eng verwandt. Wenn der Input textbasiert war dann wird auf der
      untersten Interpretationsebene auch Text "chronologisch" ausgespuckt.
      Sonst würde es ja auch keine PS-Fonts geben.
      
      Was ein Wort und was ein Leerzeichen ist muß man allerdings dann abschätzen!
      
      Ich hab in den ghostscript-mans einen Hinweiß auf pstotext gefunden, kapier
      aber nicht wie man's zum laufen kriegt.
      
      Ich würde mal sagen: Mit Ghostscript einen recht hochaufgelösten "Screenshot" erstellen und mit OCR-Software Texterkennung betreiben.
      
      Never!!! :)
      
      Cheers
      Rolf
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
Datenverarbeitung zu Fuß
Rainer S. 08.05.2002 17:54

menschelei
– Informationen zu den Bewertungsregeln
Hallo,

habe auch mal gegooglet und folgenden sehr wertvoellen und praktischen Hinweis (für MS Word) gefunden:

http://www.microsoft.com/intlKB/germany/support/kb/d39/d39901.htm

Ich finde, für einen KnowledgeBase-Artikel ist das der absolute Hammer, oder?

Gruß aus Bilk

Rainer
Beitrag melden

–
Informationen zu den Bewertungsregeln
PS oder PDF zu HTML konvertieren
Florian Hagedorn 08.05.2002 18:35

software
– Informationen zu den Bewertungsregeln
Hallo Rainer, hallo Forum

Wie einige schon sagten, setzt die Konvertierung voraus, dass der Text im PDF auch wirklich noch Text ist.

Sollte das der Fall sein, kannst Du mal bei http://access.adobe.com/adv_form.html vorbeigucken.

Grüße,

Florian
Beitrag melden

–
Informationen zu den Bewertungsregeln
PS oder PDF zu HTML konvertieren
Rainer S. 08.05.2002 18:40

software
– Informationen zu den Bewertungsregeln
Hi,

hab noch was gefunden, ist allerdings sehr, sehr spärlich (nämlich fast gar nicht) dokumentiert:

http://pdftohtml.sourceforge.net/

Gruß aus Bilk

Rainer
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. PS oder PDF zu HTML konvertieren
  
  LanX 08.05.2002 22:06
  
  software
  – Informationen zu den Bewertungsregeln
  Hi Rainer
  
  Super, mal sehen ob ichs vernünftig zum laufen kriege :)
  
  Tschau
  Rolf
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

LanX: PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

Datenverarbeitung zu Fuß

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

Datenverarbeitung zu Fuß

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren

PS oder PDF zu HTML konvertieren