PS oder PDF zu HTML konvertieren
LanX
- software
Hi
Ich will ne groBe Zahl von PS bzw PDFs unter Linux in HTML konvertieren.
Allerdings will ich dazu nicht gleich nen Postscript Interpreter
schreiben muessen. Ich bräuchte also eine Methode die mir ne Art Plotterformat
gibt, also
Zeichensatz X-Position Y-Position Charactercode
gibts sowas? Kann man Ghostscript vielleicht dazu kriegen sowas zu
produzieren? Ich habs nicht geschafft!
Dank für jede Hilfe
Rolf
PS: Ja ich hab PDF2HTM gegoogelt aber des is nunmal ein Win-Tool :(
Hallo,
Ich will ne groBe Zahl von PS bzw PDFs unter Linux in HTML konvertieren.
PS: Ja ich hab PDF2HTM gegoogelt aber des is nunmal ein Win-Tool :(
??? Ich habe den Code gerade von http://atrey.karlin.mff.cuni.cz/~clock/twibright/pdf2html/ heruntergeladen, kompiliert und ueber ein PDF drueberlaufen lassen (unter Debian). Die Qualitaet ist zwar bescheiden, aber das kann man wohl einstellen.
Also: nochmal googlen.
Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?
Gruss
Thomas
Hi
Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?
Deswegen frag ich hier ja nach ner gescheiten Loesung! :)
Tschau
Rolf
Moin!
Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?
Deswegen frag ich hier ja nach ner gescheiten Loesung! :)
Das dürfte problematisch werden. PDFs sind, je nach Input, wohl nicht mehr unbedingt in der Lage, den enthaltenen Text freizugeben, weil er in dieser Form garnicht mehr existiert (?), und für PS-Dateien dürfte unter Umständen das gleiche gelten (ich hab' mal in ein paar Dateien reingeschaut - etwas zu finden ist da mit bloßem Auge sehr schwierig).
Wenn der Text seine textliche Form zugunsten einer vektorbasierten Zeichenbeschreibung aufgegeben hat, hast du mit direkter Konvertierung verloren.
Ich würde mal sagen: Mit Ghostscript einen recht hochaufgelösten "Screenshot" erstellen und mit OCR-Software Texterkennung betreiben.
- Sven Rautenberg
hi,
Das dürfte problematisch werden. PDFs sind, je nach Input, wohl nicht mehr unbedingt in der Lage, den enthaltenen Text freizugeben, weil er in dieser Form garnicht mehr existiert (?), und für PS-Dateien dürfte unter Umständen das gleiche gelten (ich hab' mal in ein paar Dateien reingeschaut - etwas zu finden ist da mit bloßem Auge sehr schwierig).
ich denke aber doch, daß, zumindest, wenn der Input in Textform war und nicht,
wie bei uns hier in der Firma z.T. üblich, Schreiben in Word erstellt, dann ausgedruckt, eingescannt und
durch den Distiller gejagt werden, sich der ursprüngliche Text irgendwie
"rekonstruieren" läßt, da ja z.B. Google auch PDF-Dokumente im Web durchsucht
und als Text darstellt. Und genau das, was die da verwenden, dürfte das gesuchte sein.
Gruß aus Bilk
Rainer
Hi Rainer,
durch den Distiller gejagt werden, sich der ursprüngliche Text
irgendwie "rekonstruieren" läßt, da ja z.B. Google auch PDF-
Dokumente im Web durchsucht und als Text darstellt.
Und genau das, was die da verwenden, dürfte das gesuchte sein.
da0 Google _einige_ PDF-Dokumente analysieren kann, heißt noch lange
nicht, daß das mit _allen_ möglich sein muß.
Ich habe nicht wirklich Ahnung von PDF, aber ich kann mir eben gut
vorstellen, daß es darauf ankommt, was genau darin verwendet wurde.
Wenn Du Dir den Inhalt eines Browser-Fensters ansiehst, kannst Du
auf den ersten Blick (d. h. ohne Mausklick bzw. view-source) ja
auch nicht erkennen, ob das HTML ist oder GIF.
Viele Grüße
Michael
Hallo Michael,
da0 Google _einige_ PDF-Dokumente analysieren kann, heißt noch lange
nicht, daß das mit _allen_ möglich sein muß.
das ist klar. Natürlich täuscht die Google-Funktion, weil sie eben nicht
die PDF-Dokumente anzeigt, die sie nicht analysieren kann.
Was ich sagen wollte, ist, daß es grundsätzlich - unter der Voraussetzung,
daß ein Textdokument dem PDF zugrundeliegt - möglich sein müßte, Texte aus
PDF-Dateien zu extrahieren. Dafür spricht halt auch die Möglichkeit im
Acrobat Reader, (wenn das Dokument nicht geschützt ist) Texte zu markieren
und über die Zwischenablage in Editoren, Textverarbeitungsprogramme o.ä.
einzufügen.
Ähnliches, denke ich, wird für PostScript gelten.
Grüße aus Bilk
Rainer
Hi
Wenn der Text seine textliche Form zugunsten einer vektorbasierten Zeichenbeschreibung aufgegeben hat, hast du mit direkter Konvertierung verloren.
PS udn PDF sind eng verwandt. Wenn der Input textbasiert war dann wird auf der
untersten Interpretationsebene auch Text "chronologisch" ausgespuckt.
Sonst würde es ja auch keine PS-Fonts geben.
Was ein Wort und was ein Leerzeichen ist muß man allerdings dann abschätzen!
Ich hab in den ghostscript-mans einen Hinweiß auf pstotext gefunden, kapier
aber nicht wie man's zum laufen kriegt.
Ich würde mal sagen: Mit Ghostscript einen recht hochaufgelösten "Screenshot" erstellen und mit OCR-Software Texterkennung betreiben.
Never!!! :)
Cheers
Rolf
Hallo,
habe auch mal gegooglet und folgenden sehr wertvoellen und praktischen Hinweis (für MS Word) gefunden:
http://www.microsoft.com/intlKB/germany/support/kb/d39/d39901.htm
Ich finde, für einen KnowledgeBase-Artikel ist das der absolute Hammer, oder?
Gruß aus Bilk
Rainer
Hallo Rainer, hallo Forum
Wie einige schon sagten, setzt die Konvertierung voraus, dass der Text im PDF auch wirklich noch Text ist.
Sollte das der Fall sein, kannst Du mal bei http://access.adobe.com/adv_form.html vorbeigucken.
Grüße,
Florian
Hi,
hab noch was gefunden, ist allerdings sehr, sehr spärlich (nämlich fast gar nicht) dokumentiert:
http://pdftohtml.sourceforge.net/
Gruß aus Bilk
Rainer
Hi Rainer
Super, mal sehen ob ichs vernünftig zum laufen kriege :)
Tschau
Rolf