Christoph Schnauß: pdf zu text... und vorher dekomprimieren?

Beitrag lesen

hallo Felix,

um es kurz zu machen: wie hast du deine PDF denn "komprimiert"?

Ich gebe zu, daß ich PDF absolut nicht mag und alles, was damit zu tun hat, gewissermaßen nur mit dicken Handschuhen anfasse und möglichst schnell sehr weit wieder wegwerfe.  Trotzdem wüßte ich nicht, was da eben komprimiert sein sollte.

OpenOffice benutze ich auf ähnliche Weise so gut wie nie - ich brauche es nicht. Habe es aber natürlich, und habe auch schonmal nachgekuckt, ob damit erstellte PDF sich unter Windows mit Adobe Acrobat (also _nicht_ mit dem Reader, sondern mit dem vollen Programm) exportieren und in HTML verwandeln lassen. Das geht.

Kennt jemand eine pdf-zu-text-oder-was-anderes-auswertbares-Klasse?

Wenn das mit PDF->HTM unter Windows mit Adobe Acrobat geht, sollte es also prinzipiell möglich sein. Aber PHP kennt meines Wissens nur Funktionen zum Erzeugen von PDF, nicht aber zum Konvertieren. Im Extremfall wird dir gar nichts andres übrigbleiben, als systematisch alle in http://www.php.net/manual/de/ref.pdf.php aufgeführten PDF-Funktionen mit Einzelscripts aus deiner Werkstatt gegenzuprüfen.

5 0 obj
<< /Length 6 0 R
   /Filter /FlateDecode

stream

Erstelle dir einfach mal mit OpenOffice eine PDF und mit einem PHP-Script eine zweite PDF, die exakt denselben Inhalt haben sollte, typischerweise ein "hallo Welt!". Dann kuckst du dir beide in einem Texteditor nebeneinander an und schaust nach, ob es Unterschiede gibt. Wenn es welche gibt, könnte dich das auf die richtige Idee bringen. Ich würde jedenfalls erstmal so vorgehen, getestet hab ich sowas allerdings noch nie.

Grüße aus Berlin

Christoph S.

--
Visitenkarte
http://www.christoph-schnauss.de
ss:| zu:) ls:& fo:) va:) sh:| rl:|