Moin!
Nebenbei: Dir ist schon klar, dass da nur Bilder entstehen und nicht etwa der Text rausgezogen wird?
Deswegen frag ich hier ja nach ner gescheiten Loesung! :)
Das dürfte problematisch werden. PDFs sind, je nach Input, wohl nicht mehr unbedingt in der Lage, den enthaltenen Text freizugeben, weil er in dieser Form garnicht mehr existiert (?), und für PS-Dateien dürfte unter Umständen das gleiche gelten (ich hab' mal in ein paar Dateien reingeschaut - etwas zu finden ist da mit bloßem Auge sehr schwierig).
Wenn der Text seine textliche Form zugunsten einer vektorbasierten Zeichenbeschreibung aufgegeben hat, hast du mit direkter Konvertierung verloren.
Ich würde mal sagen: Mit Ghostscript einen recht hochaufgelösten "Screenshot" erstellen und mit OCR-Software Texterkennung betreiben.
- Sven Rautenberg