Sämtliche Versuche, das PDF zu konvertieren, generieren noch viel mehr Datenmüll.
Ich sags mal so:
Wenn das PDF (z.B. aus LaTeX oder dvi) generiert (nicht mit einem Treiber als Grafik pder Postscript/PS gedruckt oder vom Faxserver aus einem Tiff umgewandelt wurde ) wurde, unverschlüsselt ist und Tabellen enthält, dann habe ich mit pdftotex gute Erfahrungen gemacht.
1. Versuch
pdftotext -nopgbrk -layout datei.pdf datei.layout.txt
2. Versuch
pdftotext -nopgbrk datei.pdf datei.zeilen.txt