Hank: PDF über PHP/... auslesen

Beitrag lesen

Moin,

an dieser Stelle hätte ich Dir vermutlich erstmal einen PDF-parser empfohlen.

Schwierig wird es aber z.b. schon, wenn Dein PDF Bilder enthält, da ist dann solch ein Tool überfordert, es reicht nur für einfach Text-PDFs.

Eventuell könntest Du darüber nachdenken, aus Deinem gesamten PDF ein Bild zu generieren (Tool wie pdftoppm (Teil von Poppler) oder ImageMagick, um die PDF-Seiten in Bilddateien (z.B. PNG) umzuwandeln) und es anschließend mit einem Tool wie Tesseract auszulesen.

Habe damit aber keine eigenen Erfahrungen gemacht, wollte nur eine Idee in den virtuellen Raum werfen.

Wenn es um reinen GText geht, würde ich PDF-parser ausprobieren.

Hank