Raketenwilli: PDF über PHP/... auslesen

Beitrag lesen

Schreibe ich "Hello World!" in ein WORD / Open Office und verpacke es in einer schönen PDF mit Mascherl oben drauf, sollte in der Textausgabe dieser PDF wieder irgendwo "Hello World!" zu finden sein (den Rest scrape ich mir dann schon irgendwie zusammen...)

Die meisten dieser Programme heißen so, „wie sie tun“:

Google php pdf2text pdftotext

Erster Treffer:

https://github.com/cpierce/pdf2text/blob/main/src/Pdf2text/Pdf2text.php

Nutzung/Einbindung:

https://github.com/cpierce/pdf2text/tree/main

Hinweis: Bei manchen, womöglich vielen PDFs wird das (wahrscheinlich) nicht funktionieren, da brauchst Du ocr, weil der Text da als Grafik drin ist… und für ocr sieht mir das „deutlich zu klein“ aus.

So richtig „vertrauensgewürzig“ ist das aber nicht, weil z.B. jeder Angabe zur PHP-Version, unter der das läuft, (und ggf. benötigten PHP-Libs) fehlt.