Schreibe ich "Hello World!" in ein WORD / Open Office und verpacke es in einer schönen PDF mit Mascherl oben drauf, sollte in der Textausgabe dieser PDF wieder irgendwo "Hello World!" zu finden sein (den Rest scrape ich mir dann schon irgendwie zusammen...)
Die meisten dieser Programme heißen so, „wie sie tun“:
Google php pdf2text pdftotext
Erster Treffer:
https://github.com/cpierce/pdf2text/blob/main/src/Pdf2text/Pdf2text.php
Nutzung/Einbindung:
https://github.com/cpierce/pdf2text/tree/main
Hinweis: Bei manchen, womöglich vielen PDFs wird das (wahrscheinlich) nicht funktionieren, da brauchst Du ocr, weil der Text da als Grafik drin ist… und für ocr sieht mir das „deutlich zu klein“ aus.
So richtig „vertrauensgewürzig“ ist das aber nicht, weil z.B. jeder Angabe zur PHP-Version, unter der das läuft, (und ggf. benötigten PHP-Libs) fehlt.