PDF über PHP/... auslesen
bearbeitet von Raketenwilli> Schreibe ich *"Hello World!"* in ein WORD / Open Office und verpacke es in einer schönen PDF mit Mascherl oben drauf, sollte in der Textausgabe dieser PDF wieder irgendwo *"Hello World!"* zu finden sein *(den Rest scrape ich mir dann schon irgendwie zusammen...)*
Die meisten dieser Programme heißen so, „wie sie tun“:
Google php pdf2text pdftotext
Erster Treffer:
<https://github.com/cpierce/pdf2text/blob/main/src/Pdf2text/Pdf2text.php>
Nutzung/Einbindung:
<https://github.com/cpierce/pdf2text/tree/main>
Hinweis: Bei manchen, womöglich vielen PDFs wird das (wahrscheinlich) nicht funktionieren, da brauchst Du ocr, weil der Text da als Grafik drin ist… und für ocr sieht mir das „deutlich zu klein“ aus.
Soi richtig „vertrauensgewürzig“ ist das aber nicht, weil z.B. jeder Angabe zur PHP-Version, unter der das läuft, (und ggf. benötigten PHP-Libs) fehlt.
PDF über PHP/... auslesen
bearbeitet von Raketenwilli> Schreibe ich *"Hello World!"* in ein WORD / Open Office und verpacke es in einer schönen PDF mit Mascherl oben drauf, sollte in der Textausgabe dieser PDF wieder irgendwo *"Hello World!"* zu finden sein *(den Rest scrape ich mir dann schon irgendwie zusammen...)*
Die meisten dieser Programme heißen so, „wie sie tun“:
Google php pdf2text pdftotext
Erster Treffer:
<https://github.com/cpierce/pdf2text/blob/main/src/Pdf2text/Pdf2text.php>
Nutzung/Einbindung:
<https://github.com/cpierce/pdf2text/tree/main>
Hinweis: Bei manchen, womöglich vielen PDFs wird das (wahrscheinlich) nicht funktionieren, da brauchst Du ocr, weil der Text da als Grafik drin ist… und für ocr sieht mir das „deutlich zu klein“ aus.
PDF über PHP/... auslesen
bearbeitet von Raketenwilli> Schreibe ich *"Hello World!"* in ein WORD / Open Office und verpacke es in einer schönen PDF mit Mascherl oben drauf, sollte in der Textausgabe dieser PDF wieder irgendwo *"Hello World!"* zu finden sein *(den Rest scrape ich mir dann schon irgendwie zusammen...)*
Die meisten dieser Programme heißen so, wie sie tun:
Google php pdf2text pdftotext
Erster Treffer:
<https://github.com/cpierce/pdf2text/blob/main/src/Pdf2text/Pdf2text.php>
Nutzung/Einbindung:
<https://github.com/cpierce/pdf2text/tree/main>
Hinweis: Bei manchen, womöglich vielen PDFs wird das (wahrscheinlich) nicht funktionieren, da brauchst Du ocr, weil der Text da als Grafik drin ist… und für ocr sieht mir das „deutlich zu klein“ aus.