Das wäre mir am liebsten, weil das ganze Projekt bereits in PHP läuft.
Dann wäre in einem nächsten Schritt zu prüfen, ob PHP die Programmiersprache der Wahl ist. Es gibt weitere Kandidaten.
Alles weitere ist eine Frage der feingliedrigen Definition des Problems und, ich nenns mal "Uniformität" der PDF-Dokumente. Besser wäre "Konformität" - dann müsste es aber die Möglichkeit geben, einschränkende Vorschriften hinsichtlich derer Erzeugung zu machen.
Bei der Erzeugung kann ich leider nicht mitreden, die Daten werden von einem Dritten bereitgestellt.
Wenn das PDF durch Scansoftware erzeugt wurde, dann kann es sein, dass es vermeintlichen Text als Grafik enthält, was dann zum Scheitern führen dürfte.
Das ist nicht das Problem. Mit Online-Diensten kann man das PDF Problemlos in HTML oder Text umwandeln lassen.
So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...