PDF "entpacken" bzw. als HTML/Text konvertieren von wzr, 28.10.2013 17:16

PDF "entpacken" bzw. als HTML/Text konvertieren

wzr 27.10.2013 17:13

Hi Leute,
ich will aktuell ein PDF mit PHP auswerten. Dazu bräuchte ich das ganze in Form von Text oder HTML. Die ganzen PHP-Klassen funktionieren allerdings nur mit "klarem" pdf-Code, also welchen, ohne Komprimierung. Die Frage ist jetzt, wie "entpacke" ich die pdf zu klaren Zeichen? Oder: Gibt es irgendwelche PHP-Klassen, die auch komprimierte pdf Dateien auswerten können?

Beitrag melden

– Informationen zu den Bewertungsregeln

PDF "entpacken" bzw. als HTML/Text konvertieren
Jörg Reinholz 27.10.2013 21:20

php
– Informationen zu den Bewertungsregeln
ich will aktuell ein PDF mit PHP auswerten.

1.) Das klingt, als hättest Du Dir _sehr_ viel vorgenommen. PDF erzeugen ist einfacher.
2.) Definiere "auswerten".

Eine komplette Umwandlung versucht pdf2html.

(Schlechtes) Beispiel bei Stackoverflow

Von der erzeugten HTML-Datei ausgehend könnte man sich via xml-Bibliotheken einiges vorstellen.

Jörg Reinholz
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. PDF "entpacken" bzw. als HTML/Text konvertieren
  
  Jörg Reinholz 27.10.2013 21:30
  
  php
  – Informationen zu den Bewertungsregeln
  Eine komplette Umwandlung versucht pdftohtml.
  
  oder:
  
  pdftotext
  
  Und für die Auswertung von Meta-informationen wäre da noch
  
  pdfinfo
  
  Jörg Reinholz
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. PDF "entpacken" bzw. als HTML/Text konvertieren
    
    wzr 27.10.2013 22:16
    
    php
    
    – Informationen zu den Bewertungsregeln
    Eine komplette Umwandlung versucht pdftohtml.
    
    oder:
    
    pdftotext
    
    Und für die Auswertung von Meta-informationen wäre da noch
    
    pdfinfo
    
    Jörg Reinholz
    
    Danke für die Links. Mit Auswerten meine ich, dass ich eine Tabelle in einer festen Form bekomme und ich mir bestimmte Ereignisse automatisiert auslesen lassen will (nicht immer gibt es Einträge, die gebraucht werden). Das ganze soll ne cronjob Sache weden. Wegen der festen Form wäre reiner Klartext auch genügend.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. PDF "entpacken" bzw. als HTML/Text konvertieren
      
      Jörg Reinholz 28.10.2013 11:04
      
      programmiertechnik
      
      – Informationen zu den Bewertungsregeln
      
      Das ganze soll ne cronjob Sache weden. Wegen der festen Form wäre reiner Klartext auch genügend.
      
      Dann wäre in einem nächsten Schritt zu prüfen, ob PHP die Programmiersprache der Wahl ist. Es gibt weitere Kandidaten.
      
      Alles weitere ist eine Frage der feingliedrigen Definition des Problems und, ich nenns mal "Uniformität" der PDF-Dokumente. Besser wäre "Konformität" - dann müsste es aber die Möglichkeit geben, einschränkende Vorschriften hinsichtlich derer Erzeugung zu machen.
      
      Wenn das PDF durch Scansoftware erzeugt wurde, dann kann es sein, dass es vermeintlichen Text als Grafik enthält, was dann zum Scheitern führen dürfte.
      
      Jörg Reinholz
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. PDF "entpacken" bzw. als HTML/Text konvertieren
        
        wzr 28.10.2013 17:16
        
        programmiertechnik
        
        – Informationen zu den Bewertungsregeln
        
        Das wäre mir am liebsten, weil das ganze Projekt bereits in PHP läuft.
        
        Dann wäre in einem nächsten Schritt zu prüfen, ob PHP die Programmiersprache der Wahl ist. Es gibt weitere Kandidaten.
        
        Alles weitere ist eine Frage der feingliedrigen Definition des Problems und, ich nenns mal "Uniformität" der PDF-Dokumente. Besser wäre "Konformität" - dann müsste es aber die Möglichkeit geben, einschränkende Vorschriften hinsichtlich derer Erzeugung zu machen.
        
        Bei der Erzeugung kann ich leider nicht mitreden, die Daten werden von einem Dritten bereitgestellt.
        
        Wenn das PDF durch Scansoftware erzeugt wurde, dann kann es sein, dass es vermeintlichen Text als Grafik enthält, was dann zum Scheitern führen dürfte.
        
        Das ist nicht das Problem. Mit Online-Diensten kann man das PDF Problemlos in HTML oder Text umwandeln lassen.
        
        So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        PDF "entpacken" bzw. als HTML/Text konvertieren
        
        Jörg Reinholz 28.10.2013 18:32
        
        programmiertechnik
        
        – Informationen zu den Bewertungsregeln
        
        So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...
        
        Ok. Da brauchst du Dich dann auch ums Backup nicht zu kümmern -die NSA, die Briten oder die Chinesen machen das gern für Dich.
        
        Jörg Reinholz
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        PDF "entpacken" bzw. als HTML/Text konvertieren
        
        wzr 28.10.2013 21:41
        
        programmiertechnik
        
        – Informationen zu den Bewertungsregeln
        
        So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...
        
        Ok. Da brauchst du Dich dann auch ums Backup nicht zu kümmern -die NSA, die Briten oder die Chinesen machen das gern für Dich.
        
        Jörg Reinholz
        
        Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        PDF "entpacken" bzw. als HTML/Text konvertieren
        
        Jörg Reinholz 31.10.2013 16:41
        
        programmiertechnik
        
        – Informationen zu den Bewertungsregeln
        
        Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/
        
        Die hatte ich Dir schon gezeigt.
        PHP kann auch Systembefehle ausführen -> exec(), system(), Backtick-Operatoren helfen.
        
        Dann die Rückgaben auswerten.
        
        Jörg Reinholz
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        PDF "entpacken" bzw. als HTML/Text konvertieren
        
        wzr 31.10.2013 19:36
        
        programmiertechnik
        
        – Informationen zu den Bewertungsregeln
        
        Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/
        
        Die hatte ich Dir schon gezeigt.
        PHP kann auch Systembefehle ausführen -> exec(), system(), Backtick-Operatoren helfen.
        
        Dann die Rückgaben auswerten.
        
        Jörg Reinholz
        
        Ah, ok, danke, wusste nicht, dass es damit geht :)
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

wzr: PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren

PDF "entpacken" bzw. als HTML/Text konvertieren