Text aus PDF/PPT/DOC extrahieren
Christian
- php
Hallo zusammen,
kennt jemand freie Quellen, wie man mittels PHP Texte aus den Dateitypen PDF, PPT und DOC extrahieren kann? Google liefert zwar etliche Ergebnisse, aber wirklich fündig bin ich noch nicht geworden. Tools wie PDFtoTXT oder DOCtoTXT sind zwar bekannt, doch sollte es eher in PHP selbst zu lösen sein.
Vielen Dank vorab für Eure Hilfe!
Beste Grüße,
Christian
Hab das noch nie ausprobiert, aber ich würde einfach fürs erste mit fopen die Datei öffnen, diesen lesen (fread) und dann versuchen einen Text daraus zu extrahieren. Sollte zumindest bei pdf möglich sein.
PDF ist glaube ich in aller regel komprimiert also mit gzuncompress auflösen.
Hab das noch nie ausprobiert, aber ich würde einfach fürs erste mit fopen die Datei öffnen, diesen lesen (fread) und dann versuchen einen Text daraus zu extrahieren. Sollte zumindest bei pdf möglich sein.
Bei PDF stehen die Buchstaben, Wörter und Sätze nicht unbedingt in der Reihenfolge in der Datei, in der sie im (angezeigten) Dokument erscheinen. Das Grauen ist der Beschreibung der TET-Bibliothek (Absatz "Content Analysis and Word Identification") zu entnehmen.