Zabraham: Text aus PDF/PPT/DOC extrahieren

Beitrag lesen

Hab das noch nie ausprobiert, aber ich würde einfach fürs erste mit fopen die Datei öffnen, diesen lesen (fread) und dann versuchen einen Text daraus zu extrahieren. Sollte zumindest bei pdf möglich sein.

Bei PDF stehen die Buchstaben, Wörter und Sätze nicht unbedingt in der Reihenfolge in der Datei, in der sie im (angezeigten) Dokument erscheinen. Das Grauen ist der Beschreibung der TET-Bibliothek (Absatz "Content Analysis and Word Identification") zu entnehmen.