PDF Datei mit PHP auslesen
Inga
- php
0 Vinzenz Mai0 Inga0 Vinzenz Mai
Hallo,
gibt es eine Möglichkeit den Inhalt einer PDF-Datei mit PHP auszulesen?
DANKE und LG,
Die Inga
Hallo Inga,
gibt es eine Möglichkeit den Inhalt einer PDF-Datei mit PHP auszulesen?
das hängt davon ab, was Du unter dem Inhalt der PDF-Datei verstehst :-)
Wenn Du darunter verstehst, dass der darin enthaltene Text sinnvoll aufbereitet, z.B. sogar absatzweise, zur Verfügung steht, dann vermute ich: nein.
In einer der letzten c't-Ausgaben war ein Vergleich diverser Programme, die sich dies zur Aufgabe gemacht hatten. Keines war in der Lage, diese Aufgabe stets erfolgreich zu bewältigen.
Freundliche Grüße
Vinzenz
Hi
das hängt davon ab, was Du unter dem Inhalt der PDF-Datei verstehst :-)
Wollte eigentlich nur die ersten paar Zeilen rauslesen, damit ich weiss, was ungefähr in der Datei steht und der Datei einen Titel in meiner DB geben kann.
Hast Du eine Idee, wo ich einen Ansatz finde?
LG
Die Inga
Hallo Inga,
Wollte eigentlich nur die ersten paar Zeilen rauslesen, damit ich weiss, was ungefähr in der Datei steht und der Datei einen Titel in meiner DB geben kann.
tja, eigentlich gibt es dafür so wunderschöne Eigenschaften wie die Dateieigenschaften. Wie schade, dass diese oft ungenutzt bleiben. Diese lassen sich problemlos auslesen.
Hast Du eine Idee, wo ich einen Ansatz finde?
Nach erneuter Lektüre der c't könnte dir die Komponente pdftotext von xpdf weiterhelfen, wenn Du externe Tools installieren und ausführen kannst. Eine weitere Möglichkeit wäre die kommerzielle PDFlib.
Freundliche Grüße
Vinzenz
Hallo Vinzenz,
tja, eigentlich gibt es dafür so wunderschöne Eigenschaften wie die Dateieigenschaften. Wie schade, dass diese oft ungenutzt bleiben. Diese lassen sich problemlos auslesen.
und wie schade, dass die anscheinend im PDF-Format gar nicht vorgesehen sind (oder Windows 2000 blickt's nicht). Ich hab jedenfalls eben mal bestimmt zwei Dutzend PDFs aus verschiedensten Quellen auf "Dateieigenschaften" untersucht und keine gefunden.
Du meinst so nützliche Informationen wie Autor, Titel, Kurzbeschreibung, etc.? Diese Daten sind AFAIK nur in diversen Office-Dateiformaten definiert und implementiert.
Schönen Abend noch,
Martin
Hallo Martin,
tja, eigentlich gibt es dafür so wunderschöne Eigenschaften wie die Dateieigenschaften. Wie schade, dass diese oft ungenutzt bleiben. Diese lassen sich problemlos auslesen.
und wie schade, dass die anscheinend im PDF-Format gar nicht vorgesehen sind (oder Windows 2000 blickt's nicht). Ich hab jedenfalls eben mal bestimmt zwei Dutzend PDFs aus verschiedensten Quellen auf "Dateieigenschaften" untersucht und keine gefunden.
Selbstverständlich sind die vorgesehen. Sie heißen nicht wortwörtlich "Dateieigenschaften" und ich bin davon ausgegangen, dass jemand diese Transferleistung hinbekommt. Ich finde sie in meinem Adobe Reader (7.0x) unter Datei->Dokumenteigenschaften. Meine Testdatei, in die ich reingeschaut habe, weist die PDF-Version 1.2 auf, d.h. ist mit Acrobat 4 entstanden. Ich bin mir sicher, dass diese Informationen bereits länger im PDF-Format vorgesehen sind.
Freundliche Grüße
Vinzenz
Hallo Ingrid,
Selbstverständlich sind die vorgesehen. Sie heißen nicht wortwörtlich "Dateieigenschaften" und ich bin davon ausgegangen, dass jemand diese Transferleistung hinbekommt.
Mein Windows XP SP2 bietet mir die Informationen sogar im Kontextmenü an, diese Erweiterung könnte natürlich von der Installation des Adobe Reader stammen ...
Freundliche Grüße
Vinzenz
Hallo Vinzgrid, ;-)
Selbstverständlich sind die vorgesehen. Sie heißen nicht wortwörtlich "Dateieigenschaften" und ich bin davon ausgegangen, dass jemand diese Transferleistung hinbekommt.
selbstverständlich, damit hätte ich kein Problem. Ich bin aber von einer Information ausgegangen, die Windows auch ohne fremde Hilfe extrahieren und anzeigen kann, so wie es bei ausführbaren (EXE, DLL, etc.) und MS-Office-Dateien (DOC, XLS, PPT, ...) realisiert ist. Mein Windows 2000 kann das bei PDF-Dateien eben nicht - möglich, dass diese Shell-Extension bei XP neu hinzugekommen ist.
Mein Windows XP SP2 bietet mir die Informationen sogar im Kontextmenü an, diese Erweiterung könnte natürlich von der Installation des Adobe Reader stammen ...
Genau an dieser Stelle hatte ich die Informationen erwartet. Ja, ich vermute, dass das eine vom Acrobat Reader installierte Shell Extension ist. Ich selbst nutze nicht den Acrobat, sondern den schlanken und wesentlich schnelleren Foxit Reader. Ob ein XP ohne Acrobat Reader die PDF-Dokumenteigenschaften auslesen kann, werde ich morgen mal ausprobieren.
Ciao,
Martin