PDF / DOC mit PHP auslesen?
cheops
- php
hi zusammen!
ich soll mit php an die inhalte von pdf/doc-dateien rankommen, um deren inhalt auszulesen (indizierung des inhalts).
ich bin der meinung, dass das nicht geht mit php (okok, mit ausnahme über einen komplizierten und holprigen COM-weg).
kann mich jemand vom gegenteil überzeugen und mir ne elegante methode nennen, wie man an den ascii-text beider dateiformate gelangt??
danke im voraus.
gruß
cheops
Hi!
kann mich jemand vom gegenteil überzeugen und mir ne elegante methode nennen, wie man an den ascii-text beider dateiformate gelangt??
Mit PHP geht das sicher nicht, wenn würde ich mir ein Kommandozeilen-Tool suchen, da wird es viele geben die das können, dem übergibst Du einfach die PDF-Datei und bekommst Text raus, mit dem Du dann machen kannst was Du willst. Ich hatte mal sowas, die Ausgabe konnte man meist zwar nicht wirklich gebrauchen, aber die Texte waren in Ordnung.
Grüße
Andreas
Hallo cheops,
ich soll mit php an die inhalte von pdf/doc-dateien rankommen, um deren inhalt auszulesen (indizierung des inhalts).
Dokumentation zum PDF-Format ist unter http://partners.adobe.com/asn/developer/acrosdk/docs/pdfspec.pdf zu haben; bei DOC gibt es mehrere Versuche, das zu dokumentieren, hier zu finden: http://www.wotsit.org/search.asp?s=text Allerdings wirst Du mit PDF warscheinlich viel höhere Chancen haben, dass a) jemand bereits etwas dafür in PHP geschrieben hat oder b) falls dies nicht der Fall ist, Du wenigstens mit der Dokumentation zurecht kommst. (Denn Microsoft hat das MS-Word-Format nicht veröffentlicht, alle Dokumentationen, die es gibt, sind praktisch durch Ausprobieren entstanden)
Viele Grüße,
Christian
Hallo, cheops,
mit ausnahme über einen komplizierten und holprigen COM-weg
hast Du das mit Word-Dokumenten schon ausprobiert? Sonst schau mal hier ...
Component Object Model (COM)
http://www.devshed.com/Server_Side/PHP/PHPandCOM/
http://www.microsoft.com/com/
Und bzgl. PDF frag doch mal bei Google, wie die das machen ;-) ...
http://www.planetpdf.com/mainpage.asp?webpageid=1178]
Beispiel:
[Link:http://www.google.de/search?q=cache:www.globus.org/research/papers/anatomy.pdf]
Die Dokumente werden allerdings anscheinend nicht on-the-fly erzeugt, sondern gecached. Es würde mich allerdings wundern, wenn dabei PHP zur Anwendung käme ...
Bei Adobe gibt es übrigens eine Möglichkeit, PDF-Dokumente online zu HTML zu konvertierem ...
http://www.adobe.com/products/acrobat/access_adv_form.html
Grüße,
Sebastian