PDF-Datei mit PHP-Script nach Textinhalten durchsuchen
Christian
- php
Hallo zusammen,
ich versuche zur Zeit ein Script zu basteln, mit dem ich ein PDF-Dokument nach Text-Inhalten durchsuchen kann.
Das ganze wird benötigt um ein Archiv mit PDF-Dokumenten nach bestimmten Inhalten durchsuchen zu können. Außerdem soll die Funktion mit PHP od. alternativ vielleicht auch mit Pearl ausgeführt werden.
Hat sowas schon mal jemand gemacht???
Kennt jemand die Dokumentstruktur oder ist das ganze so kompliziert das es überhaupt nicht möglich ist?
Danke schon mal an alle
Gruß
Hallo Christian,
Hat sowas schon mal jemand gemacht???
Ja, vorgestern :-)
Kennt jemand die Dokumentstruktur oder ist das ganze so kompliziert das es überhaupt nicht möglich ist?
Wenn Du die PDFs selber parsen willst, dann vergiß es, das ist zu kompliziert. Alle Suchmaschinenskripte, die ich kenne, die pdfs durchsuchen, greifen auf einen externen Parser zurück, unter Unix meisten xpdf http://www.foolabs.com/xpdf/ (nicht durch die Beschreibung verwirren lassen, eigentlich dient xpdf zum Anzeigen von PDFs unter X-Windows, aber wenn man es installiert, bekommt man auch das Konvertierungsskript pdftotext).
Ich habe es mit mnogosearch gemacht, ging erstaunlich unkompliziert, Du brauchst natürlich die Rechte, um auf Deinem Server Programme zu kompilieren & installieren. Du kannst dann entweder mnogosearch über eine PHP-Extension ansprechen, oder einfach die Ausgabe des search-cgis per include oder fopen in Dein PHP-Skript einbinden.
Unter Windows geht es wohl ähnlich, indem man irgendeinen Teil der Acrobat-Software als Konverter nimmt, glaube ich.
Viele Grüße
Stephan