PDF scannen, Seitenzahl
Urm
- php
Hallo,
ich habe ein 12-seitiges PDF, das ich nach verschiedenen Keywords scannen und automatisiert feststellen muss, auf welcher Seite(n) sich das jeweiligeWort befindet. Z.B. befindet sich auf den Seiten 4 und 9 des Dokumentes das Wort "Hase". Auf Seite 6 das Wort "Baum". Als Ergebnisliste bräuchte ich also etwas in der Art
Hase=> 4,9
Baum=> 6
Irgendeine Idee?
Moin!
Hilft Dir: http://www.openkm.com/ ?
Suche weiter nach "document management system" oder "dms".
MFFG (Mit freundlich- friedfertigem Grinsen)
fastix
Hi Urm!
Irgendeine Idee?
Theoretisch ist es möglich, mit PHP einen PDF-Parser zu schreiben, der das kann. Allerdings existieren inzwischen unzählige PDF-Spezifikationsversionen, was den Aufwand ziemlich hochtreibt.
Es gibt zwar ein paar PDF-Parser-Klassen, die in PHP geschrieben sind, allerdings schaffen die es nicht, jedes Dokument zu entziffern, geschweige denn zu den Suchtermen auch noch die entsprechende Seitenzahl herauszufinden.
Allerdings scheint sich, seit dem ich mich damit beschäftigt habe, etwas getan zu haben. Die Antworten zu einer Frage auf Stackoverflow fassen viele Möglichkeiten zusammen, die ich selbst auch noch nicht kenne.
Vielleicht hast du Glück mit ein paar "Zusatzklassen", die über das Zendframwork kommen, oder mit externen Programmen, wie xPDF.
Wenn du zu einem konkreten Ergebnis kommst, lass es mich wissen. Es interessiert mich sehr.
MfG H☼psel
Hallo,
danke Euch beiden. Scheint tatsächlich nicht ganz trivial zu sein. Leider ist die PDF-Spezifikation wirklich ein Ungetüm. Falls ich was finde, was brauchbar ist, melde ich mich.
danke!
URM
Moin!
danke Euch beiden. Scheint tatsächlich nicht ganz trivial zu sein.
Eigentlich ist es das:
Scannen als TIFF, OCR über das TIFF, dann umwandeln in PDF. Lässt sich alles scripten.
MFFG (Mit freundlich- friedfertigem Grinsen)
fastix