Volltextsuche in PDF
LenaLuna
- programmiertechnik
hallo forumler,
habe folgendes problem:
muss eine volltextsuche in pdf-files realisieren.
habe mir überlegt, dass ich den textteil der pdf's beim abspeichern in eine mysql-datenbank extrahiere und diesen extrahierten text dann in die datanbank selber ablege und das pdf ins filesystem.
die volltextsuche kann dann mit mysql-bordmittel durchgeführt werden.
soweit sollte meine vorgehensweise ok. sein.
nun zu meinem problem:
wie extrahiere ich den text aus dem pdf?
ich habe verschiedene proprietäre programme gefunden, leider nur mit gui's.
kennt jemand von euch ein modul ev. sogar php/perl-klasse die sowas kann?
oder muss ich mich in die interna von pdf's einarbeiten. wenn ja, kennt jemand ein gutes tutorial.
gruss LenaLuna
Hallo,
Ich hatte früher genau das gleiche mal vor nur hatte es der Provider vereitelt indem er pdftotext nicht installieren wollte. Auf meinem Rechner funktionierte das hier:
system ("pdftotext ".$pdfpfad." pdf-tmp.txt");
$handle = fopen ("pdf-tmp.txt", "r");
while (!feof($handle)) {
$publication['content_de'] .= fgets($handle);
}
fclose ($handle);
unlink("pdf-tmp.txt");
Ist aber jetzt ungetestet.
Grüße
Jeena Paradies
Hi,
habe folgendes problem:
muss eine volltextsuche in pdf-files realisieren.
Auweia ;-)
nun zu meinem problem:
wie extrahiere ich den text aus dem pdf?
Auf http://de3.php.net/pdf (hätte ja eigentlich Deine erste Anlaufstelle sein sollen, oder? ;-) hat einer eine Funktion namens pdf2string zusammengebastelt. Allerdings basiert die auf Thomas Merz' PDFlib, die also installiert sein muß. (ist sie aber meistens, einfach mal testen. Kost' ja nix).
Besser wäre aber natürlich XPDF, wie von Jeena bereits vorgeschlagen.
so short
Christoph Zurnieden
hallo,
danke ihr beiden.
werde mich mal schlau machen.
dass der provider mir erlaubt pdftotext zu installieren bezweifle ich.
ich werde mir ansonsten die php-version genauer unter die lupe nehmen.
danke
gruss LenaLuna