Volltextsuche in PDF von Christoph Zurnieden, 29.05.2005 12:08

Volltextsuche in PDF

LenaLuna 29.05.2005 09:00

programmiertechnik

hallo forumler,

habe folgendes problem:
muss eine volltextsuche in pdf-files realisieren.
habe mir überlegt, dass ich den textteil der pdf's beim abspeichern in eine mysql-datenbank extrahiere und diesen extrahierten text dann in die datanbank selber ablege und das pdf ins filesystem.

die volltextsuche kann dann mit mysql-bordmittel durchgeführt werden.
soweit sollte meine vorgehensweise ok. sein.

nun zu meinem problem:
wie extrahiere ich den text aus dem pdf?
ich habe verschiedene proprietäre programme gefunden, leider nur mit gui's.

kennt jemand von euch ein modul ev. sogar php/perl-klasse die sowas kann?

oder muss ich mich in die interna von pdf's einarbeiten. wenn ja, kennt jemand ein gutes tutorial.

gruss LenaLuna

Beitrag melden

– Informationen zu den Bewertungsregeln

Volltextsuche in PDF
Jeena Paradies Homepage des Autors 29.05.2005 09:36

programmiertechnik
– Informationen zu den Bewertungsregeln
Hallo,

Ich hatte früher genau das gleiche mal vor nur hatte es der Provider vereitelt indem er pdftotext nicht installieren wollte. Auf meinem Rechner funktionierte das hier:

system ("pdftotext ".$pdfpfad." pdf-tmp.txt");

$handle = fopen ("pdf-tmp.txt", "r");

while (!feof($handle)) {
$publication['content_de'] .= fgets($handle);
}

fclose ($handle);

unlink("pdf-tmp.txt");

Ist aber jetzt ungetestet.

Grüße
Jeena Paradies

--
Weblogsoftware Jlog
Lügen haben lange Beine
Beitrag melden

–
Informationen zu den Bewertungsregeln
Volltextsuche in PDF
Christoph Zurnieden 29.05.2005 12:08

programmiertechnik
– Informationen zu den Bewertungsregeln
Hi,

habe folgendes problem:
muss eine volltextsuche in pdf-files realisieren.

Auweia ;-)

nun zu meinem problem:
wie extrahiere ich den text aus dem pdf?

Auf http://de3.php.net/pdf (hätte ja eigentlich Deine erste Anlaufstelle sein sollen, oder? ;-) hat einer eine Funktion namens pdf2string zusammengebastelt. Allerdings basiert die auf Thomas Merz' PDFlib, die also installiert sein muß. (ist sie aber meistens, einfach mal testen. Kost' ja nix).

Besser wäre aber natürlich XPDF, wie von Jeena bereits vorgeschlagen.

so short

Christoph Zurnieden
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Volltextsuche in PDF
  
  LenaLuna 29.05.2005 16:08
  
  programmiertechnik
  – Informationen zu den Bewertungsregeln
  hallo,
  
  danke ihr beiden.
  
  werde mich mal schlau machen.
  dass der provider mir erlaubt pdftotext zu installieren bezweifle ich.
  
  ich werde mir ansonsten die php-version genauer unter die lupe nehmen.
  
  danke
  gruss LenaLuna
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

LenaLuna: Volltextsuche in PDF