Erstmal vielen Dank fuer alle Antworten, da waren schon einige sehr brauchbare Sachen dabei.
Noch eine Zusatzfrage:
Auf welche Dateitypen kann man problemlos zugreifen, um den Text zu extrahieren. Ich habe bis jetzt html, odt, rtf, swx txt, xml, sowie einige ander Textformate. Auf doc und solche Sachen will ich eigentlich verzichten, da ist mir der Aufwand im Moment einfach zu gross. Mir geht es nur um solche Dokumente, die
- in der Regel textuelle Information enthalten
- mit PHP unter 'normalen Umstaenden' ziemlich einfach einzulesen sind.
Gruß,
Dieter