Christian Seiler: Indexserver für Linux

Beitrag lesen

Hallo Christian,

ht://dig (und auch andere) unterstützt externe Parser, d.h. man gibt Dateiendungen/mime-Typen an, die das jeweilige Format extern verarbeiten, und die gibt es für pdf, rtf,

ok - ich geb' mich geschlagen. Ist ewig her, dass ich mich mal oberflächlich mit befasst hatte. Daher hatte ich nur auf die Website geschaut.

und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer).

Da muss ich wiedersprechen, Du musst das Word-Format kennen, damit Du Text extrahieren kannst. Du kennst http://forum.de.selfhtml.org/archiv/2002/9/23638/ nicht, oder?

XML kann man eigentlich problemlos mit den html-Parser machen, wenn man wirklich nur eine Volltextsuche haben will, denn die Information, in welchem XML-Tag der Text stand, geht damit natürlich verloren, aber das ist bei allen anderen Formaten ja eigentlich nicht anders.

Auch wieder wahr ...

Grüße,

Christian