Alexander (HH): Suchmaschine für Intranet gesucht

Beitrag lesen

Moin Moin!

Ich setze gelegentlich Swish-E ein, mir reicht das in den meisten Fällen.

Ohne Zusätze verdaut Swish-E nur Plain Text, HTML und XML, aber wenn man ein paar Konverter dazu packt, kann Swish-E prinzipiell alles in den Index aufnehmen.

Für *.doc gibt's z.B. word2x, *.xls könnte man mit Spreadsheet::ParseExcel angehen und als XML ausspucken, *.ppt notfalls in PDF konvertieren, PDF zu Postscript (pdf2ps), Postscript zu Plain Text (ps2ascii). Die neueren *.docx, *.xlsx, *.pptx(?) sind ebenso wie die OpenOffice-Formate ohnehin nur gezippte XML-Sammlungen, da reicht unzip und etwas Scripting.

Alexander

--
Today I will gladly share my knowledge and experience, for there are no sweeter words than "I told you so".