Indexserver für Linux
fredy
- software
Hallo!
Gibt es sowas wie den MS-Index-Server auch für Linux ?
Ich benötige ein Tool, welches einen Volltextindex
von einer Menge Files im Dateisystem erstellt und
die folgenden Formate kennt: TXT, XML, HTML, PDF, WORD, RTF
Danke und liebe Grüße
fredy
Hallo,
Ich benötige ein Tool, welches einen Volltextindex
von einer Menge Files im Dateisystem erstellt und
die folgenden Formate kennt: TXT, XML, HTML, PDF, WORD, RTF
ht://dig ist Dir ein Begriff? http://www.htdig.org/ Das kann zumindest Text- und HTML-Dateien. XML kommt vielleicht noch. Andere Software kenne ich jetzt nicht, aber es kann sein, dass Du eine bekommst, die auch XML, PDF und RTF macht. Word kannst Du vmtl. vergessen, denn die einzigen, die das Word-Format richtig kennen, sind die Programm(ier|verunstalt)er bei Microsoft.
Grüße,
Christian
Hallo Christian,
ht://dig ist Dir ein Begriff? http://www.htdig.org/ Das kann zumindest Text- und HTML-Dateien. XML kommt vielleicht noch. Andere Software kenne ich jetzt nicht, aber es kann sein, dass Du eine bekommst, die auch XML, PDF und RTF macht. Word kannst Du vmtl. vergessen, denn die einzigen, die das Word-Format richtig kennen, sind die Programm(ier|verunstalt)er bei Microsoft.
ht://dig (und auch andere) unterstützt externe Parser, d.h. man gibt Dateiendungen/mime-Typen an, die das jeweilige Format extern verarbeiten, und die gibt es für pdf, rtf, und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer). XML kann man eigentlich problemlos mit den html-Parser machen, wenn man wirklich nur eine Volltextsuche haben will, denn die Information, in welchem XML-Tag der Text stand, geht damit natürlich verloren, aber das ist bei allen anderen Formaten ja eigentlich nicht anders.
Viele Grüße
Stephan
Hallo Christian,
ht://dig (und auch andere) unterstützt externe Parser, d.h. man gibt Dateiendungen/mime-Typen an, die das jeweilige Format extern verarbeiten, und die gibt es für pdf, rtf,
ok - ich geb' mich geschlagen. Ist ewig her, dass ich mich mal oberflächlich mit befasst hatte. Daher hatte ich nur auf die Website geschaut.
und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer).
Da muss ich wiedersprechen, Du musst das Word-Format kennen, damit Du Text extrahieren kannst. Du kennst http://forum.de.selfhtml.org/archiv/2002/9/23638/ nicht, oder?
XML kann man eigentlich problemlos mit den html-Parser machen, wenn man wirklich nur eine Volltextsuche haben will, denn die Information, in welchem XML-Tag der Text stand, geht damit natürlich verloren, aber das ist bei allen anderen Formaten ja eigentlich nicht anders.
Auch wieder wahr ...
Grüße,
Christian
Hallo Christian,
ok - ich geb' mich geschlagen. Ist ewig her, dass ich mich mal oberflächlich mit befasst hatte. Daher hatte ich nur auf die Website geschaut.
Ging mir genauso, ich habe mich lange darum gedrückt, auf einer Website eine Suchmaschine zu installieren, weil ich mir die Programme vor längerer Zeit mal angeschaut hatte, und keine Möglichkeit für pdfs gefunden habe. Und da auf der Seite viele wichtige PDFs liegen, die Google indiziert, hätte ich es daneben gefunden, eine sehr viel weniger umfangreiche eigene Suche zu bauen. Dann bin ich vor ein paar Wochen zufällig auf den externen pdf-Parser gestoßen, und seitdem bin ich wirklich :-).
und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer).
Da muss ich wiedersprechen, Du musst das Word-Format kennen, damit Du Text extrahieren kannst. Du kennst http://forum.de.selfhtml.org/archiv/2002/9/23638/ nicht, oder?
Nein, kannte ich nicht, aber ich sehe ich da nichts widersprechendes. Natürlich muß man das Word-Format ungefähr kennen, um den Text zu extrahieren, und eventuell Dinge, die nicht als sichtbarer Text gemeint ist, rausschmeißen zu können, wie z.B. Sachen, die von "Änderungen verfolgen" herrühren. Aber da das Format der neueren Office-Versionen auf (unsauberem) XML beruht, denke ich schon, daß es möglich ist, den großen Teil rauszuschmeißen (keine Ahnung wie gut die externen Parser dabei sind).
Ansonsten würde ich mich mal polemisch auf den Standpunkt stellen, daß Texte, die da noch drin stehen, wenn man die XML-Tags beseitigt hat, wie "Briefe an Oma schreiben ist doof", da berechtigterweise stehen, schließlich hat sie der User eingegeben, und daß er nicht erwartet, daß sie wieder auftauchen, liegt an seiner mangelnden Beherrschung des Programms (das mag an einem schlechtem Userinterface liegen, aber das ist eine andere Frage). Wenn "Änderungen verfolgen" o.ä. aktiviert ist, dann ist ein Word-Dokument kein simples, formatiertes Textdokument mehr, sondern enthält seine eigene "Revision-History", daß kann sehr praktisch sein, und das ist ja auch immer noch Text, der für den User potentiell verfügbar ist (denke ich jetzt mal, ich mache nur wenig mit Office). Und um solche Dinge sollte sich ein Index-Server vielleicht keine Gedanken machen, schließlich kann es sehr praktisch sein, eine Volltextsuche genau auch über diese Sachen zu haben - senkt ja vielleicht auch die DAU-Rate bei manchen Dingen. So eine Enterbung oder Entlassung ab und zu kann durchaus motivierend wirken, vor dem Rumtippen auf Computertastaturen nachzudenken ;-)...
Viele Grüße
Stephan
Hallo Stephan,
schließlich kann es sehr praktisch sein, eine Volltextsuche genau auch über diese Sachen zu haben - senkt ja vielleicht auch die DAU-Rate bei manchen Dingen. So eine Enterbung oder Entlassung ab und zu kann durchaus motivierend wirken, vor dem Rumtippen auf Computertastaturen nachzudenken ;-)...
Da fällt mir gerade was ein ... Indizierungssuchmaschinenspamming mit Word-Dokumenten ;-) Einfach Keywords eintippen, speichern, neu laden und dann diese Keywords wieder löschen. So bekommt man sicherlich einen sehr guten Doku-Rank... ;-)
Grüße,
Christian
Hallo Fredy,
vielleicht wäre die Suchmaschine mnogosearch http://www.mnogosearch.org/ geeignget. Falls es kleinere Mengen von Dateien sind, könnte ich mir vorstellen, dass ein einfaches Script, das den grep Befehl aufruft und die Rückgabe etwas aufbereitet schon reichen könnte.Vorrausgesetzt, Du willst eine Voltextsuche über die Dateien realisieren, wovon ich jetzt mal ausgehe.
Gruss
Marko
Hallo!
Gibt es sowas wie den MS-Index-Server auch für Linux ?
Ich benötige ein Tool, welches einen Volltextindex
von einer Menge Files im Dateisystem erstellt und
die folgenden Formate kennt: TXT, XML, HTML, PDF, WORD, RTF
Danke und liebe Grüße
fredy