Stephan Huber: Indexserver für Linux

Beitrag lesen

Hallo Christian,

ok - ich geb' mich geschlagen. Ist ewig her, dass ich mich mal oberflächlich mit befasst hatte. Daher hatte ich nur auf die Website geschaut.

Ging mir genauso, ich habe mich lange darum gedrückt, auf einer Website eine Suchmaschine zu installieren, weil ich mir die Programme vor längerer Zeit mal angeschaut hatte, und keine Möglichkeit für pdfs gefunden habe. Und da auf der Seite viele wichtige PDFs liegen, die Google indiziert, hätte ich es daneben gefunden, eine sehr viel weniger umfangreiche eigene Suche zu bauen. Dann bin ich vor ein paar Wochen zufällig auf den externen pdf-Parser gestoßen, und seitdem bin ich wirklich :-).

und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer).

Da muss ich wiedersprechen, Du musst das Word-Format kennen, damit Du Text extrahieren kannst. Du kennst http://forum.de.selfhtml.org/archiv/2002/9/23638/ nicht, oder?

Nein, kannte ich nicht, aber ich sehe ich da nichts widersprechendes. Natürlich muß man das Word-Format ungefähr kennen, um den Text zu extrahieren, und eventuell Dinge, die nicht als sichtbarer Text gemeint ist, rausschmeißen zu können, wie z.B. Sachen, die von "Änderungen verfolgen" herrühren. Aber da das Format der neueren Office-Versionen auf (unsauberem) XML beruht, denke ich schon, daß es möglich ist, den großen Teil rauszuschmeißen (keine Ahnung wie gut die externen Parser dabei sind).

Ansonsten würde ich mich mal polemisch auf den Standpunkt stellen, daß Texte, die da noch drin stehen, wenn man die XML-Tags beseitigt hat, wie "Briefe an Oma schreiben ist doof", da berechtigterweise stehen, schließlich hat sie der User eingegeben, und daß er nicht erwartet, daß sie wieder auftauchen, liegt an seiner mangelnden Beherrschung des Programms (das mag an einem schlechtem Userinterface liegen, aber das ist eine andere Frage). Wenn "Änderungen verfolgen" o.ä. aktiviert ist, dann ist ein Word-Dokument kein simples, formatiertes Textdokument mehr, sondern enthält seine eigene "Revision-History", daß kann sehr praktisch sein, und das ist ja auch immer noch Text, der für den User potentiell verfügbar ist (denke ich jetzt mal, ich mache nur wenig mit Office). Und um solche Dinge sollte sich ein Index-Server vielleicht keine Gedanken machen, schließlich kann es sehr praktisch sein, eine Volltextsuche genau auch über diese Sachen zu haben - senkt ja vielleicht auch die DAU-Rate bei manchen Dingen. So eine Enterbung oder Entlassung ab und zu kann durchaus motivierend wirken, vor dem Rumtippen auf Computertastaturen nachzudenken ;-)...

Viele Grüße
Stephan