Indexserver für Linux von Stephan Huber, 08.10.2002 21:18

Indexserver für Linux

fredy 08.10.2002 15:46

software

Hallo!

Gibt es sowas wie den MS-Index-Server auch für Linux ?

Ich benötige ein Tool, welches einen Volltextindex
von einer Menge Files im Dateisystem erstellt und
die folgenden Formate kennt: TXT, XML, HTML, PDF, WORD, RTF

Danke und liebe Grüße
fredy

Beitrag melden

– Informationen zu den Bewertungsregeln

Indexserver für Linux
Christian Seiler 08.10.2002 19:31

software
– Informationen zu den Bewertungsregeln
Hallo,

Ich benötige ein Tool, welches einen Volltextindex
von einer Menge Files im Dateisystem erstellt und
die folgenden Formate kennt: TXT, XML, HTML, PDF, WORD, RTF

ht://dig ist Dir ein Begriff? http://www.htdig.org/ Das kann zumindest Text- und HTML-Dateien. XML kommt vielleicht noch. Andere Software kenne ich jetzt nicht, aber es kann sein, dass Du eine bekommst, die auch XML, PDF und RTF macht. Word kannst Du vmtl. vergessen, denn die einzigen, die das Word-Format richtig kennen, sind die Programm(ier|verunstalt)er bei Microsoft.

Grüße,

Christian
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Indexserver für Linux
  
  Stephan Huber 08.10.2002 19:47
  
  software
  – Informationen zu den Bewertungsregeln
  Hallo Christian,
  
  ht://dig ist Dir ein Begriff? http://www.htdig.org/ Das kann zumindest Text- und HTML-Dateien. XML kommt vielleicht noch. Andere Software kenne ich jetzt nicht, aber es kann sein, dass Du eine bekommst, die auch XML, PDF und RTF macht. Word kannst Du vmtl. vergessen, denn die einzigen, die das Word-Format richtig kennen, sind die Programm(ier|verunstalt)er bei Microsoft.
  
  ht://dig (und auch andere) unterstützt externe Parser, d.h. man gibt Dateiendungen/mime-Typen an, die das jeweilige Format extern verarbeiten, und die gibt es für pdf, rtf, und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer). XML kann man eigentlich problemlos mit den html-Parser machen, wenn man wirklich nur eine Volltextsuche haben will, denn die Information, in welchem XML-Tag der Text stand, geht damit natürlich verloren, aber das ist bei allen anderen Formaten ja eigentlich nicht anders.
  
  Viele Grüße
  Stephan
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Indexserver für Linux
    
    Christian Seiler 08.10.2002 20:04
    
    software
    
    – Informationen zu den Bewertungsregeln
    Hallo Christian,
    
    ht://dig (und auch andere) unterstützt externe Parser, d.h. man gibt Dateiendungen/mime-Typen an, die das jeweilige Format extern verarbeiten, und die gibt es für pdf, rtf,
    
    ok - ich geb' mich geschlagen. Ist ewig her, dass ich mich mal oberflächlich mit befasst hatte. Daher hatte ich nur auf die Website geschaut.
    
    und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer).
    
    Da muss ich wiedersprechen, Du musst das Word-Format kennen, damit Du Text extrahieren kannst. Du kennst http://forum.de.selfhtml.org/archiv/2002/9/23638/ nicht, oder?
    
    XML kann man eigentlich problemlos mit den html-Parser machen, wenn man wirklich nur eine Volltextsuche haben will, denn die Information, in welchem XML-Tag der Text stand, geht damit natürlich verloren, aber das ist bei allen anderen Formaten ja eigentlich nicht anders.
    
    Auch wieder wahr ...
    
    Grüße,
    
    Christian
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Indexserver für Linux
      
      Stephan Huber 08.10.2002 21:18
      
      software
      
      – Informationen zu den Bewertungsregeln
      
      Hallo Christian,
      
      ok - ich geb' mich geschlagen. Ist ewig her, dass ich mich mal oberflächlich mit befasst hatte. Daher hatte ich nur auf die Website geschaut.
      
      Ging mir genauso, ich habe mich lange darum gedrückt, auf einer Website eine Suchmaschine zu installieren, weil ich mir die Programme vor längerer Zeit mal angeschaut hatte, und keine Möglichkeit für pdfs gefunden habe. Und da auf der Seite viele wichtige PDFs liegen, die Google indiziert, hätte ich es daneben gefunden, eine sehr viel weniger umfangreiche eigene Suche zu bauen. Dann bin ich vor ein paar Wochen zufällig auf den externen pdf-Parser gestoßen, und seitdem bin ich wirklich :-).
      
      und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer).
      
      Da muss ich wiedersprechen, Du musst das Word-Format kennen, damit Du Text extrahieren kannst. Du kennst http://forum.de.selfhtml.org/archiv/2002/9/23638/ nicht, oder?
      
      Nein, kannte ich nicht, aber ich sehe ich da nichts widersprechendes. Natürlich muß man das Word-Format ungefähr kennen, um den Text zu extrahieren, und eventuell Dinge, die nicht als sichtbarer Text gemeint ist, rausschmeißen zu können, wie z.B. Sachen, die von "Änderungen verfolgen" herrühren. Aber da das Format der neueren Office-Versionen auf (unsauberem) XML beruht, denke ich schon, daß es möglich ist, den großen Teil rauszuschmeißen (keine Ahnung wie gut die externen Parser dabei sind).
      
      Ansonsten würde ich mich mal polemisch auf den Standpunkt stellen, daß Texte, die da noch drin stehen, wenn man die XML-Tags beseitigt hat, wie "Briefe an Oma schreiben ist doof", da berechtigterweise stehen, schließlich hat sie der User eingegeben, und daß er nicht erwartet, daß sie wieder auftauchen, liegt an seiner mangelnden Beherrschung des Programms (das mag an einem schlechtem Userinterface liegen, aber das ist eine andere Frage). Wenn "Änderungen verfolgen" o.ä. aktiviert ist, dann ist ein Word-Dokument kein simples, formatiertes Textdokument mehr, sondern enthält seine eigene "Revision-History", daß kann sehr praktisch sein, und das ist ja auch immer noch Text, der für den User potentiell verfügbar ist (denke ich jetzt mal, ich mache nur wenig mit Office). Und um solche Dinge sollte sich ein Index-Server vielleicht keine Gedanken machen, schließlich kann es sehr praktisch sein, eine Volltextsuche genau auch über diese Sachen zu haben - senkt ja vielleicht auch die DAU-Rate bei manchen Dingen. So eine Enterbung oder Entlassung ab und zu kann durchaus motivierend wirken, vor dem Rumtippen auf Computertastaturen nachzudenken ;-)...
      
      Viele Grüße
      Stephan
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Indexserver für Linux
        
        Christian Seiler 08.10.2002 21:23
        
        software
        
        – Informationen zu den Bewertungsregeln
        
        Hallo Stephan,
        
        schließlich kann es sehr praktisch sein, eine Volltextsuche genau auch über diese Sachen zu haben - senkt ja vielleicht auch die DAU-Rate bei manchen Dingen. So eine Enterbung oder Entlassung ab und zu kann durchaus motivierend wirken, vor dem Rumtippen auf Computertastaturen nachzudenken ;-)...
        
        Da fällt mir gerade was ein ... Indizierungssuchmaschinenspamming mit Word-Dokumenten ;-) Einfach Keywords eintippen, speichern, neu laden und dann diese Keywords wieder löschen. So bekommt man sicherlich einen sehr guten Doku-Rank... ;-)
        
        Grüße,
        
        Christian
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
Indexserver für Linux
Marko 08.10.2002 19:33

software
– Informationen zu den Bewertungsregeln
Hallo Fredy,

vielleicht wäre die Suchmaschine mnogosearch http://www.mnogosearch.org/ geeignget. Falls es kleinere Mengen von Dateien sind, könnte ich mir vorstellen, dass ein einfaches Script, das den grep Befehl aufruft und die Rückgabe etwas aufbereitet schon reichen könnte.Vorrausgesetzt, Du willst eine Voltextsuche über die Dateien realisieren, wovon ich jetzt mal ausgehe.

Gruss

Marko

Hallo!

Gibt es sowas wie den MS-Index-Server auch für Linux ?

Ich benötige ein Tool, welches einen Volltextindex
von einer Menge Files im Dateisystem erstellt und
die folgenden Formate kennt: TXT, XML, HTML, PDF, WORD, RTF

Danke und liebe Grüße
fredy
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

fredy: Indexserver für Linux

Indexserver für Linux

Indexserver für Linux

Indexserver für Linux

Indexserver für Linux

Indexserver für Linux

Indexserver für Linux

Indexserver für Linux

Indexserver für Linux