Johannes Kässinger: Volltextsuche, Stemming

Beitrag lesen

Hallo,

ich habe eine Frage, ich habe ein Portal mit Artikeln zu verschiedenen Themen und möchte hier eine intelligente Volltextsuche anbieten.

Beispiel:
Artikel 1: Schweinepest in Bulgarien
Artikel 2: Weinkenner packt aus

Suche ich jetzt nach "Schwein" oder "Pest" sollte Artikel 1 gefunden werden. Suche ich wiederum nach "Wein" sollte nur Artikel 2 gefunden werden, obwohl "wein" ja auch im "schwein" steckt (als substring), also bringt mich eine reine substring-Lösung hier nicht wirklich weiter.

Bin über google schon auf entsprechende Dokumente bzgl. Stemming aufmerksam geworden, das bringt mich aber derzeit nicht wirklich weiter.

Was habt ihr für Ansätze? Gibt es gute Algorithmen, die Wörter sinnvoll trennen können um sie zu indexieren? Reines Stemming wäre ja schon mal ein guter Ansatz um die Stämme von Worten zu ermitteln, aber reicht alleine nicht aus :(

Danke für eure Hilfe.

Gruß,
joah.