Philipp Hasenfratz: Ein Beispiel wäre wohl angebracht...

Beitrag lesen

Halihallo Axel

Eine neuronalsystemähnliche Verhaltensweise könntest Du dadurch erreichen, dass Du zu jedem Wort speicherst, wie oft es von Nutzern als Suchbegriff angefordert wird. Worte, die häufig angefordert werden, sind relevanter als Worte, die weniger häufig angefordert werden. Worte, die eine bestimmte Zeit in der Datenbank stehen, von der statistischen Methode (Normalverteilung) als relevant eingestuft wurden, aber nie angefordert werden, können entfernt werden. So "lernt" das System aus der Interaktion mit den Benutzern.

Das ist in der Tat ein Verfahren, das oft zum Einsatz kommt. Selbst einige heutige
Suchmaschinen basieren auf diesem. Gut ist es bestimmt, nur halte ich dies für meinen
Kontext für zu verfälschend, da das System eigentlich nur zum Eigennutzen dient, die
Abfragen somit eher klein sind (gut wäre hier ein Multiuser-System) und diese den Index
höchstens verfälschen. Primär wollte ich ja fern von jedwelchen Analysen anderer Texte
und "Präkoordination" (bereits beim Indexierungszeitpunkt Dokumente gewissen Kontexten
zuordnen und aufgrund der Zugehörigkeit indexieren) arbeiten, aber dass diese Verfahren
schlechte Ergebnisse liefern ist mir (zumindest jetzt) klar. Die Expansion auf
Dokumentabhängigkeiten/-distanzen und Klassifikation zur Erstellung
Themenbereichnegativwortlisten derjenigen halte ich jedoch für einen durchaus guten Weg.

Danke für die Inputs!

Viele Grüsse

Philipp

--
RTFM! - Foren steigern das Aufkommen von Redundanz im Internet, danke für das lesen der Manuals.
Selbstbedienung! - Das SelfForum ist ein Gratis-Restaurant mit Selbstbedienung, Menüangebot steht in den </faq/> und dem </archiv/>.