Hallo,
Speichere zunächst alle verschiedenen Worte aller Texte, mit Verweisen auf ihre Herkunft, in einer Datenbank. Wenn ein bestimmter(request for comment) "Wortschatz" aus einer bestimmten(request for comment) Anzahl von Texten angesammelt ist, wende Deine statistischen Ausschlussmethoden darauf an. Filtere also alle von der Gausschen Normalverteilung extrem(request for comment) abweichenden Worte heraus. Wende dies rekursiv an, bis ein Mindestwortschatz(request for comment) entstanden ist.
Eine neuronalsystemähnliche Verhaltensweise könntest Du dadurch erreichen, dass Du zu jedem Wort speicherst, wie oft es von Nutzern als Suchbegriff angefordert wird. Worte, die häufig angefordert werden, sind relevanter als Worte, die weniger häufig angefordert werden. Worte, die eine bestimmte Zeit in der Datenbank stehen, von der statistischen Methode (Normalverteilung) als relevant eingestuft wurden, aber nie angefordert werden, können entfernt werden. So "lernt" das System aus der Interaktion mit den Benutzern.
viele Grüße
Axel