Hallo Philipp!
Also ich bin für folgende Lösung:
Also ich kenne mich mit sowas nicht wirklich aus, aber ich glaube das mit dem pauschalen Abschneiden ist allgemein nicht so gut, da Du evtl. das relevanteste Wort aus Versehen mit abschneidest, da es gerade über oder unter einem bestimmten Schwellenwert lag. Du magst mit Deiner Statistik zwar richtig liegen, aber im Einzellfall wäre mir die Gefahr zu gross dass ich am Ende nicht auch die wirklich relaevanten Wörter im Text habe. Daher würde ich eher so vorgehen:
Stoppword-Liste, in die schreibst Du alle oft vorkommen und unwichtigen Wörter, wie und/oder/ich... die können dann schonmal alle Weg. Je besser Du diese Liste auf Deine Gegebenheiten anpasst desto besser das Ergebnis.
Ich habe mal eine MySQL-basierte Suche zu schreiben versucht, ich erinnere mich nicht mehr so an die Details, aber dazu stehen einige größere Threads im Archiv
(falls es Dich interessiert:
[linkhttp://forum.de.selfhtml.org/archiv/2002/10/27766/]
http://forum.de.selfhtml.org/archiv/2002/11/30209/
http://forum.de.selfhtml.org/archiv/2002/11/30860/
http://forum.de.selfhtml.org/archiv/2002/11/30406/#m167081
Ich glaube da war noch mehr...),
waren für mich sehr interessante Diskussionen mit Michael Schröpl, wobei es hier eher um Peroformance ging, aber irgendwie sind die Probleme doch ein bisschen ähnlich.
Viele Grüße
Andreas