Philipp Hasenfratz: Ein Beispiel wäre wohl angebracht...

Beitrag lesen

Halihallo Andreas

Also ich kenne mich mit sowas nicht wirklich aus, aber ich glaube das mit dem pauschalen Abschneiden ist allgemein nicht so gut, da Du evtl. das relevanteste Wort aus Versehen mit abschneidest, da es gerade über oder unter einem bestimmten Schwellenwert lag. Du magst mit Deiner Statistik zwar richtig liegen, aber im Einzellfall wäre mir die Gefahr zu gross dass ich am Ende nicht auch die wirklich relaevanten Wörter im Text habe. Daher würde ich eher so vorgehen:

Jep, das ist leider so :-(

Stoppword-Liste, in die schreibst Du alle oft vorkommen und unwichtigen Wörter, wie und/oder/ich... die können dann schonmal alle Weg. Je besser Du diese Liste auf Deine Gegebenheiten anpasst desto besser das Ergebnis.

Yo, das ist auch schon implementiert, nur kann man sich auf das nicht beschränken.
Das Problem ist einfach: Stoppwortlisten sind Sprach- und Kontextabhängig. Der Luhn
Algorithmus _muss_ davon unabhängig funktionieren. Eben, er ist rein statistisch, nicht
linguistisch (OK, einen Stemmer [Stammformreduktion] habe ich auch davorgeschalten).
Mit Stoppwortlisten erreicht man in der Tat wesentlich mehr, nur müssten diese auch
gepflegt und gewartet (und gar erst definiert und eingegeben) werden; ein kontrolliertes
Vokabular.

Hier tut sich übrigens ein neues Problem auf: Wenn man Stoppwortlisten (oder auch
Positivwortlisten) mit Luhn vereint, muss man ziemlich darauf achten, dass man dann nicht
zu weit an der Wortliste rumschnipselt, sonst steigt die Wahrscheinlichkeit, dass man ein
relevantes Wort wegschneidet noch mehr an...

Ich muss dir und Axel ja recht geben, ich bin mir dessen selber auch bewusst. Nur reizt
es mich mal das zu testen. Ich werde auch ein Test mit nur Stoppwortlisten durchführen,
mal sehen, was das so bringt; ist nur leider sehr zeitaufwändig und soviel will ich für
dieses Projekt nun auch wieder nicht opfern.

waren für mich sehr interessante Diskussionen mit Michael Schröpl, wobei es hier eher um Peroformance ging, aber irgendwie sind die Probleme doch ein bisschen ähnlich.

Sehr interessant zu lesen. Nur leider ist das Indexieren wesentlich einfacher, als Texte
zusammenzufassen. Aber lesen tue ich es gerne, weil's mich interessiert.

Viele Grüsse und Danke euch beiden

Philipp

--
RTFM! - Foren steigern das Aufkommen von Redundanz im Internet, danke für das lesen der Manuals.
Selbstbedienung! - Das SelfForum ist ein Gratis-Restaurant mit Selbstbedienung, Menüangebot steht in den </faq/> und dem </archiv/>.