Christoph Zurnieden: TextMining - Datenbank vs. ?

Beitrag lesen

Hi,

ich hätte mal gerne einen Vorschlag, wie man in JAVA folgenden Vorgang effizient abbilden könnte:

Nach Lesung des ganzen Threads scheinen das wohl "Schulaufgaben" zu sein. Deshalb hier kein Code oder Link, sondern eine Erklärung (Plus Hinweis auf ein passendes Programm, soooo bin ich natürlich nicht ;-).

Das Ganze hört sich schwer nach "Indizierung" an. So, wie das alle Suchmaschinen machen. Entweder haust Du alle Stopwörter raus (und, oder, der, die, das, einer usw) oder hast eine Liste mit Startwörtern (Dafür wäre ein Spezialthesaurus nützlich), bei "Datamining" ist es beides.

Effizienz ist dabei ein Frage des Gebrauchs. Möchtest Du einen großen Datensatz indizieren (ein paar GiB an Textdokumenten), um einfach und schnell etwas finden zu können ist der Ansatz mit Stopwörtern recht effektiv, der Index selber ist dann aber recht groß. Möchtest Du dagegen den Datensatz nach Fachgebieten sortieren (Knowledge Base) sind Startwörter (Spezialthesauri mit jeweils passendem "Fachchinesisch") besser geeignet.

Passende Literatur gibt's bei Citeseer.org.
Passendes Programm zum "spielen" ist 'ptx' aus den GNU-Textutils.

Sowas ist ein recht interessantes Feld und sollte nicht so einfach nebenbei abgearbeitet werden.

so short

Christoph Zurnieden