Rolf B: mehrere Wörter in mehreren txt-Dateien löschen

Beitrag lesen

Hallo Josef_,

ich kenne sed nicht, aber ein erster Blick auf die GNU Doku sagt mir, dass sed eher ungeeignet für den Job ist. Meine Vermutung wäre, dass es mehr Wörter gibt, die zu löschen sind als solche, die fachspezifisch sind, d.h. du rufst SED zehntausende Male auf. Deine arme Festplatte...

Ohne konkrete Tools unter unixoiden Systemen zu kennen, würde ich Dir eine mehrstufige Strategie vorschlagen wollen.

  1. Aufbrechen der Korpustexte von Zeilen in Wörter. Zu beachten ist die Frage, ob die Korpora getrennte Wörter ent- halten, die Du nach dem Aufbrechen zu einem Wort zusammensetzen musst.

  2. Entfernen von doppelten Wörtern. Das Ergebnis einer solchen Deduplizierung ist typischerweise eine sortierte Wortliste.

  3. Matchen dieser Wortliste gegen eine Liste irrelevanter Wörter und Entfernen dieser.

  4. Entfernen von flektierten Formen.

  5. Hinzufügen von Übersetzungen in diversen Sprachen

Hast Du eine SQL Datenbank? In Schritt 2 und 3 wäre sie prima für diesen Job geeignet. Für Schritt 1 brauchst Du andere Tools, es sei denn, du bist fit in der jeweiligen Prozedursprache des verwendeten SQL Servers.

Die Schritte 4 und 5 sind vermutlich großenteils Handarbeit.

Rolf

--
sumpsi - posui - clusi