Christian Seiler: Trennung von zusammengesetzten Wörtern... z.B. Weinregal

Beitrag lesen

Hallo Mike,

gibt es Algorithmen, die zusammengesetze Wörter wieder trennen, z.B.

Weinregal nach Wein und Regal     oder
Hühnerpest nach Hühner und Pest

Naja, es gibt ein paar offizielle grammatikalische Regeln zur Silbentrennung, verschiedene Software (u.a. auch LaTeX) setzt diese Regeln in einen Algorithmus um, Du kannst Dir ja mal den LaTeX-Sourcecode (das Paket ngerman wäre relevant) ansehen, wenn Dich das interessiet.

Um jedoch zusammengesetzte Wörter wie Du es beschrieben hast in Einzelwörter aufzuteilen, bedarf es mehr als eines einfachen Algorithmus. Das Problem ist ja schlichtweg, dass wir als Menschen die Wörter trennen können, weil wir die Einzelwörter kennen - wenn mir jemand ein Wort wie "blurghistomipf" vorsetzen würde, das ich *nicht* kenne, dann könnte ich das auch nicht in Einzelwörter trennen - wenn mir jemand jedoch sagen würde, dass in der Sprache, in der das Wort geschrieben ist, "blurghis" ein einzelnes Wort ist, dann hätte ich die nötige Information, das Wort in "blurghis" und "tomipf" zu trennen.

Die einzige Möglichkeit für Dein Problem dürfte ein umfassendes Wörterbuch der deutschen Sprache sein. GNU aspell bringt beispielsweise Wörterbücher für verschiedene Sprachen mit - beachte allerdings, dass Wörterbücher nach dem Urheberrecht als Datenbankwerke geschützt sind - im falle der Aspell-Wörterbücher stehen diese unter der GNU General Public License - ich bin kein Rechtsexperte, würde aber stark vermuten, dass eine Verwendung der Aspell-Wörterbücher dazu führt, dass Du die Software, die diese verwendet, ebenfalls unter die GPL stellen musst. Falls Dir das nicht zusagt, kannst Du Dich ja im Internet umsehen, vielleicht gibt's ja andere Wörterbücher, die unter anderen Lizenzen stehen, die Dir mehr zusagen (evtl. kannst Du auch von kommerziellen Verlägen wie dem Duden Wörterbücher kaufen).

Viele Grüße,
Christian