Spracherkennung von Christopher, 23.12.2005 19:40

Spracherkennung

Christopher 20.12.2005 13:51

programmiertechnik

Hallo Leute,

ich habe mir in JAVA einen eigenen SMTP-Document-Server programmiert
der eingehende EMails filtert und nach einem bestimmten Muster in
der Datenbank speichert. Nun habe ich das Problem, dass ich an einer
Stelle die zugrundeliegende Sprache einer EMail herausbekommen muss.
Die Sprache der EMail kann anfänglich nur Deutsch oder Englisch sein.
Die Information, ob der Titel oder der Content immer wiederkehrende,
sozusagen statische Konstanten beinhaltet, liegt mir leider nicht
vor. Daher würde es also nicht ausreichen zB eben jene Konstanten
sprachabhängig in einer CSV-Datei zu hinterlegen und die eingehenden
Mails anhand dieser Werte zu durchsuchen und davon abhängig dann
schließlich einer Sprache zuzuordnen.

Nun meine Fragen an Euch:
Wie würdet ihr in so einem Fall am performantesten vorgehen?
Bzw. Gibt es _überhaupt_ einen Lösungsansatz für dieses Problem?
Oder gibt es vllt. Web-Services, die einem so etwas anbieten?

Sollte ich Informationen vergessen haben zu erwähnen, so sagt
mir bitte bescheid.

Besten Dank für eure Bemühungen
Christopher

Beitrag melden

– Informationen zu den Bewertungsregeln

Spracherkennung
Axel Richter 21.12.2005 09:47

programmiertechnik
– Informationen zu den Bewertungsregeln
Hallo Leute,

Nun habe ich das Problem, dass ich an einer
Stelle die zugrundeliegende Sprache einer EMail herausbekommen muss.
Die Sprache der EMail kann anfänglich nur Deutsch oder Englisch sein.
Bzw. Gibt es _überhaupt_ einen Lösungsansatz für dieses Problem?

Einen allgemein gültigen Lösungsansatz gibt es wohl nicht. Es kommt drauf an, wie genau und zuverlässig es sein muss. Sehr ungenau wäre jeweils einer der folgenden Ansätze:

Kommen im Text Umlaute (äöüß) vor? - Dann ist es Deutsch.
Kommt im Text mehrfach die Wortendung "ed" vor? - Dann ist es Englisch.
Kommen im Text rein deutsche Artikel (der, das, es, ein, ...) vor? - Dann ist es Deutsch. (Achtung "die" ist problematisch ;-))
Kommen im Text rein englische Artikel (the, this, it, a, ...) vor? - Dann ist es Englisch.
... to be continued

Genauer wird es, wenn man mehrere dieser Ansätze kombiniert, je mehr, umso genauer. Es wird dann natürlich auch sehr schnell unperformant.

Ähnliche Probleme behandeln Stemming Algorithmen. Hier wird versucht auf den Wortstamm eines Wortes in geschriebenem Text zu schließen. Eventuell findest Du ja hier weitere Anregungen.

viele Grüße

Axel
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Spracherkennung
  
  Christopher 23.12.2005 19:40
  
  programmiertechnik
  – Informationen zu den Bewertungsregeln
  Hallo Axel,
  
  danke für den Link. werde mir das mal anschauen.
  Habe mitterweile ein paar Anbieter gefunden, teils
  kommerziell, die eine Solche Prüfung als Software
  und/oder sogar Webservice anbieten. Habe nächstes
  Jahr erst wieder ein Gespräch mit dem Kunden. Wenn
  er Geld dafür bezahlen möchte würde es mir die
  Sache um einiges erleichtern ;)
  
  Frohe Weihnachten
  Christopher
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
Text-Kategorisierung
Alexander Brock Homepage des Autors 23.12.2005 20:02

programmiertechnik
– Informationen zu den Bewertungsregeln
Hallo Freunde des gehobenen Forumsgenusses,

Schau dir mal den Artikel "A Plan for Spam" an, man kann prinzipiell auch Texte in Deutsch/Englisch/Französisch/etc. einsortieren lassen. Das geht wahrscheinlich sogar wesentlich besser, als bei Spam, weil Spammer im Gegensatz zu Anwendern, die normale Mails schreiben versuchen, um diese Filter herunzukommen.

Ich habe selbst einen Filter implementiert, der Text in beliebig viele Kategorien einteilen kann, leider in PHP:
V-Text-Categorizer.

Findest du den Text dazu hilfreich?

Gruß
Alexander Brock

--
Ceterum censeo Carthaginem esse delendam
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Christopher: Spracherkennung