Halihallo Axel
Was genau versuchst Du hier zu tun?
Ein kleines Freizeitprojekt, will mal wissen, was diese automatischen Summarizer so
hergeben und wie lernt man es besser und schneller als am eigenen Leibe :-)
Du sprichst von einer Software, die Texte zusammenfasst. Was verstehst Du unter "zusammenfassen"? Den Sinn des Textes zusammenfassen? Die Hauptaussage des Textes extrahieren?
Jain. Es sollen nach dem Extraktionsprinzip relevante Sätze (zugegebenermassen völlig
aus dem Kontext gerissen => Textkohärenz fehlt dann gänzlich) aus dem Text extrahiert
werden.
Ich bezweifle, dass dies mit einer Software, die unterhalb eines KI-Systems angesiedelt ist, möglich sein wird.
Ich bin deiner Meinung. Einige Leute sind der Meinung, dass das automatische dennoch
ein Mehrwert darstellt. Ich weiss selbst nicht, was die sich denken :-) dennoch scheint
es einige Anwendungsgebiete zu geben.
Die menschliche Schriftsprache ist so komplex, dass sogar ein _Satzzeichen_ den Satzsinn total verändern kann. Angeblich historisch belegtes Beispiel:
"Verschont den Kerl, nicht hinrichten!"
"Verschont den Kerl nicht, hinrichten!"
Ausnahmen sind wohl bekannt, aber wie in der Statistik geht es in diesem Bereich um
das "Grosse Bild". Übrigens hätte der automatische Summarizer mit deinem Beispiel kein
Problem, da er ganze Sätze extrahiert => der Sinn bleibt erhalten. Aber ich verstehe gut,
der Computer (zumindest mit den vorgestellten Algorithmen) ist nicht fähig die Semantik
des Textes zu analysieren. Er basiert auf rein syntaktischen und statistischen Verfahren.
Naja, ich werd mal sehen, was er so taugt...
Ach ja, vielleicht eine Anwendung: Durch die Reduktion an Daten wird die Index-Qualität
eines Suchdienstes (mindestens die Performance und den Datenspeicher) gesteigert. Dies
wäre eine mögliche Anwendung des Autoabstractings.
Es wird also nicht möglich sein, die _angeblich_ signifikanten Worte eines Textes herauszufiltern und dann der Meinung zu sein, man habe den Sinn des Textes verstanden. Gerade solche Worte wie: "nicht", "nie", "immer" ..., die ja herausgefiltert werden, bestimmen oft en eigentlichen Textsinn.
Ja, und der bleibt ja erhalten. Es geht um das erkennen relevanter Sätze, nicht um die
Bedeutung jener. Und ein Mass für die Relevanz können statistische Verfahren denk ich
mal schon liefern. Dass statistische Verfahren immer mit einem Fehler behaftet sind, ist
klar.
Entwickle also ein KI-System, welches eine Sprache beherrscht, dann kann dieses entscheiden, ob ein Text "zusammengefasst" werden kann. Ein vielversprechender Ansatz hierzu sind Neuronal-Netzwerke, die via Sprachtraining lernen können.
Ah, guter Vorschlag, ich mache mich gleich an die Arbeit :-)
@Trekkies: Vielleicht wirds auch gleich ein Exocom (oder wie die Dinger hiessen)
Viele Grüsse
Philipp
RTFM! - Foren steigern das Aufkommen von Redundanz im Internet, danke für das lesen der Manuals.
Selbstbedienung! - Das SelfForum ist ein Gratis-Restaurant mit Selbstbedienung, Menüangebot steht in den </faq/> und dem </archiv/>.