Hallo,
Jain. Es sollen nach dem Extraktionsprinzip relevante Sätze (zugegebenermassen völlig
aus dem Kontext gerissen => Textkohärenz fehlt dann gänzlich) aus dem Text extrahiert
werden.
Ja, für eine "Suchdatenbank" könnte das sinnvoll sein.
Entwickle also ein KI-System, welches eine Sprache beherrscht, dann kann dieses entscheiden, ob ein Text "zusammengefasst" werden kann. Ein vielversprechender Ansatz hierzu sind Neuronal-Netzwerke, die via Sprachtraining lernen können.
Was ein relevantes Wort ist, hängt, meiner Meinung nach, hauptsächlich vom Fachgebiet der Texte ab, die behandelt werden sollen. Ein allgemein gültiger Ansatz, für Texte _eines_ Fachgebietes, wäre:
Speichere zunächst alle verschiedenen Worte aller Texte, mit Verweisen auf ihre Herkunft, in einer Datenbank. Wenn ein bestimmter(request for comment) "Wortschatz" aus einer bestimmten(request for comment) Anzahl von Texten angesammelt ist, wende Deine statistischen Ausschlussmethoden darauf an. Filtere also alle von der Gausschen Normalverteilung extrem(request for comment) abweichenden Worte heraus. Wende dies rekursiv an, bis ein Mindestwortschatz(request for comment) entstanden ist.
Für unterschiedliche Fachgebiete muss es, meiner Meinung nach, jeweils eigene Datenbanken geben. Die Gewichtung von Worten hängt zu sehr vom Fachkontext ab. Das Wort "Ausweiden" wird im Kontext Programmierung eher seltener vorkommen, als im Kontext Jagd.
Ah, guter Vorschlag, ich mache mich gleich an die Arbeit :-)
@Trekkies: Vielleicht wirds auch gleich ein Exocom (oder wie die Dinger hiessen)
Die werden aber mit "überechtzeit" arbeiten müssen. Da reicht es nicht, dass sie die Sprache in Rechnergeschwindigkeit lernen können, sie müsse die Sprache zur Anforderungszeit gelernt _haben_ können. *g* Du siehst, Sprache kann sogar unmögliches ausdrücken. Eine technische Lösung ist allerdings schon bekannt. Die Exocoms sind halt der Besatzung in der Zeit immer mindestens eine Zeiteinheit voraus; Sie befinden sich in einem anderen Raum-Zeit-Kontinuum.
viele Grüße
Axel