Tanja: allgemeiner Satz zu einer Seite

Beitrag lesen

hallo,
also herausfinden, was die hauptthemen einer seite sind, würde ich dann wohl so machen, wie es die meisten suchmaschinen machen, nämlich einfach mal schaun, welche (ähnlichen/themenverwandten) wörter häufig oder hervorgehoben vorkommen, wobei title etc natürlich besonders berücksichtigt wird. google machts ja zusätzlich anhand von links; aber übertreiben muss ichs ja nun auch wieder nicht...
auch wenn meine derzeitige hauptschwierigkeit Euch vielleicht als einfach erscheint bzw. gerade deshalb, frage ich mal nach, wie man einen kompletten satz bzw. die ganzen sätze aus einem laufenden text herausfiltert. man möge dem resultat der anwendung dann vergeben, wenn gramatikalische fehler deshalb darin auftreten, weil z.b. bilder mit alt-tags im text integriert sind. also .(.*?). wäre zwar möglich, aber ich glaube es gibt bessere algorithmen zum herausfiltern von sätzen.
sind diese getrennt in einem array verfügbar, sollte es ein einfaches sein, diese dadurch auszuwerten, ob sie ein es oder besser noch, mehrere der haupt-keywords enthalten. habt ihr da irgendwas bzw. hat sich denn kein opensource projekt jemals mit sowas beschäftigt?