Auge: allgemeiner Satz zu einer Seite

Beitrag lesen

Hallo

also herausfinden, was die hauptthemen einer seite sind, würde ich dann wohl so machen, wie es die meisten suchmaschinen machen, nämlich einfach mal schaun, welche (ähnlichen/themenverwandten) wörter häufig oder hervorgehoben vorkommen, wobei title etc natürlich besonders berücksichtigt wird. google machts ja zusätzlich anhand von links; aber übertreiben muss ichs ja nun auch wieder nicht...

Wenn du deinen Text semantisch aufbaust[1], kannst du natürlich die gewünschten Elemente herausfiltern _und_ auswerten (siehe unten). Wird aber ein nicht unerheblicher Aufwand sein.

auch wenn meine derzeitige hauptschwierigkeit Euch vielleicht als einfach erscheint bzw. gerade deshalb, frage ich mal nach, wie man einen kompletten satz bzw. die ganzen sätze aus einem laufenden text herausfiltert. man möge dem resultat der anwendung dann vergeben, wenn gramatikalische fehler deshalb darin auftreten, weil z.b. bilder mit alt-tags im text integriert sind. also .(.*?). wäre zwar möglich, aber ich glaube es gibt bessere algorithmen zum herausfiltern von sätzen.

Einen z.B. einleitenden Textteil als Teaser zu markieren[1] (Ein oder mehrere Absätze, oder ein Satz innerhalb eines Absatzes im <span>, mit einer Klasse) um ihn per Skript wiederzufinden und auf der Startseite auszugeben sollte möglich sein. Dies eventuell kombiniert mit der Auswertung von <title>, <h1> und <meta name="description" ...>. Wobei sich die nächte Frage ergibt:

Sollen alle Seiten bei jedem Aufruf der Startseite neu ausgelesen werden um den Text zu extrahieren und den Link abzubilden? Oder werden die Texte in einer DB vorgehalten, aus der heraus auch die Startseite gefüttert wird.

sind diese getrennt in einem array verfügbar, sollte es ein einfaches sein, diese dadurch auszuwerten, ob sie ein es oder besser noch, mehrere der haupt-keywords enthalten.

Nach dem Ausfiltern von "Nebenwörtern" wie "und", "oder", "der", "die", "das" etc. pp., ja. Eine solche (Negativ)Liste muss dann aber auch erstellt und (zur Verfeinerung der Funktion) gepflegt werden.

[1] Ich gehe hier immer davon aus, dass du Inhalte _deiner_ Seite auf deiner Startseite (als Beispiel) ausgeben willst.

Tschö, Auge

--
Die Musik drückt aus, was nicht gesagt werden kann und worüber es unmöglich ist zu schweigen.
(Victor Hugo)
Veranstaltungsdatenbank Vdb 0.1