Indizierung von HTML Dokumenten von Besseresser, 01.04.2009 14:24

Beitrag lesen

Indizierung von HTML Dokumenten

Besseresser 01.04.2009 14:24

datenbank

Um einzelne Worte zu bekommen, splitte den Text nach \s+. Duplikate haust Du dann raus mit einem hash. Und mit einem hash-Slice entfernst Du mit einem Schlag Stop-Worte wie "der die das usw". Solche Stopwort-Listen findest Du auch im Internet.

Danke dir!
Bräuchte aber noch genauere Infos zu dem Hashthema.
Wie funktioniert das?

Gruß,
Besseresser

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Besseresser: Indizierung von HTML Dokumenten

Beitrag lesen

Indizierung von HTML Dokumenten

Indizierung von HTML Dokumenten