hi,
ich möchte den HTML-Quelltext einer Datei zu reinem Text reduzieren, um ihn inhaltlich durchsuchbar zu machen. Dabei entferne ich <img>-Elemente, bei denen ich jedoch ein eventuell gesetztes alt-Attribut (ich kenne das Muss aus der Spec) inhaltlich erhalten will.
Meine Idee hierzu triffts nicht ganz, löst jedoch eine weitere, evntl. bestehende Anforderung: Image-Sitemaps automatisch erstellen (für die Suchmaschine ein xml erzeugen, wo unter dem jeweiligen URL die dazugehörigen Images aufgelistet sind).
Im HTML steht dann z.B. sowas:
Hund: %bild1%
Katze: %bild2%
also die Bilder sind einfach nur durchnumeriert. Damit die Template-Engine die Bilder in die richtigen Platzhalter setzt, bekommt der URL ein Attribut was die Bilder in der richtigen Reihenfolge enthält:
bilder=/hund.png:AltHund:400:300 /katze.png:AltKatze:150:150
woraus die Liste mit der richtigen Reihenfolge erzeugt wird. Nachdem die Template-Engine ihr Geschäft verrichtet hat, kriegt der Browser z.B.:
Hund: <img src="/hund.png" alt="AltHund" width="400" height="300" title="AltHund" />
Horst