Michael Vogel: HTML-"Cleaner" unter PHP?

Hi!

Ich bin gerade am Programmieren eines Systems, bei dem die HTML-Seiten in einer Datenbank liegen (damit die Administration komfortabel per Weboberfläche geschehen kann).

Nun werden einzelne Abteilungen ihren (leider per FP erzeugten) HTML-Code hochschieben. Ich habe ein zentrales Stylesheet defininiert, so daß _eigentlich_ alle Seiten identisch aussehen würden, jedoch bin ich vorsichtig.

Dementsprechend suche ich ein PHP-Codestück, daß aus einem HTML-Text alles entfernt, was irgendwie überflüssige Attribute von Tags sind (Fontname, etc.)

_Einige_ können ja bleiben (wie das Align), aber die meisten sollten weichen. Wenn es soetwas gibt, müßte ich es wenigstens nicht neu schreiben.

Vielleicht wäre es dann auch gleich eine Idee, wenn Stil- oder Schreibfehler wie "Standart" oder Leerschritte vor ? oder ! und wiederholte ? und ! automatisch ausgemerzt werden würden...

Falls also jemand solche Codestücke kennt (das letztere bekomme ich auch selber hin), wäre es schön, wenn er (oder sie) mir eine URL nennen könnte.

Tschau!

Michael

  1. Moin

    Falls also jemand solche Codestücke kennt (das letztere bekomme ich auch selber hin), wäre es schön, wenn er (oder sie) mir eine URL nennen könnte.

    Soweit ich das überblicke, wird Tidy als der beste cleaner angesehen. Wenn dem so ist, wäre es vielleicht eine Idee den ensprechenden Codeteil von Tidy zu implementieren ? http://www.w3.org/People/Raggett/tidy/clean.c

    Viele Grüße

    Swen

    1. Hi!

      Falls also jemand solche Codestücke kennt (das letztere bekomme ich auch selber hin), wäre es schön, wenn er (oder sie) mir eine URL nennen könnte.

      Soweit ich das überblicke, wird Tidy als der beste cleaner angesehen. Wenn dem so ist, wäre es vielleicht eine Idee den ensprechenden Codeteil von Tidy zu implementieren ? http://www.w3.org/People/Raggett/tidy/clean.c

      Hmm, nicht ganz. tidy läßt ja IMHO die ganzen Attribute drin, setzt sie nur so, daß sie korrekt plaziert sind.

      Ich wiederum möchte, daß z.B. alle Font- und Farb-Angaben verschwinden. Naja, im Zweifel muß ich das selber machen, ist ja auch kein großes Problem.

      Tschau!

      Michael

      1. Moin

        Hmm, nicht ganz. tidy läßt ja IMHO die ganzen Attribute drin, setzt sie nur so, daß sie korrekt plaziert sind.

        Ja, das stimmt.
        Da Tidy den Schalter "clean: no" hat, der - soweit möglich - die Attribute zu einem internen stylesheet zussmmenfasst, war meine (völlig laienhafte) Vorstellung, dass das von mir erwähnte Modul eben das macht: über den Text laufen und das interen stylesheet erzeugen. Die Eerweiterung wäre dann, entweder das Erzeugen des interen stylesheet zu verhindern oder das neu erzeugte stylesheet wieder aus der HTML-Datei zu entfernen.

        Swen