Christian_: Fehlerhafte (nicht abgeschlossene) HTML Tags entfernen

Beitrag lesen

Hallo,

ich bin auf der Suche nach einem Skript, dass fehlerhafte HTML Tags aus einem String entfernt. Zur Verdeutlichung ein Beispiel:

Aus dem String 'ABC, 123, <img src="images/bild.'

soll werden 'ABC, 123, '

Im Internet habe ich diverse Skripte gefunden, die nicht geschlossene Tags abschließen, in diesem Fall hilft mir das jedoch wenig, da ich nicht möchte, dass beispielsweise, fehlerhafte Bilder angezeigt werden.

Mein gedanklicher Ansatz ist folgender:

1. In dem String muss der erste offene Tag gesucht werden.
2. Es muss überprüft werden ob nach diesem ersten offenen Tag weitere Tags geöffnet wurden bevor der erste Tag geschlossen wurde.
2.1. Ist das der Fall wird erst nach dem zweiten offenen Tag gesucht und geschaut ob nach dem weitere Tags geöffnet werden bevor es geschlossen wird. (Das wird ein rekursiver Aufruf)
Wird dann ein offener Tag geschlossen, beendet sich ein rekursiver Aufruf und das Skript geht wieder einen Tag zurück und überprüft ob der Tag geschlossen wird.
Sollte der ursprüngliche Tag nicht geschlossen werden, wird alles ab dort gelöscht.
3. Es wird nach dem zweiten offenen Tag gesucht, nachdem der erste geschlossen wurde.

usw...

Ich hoffe mir kann dabei jemand helfen.

Liebe Grüße
Christian