regex Opfer: Regulärer Ausdruck: Tags auslesen

Hi,

inzwischen habe ich einen sehr umfangreichen regex, dem allerdings noch etwas entgeht. Gematcht werden sollten alle <tag-infos>:
$regex = "/(".
"<!\w+(?:\s+[^>]*?)+\s*>|".
"<\w+(?:\s+\w+(?:\s*=\s*(?:"[^"]*"|'[^']*'|[^"'>\s]+))?)*\s*/?>|".
"</\w+\s*>|".
"<!--[^-]*-->".
")/";

Wichtig wäre nun, dass auch das erkannt wird:
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="de" lang="de">

Vermutlich habert das gerade wegen den Abführungsstrichen :-/

Gibt es einen allgemein-gültigen und vollendet RegEx für diesen Zweck?

Auch <textarea>bla <invalider schwachsinn></textarea> wäre auch noch ein Problem, vermute ich...

Schönen Sonntag

  1. Gibt es einen allgemein-gültigen und vollendet RegEx für diesen Zweck?

    Kaum.
    Einstweilen nimm einen anderen Regex-Delimiter statt /

    mfg Beat

    --
    ><o(((°>           ><o(((°>
       <°)))o><                     ><o(((°>o
    Der Valigator leibt diese Fische