Hallo liebe Community,
noch immer baue ich an einem etwas kniffligem Regulären Ausdruck (PHP4, preg_match_all). Da die PHP Seiten UTF8 Header senden und es auch wichtig ist, dass der reguläre Ausdruck UTF8 Buchstaben erkennt, folgende Frage:
Ich muss irgendwie einen Zeichenbereich ähnlich wie [a-zA-Z0-9_] für sämtliche in UTF8 gültigen Buchstaben bzw. Nicht-Satzzeichen definieren. Das standartmäßige \w reicht in diesem Fall nicht, da z.B. keine Asiatischen/Kyrillischen usw. Buchstaben mit drin sind.
Ich bin dann auf diesen äußerst Hilfreichen Ausdruck gestoßen, der in PHP aber leider wegen der fehlenden Implementierung von \u nicht funktioniert: \u00A1-\uFFFF
Ich habe dann probiert den Ausdruck mit \x nachzubilden, leider erfolglos:
\xc2\xa1-\xef\xbf\xbf (matchte nur auf herkömmliche Zeichen von a-z und nicht auf Asiatische Sonderzeichen etc)
Wie kann ich da vorgehen? Oder bin ich da tatsächlich an eine Grenze der PHP4 Implementierung gestoßen?
Gruss
Niehztog