RegExp: Range von UTF-8 Zeichen definieren von niehztog, 11.08.2008 13:45

RegExp: Range von UTF-8 Zeichen definieren

niehztog 11.08.2008 13:45

Hallo liebe Community,

noch immer baue ich an einem etwas kniffligem Regulären Ausdruck (PHP4, preg_match_all). Da die PHP Seiten UTF8 Header senden und es auch wichtig ist, dass der reguläre Ausdruck UTF8 Buchstaben erkennt, folgende Frage:

Ich muss irgendwie einen Zeichenbereich ähnlich wie [a-zA-Z0-9_] für sämtliche in UTF8 gültigen Buchstaben bzw. Nicht-Satzzeichen definieren. Das standartmäßige \w reicht in diesem Fall nicht, da z.B. keine Asiatischen/Kyrillischen usw. Buchstaben mit drin sind.

Ich bin dann auf diesen äußerst Hilfreichen Ausdruck gestoßen, der in PHP aber leider wegen der fehlenden Implementierung von \u nicht funktioniert: \u00A1-\uFFFF

Ich habe dann probiert den Ausdruck mit \x nachzubilden, leider erfolglos:
\xc2\xa1-\xef\xbf\xbf (matchte nur auf herkömmliche Zeichen von a-z und nicht auf Asiatische Sonderzeichen etc)

Wie kann ich da vorgehen? Oder bin ich da tatsächlich an eine Grenze der PHP4 Implementierung gestoßen?

Gruss
Niehztog

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

niehztog: RegExp: Range von UTF-8 Zeichen definieren

Beitrag lesen

RegExp: Range von UTF-8 Zeichen definieren

RegExp: Range von UTF-8 Zeichen definieren

Range of Characters im UTF-8-Modus (PCRE)