molily: mbstring-Funktionen/ UTF-8 in PHP

Beitrag lesen

Hallo,

ähm ... was es in unicode denn noch für whitespaces > 255 gibt, ist mir im moment noch gar nicht bewusst :-)

Molily hatte netterweise mal eine Liste gemacht und mir zukommen lassen:
0x20, 0xA0, 0x2000 - 0x200B und 0x2028 - x202F sind Leerzeichen.

Strenggenommen sind nur U+2000 bis U+200B Leerzeichen im eigentlichen Sinne, U+2028 bis U+202F sind »Formatting characters«. Wenn man die wegschneidet, sollte man z.B. auch U+200C bis U+200F entfernen. Formatting characters sind (meiner Vermutung nach) nicht notwendigerweise irrelevante Zeichen, wenn sie am Anfang bzw. Ende eines Strings stehen. Vielleicht gibt es Fälle, in denen ein solches Zeichen durchaus seinen Sinn an diesen Stellen hat, dazu kenne ich die vielen von Unicode repräsentierten Schriftsysteme nicht.
Darüber hinaus gibt es wahrscheinlich unzählige weitere Steuerzeichen, die man für gewöhnlich nicht gerne im String haben will. Hängt letztlich wohl davon ab, welche Aufgabe das trim() erfüllen soll.

Mathias