pl: Regulärer Ausdruck mit [[:cntrl:]] erfasst chinesische Zeichen

Beitrag lesen

Die Frage muss vielmehr lauten wie ein Programmierer mit einer Liste von Zahlen umgeht

Erstmal steht da die Frage im Raum, wo diese Liste herkommt; s.o.

Aus dem erfassten String wird in eine Liste von Codepoints erzeugt: codepoints('äöü€ß'); erzeugt diese Liste:

Array(
    [0] => 228
    [1] => 246
    [2] => 252
    [3] => 8364
    [4] => 223
)

Zwischen Codepoints und Bytes gibt es klare Zusammenhänge, die vom Unicode-Konsortium geregelt sind.

Ich kenne den UTF-8-Algorithmus. Was aber hat der mit dem Problem zu tun?

Er vermittelt zwischen Character- und Bytesemantic.