Sönke Tesch: SPAM-link führt zu JavaScript, der verschlüsselt ist ! ....

Beitrag lesen

In deiem Beispiel wird eine Verschlüsselung angewendet, wie sie auch bei URLs und in Emails verwendet wird. Jedes Zeichen beginnt mit einem Prozentzeichen. Danach kommt Hexadezimalzahl. Z.B. "%20" steht also für das Unicodezeichen mit der Hexadezimalzahl 20.

Nein, das ist komplett falsch, diese Prozentsyntax hat überhaupt nichts mit Unicode zu tun.

Unicode ist eine universelle Zeichentabelle, die Schriftzeichen Zahlwerte zuordnet, und zwar jedem auf diesem Planeten verwendeten Zeichen. Diese Zahlwerte gehen weit über den Bereich hinaus, den man in einem einzelnen Byte speichern kann, schon alleine deshalb kann die Sache mit den Prozenten nur herzlich wenig mit Unicode zu tun haben. Von den Millionen möglicher Unicode-Werte bekommt man mit einer Prozentmaske gerade mal 128, mit Biegen und Brechen 256, hin.

Es handelt sich hier einfach um eine Umschreibung für einen Bytewert, der entweder nicht im ASCII-System grafisch darstellbar ist oder ein Zeichen ergibt, welches für andere Bedeutungen reserviert ist.
Wohlgemerkt geht es hier um Bytewerte, um Zahlen. Irgendeine Zuordnung zu einem Schriftzeichen ist mit diesem System _nicht_ gegeben. Auch daher ist die Verbindung Prozentmaske -> Zeichensatz (hier: Unicode) prinzipiell falsch.

Das es nun tatsächlich mit der von Dir fälschlich als "Unicode-Umwandlung" beschriebenen Sache funktioniert, liegt schlicht und ergreifen daran, daß in aller Regel als Basis der ASCII-Zeichensatz verwendet wird, der in vorausschauender Weise mit den ersten 128 Zeichen des Unicode-Satzes übereinstimmt. Aber sobald es über Nummer 127 hinaus geht, liegst Du mit Unicode komplett daneben. iso-8859-1 hilft dann bei Seiten aus "westlichen" Gefilden weiter.

Das Kodierungsschema ist in RFC 1738 festgelegt, siehe http://www.w3.org/Addressing/rfc1738.txt, Abschnitt 2.2.

Gruß,
  soenk.e