Mike: discouraged characters

Beitrag lesen

Moin Sven, globe und Axel,

die Sache hat sich eigentlich schon erledigt, nachdem ich nämlich im Browser die Codierung auf UTF-8 gesetzt habe, kann ich wenigstens meine Ausgabe vernünftig sehen und dann den Outlook-Konvertierungs-Trick anwenden.

Bemerkenswert ist: Die verlinkte Seite sehe ich auch mit der normalen westeuropäischen Kodierung quadratlos. In meiner PHP-Plünder-Seite habe ich auch den gleichen (kompletten) <head> der Quellseite angegeben, sehe aber beschriebenen Mist. Im Quelltext findet sich dieser Mist auch, aber sobald ich eben die Browser-Codierung ändere, wird er wenigstens im Browser korrekt angezeigt.

Mit "Unicode per Outlook" meine ich in der Tat die dezimale Schreibweise, von der ich - hallo Axel - auch meine, dass es sich dabei um Unicode handelt, ist es doch lediglich die dezimale Schreibweise der hexadezimalen UTF-16-Darstellung. Siehe dazu:

http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=5999

Werde aber dem Rat folgen, mich mal in Unicode-Gesetze reinzulesen, derzeit referenziere ich nämlich über diesen dezimalen Code, u.U. wäre es besser, mich an UTF-8 oder -16 zu halten.

Diese Quadrate sind "eigentlich" chin. Schriftzeichen. Das Forum hat mir schon von sich aus insofern weitergeholfen, dass es sich dabei um "discouraged characters" handelt.

Inwiefern kommst du zu diesem Schluß? Wenn dein Editor UTF-8 versteht, dein Zeichensatz dafür aber keine Zeichnungsvorschrift hat, kommen eben die Quadrate. Allein aus der Darstellung "Quadrat" kann man nicht auf "discouraged character" schließen, dazu müßte man den Unicode des Zeichens feststellen und in den Unicode-Tabellen nachschlagen.

Wenn ich den in meiner Ausgabe verkrüppelten Mist ins Forum kopieren will, kommt diese Ansage:

Sie haben ein Zeichen eingegeben, dass vom W3C als „discouraged character“ gekennzeichnet ist. Leider können solche Zeichen nicht verarbeitet werden. Zu der Gruppe von Zeichen gehören z. B. alle Steuerzeichen ausser dem Zeilenumbruch, dem Zeilenvorschub und dem Tabulator-Zeichen.
<<

Das gilt aber tatsächlich nicht für die Quadrate im Quelltext der Ursprungsseite..

Da wird also vom PHP oder während der Übertragung was vermurkst - der Tipp von globe wäre sicher der Umsetzung wert, wenn ich das Script nicht nur flugs zum Ausschlachten jener Seite bräuchte. :)

Wie immer aber meinen besten Dank,

Mike