Sabine: Word und ISO 8859-1

Hallo,

einige Kollegen kopieren Ihre Texte direkt aus Word in unser Intranet-CMS.

(Ist schon älter ist, gibt es heute nicht mehr, trotzdem will unser Chef es nicht ersetzten gegen ein neues, keine Diskussion ;-)

Nun gibt es aber das Problem, dass lange Bindestriche, das Euro-Zeichen und Typografische Anführungszeichen nicht richtig dargestellt werden, unser Intranet ist ISO 8859-1 (Latin-1)-codiert.

UTF-8-Kodierung löst auch nicht das Problem, da das Intranet-CMS kein UTF-8 kann.

Gibt es vielleicht irgendwo eine Liste mit Word-Zeichen, welche in ISO 8859-1 nicht drin sind ?
Dann könnte man durch Suchen und Ersetzen im Intranet-CMS diese umwandeln.
Gibt es vielleicht sogar schon eine fertige PHP-Lösung ?
Kann ja nicht sein, dass wir die ersten sind, mit diesem Word-Problem ;-)

Liebe Grüße Sabine

  1. Gibt es vielleicht irgendwo eine Liste mit Word-Zeichen, welche in ISO 8859-1 nicht drin sind ?

    Vielmehr muss man sich fragen, was in ISO 8859-1 drin ist. In der Wikipedia ist eine vollständige Zeichenliste: http://de.wikipedia.org/wiki/ISO-8859-1

  2. Hallo Sabine.

    einige Kollegen kopieren Ihre Texte direkt aus Word in unser Intranet-CMS.

    […]

    Nun gibt es aber das Problem, dass lange Bindestriche, das Euro-Zeichen und Typografische Anführungszeichen nicht richtig dargestellt werden, unser Intranet ist ISO 8859-1 (Latin-1)-codiert.

    Was bedeutet „sie werden nicht richtig dargestellt“? Wie äußert sich dies, wie genau sehen die sichtbaren Zeichen aus?

    Einen schönen Dienstag noch.

    Gruß, Mathias

    --
    ie:% fl:| br:< va:) ls:& fo:) rl:( n4:~ ss:) de:] js:| mo:| zu:)
    debian/rules
    1. Hallo Mathias,

      in einigen Browsern und E-Mail-Clients Rechtecke oder cryptische Zeichenfolgen.

      Mal seh'n, was das SelfHTML-Forum aus € macht ;-)

      Gruß Sabine

      1. echo $begrüßung;

        in einigen Browsern und E-Mail-Clients Rechtecke oder cryptische Zeichenfolgen.

        Aus "kryptische Zeichenfolgen" kann man nicht erkennen, was schief läuft, und wie man das korrigieren könnte. Bitte sei so gut und kopiere ein paar Beispiele hier rein, möglichst mit der Information, was es darstellen sollte, wenn es sich nicht aus dem Beispiel rauslesen lässt.

        Einige Browser haben die Angewohnheit, Zeichen, die nicht in ISO-8859-1 darstellbar sind als numerische Zeichenreferenz (&#x1234;) zu senden. Wenn man diese wieder an den Browser sendet, sollte der das ursprüngliche Zeichen wieder darstellen. Wenn das CMS allerdings das Zeichen statt der NZR anzeigt, hat es aber vermutlich eine XSS-Lücke. Probier doch mal, was das CMS mit HTML-Tags anstellt.

        Mal seh'n, was das SelfHTML-Forum aus € macht ;-)

        Das kann UTF-8.

        echo "$verabschiedung $name";

  3. Hey,

    Nun gibt es aber das Problem, dass lange Bindestriche, das Euro-Zeichen und Typografische Anführungszeichen nicht richtig dargestellt werden

    diese sind in CP1252. Es sind die Codepunkte hex 80 bis 9F, siehe den gelben Block in http://en.wikipedia.org/wiki/CP1252.

    Um den Kram zu beheben, nimm Demoroniser. http://www.fourmilab.ch/webtools/demoroniser/

    --
    水-金-地-火-木-土-天-海-冥