Conny: Mischen von Chinesischen und Westlichen Schriftzeichen

Hallöchen,

eine Webseite besteht primär aus englischen Texten, soll nun aber um einige chinesische Beiträge erweitert werden. Zur Zeit wird das mittels Bildern realisiert, aber das ist natürlich nicht wirklich ideal. Wirklich dringend ist die Umstellung nicht, da die wesentlichen Informationen in Englisch vorhanden sind und von den japanischen und chinesischen Kunden verstanden werden, während die deutschen und amerikanischen Kunden die chinesischen Schriftzeichen aller Wahrscheinlichkeit nach eh nicht verstehen werden und inhaltlich auch nicht benötigen. Aber es würde natürlich schön "sauber" aussehen.

Dass man Chinesische Schriftzeichen prinzipiell anzeigen lassen kann ist mir schon klar, ich bin jedoch unsicher, was die Zuverlässigkeit anbelangt und wie ich genau vorgehen müsste, um die chinesischen Texte zu integrieren. Müssen die Browser z. B. zusätzlich noch bestimmte Einstellungen haben, ohne die sie dann doch nur Chaos anzeigen würden? Oder wird der Benutzer ggfs. aufgefordert, erst einen entsprechenden Zeichensatz zu installieren? Das hätte ich dann ja gar nicht in der Hand. Und wie könnte ich die Daten überhaupt sinnvoll verarbeiten, soll heißen wie müsste ich sie vom erhaltenen Textdokument in Quellcode übersetzen lassen? Gibt es da "Tricks"?

Gruß,
Conny

PS: Dank Frameset (Ja ja, ich weiß...): <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">

  1. Moin!

    Die vernünftige Methode ist, die Texte in UTF-8 zu speichern und diese Zeichensatzangabe auch im HTML-Metatag als auch im HTTP-Header anzugeben. Dir stehen somit alle in Unicode definierten Zeichen, auch alle chinesischen, zur Verfügung.

    Das Problem ist nur: Deutsche Windows-Versionen bringen standardmäßig nicht zwingend chinesische Fonts mit. Keine Ahnung, ob XP das macht, Win2000 nicht, und alles davor ebenfalls nicht.

    Deine Besucher würden also in diesem Fall entweder Fragezeichen oder Quadrate sehen, aber keine chinesischen Zeichen. Was bei ausgedehnten chinesischen Texten natürlich etwas nervig sein kann - deshalb wäre es vermutlich schlauer, die Seiten in zwei Sprachversionen zu trennen. Dann haben die Chinesen ihren eigenen Teil (und sehen dort natürlich die Schrift, weil sie passende Fonts haben), während der westliche Weltteil ohne diese Fonts sich im englischen Teil ohne Fragezeichen oder Kästchen bewegen kann.

    - Sven Rautenberg

    --
    My sssignature, my preciousssss!
    1. Hallo Sven,

      Das Problem ist nur: Deutsche Windows-Versionen bringen standardmäßig nicht zwingend chinesische Fonts mit. Keine Ahnung, ob XP das macht, Win2000 nicht, und alles davor ebenfalls nicht.

      Ich habe es befürchtet. :-(

      Deine Besucher würden also in diesem Fall entweder Fragezeichen oder Quadrate sehen, aber keine chinesischen Zeichen.

      Oder die Frage erhalten, ob sie die Schrift nachinstallieren wollen, was auch nerven (und überfordern) kann.

      Was bei ausgedehnten chinesischen Texten natürlich etwas nervig sein kann

      Es ist nur ein kleiner Bereich und wirklich nicht sonderlich wichtig. Obwohl ich mir vorstellen könnte, dass der Kerl ganz heiß drauf wird, mehr davon zu bringen, wenn das so toll aussieht. :-)

      • deshalb wäre es vermutlich schlauer, die Seiten in zwei Sprachversionen zu trennen. Dann haben die Chinesen ihren eigenen Teil (und sehen dort natürlich die Schrift, weil sie passende Fonts haben), während der westliche Weltteil ohne diese Fonts sich im englischen Teil ohne Fragezeichen oder Kästchen bewegen kann.

      Wie müsste ich denn so eine Trennung angeben? (Erklärung, Link?)

      Conny

      1. Hello out there!

        Wie müsste ich denn so eine Trennung angeben? (Erklärung, Link?)

        Content Negotiation: why it is useful, and how to make it work

        Apache: Content negotiation

        W3C I18N Topic Index: Language

        See ya up the road,
        Gunnar

        --
        “Remember, in the end, nobody wins unless everybody wins.” (Bruce Springsteen)
      2. Moin!

        Deine Besucher würden also in diesem Fall entweder Fragezeichen oder Quadrate sehen, aber keine chinesischen Zeichen.

        Oder die Frage erhalten, ob sie die Schrift nachinstallieren wollen, was auch nerven (und überfordern) kann.

        So eine Frage habe ich noch nie erlebt. Ich gehe davon aus, dass keine kommt. Sie würde ja erfordern, dass man dem System einen Ort angibt, von dem auch nachinstalliert wird. Und das tut man nicht.

        Bliebe dann noch, dass das System das von selbst weiß. Da deutsches Windows aber offenbar keine chinsischen Fonts kennt und hat, kann das auch nicht passieren.

        • deshalb wäre es vermutlich schlauer, die Seiten in zwei Sprachversionen zu trennen. Dann haben die Chinesen ihren eigenen Teil (und sehen dort natürlich die Schrift, weil sie passende Fonts haben), während der westliche Weltteil ohne diese Fonts sich im englischen Teil ohne Fragezeichen oder Kästchen bewegen kann.

        Wie müsste ich denn so eine Trennung angeben? (Erklärung, Link?)

        Du hast einmal die gesamte Website in einem Verzeichnis /en/ für die englische Version, und einmal in einem Verzeichnis /cn/ für die chinesische Version. Die deutsche Version wäre dann im Verzeichnis /de/, die französische in /fr/. Auf der Startseite /index.html (o.ä.) erscheint im simpelsten Fall einfach eine Auswahl an Links, die auf die Startseite der jeweiligen Sprache verweisen, also "/en/index.html" und "/cn/index.html".

        Sowas bringt dann was, wenn wirklich annähernd die komplette Website in zwei oder mehr Sprachen vorliegt. Dann haben auch Suchmaschinenrobots was zu futtern, sie finden dann nämlich zwei Verzeichnisse mit zwei Websiteteilen in unterschiedlichen Sprachen, und können das direkt indizieren.

        Die Methode von Gunnar würde eher so funktionieren: Du hast ein Skript, welches prüft, ob der Besucher "Chinesisch" als Sprache akzeptiert, und schreibst nur in diesem Fall den chinesischen Part in die Seite hinein, ansonsten nicht.

        Das Problem hierbei: Eigentlich weiß kein normaler Browserbenutzer, dass es so eine Einstellung gibt und wozu sie da ist, es stellt sie also auch niemand auf seine Bedürfnisse ein. Chinesen, die sich die englische Sprachversion von z.B. Firefox besorgen, übermitteln standardmäßig ihren Wunsch nur nach der englischen Sprache. Würden also den chinesischen Teil nicht mitbekommen.

        Und auch aus Sicht der Suchmaschinenspider ist so eine Lösung nicht gut. Denn welche Sprache spricht ein Spider? Eigentlich alle! Aber Content-Negotiation muß auf genau EINE Sprache hinauslaufen, die am meisten bevorzugt wird. Deshalb sprechen Spider vermutlich nur genau eine Sprache, wenn überhaupt. Und würden dann auch nur genau eine Sprache indizieren. Von Problemen mit dem Caching der Webseite mal ganz abgesehen, denn wenn die Sprache als Auswahlkriterium dient, muß das den Proxys auf dem Weg zum Browser mitgeteilt werden, und sie können weniger gut cachen.

        Mein Ansatz mit den unterschiedlichen Verzeichnissen hat alle diese Probleme nicht.

        - Sven Rautenberg

        --
        My sssignature, my preciousssss!
        1. Hello out there!

          Verzeichnis /cn/ für die chinesische Version.

          Äh nein. Wenn schon, dann würde ich das http://de.selfhtml.org/diverses/sprachenkuerzel.htm@title=Sprachkürzel nach ISO 639 verwenden, also /zh/.

          Das Problem hierbei: Eigentlich weiß kein normaler Browserbenutzer, dass es so eine Einstellung gibt und wozu sie da ist, es stellt sie also auch niemand auf seine Bedürfnisse ein.

          Halte ich für kein Problem, weil ein „normaler Browserbenutzer“ einen Browser in seiner Sprachversion benutzt (Menüs, Dialogboxen, Hilfe usw. in seiner Sprache). Die Browserhersteller tragen Sorge, dass die Spracheinstellungen (Accept-Language) für die jeweilige Sprachversion richtig gesetzt sind.

          Wer bewusst einen Browser in einer anderen Sprachversion installiert, dürfte auch wissen, dass es so eine Einstellung gibt und stellt sie auf seine Bedürfnisse ein.

          See ya up the road,
          Gunnar

          --
          “Remember, in the end, nobody wins unless everybody wins.” (Bruce Springsteen)
          1. Hallo Gunnar,

            Wer bewusst einen Browser in einer anderen Sprachversion installiert, dürfte auch wissen, dass es so eine Einstellung gibt und stellt sie auf seine Bedürfnisse ein.

            Die Frage ist, ob sich die Bedürfnisse des chinesischen Internetcafé-Betreibers mit meinen decken. Die Verzeichnis- oder Subdomainlösung dagegen grenzt niemanden aus. Bei mehrsprachigen Projekten würde ich unbedingt darauf setzen.

            Das »I« in URI steht auch für Eindeutigkeit.

            Grüße
             Roland

            --
            SELFHTML-Community > Visitenkarten > Orlando
            Nachwuchsförderung 2.0: »Mami, sieh mal! Ich habe mit CSS eine Tabelle nachgebaut.«
            1. Hello out there!

              Die Frage ist, ob sich die Bedürfnisse des chinesischen Internetcafé-Betreibers mit meinen decken.

              Selbstverständlich sollte auf jeder Webseite, deren Inhalt in mehreren Sprachen existiert, auf die anderen Sprachvarianten verlinkt werden – Beschriftung der Links in der jeweiligen Zielsprache. Sagte ich das nicht? ;-)

              Das »I« in URI steht auch für Eindeutigkeit.

              Eindeutigkeit des Inhalts der Ressource. Das sagt _nichts_ über die Möglichkeiten verschiedener Präsentation – weder über das Format: HTML, PDF, ...; noch über die Sprache.

              “ISBNs do not refer to a flesh and bone (or, rather, paper-and-spine) book, but to the text it contains. In fact, it is not rare that several editions of a book share the same ISBN number: in the context of the ISBN, they are similar.

              “The same idea can be applied to URIs. […] In fact, the maintainer of the Web resource could very well decide that a number of representations of this piece of information are equivalent, and think "what if I let the visitors of my Web site decide which representation they prefer?"” [Content Negotiation]

              See ya up the road,
              Gunnar

              --
              “Remember, in the end, nobody wins unless everybody wins.” (Bruce Springsteen)
              1. Hallo Gunnar,

                Die Frage ist, ob sich die Bedürfnisse des chinesischen Internetcafé-Betreibers mit meinen decken.

                Selbstverständlich sollte auf jeder Webseite, deren Inhalt in mehreren Sprachen existiert, auf die anderen Sprachvarianten verlinkt werden – Beschriftung der Links in der jeweiligen Zielsprache. Sagte ich das nicht? ;-)

                Das ist kein Grund, historisch zu werden! Gut, du bist meiner Meinung, das geht in Ordnung. ;-)

                Das »I« in URI steht auch für Eindeutigkeit.

                [Content Negotiation]

                Na, da bin ich doch glatt anderer Meinung. Was nun? Opinion Negotiation? ;-)

                Grüße
                 Roland

                --
                SELFHTML-Community > Visitenkarten > Orlando
                Nachwuchsförderung 2.0: »Mami, sieh mal! Ich habe mit CSS eine Tabelle nachgebaut.«
                1. Hello out there!

                  Na, da bin ich doch glatt anderer Meinung. Was nun? Opinion Negotiation? ;-)

                  :-) OK, ich biete an, dass ja jede Format- und jede Sprachvariante „ihren“ URI hat:
                   ┌────────────────────────────────┬────────────────────────────────┐
                   │ http://example.net/foo.de.html │ http://example.net/foo.de.pdf  │
                   ├────────────────────────────────┼────────────────────────────────┤
                   │ http://example.net/foo.en.html │ http://example.net/foo.en.pdf  │
                   ├────────────────────────────────┼────────────────────────────────┤
                   │ http://example.net/foo.zh.html │ http://example.net/foo.zh.pdf  │
                   └────────────────────────────────┴────────────────────────────────┘

                  Sonst wäre ja eine Verlinkung auf andere Sprachvarianten gar nicht möglich.

                  Zusätzlich existiert ein URI
                   ┌────────────────────────────────┐
                   │ http://example.net/foo         │
                   └────────────────────────────────┘

                  Dieser ist der URI zur Ressource in all ihren Varianten. Und das ist der URI, der dem Nutzer mitgeteilt werden sollte.

                  Entsprechend den Angaben im Accept- und Accept-Language-Header erhält der Client die Ressource im gewünschten Format in der gewünschten* Sprache.

                  See ya up the road,
                  Gunnar

                  * vom User Agent gewünschten, was in Ausnahmefällen(!) nicht die vom User gewünschte ist

                  --
                  “Remember, in the end, nobody wins unless everybody wins.” (Bruce Springsteen)
                  1. Hallo Gunnar,

                    OK, ich biete an, dass ja jede Format- und jede Sprachvariante „ihren“ URI hat:

                    Genau, darauf wollte ich hinaus.

                    Zusätzlich existiert ein URI
                    ┌────────────────────────────────┐
                    │ http://example.net/foo         │
                    └────────────────────────────────┘

                    Dieser ist der URI zur Ressource in all ihren Varianten. Und das ist der URI, der dem Nutzer mitgeteilt werden sollte.

                    Ja, unter der Bedingung, dass die anderen Sprachvarianten dem Besucher ersichtlich sind.

                    Entsprechend den Angaben im Accept- und Accept-Language-Header erhält der Client die Ressource im gewünschten Format in der gewünschten* Sprache.

                    Status Code 202. ;-)

                    Grüße
                     Roland

                    --
                    SELFHTML-Community > Visitenkarten > Orlando
                    Nachwuchsförderung 2.0: »Mami, sieh mal! Ich habe mit CSS eine Tabelle nachgebaut.«
        2. Hallo Sven.

          Chinesen, die sich die englische Sprachversion von z.B. Firefox besorgen, übermitteln standardmäßig ihren Wunsch nur nach der englischen Sprache.

          Hm, wie lautet wohl die Vorauswahl für HTTP_ACCEPT_LANGUAGE in der chinesischen Version?

          Einen schönen Montag noch.

          Gruß, Ashura

          --
          sh:( fo:} ch:? rl:( br: n4:~ ie:{ mo:| va:) de:> zu:} fl:( ss:) ls:[ js:|
          „It is required that HTML be a common language between all platforms. This implies no device-specific markup, or anything which requires control over fonts or colors, for example. This is in keeping with the SGML ideal.“
          [HTML Design Constraints: Logical Markup]
        3. Hallo Sven,

          Oder die Frage erhalten, ob sie die Schrift nachinstallieren wollen, was auch nerven (und überfordern) kann.
          So eine Frage habe ich noch nie erlebt.

          das wundert mich nicht, da du sicher keinen Internet Explorer verwendest. Der fragt tatsächlich penetrant nach, wenn die Webseite ein Charset verwendet, das auf dem Clientsystem nicht verfügbar ist.

          Sie würde ja erfordern, dass man dem System einen Ort angibt, von dem auch nachinstalliert wird.

          Nö. Wo würde ein Microsoft-Produkt nach Zusatzmodulen, Zeichensätzen, Fonts etc. suchen? Genau, direkt bei Microsoft. ;-)

          Bliebe dann noch, dass das System das von selbst weiß. Da deutsches Windows aber offenbar keine chinsischen Fonts kennt und hat, kann das auch nicht passieren.

          Nun ja, mit einem anderen Browser passiert dann eben genau das, was auch beim IE passiert, nachdem ich Download und Installation der erforderlichen Schrift abgelehnt habe: Der User sieht Hieroglyphen, "Käschtle" oder sonstige lustigen Sonderzeichen. Nur dass die "anderen Browser" das eben sofort tun, ohne erst lästig nachzufragen.

          Schönen Tag noch,
           Martin

          --
          Mir geht es gut. Ich mag die kleinen Pillen, die sie mir dauernd geben.
          Aber warum bin ich ans Bett gefesselt?
    2. Hallo Sven,

      Das Problem ist nur: Deutsche Windows-Versionen bringen standardmäßig nicht zwingend chinesische Fonts mit. Keine Ahnung, ob XP das macht,

      Nein, macht XP nicht, auch nicht mit SP2. Abhängig vom Rechner werden mir z.B. CKs Postings mit Fragezeichen verziert oder eben nicht.

      Freundliche Grüße

      Vinzenz

  2. Hallo.

    Gibt es da "Tricks"?

    Ein je nach Zusammensetzung des Dokumentes gegebenenfalls zu vertretender ist das

    Frameset (Ja ja, ich weiß...)

    Ja, ich auch.
    MfG, at