Simon: Sonderzeichen-Unicode-Transformator

Hallo!
Ich suche ein Hilfsprogramm, dass Sonderzeichen (diakritische Zeichen) verschiedenster Sprachen (kyrillisch, isländisch, spanisch, lettisch, ...) in die jeweilige Unicode-Nummer umwandelt.
Kennt jemand so etwas, möglichst Shareware und möglichst vollständig (also für wirklich viele fremde Sprachen)?

Und die zweite Frage ist eher die Bitte um Bestätigung: Wenn ich diese Sonderzeichen dann durch die Unicode-Nummer ersetze müssen keine weiteren Schritte unternommen werden um die HTML-Seite sicher darstellen zu können?!

Vielen Dank,

Simon

PS: Sorry für die "faule" Nutzung von Forumswissen, aber ich habe zwar beim googeln zwar viel über Diakritisch, Unicode und Co lesen können, aber kein Transformationsprogramm gefunden - und ich bin Newbie...

  1. Hallo Simon,

    Hallo!
    Ich suche ein Hilfsprogramm, dass Sonderzeichen (diakritische Zeichen) verschiedenster Sprachen (kyrillisch, isländisch, spanisch, lettisch, ...) in die jeweilige Unicode-Nummer umwandelt.

    Diakritische Zeichen sind meist Sonderzeichen, umgekehrt ist das aber meist nicht der Fall. Diakritische Zeichen sind Zeichen, die als Ergänzung zu anderen Zeichen dienen z.B Akzente.

    Kennt jemand so etwas, möglichst Shareware und möglichst vollständig (also für wirklich viele fremde Sprachen)?

    Ich suche mir das Zeichen in Word heraus. Das haben die meisten ohnehin auf ihrem System. Empfehlenswert ist es, sich vorher den Zeichensatz Arial Unicode MS downzuloaden.

    Und die zweite Frage ist eher die Bitte um Bestätigung: Wenn ich diese Sonderzeichen dann durch die Unicode-Nummer ersetze müssen keine weiteren Schritte unternommen werden um die HTML-Seite sicher darstellen zu können?!

    Doch du musst für den passenden Zeichesatz sorgen, der das Zeichen darstellen kann. Das geht ja ggf. mal schnell innerhalb eines Span-Elements, ohne dass man gleich das entsprechende Meta-Tag für das ganze Dokument umstellen müsste.

    Gruß Gernot

    Wenn du kein Textverarbeitungsprogramm hast, das dir eine Übersicht über Sonderzeichen verschafft, gibt es ja auch noch die offiziellen Unicode-Seiten. Für diakritische Zeichen ist eine Texverarbeitungsprogramm vielleicht tatsächlich nicht die erste Wahl.

    1. Doch du musst für den passenden Zeichesatz sorgen, der das Zeichen darstellen kann. Das geht ja ggf. mal schnell innerhalb eines Span-Elements, ohne dass man gleich das entsprechende Meta-Tag für das ganze Dokument umstellen müsste.

      ??

      Gernot,
      Wenn du mit „Zeichensatz“ die Schriftart meinst, was hat die Meta-Angabe damit zu tun?
      Wenn du mit „Zeichensatz“ die Codierung meinst, was hat ein span-Element damit zu tun?

      Gunnar

      --
      “I got my finger on the trigger / But I don’t know who to trust” (Bruce Springsteen, Devils and Dust)
      1. Hallo Gunnar,

        Wenn du mit „Zeichensatz“ die Schriftart meinst, was hat die Meta-Angabe damit zu tun?
        Wenn du mit „Zeichensatz“ die Codierung meinst, was hat ein span-Element damit zu tun?

        Ich weiß nur, dass

        <meta http-equiv=Content-Type content="text/html; charset=windows-1250">

        bei diesem Spielchen wichtig war, wahrscheinlich, weil ich da auch alt- und title-Attribute der Bilder im entsprechenden Zeichensatz(!) haben wollte.("charset" heißt doch Zeichensatz, oder? Vielleicht sitze ich aber auch einer falschen Microsoft-Terminologie auf) Wahrscheinlich funktioniert das auch nur unter Windows. ;-)

        Gruß Gernot

        1. Hi,

          <meta http-equiv=Content-Type content="text/html; charset=windows-1250">
          "charset" heißt doch Zeichensatz, oder?

          Ja, charset heißt Zeichensatz. Aber das charset im Content-Type steht trotz des keyword charset nicht für das charset (das ist bei HTML immer Unicode bzw. ISO10646), sondern für das encoding.
          (siehe auch XML-Declaration, dort heißt die entsprechende Angabe richtigerweise encoding)

          cu,
          Andreas

          --
          Warum nennt sich Andreas hier MudGuard?
          Schreinerei Waechter
          Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
  2. Hallo Simon,

    Ich suche ein Hilfsprogramm, dass Sonderzeichen (diakritische Zeichen) verschiedenster Sprachen (kyrillisch, isländisch, spanisch, lettisch, ...) in die jeweilige Unicode-Nummer umwandelt.

    ich habe Dir mal auf die Schnelle was gebastelt, kannst es Dir ja mal ansehen. Es ist einfach nur eine Exceldatei, Makros müssen aber aktiviert sein.

    Einfach den Text in die obere Textbox kopieren und dann den Code erstellen lassen.

    http://www.excel-vba.de/temp/unicode2code.zip

    Viele Grüße

    Jörg

    1. Hallo Jörg!

      Vielen Dank!!
      Das hilft sehr viel weiter. Aber auch an dich die Frage: Ist es (ohne viel Aufwand) auch möglich, nur diakritische (Sonder)Zeichen und nicht die üblicherweise sowieso darstellbaren Zeichen (das klassische Alphabet, Nummern, Leerzeichen) umwandeln zu lassen?

      Aber auch so - DANKE.

      Simon

      1. Hallo Simon,

        Das hilft sehr viel weiter. Aber auch an dich die Frage: Ist es (ohne viel Aufwand) auch möglich, nur diakritische (Sonder)Zeichen und nicht die üblicherweise sowieso darstellbaren Zeichen (das klassische Alphabet, Nummern, Leerzeichen) umwandeln zu lassen?

        aber sicher. ;-)

        Du kannst Dir die Datei ja nochmal herunterladen:

        http://www.excel-vba.de/temp/unicode2code.zip

        Da findest Du jetzt ein Feld "Bereich ab", in das Du eintragen kannst, ab wann umgewandelt werden soll. Vorbelegt habe ich es mit der 256.

        Viele Grüße

        Jörg

        1. Hallo Jörg!

          Ich bin begeistert! (wirklich!) Vielen Dank für die hervorragende Hilfe in diesem Forum!

          Simon

      2. Hallo Simon,

        Das hilft sehr viel weiter. Aber auch an dich die Frage: Ist es (ohne viel Aufwand) auch möglich, nur diakritische (Sonder)Zeichen und nicht die üblicherweise sowieso darstellbaren Zeichen (das klassische Alphabet, Nummern, Leerzeichen) umwandeln zu lassen?

        Du vermischst die Begriffe:

        Das dänische "å" ist wie das deutsche "ä" ein Sonderzeichen. Der Kringel ° über dem "a" ist ein diakritisches Zeichen und als solches auch ein Sonderzeichen, so wie beim "ä" die Pünktchen.

        Vgl.: http://www.unicode.org/glossary/index.html#diacritic

        Zu obigem Link bleibt anzumerken: Im Deutschen heißen nicht die zwei Punkte auf dem Vokal "Umlaut", sondern die Vokale, die aus syntaktischen Gründen "umgelautet" werden. Auch die englische Sprache kennt Umlaute: So ist die Pluralbildung "mice" zum Singular "mouse" nichts anderes als ein Umlaut-Phänomen.

        Im Deutschen wird auch zwischen dem diakritischen Zeichen "Trema" und der dadurch gekennzeichneten getrennten Aussprache "Diärese" (Citroën)unterschieden. Das Englische nimmt es da nicht so genau.

        Gruß Gernot

        1. Hallo Gernod!

          Das dänische "å" ist wie das deutsche "ä" ein Sonderzeichen. Der Kringel ° über dem "a" ist ein diakritisches Zeichen und als solches auch ein Sonderzeichen, so wie beim "ä" die Pünktchen.

          Ok, jetzt hab ich es verstanden. Danke.

          Simon

  3. Hallo,

    Ich suche ein Hilfsprogramm, dass Sonderzeichen (diakritische Zeichen) verschiedenster Sprachen (kyrillisch, isländisch, spanisch, lettisch, ...) in die jeweilige Unicode-Nummer umwandelt.

    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
            "http://www.w3.org/TR/html4/strict.dtd">
    <html>
    <head>
    <title>Characters to Entities</title>
    <meta http-equiv="content-type" content="text/html; charset=UTF-8">
    <script type="text/javascript">
    <!--
    function chars2entities(t1, t2) {
      var enttext = "";
      for (i=0; i<t1.value.length; i++) {
        enttext += "&#"+t1.value.charCodeAt(i)+";";
      }
      t2.value=enttext;
      document.getElementById("enttest").innerHTML=enttext;
    }
    //-->
    </script>
    </head>
    <body>
    <form action="#" method="GET">
    <textarea name="t1" cols="50" rows="5"></textarea>
    <input type="button" name="OK" value="OK" onclick="chars2entities(this.form.t1, this.form.t2)">
    <textarea name="t2" cols="50" rows="5"></textarea>
    </form>
    <div id="enttest"></div>
    </body>
    </html>

    viele Grüße

    Axel

    1. Hallo Axel!
      Vielen Dank!!
      Aber - jeder erfüllt Wunsch ergibt neue Begehrlichkeiten: Ist es auch möglich, dass nur Zeichen umgewandelt werden, die nicht im ANSI-code enthalten sind? (Also nur diakritische Zeichen und nicht Zahlen, das "normale" Alphabet und Leerzeichen)?
      Aber auch die schon vorhandene Lösung hilft sehr gut!!!

      Simon

      1. Hallo,

        Aber - jeder erfüllt Wunsch ergibt neue Begehrlichkeiten: Ist es auch möglich, dass nur Zeichen umgewandelt werden, die nicht im ANSI-code enthalten sind?

        Du meinst nicht im US-ASCII-code enthalten sind. Nur diese Zeichen sind nämlich unkritisch.

        Diese Zeichen haben die Eigenschaft, dass ihr charCodeAt() größer als 127 ist. Du kannst die Funktion ja entsprechend anpassen, dass sie enttext += "&#"+t1.value.charCodeAt(i)+";"; nur dann erzeugt und sonst enttext += t1.value.charAt(i);.

        http://de.selfhtml.org/javascript/objekte/string.htm
        ...wobei die Beschreibung von String.charCodeAt() nicht ganz richtig ist. Es liefert nicht den Latin-1-Code, sondern Unicode http://synchro.net/docs/js/ref/string.html#1196647

        viele Grüße

        Axel

        1. Hallo Axel!

          Vielen Dank für die Hilfe!!

          Simon