Beat: Unicode Sortierung

Beitrag lesen

éêè sind erweiterungen von e und nach e zu sortieren.
ö ist ein Umlaut und ist damit eine Variante die nach oz, aber vor p einzuordnen ist.
ebenso das Smörebröd Ø ist wie ö einzuordnen.
ß ist nach ss aber vor st einzuordnen.
Das sind alles falsche Aussagen.

ich hatte es eher als Wunsch bzw. Forderung von Beat aufgefasst.

Richtig ein soll, wenn auch an diesem Punkt noch nicht durchdacht. Das braucht im Detail viel mehr Recherche.

außer du sortiert ganz banal nach Unicode-Codepoint.

Und genau das würde ich auf meinen Rechnern (sowohl Windows als auch Linux) gern als Default-Sortierung haben - insbesondere möchte ich nicht, dass einige Zeichen wie z.B. das Minuszeichen oder Klammern bei der Sortierung ganz ignoriert werden. Bisher habe ich aber keinen Ansatzpunkt gefunden, wie ich den Systemen das beibringe.

Ich denke, das was ich brauche, ist die Umkehrung der Normalisieerung

ein ö kannst du durch ein o und ein ¨ erzeugen. Ein Editor normalisiert on the fly. ¨ + o ergeben ö . Das ist als normalisierung bekannt.
Wenn ich nun die Normalisierung Rückgängig machen kann, dann kann ich den ersten teil einem Wurzelbuchstaben zuordnen, oder schlicht p{alpha}, und die Erweiterung einer Klasse zuordnen.

mfg Beat

--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o
Der Valigator leibt diese Fische