@@dedlfix:
nuqneH
Der Kontext hier ist nicht deutsche Sprache sondern Computerei,
Computerei ist kein Selbstzweck, sondern immer nur Mittel zum Zweck.
Der Kontext ist Textverarbeitung (unabhängig vom Computer als verwendetem Werkzeug), und da ist 'ä' kein Sonderzeichen. 'ю', 'ξ', 'א' auch nicht.
und da sind es nunmal Zeichen, die jenseits der amerikanischen Vorstellung von Normalität existieren.
Beschränkte Vorstellungen sind nicht das Maß aller Dinge.
Auch allen Unicode-Bestrebungen zum Trotz werden es (noch lange) Zeichen bleiben, die man als Programmierer deutlich mehr beachten muss als ASCII-Buchstaben.
Abhängig von der Beschränktheit (der Entwickler) der Programmiersprache. PHP ist kein rühmliches Beispiel; in JavaScript sehe ich keine Probleme.
Selbst in einer reinen Unicode-Welt hat man mit den Combining Diacritical Marks versus "Lateinisch, erweitert-A" und B, etc. eine Sonderstellung geschaffen.
Ja, Normalisierung ist ein Thema. Aber ein anderes.
Es gibt schonmal zwei Wege, sie zu notieren, was als zu beachtende Besonderheit reichen sollte, um sie aus der "Normalität" herauszuholen.
Vergleiche mal die Anzahl der lateinischen Buchstaben, die sich als solcher (U+00E4 ä) und als Buchstabe + diakritisches Zeichen (U+0061 a U+0308 combining diaresis) darstellen lassen, mit denen ohne diakritische Zeichen. Du wirst sehen, dass [A-Za-z] die Ausnahme (die „Sonderzeichen“) sind.
Qapla'
Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
(Mark Twain)