Ci yi bak!
Es gibt nämlich mehr Kombinationsmöglichkeiten von lateinischen Buchstaben und diakritischen "Schnörkeln" als eigenständige Zeichen dafür in Unicode vorgesehen sind. Und damit man Unicode nicht mit all diesen Möglichkeiten vollpflastern muss, hat man diesen Combining Diacritical Marks einen eigenen Bereich gegeben und definiert: Wenn sie einem anderen Zeichen folgen, werden beide Zeichen zu einem verbunden. (Ist jetzt vielleicht nicht 100% korrekt formuliert, aber die grobe Richtung dürfte klar sein.)
Stimmt schon, gilt aber nicht nur für lateinische Buchstaben. Besonders süd- und südostasiatische Schriften verwenden sehr viele Diakritika. Devanagari z.B. würde mehrere hundert Codepoints verschlingen, wenn man alle möglichen Kombinationen und Ligaturen aufgenommen hätte. So sind nur 112 definiert.
Wenn du nun in deinem Texeditor ein ü eingibst, und der speichert es als kombiniertes Zeichen, dann kann der Vergleich mit "u gefolgt von ̈" keine Übereinstimmung ergeben. Du musst also sowohl nach ü (für andere Betriebs-/Dateisysteme) suchen, also auch nach u + ̈ suchen und das ersetzen.
Ja, oder den String vorher in eine bestimmte Normalisierungsform bringen. Welche, ist im Prinzip egal.
Viele Grüße vom Længlich
Mein aktueller Gruß ist:
Dinka (gesprochen im Sudan)