Das sind gotische Zeichen, die in Unicode jenseits der Basic Multilingual Plane liegen, also Werte oberhalb von 0xFFFF haben.
Endlich mal jemmand der sich auskennt... Bin gestern im IRC alle möglichen Channels von #java über #mysql zu #wikipedia und #wikimedia-tech rauf und runter gelaufen, keiner wusste so recht was los ist...
Danke für deine Antwort!
oder liegt die schuld an mysql?
MySQL unterstützt nur die BMP: Unicode Support
Ich hatte schon vermutet das es daran liegt dass die nur max. 3 statt max. 4 Bytes pro Zeichen verwenden, aber das irgendwie zu überprüfen/"beweisen" hab ich nicht geschafft :\
Vielleicht betreiben die ihre Felder nicht mit einer UTF-8-Kodierung.
Wenn man bedenkt das die gesamte Seite auf UTF-8 ist, wär das doch irgendwie komisch das da die Datenbank nicht mitmacht...
Verwende den Feldtyp VARBINARY oder VARCHAR mit CHARACTER SET BINARY (was VARBINARY ergibt). Das hat aber den Verlust der UTF-8-Unterstützung für dieses Feld zur Folge, sprich: String-Operationen orientieren sich nicht mehr an den UTF-8-Byte-Sequenzen sondern denken 1 Byte = 1 Zeichen.
Hm... ich glaub nicht dass das wirklich die ideale lösung wäre... der rest funktioniert ja ofensichtlich wunderbar...
Kann ich vllt. MySQL sagen dass es diese Zeichen einfach ignoriert? Oder sie in der Java Anwendung irgendwie "unschädlich" machen?
Jedenfalls nochmal danke für deine Antwort!