Moin Axel,
Bemerkenswert ist: Die verlinkte Seite sehe ich auch mit der normalen westeuropäischen Kodierung quadratlos.
Wie quadratlos? Mit den korrekten chinesischen Schriftzeichen?
Genau so.
Das wäre wirklich seltsam. Wie ermittelst Du, ob der Browser die "normale westeuropäische Kodierung" verwendet?
Ich spreche von der Einstellung unter "Encoding".
In meiner PHP-Plünder-Seite habe ich auch den gleichen (kompletten) <head> der Quellseite angegeben, sehe aber beschriebenen Mist.
Mit welchem Betrachter?
Nochmal im Detail:
Die Quellseite http://www.chineseetymology.org/Etymology.aspx?characterInput=妙&submitButton=Analyze+Character sehe ich im Browser auch mit der Encoding-Einstellung "Westeuropäisch (ISO)" korrekt, also die chin. Schriftzeichen, alles wie es sein sollte.
Den Quelltext der Quellseite sehe ich im Text-Editor quadratisch.
Die mit meinem PHP-Script extrahierten unicodierten Zeichen sehe ich
- im Browser mit der Encoding-Einstellung "Westeuropäisch (ISO)" als Murks
- im Editor als Murks
- im Browser mit der Encoding-Einstellung "Unicode (UTF-8)" wie es sein soll
Erstaunlich ist das, weil die Zeichen im generierten Quelltext gegenüber den Zeichen im Quelltext der Ursprungseite verändert sind, in diese beschriebene Kombination aus Sonderzeichen und nem Quadrat, das eben hier vom Forum als "discouraged character" verpönt wird.
Wenn mit dem Browser, dann sendet Dein Server die falsche Angabe für charset. Da die vom Server gesendete Angabe schwerer wiegt, als ein
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
im HTML, kannst Du diese dort auch nicht korrigieren bzw.überschreiben. Der Server muss
Content-Type: text/html; charset=UTF-8
senden. Er sendet aber offensichtlich bei allen HTML-Ressourcen
Content-Type: text/html; charset=iso-8859-1
Das würde auch erklären, warum Du im Browser die Codierung manuell auf UTF-8 setzen musst.
Ok, ich glaube, zu verstehen. :-D Auf die Sendung des Servers habe ich aber nur dann Einfluss, wenn ich den Server selbst betreibe, richtig? Das Script läuft auch auf meinem persönlichen Festplatten-Server, allerdings wäre so eine Funktion (Extraktion von Daten aus externen Seiten) auch für die online-Site interessant - müsste ich mir das also direkt abschminken..?
Im Quelltext findet sich dieser Mist auch,
Dann kann der Editor, mit dem Du den Quelltext bearbeitest auch kein UTF-8.
Ja, davon gehe ich auch aus.
Mittlerweile hab ich das aber auch fertig und hat alles zu meiner Zufriedenheit funktioniert.
Schönen Gruß,
Mike