unicode htmlentities
klauss
- html
hallo,
à à à à
was ist der unterschied zwischen unicode und
htmtentities praktisch gesehen, also wenn es
im quelltext auftaucht, hinsichtlich lesbarkeit
und suchmaschinenverarbeitbarkeit?
http://unicode.e-workers.de/entities.php
was sollte man in den html-quelltext schreiben?
was ist besser? können alle gängigen broweser alles außer à?
welche lösungen sind akzeptabel, sofern man n-u-r
den html quelltext bearbeiten will und keine
serveranweisungen (htaccess oder so was).
danke.
à à à à
was ist der unterschied zwischen unicode und htmtentities praktisch gesehen, also wenn es im quelltext auftaucht, hinsichtlich lesbarkeit und suchmaschinenverarbeitbarkeit?
Was Du besser lesen kannst, musst Du selber wissen (vermutlich die benannte Form), aber mit das Grundlegenste und vermutlich auch Erste, was ein verarbeitendes Programm (und damit jede Suchmaschine) macht, ist, sämtliche Formen der Zeichenkodierung auf ein einheitliches, internes Format umzustellen. Kurz: Was Du benutzt, ist wurscht.
was ist besser? können alle gängigen broweser alles außer à?
Alle gängigen Browser können sogar à (vorausgesetzt, man führt sie nicht mit falschen Zeichensatzangaben in die Irre).
Alle gängigen Browser können sogar à (vorausgesetzt, man führt sie nicht mit falschen Zeichensatzangaben in die Irre).
viele sonderzeichen werden aber von den (meinen) browsern nicht richtig
dargestellt und ich glaube nicht, dass ein webmaster die
bewußt in die irre führt ...
Hi klauss!
viele sonderzeichen werden aber von den (meinen) browsern nicht richtig
dargestellt und ich glaube nicht, dass ein webmaster die
bewußt in die irre führt ...
Dann liegt das an Fehlern deinerseits oder auf der Seite der betreffenden Webseiten.
Kannst du Beispiele zeigen?
MfG H☼psel
Alle gängigen Browser können sogar à (vorausgesetzt, man führt sie nicht mit falschen Zeichensatzangaben in die Irre).
viele sonderzeichen werden aber von den (meinen) browsern nicht richtig dargestellt
Was ist "viele" und welche Zeichen sind betroffen? Übertrieben pingelig könnte man sagen, dass einige zig Tausend Zeichen nicht zum über den Daumen gepeilten 200 Zeichen fassenden Standardumfang von iso-8859-1 gehören und es insofern nicht allzu verwunderlich ist, dass "viele" nicht angezeigt werden.
und ich glaube nicht, dass ein webmaster die bewußt in die irre führt ...
Du ahnst gar nicht, wie oft zum Beispiel windows-1252 genutzt, aber als Zeichensatz iso-8859-1 angeben wird (oder gar keiner, was aber im Allgemeinen auf dasselbe hinausläuft), was dann je nach Browser und Betriebssystem insbesondere zu Ausfällen des Euro- oder einiger Anführungszeichen führt.
So oder so solltest Du mit dem Grundstock der Zeichen, die in iso-8859-1 festgelegt sind, keine Probleme haben, wenn Du HTML-Masken (egal ob mit Name oder Nummer) einsetzt. Bei darüber hinausgehenden Zeichen sind die Nummern besser, ältere Browser kennen teilweise die Namen nicht. Allerding wäre eh zu bedenken, dass ganz alte Browser unter Umständen sowieso auf einen 256 Zeichen umfassenden, meist systembedingten Basissatz beschränkt sind, sprich mit Unicode nichts anfangen können. Der Anteil dieser Browser dürfte aber im untersten Promillebereich zu finden sein.
Tippst Du hingegen die Zeichen direkt ein, musst Du lediglich darauf achten, unbedingt entweder in '<meta http-equiv="Content-Type" content="text/html; charset=[Zeichensatz]>"' oder (nicht und!) im entsprechenden HTTP-Kopf Content-Type den richtigen Zeichensatz anzugeben. Schreibst Du mit einem einfachen Texteditor unter einem deutschen Windows, ist das windows-1252; empfehlenswert ist allerdings ein utf-8-fähiger Texteditor.
Ob im HTTP-Kopf schon ein Zeichensatz geliefert wird und welcher das ist, kannst Du im Zweifelsfall zum Beispiel mit der Firefox-Erweiterung LiveHTTPHeaders herausfinden.
Kurzum, es ist nicht besonders schwierig, die Zeichen richtig ankommen zu lassen, man muss sich nur drum kümmern.
echo $begrüßung;
[...] unbedingt entweder in '<meta http-equiv="Content-Type" content="text/html; charset=[Zeichensatz]>"' oder (nicht und!) im entsprechenden HTTP-Kopf Content-Type den richtigen Zeichensatz anzugeben.
Interpretiere ich es richtig, dass dein "oder" als ein ausschließendes gemeint ist? Wenn ja, warum dies und nicht beides?
Der HTTP-Header hat zwar Vorrang vor der Meta-Element-Angabe, aber beim lokalen Speichern fällt der HTTP-Header weg und die Kodierungsangabe ist dann nur noch im Meta-Element enthalten, falls der Browser nicht eigenmächtig das Dokument verändert, indem er eine Zeichensatz-Angabe hinzufügt.
echo "$verabschiedung $name";
[...] unbedingt entweder in '<meta http-equiv="Content-Type" content="text/html; charset=[Zeichensatz]>"' oder (nicht und!) im entsprechenden HTTP-Kopf Content-Type den richtigen Zeichensatz anzugeben.
Interpretiere ich es richtig, dass dein "oder" als ein ausschließendes gemeint ist? Wenn ja, warum dies und nicht beides?
Doppelt gemoppelt hält hier nicht nur nicht besser, sondern könnte im Gegenteil obendrein zu Verwirrungen führen, die nur Zeit und Nerven für die Fehlersuche kosten. Exakt dieselbe Eigenschaft an verschiedenen Stellen gleichzeitig zu setzen halte ich deshalb vorausschauenderweise immer für etwas unklug (gilt nicht nur für diesen Fall).
beim lokalen Speichern fällt der HTTP-Header weg und die Kodierungsangabe ist dann nur noch im Meta-Element enthalten,
Deswegen (und wegen der besseren Sichtbarkeit für den Seitenautor) ist das <meta>-Element eigentlich sogar vorzuziehen.
Hallo,
was ist der unterschied zwischen unicode und
htmtentities praktisch gesehen, also wenn es
im quelltext auftaucht, hinsichtlich lesbarkeit
und suchmaschinenverarbeitbarkeit?
Im Gegensatz du numerischen und hexadezimalen Angaben, müssen die benannten Maskierungen (wie auml, agrave, etc) in einer DTD festgelegt werden.
Problematisch wird es, wenn du XML-Dateien schreibst, denn die meisten Parser lesen die zugehörige DTD nicht ein und kennen daher die benannten Entities nicht.
Deshalb ist utf-8 als Zeichenkodierung empfohlen (dann können alle Zeichen im Reintext eingegeben werden) und nur die 5 besonderen Zeichen sollten maskiert werden: < (<), > (>), & (&), " (") und ' (eigentlich ' aber wegen HTML-Kompatibilität sollte man ' bzw. ' verwenden).
was ist besser? können alle gängigen broweser alles außer à?
Alle modernen Browser können unicode verarbeiten. Ob ein Zeichen auch angezeigt wird hängt aber davon ab, ob entsprechende Zeichensätze auf dem Betriebssystem installiert sind.
welche lösungen sind akzeptabel, sofern man n-u-r
den html quelltext bearbeiten will und keine
serveranweisungen (htaccess oder so was).
Keine bzw. die hexadeziale im Zweifelsfall.
Gruß;