Liste nicht erlaubter sonderzeichen?
benjamin
- xml
0 Björn Höhrmann0 fjh
Hallo !
Um einen externen Datenlieferant anweisen zu können, sonderzeichen aus einer XML Datei herauszufiltern, suche ich verzweifelt eine liste (vorzugsweise von w3) in welcher alle zeichen drinne stehen die nicht in den tags enthalten sein dürfen. so z.B. <>
vielen tausend dank!
benjamin
Um einen externen Datenlieferant anweisen zu können, sonderzeichen aus einer XML Datei herauszufiltern, suche ich verzweifelt eine liste (vorzugsweise von w3) in welcher alle zeichen drinne stehen die nicht in den tags enthalten sein dürfen. so z.B. <>
Was meinst du mit "in den Tags"? Als Elementinhalt? In Attributwerten? Elementnamen? Textknoten? In http://www.w3.org/TR/REC-xml findest du eine Positivliste, sprich, wo welche Zeichen erlaubt sind. Prinzipiell für Element- und Attributinhalt wäre das
Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] |
[#xE000-#xFFFD] | [#x10000-#x10FFFF]
Es sind also nur sehr wenige Zeichen nicht zulässig. Wenn du Zeichen mit besonderer Bedeutung meinst, ist die Liste sehr kurz. Literal darf nicht vorkommen:
<
&
]]>
' in '-begrenzten Attributwerten
" in "-begrenzten Attributwerten
Das war es dann aber auch schon. Die Zeichenketten dürfen maskiert selbstverständlich vorkommen.
Hi,
Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] |
[#xE000-#xFFFD] | [#x10000-#x10FFFF]
Es sind also nur sehr wenige Zeichen nicht zulässig.
nur eine kurze Nachfrage:
Was ist mit den Zeichen #x80-#x99, die dürften doch auch nicht erlaubt sein, oder?
Schönen Gruß
Rainer
Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] |
[#xE000-#xFFFD] | [#x10000-#x10FFFF]
Es sind also nur sehr wenige Zeichen nicht zulässig.
nur eine kurze Nachfrage:
Was ist mit den Zeichen #x80-#x99, die dürften doch auch nicht erlaubt sein, oder?
Doch, diese Steuerzeichen sind erlaubt. Was sinnvolles ist damit natürlich kaum anzufangen.
Hallo Benjamin,
Um einen externen Datenlieferant anweisen zu können, sonderzeichen aus einer XML Datei herauszufiltern, suche ich verzweifelt eine liste (vorzugsweise von w3) in welcher alle zeichen drinne stehen die nicht in den tags enthalten sein dürfen. so z.B. <>
Hm, was meinst du mit _in_ den Tags....?
Innerhalb eines Tags - also als Inhalt eines Tags (<tag>inhalt</tag>) - darf alles stehen, was nicht Markup ist (sogenannte Zeichendaten), d.h. alles ausser & und < (Maskierbar mit < und '). Willst Du Kompatibilität zu SGML musst du auch > maskieren als gt;
vgl. auch: http://www.w3.org/TR/REC-xml#syntax
Die Tagnamen (besser: Element(typ)namen ;-)) unterliegen besonderen Regeln:
http://www.w3.org/TR/REC-xml#sec-common-syn
Gruß
Franz