Hallo zusammen,
die Zeiten sind ja schon lange vorbei, da dieser kleine Codeschnippsel
if(*html == '<')
while(*html != '>') html++;
else putchar(*html);
für den Zweck der Textextraktion aus HTML wunderbar funktionierte, also stehe ich nun wohl vor einer etwas aufwendigeren Implementation. Kommentare lassen sich ja relativ leicht handeln, da zwischen "--" und "--", nur Javascript, wenn als Nachkomme des script-Elementes, macht da schwer Ärger. Immerhin wird, Standard hin oder her, von den Browsern alles geschluckt. Z.B. Dekrementierung (i--) auch wenn das Javascript in einem Kommentar steht; aber vor allem das '<', das escaped werden müßte, aber in Javascript nur extrem selten wird (ich tu's ja auch nicht immer, gebe ich ehrlich zu ;-).
Gilt "alles zwischen '<script' und '</script' ist Javascript" immer, auch wenn unkorrekterweise das '<' z.B. in
alert("hallo </script>");
nicht ordnungsgemäß escaped wurde? Die mir hier zur Verfügung stehenden Browser machen es so halbwegs richtig (Zeigen die drei Zeichen '");' an, was an der Stelle eigentlich nicht zulässig ist. Oder ist ein Textknoten zwischen </script> und </head> etwa erlaubt?) aber ich habe hier keinen Zugriff auf den IE und auch beim Opera fehlt mir der Überblick.
Wenn mir also jemand bezüglich dieser Wissenslücke behilflich sein könnte?
so short
Christoph Zurnieden