Hallo Felix, hallo DiBo33,
das setzt voraus, dass nur eine einzige <ul> auf der Seite existiert (..)
Das habe ich auch gerade bemerkt.
Schade, beim ersten Test mit 1 <ul> sah es so schön einfach aus.
Meine Idee, basierend auf deinen regex ist jetzt folgende:
Ich lösche alle Tags über und inkl. <body>.
Also <!DOCTYPE..., <html>, <meta>, <style>, <script>, <title>, <head>, <link>, <body>.
Hab ich was vergessen?
Der Inhalt der Tags bleibt stehen.
Somit hab ich nur noch den Inhalt von <body> umgeben von Text. Oder?
Dann kodier ich das Ganze in UTF-8 und kleb vorn einfach ein <xml... ran.
Zack, schon müsste ich einen schönen DOM-Baum haben der XML-Verwertbar ist. Oder? Hab ich was vergessen?
Danke und Grüße, Matze