(kaputtes) HTML parsen und mit XPath sachen auslesen von Christian Seiler, 07.04.2008 20:15

(kaputtes) HTML parsen und mit XPath sachen auslesen

Jeena Paradies Homepage des Autors 07.04.2008 19:30

Hallo,

Ich habe einen XPath, der so aussieht: /html/head/link[@rel='avatar']/@href

Der ist jetzt noch nicht ganz richtig, da <html> und <head> optional sind, aber lassen wir das erst einmal weg.

Ich suche jetzt nach einer sinnvollen Möglichkeit mit PHP4 eine normale HTML-Seite, die nicht nach XHTML validiert zu parsen und diesen XPath dann zu benutzen. Gibt es da eine oder werde ich da kein Glück haben?

Jeena

--
Welche Podcasts hÃ¶rt ihr? | Jlog | Gourmetica Mentiri

Beitrag melden

– Informationen zu den Bewertungsregeln

(kaputtes) HTML parsen und mit XPath sachen auslesen
Christian Seiler Homepage des Autors 07.04.2008 20:15

php
– Informationen zu den Bewertungsregeln
Hallo Jeena,

/html/head/link[@rel='avatar']/@href
Der ist jetzt noch nicht ganz richtig, da <html> und <head> optional sind, aber lassen wir das erst einmal weg.

//link[@rel='avatar']/@href :-)

Ich suche jetzt nach einer sinnvollen Möglichkeit mit PHP4 eine normale HTML-Seite, die nicht nach XHTML validiert zu parsen und diesen XPath dann zu benutzen. Gibt es da eine oder werde ich da kein Glück haben?

Du kannst die Seite durch Tidy jagen (das gab's schon in PHP4), Dir damit ein wohlgeformtes XML-Dokument erzeugen lassen, dieses dann durch die alte domxml-Erweiterung von PHP4 jagen und dann die xpath-Funktionen von PHP4 drauf loslassen. Steht und fällt halt mit der Verfügbarkeit von Tidy (domxml kann man eigentlich voraussetzen).

Ansonsten wüßte ich keine einfache Möglichkeit für so etwas.

Viele Grüße,
Christian

--
Mein "Weblog" [RSS]
Using XSLT to create JSON output (Saxon-B 9.0 for Java)
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Jeena Paradies: (kaputtes) HTML parsen und mit XPath sachen auslesen

(kaputtes) HTML parsen und mit XPath sachen auslesen

(kaputtes) HTML parsen und mit XPath sachen auslesen

(kaputtes) HTML parsen und mit XPath sachen auslesen