(kaputtes) HTML parsen und mit XPath sachen auslesen von Christian Seiler, 07.04.2008 20:15

(kaputtes) HTML parsen und mit XPath sachen auslesen

Christian Seiler Homepage des Autors 07.04.2008 20:15

Hallo Jeena,

/html/head/link[@rel='avatar']/@href
Der ist jetzt noch nicht ganz richtig, da <html> und <head> optional sind, aber lassen wir das erst einmal weg.

//link[@rel='avatar']/@href :-)

Ich suche jetzt nach einer sinnvollen Möglichkeit mit PHP4 eine normale HTML-Seite, die nicht nach XHTML validiert zu parsen und diesen XPath dann zu benutzen. Gibt es da eine oder werde ich da kein Glück haben?

Du kannst die Seite durch Tidy jagen (das gab's schon in PHP4), Dir damit ein wohlgeformtes XML-Dokument erzeugen lassen, dieses dann durch die alte domxml-Erweiterung von PHP4 jagen und dann die xpath-Funktionen von PHP4 drauf loslassen. Steht und fällt halt mit der Verfügbarkeit von Tidy (domxml kann man eigentlich voraussetzen).

Ansonsten wüßte ich keine einfache Möglichkeit für so etwas.

Viele Grüße,
Christian

--
Mein "Weblog" [RSS]
Using XSLT to create JSON output (Saxon-B 9.0 for Java)

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Christian Seiler: (kaputtes) HTML parsen und mit XPath sachen auslesen

Beitrag lesen

(kaputtes) HTML parsen und mit XPath sachen auslesen

(kaputtes) HTML parsen und mit XPath sachen auslesen