Jeena Paradies: (kaputtes) HTML parsen und mit XPath sachen auslesen

Hallo,

Ich habe einen XPath, der so aussieht: /html/head/link[@rel='avatar']/@href

Der ist jetzt noch nicht ganz richtig, da <html> und <head> optional sind, aber lassen wir das erst einmal weg.

Ich suche jetzt nach einer sinnvollen Möglichkeit mit PHP4 eine normale HTML-Seite, die nicht nach XHTML validiert zu parsen und diesen XPath dann zu benutzen. Gibt es da eine oder werde ich da kein Glück haben?

Jeena

  1. Hallo Jeena,

    /html/head/link[@rel='avatar']/@href
    Der ist jetzt noch nicht ganz richtig, da <html> und <head> optional sind, aber lassen wir das erst einmal weg.

    //link[@rel='avatar']/@href :-)

    Ich suche jetzt nach einer sinnvollen Möglichkeit mit PHP4 eine normale HTML-Seite, die nicht nach XHTML validiert zu parsen und diesen XPath dann zu benutzen. Gibt es da eine oder werde ich da kein Glück haben?

    Du kannst die Seite durch Tidy jagen (das gab's schon in PHP4), Dir damit ein wohlgeformtes XML-Dokument erzeugen lassen, dieses dann durch die alte domxml-Erweiterung von PHP4 jagen und dann die xpath-Funktionen von PHP4 drauf loslassen. Steht und fällt halt mit der Verfügbarkeit von Tidy (domxml kann man eigentlich voraussetzen).

    Ansonsten wüßte ich keine einfache Möglichkeit für so etwas.

    Viele Grüße,
    Christian