Reguläre Ausdrücke - Alles außerhalb von Tags finden von LX, 15.01.2010 23:23

Reguläre Ausdrücke - Alles außerhalb von Tags finden

peter 15.01.2010 15:44

Hallo,

habe Text, der auch Link-Tags enthalten kann.
Nun möchte ich mit regulären Ausdrücken alles finden, was außerhalb dieser Tags steht, um darauf htmlentities() anzuwenden.
Jemand eine Idee, wie ich da rangehe?

gruß
peter

Beitrag melden

– Informationen zu den Bewertungsregeln

Reguläre Ausdrücke - Alles außerhalb von Tags finden
suit Homepage des Autors 15.01.2010 15:57

php
– Informationen zu den Bewertungsregeln
Nun möchte ich mit regulären Ausdrücken alles finden, was außerhalb dieser Tags steht, um darauf htmlentities() anzuwenden.

Die Sinnhaftigkeit erschließt sich mit zwar nicht ganz, aber bitte.

Jemand eine Idee, wie ich da rangehe?

preg_replace ist sicher vernünftig.

"Beliebige Zeichenkette (1)" gefolgt von "<link" gefolgt von "beliebige Zeichenkette (2)" gefolgt von "> bzw />" gefolgt von weiterer "beliebiger Zeichenkette (3)"

1 und 3 behandelst du mit htmlentities() und baust die Sache wieder zusammen - den e-Modifikator nicht vergessen.
Beitrag melden

–
Informationen zu den Bewertungsregeln
Reguläre Ausdrücke - Alles außerhalb von Tags finden
LX 15.01.2010 16:01

php
– Informationen zu den Bewertungsregeln
Du müßtest idealerweise eine Regexp mit callback verwenden:

1. '>' vorne an string anfügen
2. >([^<]+) -> match im Callback durch htmlentities schicken
3. '>' vorne wieder abschneiden

Gruß, LX

--
RFC 1925, Satz 6a: Es ist immer möglich, einen weiteren Umweg einzufügen.
RFC 1925, Satz 11a: Siehe Regel 6a
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Reguläre Ausdrücke - Alles außerhalb von Tags finden
  
  peter 15.01.2010 17:27
  
  php
  – Informationen zu den Bewertungsregeln
  Du müßtest idealerweise eine Regexp mit callback verwenden:
  
  '>' vorne an string anfügen
  
  ([^<]+) -> match im Callback durch htmlentities schicken
  
  '>' vorne wieder abschneiden
  
  Gruß, LX
  Da muß ich mir noch ein paar Gedanken machen wie ichs handhabe wenn kein Link vorkommt, aber der Ansatz gefällt mir richtig gut.
  
  Gruß
  peter
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Reguläre Ausdrücke - Alles außerhalb von Tags finden
    
    LX 15.01.2010 23:23
    
    php
    
    – Informationen zu den Bewertungsregeln
    Wenn kein Link vorkommt, funktioniert der Ansatz durch das vorangestellte > ganz genauso. Alles außerhalb von HTML-Tags wird umgewandelt - das sollte es doch, oder? Natürlich besteht noch das Problem, dass innerhalb des Textes theoretisch auch > in mathematischen Gleichungen vorkommen könnte - das müßte dann schon vorher korrekt kodiert werden, aber das kann man evtl. anderweitig abfangen.
    
    Gruß, LX
    
    --
    RFC 1925, Satz 6a: Es ist immer möglich, einen weiteren Umweg einzufügen.
    RFC 1925, Satz 11a: Siehe Regel 6a
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
Reguläre Ausdrücke - Alles außerhalb von Tags finden
Beat Homepage des Autors 15.01.2010 16:02

php
– Informationen zu den Bewertungsregeln
habe Text, der auch Link-Tags enthalten kann.
Nun möchte ich mit regulären Ausdrücken alles finden, was außerhalb dieser Tags steht, um darauf htmlentities() anzuwenden.

htmlentities sollte man heute nur noch sehr ausnahmsweise anwenden[1].
Vorher ist zu prüfen, ob die geeignete Encoding/Charset-Angabe nicht das Problem vollständig lösen kann.
Das beste Encoding/Charset ist gewiss UTF-8.
Einfach die Quellen im entsprechendend encodiert speichern.

[1] Falls du Inhalt in einem Encoding einliest, das du nicht selbst bestimmen kannst (Ressource von anderer domain). Aber auch hier ist UTF-8 vorausgesetzt, über die Programmierung eine Umkodierung der externen Daten möglich über entsprechende Filter beim I/O.

mfg Beat

--
><o(((°> ><o(((°>
<°)))o>< ><o(((°>o
Der Valigator leibt diese Fische
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Reguläre Ausdrücke - Alles außerhalb von Tags finden
  
  peter 15.01.2010 17:24
  
  php
  – Informationen zu den Bewertungsregeln
  Hi,
  
  htmlentities sollte man heute nur noch sehr ausnahmsweise anwenden[1].
  Vorher ist zu prüfen, ob die geeignete Encoding/Charset-Angabe nicht das Problem vollständig lösen kann.
  Das beste Encoding/Charset ist gewiss UTF-8.
  Einfach die Quellen im entsprechendend encodiert speichern.
  
  Ja, soll mit der Zeit alles mal Richtung UTF8 gehen.
  Die Daten kommen aber aus einer Datenbank, da is alles noch ISO.
  Will nicht alles in ISO weitermachen nur weil die Daten aus der DB so rüberkommen.
  
  Gruß
  peter
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Reguläre Ausdrücke - Alles außerhalb von Tags finden
    
    suit Homepage des Autors 15.01.2010 20:42
    
    php
    
    – Informationen zu den Bewertungsregeln
    Die Daten kommen aber aus einer Datenbank, da is alles noch ISO.
    
    utf8_encode() kennst du aber schon?
    
    bzw warum konvertierst du die Datenbank nicht einfach? wenn "alles" in derselben Kodierung vorliegt, ist das Kinderfasching.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

peter: Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden

Reguläre Ausdrücke - Alles außerhalb von Tags finden