gudn tach!
Seth hat Eingangs irgendwo erwähnt, dass es auch einen längeren Minusstrich gibt.
schlimmer als das:
u+002d: hyphen-minus (allround-bindestrich-minus)
u+2010: hyphen (viertelgeviertstrich)
u+2011: non-breaking hyphen (nicht umbrechender viertelgeviertstrich)
u+2012: figure dash
u+2013: en dash (halbgeviertstrich)
u+2014: em dash (geviertstrich)
u+2015: horizontal bar
u+2212: minus sign
und das sind vermutlich noch nicht alle. die machen zwar im kontext semantisch nicht immer sinn, aber das sieht man ihnen nun mal leider haeufig nicht an.
aber wer solche zeichen im web bei konventioneller eingabe verwendet, hat es vielleicht einfach verdient, mit einer entsprechenden meldung belohnt zu werden, sowas wie "hey, wow, toll, du kannst unicode! das ist mir jedoch unheimlich egal, weil es mir zu viel arbeit machen wuerde, das zu unterstuetzen, ohne dass es mir einen erkennbaren nutzen bringen wuerde." naja, ich uebertreibe und schweife ab.
Herauszubekommen wäre nun, wie ich den aus meiner Tastatur prügle, und dann natürlich bei dem Würmchencode einzusetzen:
~/EZ ?(-|langesminus) ?Team/i
Geht das vielleicht so?
so aehnlich. einzelne zeichen werden am besten mit eckigen klammern zusammengefasst und dann ohne '|' dazwischen. und die ollen zeichen mit grossen unicode-hexwerten gibt man haeufig besser nicht explizit ein, sondern ueber die hexwerte, um gegen encoding-probleme etwas gewappneter zu sein:
/EZ ?[-\x{2010}\x{2011}\x{2012}\x{2013}\x{2014}\x{2015}\x{2212}] ?Team/i
innerhalb solcher zeichenklassen kann man die fuer in unicode aufeinanderfolgene zeichen abkuerzende schreibweise verwenden:
/EZ ?[-\x{2010}-\x{2015}\x{2212}] ?Team/i
das '-' wird zwischen zwei zeichen innerhalb einer zeichenklasse als "bis" interpetiert. am anfang (und auch am ende) einer zeichenklassendefinition wird es literal, also als '-' verstanden.
aber dieser ganze unicode-spass macht den source-code haesslicher. je nach anwendung waere es zu ueberlegen, den unicode-fetisch einfach vorab mittels
s/[\x{2010}-\x{2015}\x{2212}]/-/g;
zu entfernen, um damit spaeter keine probleme mehr zu haben.
prost
seth