Christoph Schnauß: HTML rekonfigurieren

Beitrag lesen

morgens ;-)

Ich hab nen etwas abseitiges Problem: verschiedene Tutorials, wie zum Beispiel das PHP-Handbuch (http://www.php-center.de/de-html-manual/) werden mit Hilfe von DocBook XML DTD (siehe http://www.oasis-open.org/docbook/xml/) generiert/formatiert. Wenn ich mir dann in einem Editor den HTML-Quelltext anschaue, kriege ich sowas zu sehen:

<HTML

<HEAD
<TITLE
Wie wir die Formate generieren</TITLE
<META

NAME="GENERATOR"
CONTENT="Modular DocBook HTML Stylesheet Version 1.73
"><LINK
REL="HOME"
TITLE="PHP Handbuch"
HREF="index.html"><LINK
REL="UP"
TITLE="Über das Handbuch"
HREF="about.html"><LINK
REL="PREVIOUS"

igitt. Das mag zwar eben "xml-generiert" sein, aber die "reine Lehre" von validem HTML, wie wir sie hier gemeinhin verfechten, kommt da doch mehr als zu kurz.

Ich lade mir nun gelegentlich ein paar solcher Seiten (die Angewohnheit, diese Methode zu verwenden, ist ziemlich verbreitet) herunter, weil ich sie eben gerne auch offline haben möchte. Das können auch schonmal ein paar Dutzend im Bündel werden.
Jetzt will ich natürlich, daß auf meinem Rechner das oben angeführte Ausschnitt-Beispiel in der Form
<html>
<head>
<title>Wie wir die Formate generieren</title>
<meta name="GENERATOR" content="Modular DocBook HTML Stylesheet Version 1.73">
<link rel="home" title="PHP Handbuch" href="index.html">
<link rel="up" title="Über das Handbuch" href="about.html">
<link rel="previous"
abgelegt wird  -  also ohne die zahlreichen Zeilenumbrüche und konsequent mit Kleinschreibung  -  und in bezug auf zahlreiche "überflüssige" tags auch bei fast allen diesen Seiten nahezu um die Hälfte kleiner. Fast immer sind da auch eine Vielzahl von DIV's und SPAM's drin, die ich offline alle rausstreichen möchte, andrerseits möchte ich meine individuelle CSS reinstecken.

Bei einer einzelnen heruntergeladenen Datei krieg ich das ja auch noch hin, aber wenn es sich (wie beim PHP-Handbuch und anderen online-Dokumentationen) um ein Paket mit mehreren tausend teilweise sehr umfangreichen Seiten handelt, ist das in "Handarbeit" schlicht unsinnig. Ich will aber beispielsweise eine eigene CSS einbinden und ähnliche Kleinigkeiten, und ich will das wirklich nur offline zur Verfügung haben und nicht "nach Korrektur" online wieder Anderen zur Verfügung stelöen.

Zwar habe ich Programme, di auf einen Rutsch bei mehereren hundert HTML-Dateien etwas ändern können (Textpad kann das, Ulli Meybohms Phase5 auch), aber immer nur in einzelnen Schritten, und leider gehört der Zeilöenumbruch in solchen "generierten" HTML-Dokumenten nicht dazu. Klar, wozu werden die Dinger denn auch generiert, jeder Browser zeigt sie ja ordentlich an ...

Kriege ich solche Seiten nun mit irgendeiner XML-Syntax wieder "zurückverwandelt" in ganz einfaches HTML ?

Grüße aus Berlin

Christoph S.