Swen: Word2HTML - ein kleiner Wettbewerb

Moin,

nach dem Lob des Tages hier die Losung für den nächsten Tag :-)

Word zu HTML zu machen, ist wohl für viele (Windowsbewohner) unter uns eine ebenso leidige wie alltägliche Beschäftigung.

Was liegt also näher als ein kleiner nacholympischer Wettbewerb :-) Wer macht aus einer vorgegebenen Word-Datei mit Standard-Software das kleinste, HTML 4.01(trans)-valide Webdokument?

Die Datei: http://www.bundesfinanzministerium.de/finwiber/berichte/stabiprog3.exe
Eine stinknormale Word-Datei, ohne aufregende Features - nicht mal Fuß- und Endnoten oder fiese große Tabellen :-)

Die Hilfsmittel:
Jedes nicht allein für dieses Zweck geschriebene Programm, unabhängig davon, unter welcher Lizenz (wenn überhaupt) es fällt.

Das Ziel:
Ein von euch online gestelltes HTML-Dokument, das gegen http://www.w3.org/TR/html4/loose.dtd ohne Fehler validiert werden kann. Alternativ ist auch an ein (valides) XHTML 1.0-Dokument möglich. Das Layout sollte nicht möglichst nah am Ursprunglayout liegen.

Der Weg:
Jeder Schritt ist in der Antwort für jedermann nachvollziehbar zu beschreiben. Händische Änderungen sind bis auf Restkorrekturen, um den Validator zu befriedigen, zu vermeiden.

Der Preis:
ich sponsere dafür ein SELFHTML-TShirt (und werde den Sieger um eine klitzekleine (in echt!), aber notwendige Gefälligkeit für den SELFRaum bitten :-))

Nochwas:
Mitmachen kann jeder mit einer gültigen Emailadresse. Zudem muss er wenigstens einmal hier mit einer fachlichen Antwort in Erscheinung getreten sein und nicht als Heckenschütze oder Troll aufgefallen sein.
Mein oben genanntes Ziel macht deutlich, dass die Entscheidung der jury (das bin ich *fg* ) durchaus etwas subjektives hat: Die Balance zwischen Codeminimierung, Validität und layouttreue ist halt arg schwer zu ziehen. Eins ist aber klar: Validität ist Zwang. Anssonsten will ich mich ernsthaft bemühen, fair zu sein.

Wenn niemandem noch etwas einfällt was wichtigerweise zu regeln wäre, dann erfolgt der Startschuß morgen, 10. Oktober 2000, 10.00 Uhr. Der Einsendeschluß ist 24 Stunden später.

Viel Spaß

Swen

  1. hi Swen!

    Word zu HTML zu machen, ist wohl für viele (Windowsbewohner) unter uns eine ebenso leidige wie alltägliche Beschäftigung.

    per Hand ist nicht erlaubt? *grummel*

    Was liegt also näher als ein kleiner nacholympischer Wettbewerb :-) Wer macht aus einer vorgegebenen Word-Datei mit Standard-Software das kleinste, HTML 4.01(trans)-valide Webdokument?

    uaaaaaahh...ich hab den neuen Standard verpaßt...

    Eine stinknormale Word-Datei, ohne aufregende Features - nicht mal Fuß- und Endnoten oder fiese große Tabellen :-)

    Dann isses auch keine Herausforderung mehr *g*

    Die Hilfsmittel:
    Jedes nicht allein für dieses Zweck geschriebene Programm, unabhängig davon, unter welcher Lizenz (wenn überhaupt) es fällt.

    Die Frage mit dem manuell ziehe ich zurück.

    Das Layout sollte nicht möglichst nah am Ursprunglayout liegen.

    D.h., wir erstellen ein neues Layout oder hast Du Dich vertippt?

    Der Preis:
    ich sponsere dafür ein SELFHTML-TShirt (und werde den Sieger um eine klitzekleine (in echt!), aber notwendige Gefälligkeit für den SELFRaum bitten :-))

    Da steckt der Haken...es artet später in Arbeit aus, gell? ;)

    Viel Spaß

    hmmm...ob ich mitmachen soll. Hab ja eigentlich keine Zeit. Aber wenns ein Programm gibt, daß *.docs in HTML nahezu nahtlos konvertiert, dann will ich das natürlich auch wissen...

    Swen

    Thorsten

  2. Hallo Cruz,

    Was liegt also näher als ein kleiner nacholympischer Wettbewerb :-) Wer macht aus einer vorgegebenen Word-Datei mit Standard-Software das kleinste, HTML 4.01(trans)-valide Webdokument?

    Sorry, aber leider kann ich den Sinn eines solchen Wettbewerbs nicht erfassen. Wozu gibt es denn Software, die genau das tut???

    Jedes nicht allein für dieses Zweck geschriebene Programm,
    unabhängig davon, unter welcher Lizenz (wenn überhaupt) es fällt.

    Aber ich soll doch ein Programm schreiben, oder? Fällt das dann nicht ebenfalls unter diesen Punkt?

    Aber auch wenn es nicht unter diesen Punkt fällt. An was für eine Lösung hast du dabei gedacht? Plain Text aus Binärdatei extrahieren und als HTML darstellen?

    Du solltest dir mal wordview (wv) anschauen, sofern du es noch nicht gemacht hast! Warum soll ich das Rad neu erfinden?

    viele Grüße,
    Henning Peters

    ps: wv kann auch tabellen usw.

  3. Moin,

    zunächst zwei weitere Erklärungen:

    Es ging mir darum, die verschiedenden Möglichkeiten der Konvertierung von Word zu HTML (Word-Export, Staroffice, Dreamweaver, HTML-Transit, Tidy etc) mal miteinander (anhand eines immer gleichen Dokumentes) zu vergleichen. Das Ergebnis dieser kleine Spielchens hätte dann, das wäre der kleine Haken gewesen :-), ein Featureartikeln werden können. Da die Frage nach Konvertierung von Word zu HTML bzw. der dann noch nötigen Bereinigung (und ihren Tücken) recht häufig gestellt wird, wäre das imo ein lohnens- und lesenswerter Artikel.

    Zu Recht könnte man Einwenden, dass das Dokument dann aber auch ein Herausforderung sein sollte, die es möglich macht, die Spreu von Weizen zu trennen.

    Ich schlage deshalb mal vor, wir lassen den Wettbewerb sein. Bis es ein Testdokument gibt, das den Anforderungen genügt. Hat jemand eins oder hat jemand (außer die Tabellenproblematik) noch weiter Hinweise? Dann her damit :-)

    Das Layout sollte nicht möglichst nah am Ursprunglayout

    Da war eindeutig ein Schreibfehler - bitte das "nicht" streichen.

    Ich meld mich dann mal wieder

    Viele Grüße

    Swen