bruno: Textpad - Zeilenumbrüche aus PDF entfernen

hallo zusammen...

ich bin nun fast am ende. ich finds nicht raus. folgendes Problem:

ich erhalte jeden Monat 40 Artikel in Form eines pdf's, die ich in HTML aufbereiten soll. damit ich mal den ganzen formatierungsmüll weg hab, kopiere ich ctrl+a mit ctrl+v das ganze pdf ins textpad.

Das sieht dann etwa so aus:
"
Grundsätzliche Information: Haut
ist nicht gleich Haut. Das beweist
der Vergleich der Haut von Männern
und Frauen. An der sprichwörtlich
«dickeren» Haut von
"
Nun ersetze ich alle Zeilenumbrüche mit suchen nach: \n mit einem Leerschlag. Somit erhalte ich nun eine schöne lange Zeile. Leider muss ich nun doch wieder alles von Hand durch, da ich ja schon noch Absätze bräuchte.

Ich stelle mich diesmal selbst mit der Google Suche blöd an und mein Kopf bringts nicht. Eigentlich möchte ich \n nur einmal pro zeile ersetzen, wenn dieser zwei mal vorkommt, sollte noch ein Zeilenumbruch stehen bleiben. So würde ich doch Absätze erhalten, wie ich sie brauche...

Für jeden Hinweis wären meine Augen und Finger DANKBAR... auch nerven!

grüße von einem ausgepowerten angestellten der noch immer am arbeiten ist...

bruno

  1. Hi,

    Eigentlich möchte ich \n nur einmal pro zeile ersetzen, wenn dieser zwei mal vorkommt, sollte noch ein Zeilenumbruch stehen bleiben.

    ich weiss nicht, wie gut dieser Editor reguläre Ausdrücke verarbeiten kann, aber mit einer Assertion wie \n(?!\n) müsste das eigentlich gehen.

    freundliche Grüße
    Ingo

    1. ich weiss nicht, wie gut dieser Editor reguläre Ausdrücke verarbeiten kann, aber mit einer Assertion wie \n(?!\n) müsste das eigentlich gehen.

      hallo ingo,

      danke für deinen beitrag. bisher konnte ich alle regulären ausdrücke, die ich mir zusammenbaute verarbeiten. Aber deine variante geht nicht. mit welchem editor würdest du es denn machen?

      1. Hi,

        Aber deine variante geht nicht. mit welchem editor würdest du es denn machen?

        sorry, ich nutze Notepad++ (z.Z. noch in einer älteren Version) und der kennt Lookaheads offenbar auch nicht. Ich würde den Text vielleicht einfach speichern und ein PHP-Script drüber laufen lassen.

        freundliche Grüße
        Ingo