MB: Tokenizer Entwurf und Ansätze in Proprietärer Skript-Sprache ok?

Beitrag lesen

moin,

ich gebe mir Mühe, Dir zu folgen, bin aber nicht ganz sicher, ob das gelingt.

tut mir leid :/

Der eigentliche Inhalt besteht aus einer Zahl, […]

ein Index soweit richtig.

Was kann noch fehlen? In deiner Beschreibung ist jede Teilkomponente in eckige Klammern gesetzt, diese stehen in Syntax-Notationen zumeist für „optional“

Ja, ich bin leider nicht Firm in RegEx sry, sonst könnte ich mich durch sie besser ausdrücken daher die Legende och versuche es aber dennoch.

Kann der "beliebige Text" ebenfalls von einem Zeilenumbruch unterbrochen werden?

das habe ich nicht im Beispiel erwähnt ja kann er.

Wenn nicht, ist das Ende eines Informationsbrockens klar definiert. Wenn ja: Woran erkennst Du den Beginn des nächsten Informationsbrockens? An der Zahl? Darf der Text demzufolge keine Zahlen enthalten? Oder am Doppelpunkt? Darf der Text demzufolge keinen Doppelpunkt enthalten?

Zunächst an der Kombination:
Index, Doppelpunkt, Kapitalschrift, Tabulator(en), "- ", String.

Mir drängt sich folgende Fragen auf:

  • sind String-Kombinationen ein eingesetztes Technisches Werkzeug für Token Erstellung?
  1. Ist es besser verschachtelter vorzugehen

    • TOKEN_PARAMETER: Indikator für [0-9]*\:[A-Z]
    • TOKEN_DESCRIPTION: Indikator für (- )[\w\n ]*
      Bedarf es dann eines LEXERs wenn man z.B TOKEN_PARAMETER noch in TOKEN_INDEX, TOKEN_SEPARATOR, TOKEN_TYPE unterteilt?
  2. oder weitest gehend ohne Gruppierung und autonom:

    • TOKEN_INDEX, TOKEN_SEPARATOR, TOKEN_TYPE, TOKEN_POINT, TOKEN_TEXT

P.S.: Nochmal danke ich Dir Recht herzlich für deine Hilfe! Ich weis es wirklich sehr zu schätzen.

P.S.S.: das ist seeehr neu für mich einen simplen Tokenizer für einen Parse zu schreiben. Bitte entschuldigt

lgmb

--
Sprachstörung