Tach!
Die typischen Listen sind wirklich schon super. Jetzt dachte ich mir "wikipedia" bzw. "wiktionary" wird hier noch bessere Daten haben. Und das ist auch so.
Bist du sicher, dass für deinen Zweck das Parsen der HTML-Ausgabe sinnvoll ist? MediaWiki hat eine API, über die man recht einfach an den Quelltext der Seiten rankommt, ohne Brimborium drumherum und ohne dass die Server dieses Brimborium erzeugen müssen.
Abgesehen von der API kann auch bereits ein angehängtes ?action=raw
helfen, die zu bearbeitenden Daten kleiner zu halten.
dedlfix.