Hallo nochmal,
nachdem das Entfernen von Duplikaten, Triplikaten, Quadrokaten und dergleichen mehr nun wunderbar funktioniert, habe ich festgestellt, dass mein Problem doch etwas tiefgreifender ist:
Oft sind es gar keine echten Duplikate, die mich in den csv-Dateien stören. Denn für meine Nöte sind eigendlich nur 2 Felder der csv-Datei zuständig, also hier zum Beispiel Feld2 und Feld3. D.h., wenn Feld2 und Feld3 einer Zeile mit Feld2 und Feld3 einer anderen zeile identisch sind, würde ich gerne beide Datensätze aus der Datei entfernen.
Feld1|Feld2|Feld3|Feld4|Feld5
Feld1|Feld2|Feld3|Feld4|Feld5
Feld1|Feld2|Feld3|Feld4|Feld5
Feld1|Feld2|Feld3|Feld4|Feld5
Feld1|Feld2|Feld3|Feld4|Feld5
...
Gibt es da eine intelligente und performamnte Lösung, ohne alle Datensätze iterieren zu müssen oder falls nicht, wie stellt man sowas dann trotzdem möglichst effizient an?
Pit