Moin!
Typische Dinge, die sich bei Dateiänderungen verändern (können):
- Dateigröße
- file-mtime
- file-atime
Das war auch erst meine erste Idee.
Die nützt mir aber leider nichts.
Hier geht es um den _Inhalt_ der Dateien.
Dein allererster Filter sollte dann aber trotzdem die Dateigröße sein.
Dateien können nicht identisch sein, wenn sie unterschiedliche Größen haben.
Und die Gruppen mit gleichen Größen kannst du dann mit MD5 "behandeln", um Duplikate zu entdecken.
Die eine heißt "abcde - (1958)", die andere "ABCDE - 50er Jahre" und beide enthalten Sie denselben Inhalt. Alle Files sollen in eine DB eingetragen werden. Es soll keine doppelten Inhalte geben.
Warum die gesonderte Datenbank? Das Dateisystem ist doch schon eine sehr gute Datenbank.
REPLACE macht es möglich...
Replace für was?
Was soll das Ergebnis der Aktion sein? Festzustellen, dass es doppelte Dateien gibt, ist ja nicht alles. Das muß doch dann irgendeine Form von Reaktion auslösen, beispielsweise, alle bis auf eine Datei zu löschen.
Programmtipp:
"FDUPES is a program for identifying or deleting duplicate files residing within specified directories."
http://premium.caribe.net/~adrian2/fdupes.html
- Sven Rautenberg
My sssignature, my preciousssss!