Moin!
ich habe hier veraschiedene Threads zu Spezialfragen des gesamtem Problems gehabt die letzten Tage, und im Dialog mit den kritischen Könnern auch so einiges richten können.
Beständige Doppelpostings, die nicht geahndet wurden. Warum eigentlich nicht? Durch dieses fortwährende Detailproblematisieren ist der Blick fürs Gesamtsystem garnicht erst entstanden. Und du laborierst noch immer an Dingen herum, die ich mit dem bisherigen Informationsstand als untauglich bezeichnen würde.
Durch das erstellte Tool werden in der Produktion später bis zu 10.000 Files gegeneinander abgeglichen, ob sie denselben Inhalt haben und ihre im Fileheader befindlichen Metadaten abgestimmt.
Es geht doch offensichtlich um Musikdateien.
Musikdateien haben das Problem, dass sie "gleichen Inhalts" sein können, obwohl die MD5-Prüfsumme unterschiedlich ist.
Das geht ganz einfach: Ein MP3 mit 193 kBit/s und eines mit 128 kBit/s sind von der codierten Musik identisch, aber vom MD5-Hash nicht.
Oder noch schlimmer: Ein MP3 mit ID3 V1.0-Tag und ein MP3 mit denselben MP3-Daten, aber editiertem ID3 V1.0-Tag und eines mit immer noch denselben MP3-Daten, aber ID3 V2.0-Tag zusätzlich.
Allein die Möglichkeit, dass diskritische Zeichen oder sonstige "spannende" Tippfehler in alternativen Dateiversionen unterschiedlich bzw. korrigiert sein könnten (auch überflüssige UPPERCASE oder Leerzeichen), versaut dir jegliche MD5-Sinnhaftigkeit.
Und dann ist danach zu fragen, welche Konsequenz die Entdeckung eines Duplikats hat. Behalten? Warum? Löschen? Warum nicht?
- Sven Rautenberg
My sssignature, my preciousssss!