fdupes – Duplikate finden

Zum Finden von Duplikaten gibt es unter Linux das mächtige Tool fdupes.
fdupes durchsucht vorgegebene Verzeichnisse und sucht Dateien mit gleichen Hash-Wert. Werden Dateien mit gleichen Hash-Wert gefunden, werden diese noch bitweise mit einander verglichen.
fdupes ist in den Debian-Repositories vorhanden und kann mit aptitude install fdupes installiert werden.

Hinweis:
Diese Anleitung bezieht sich auf die Verison fdupes 1.50-PR2-3, welche z.B.: in Debian Squeeze enthalten ist.
Leider wurde der Parameter <code -L in den darauffolgenden Versionen wieder entfernt, da er Probleme verurschte, wenn fdupes über mehrere Partitionen/Laufwerke verwendet wurde.
Ein Beispiel:
Im folgenden Beispiel wurden 2 Dateien (File1.txt und File2.txt) erzeugt.
Von File1.txt gibt es 2 Kopien und von File2.txt gibt es eine Kopie im gleichen Verzeichnis. Desweiteren wurden alle „Kopie“-Dateien auch in das Unterverzeichnis „anderer_ort“ kopiert.
Ein ausführen von

ergibt folgendes Ergebnis:

Mit dem Parameter -r (recursive in alle ab Suchpfand vorhandenen Unterverzeichnissen) ergibt sich folgende Ausgabe.

Mit dem zusätzlichen Parameter -f (weglassen des ersten Treffers) ergibt sich folgende Ausgabe.

Mit dem Parameter -m (Zusammenzählen der Dateigrößen) wird ausgegeben, wieviel Platz durch doppelte Dateien belegt werden.

Mit dem Parameter -d werden doppelte Dateien mit Rückfrage gelöscht (Parameter können auch einfach aneiander geschrieben werden).

Man kann nun auswählen, welche Datei man behalten möchte (1-5). Alle anderen Files werden gelöscht. Mit der Angabe von „all“ werden alle Dateien behalten.
In diesem Fall wählen wir die 1. Datei aus (Eingabe: 1)

Die Datei mit dem „[+]“ wird behalten, alle anderen Dateien ( [-] ) werden glöscht.
Diese Frage kommt bei jeden Treffer von doppelt vorhandenen Dateien.

Ein Löschen ohne Nachfrage erfolgt mit dem Parameter -N. Mit Verwendung dieses Parameters -N wird immer der erste Treffer erhalten und alle anderen Dateien gelöscht.
ACHTUNG: Die erste Datei, welche fdupes annimmt, ist nicht immer auch die Datei, welche man erhalten möchte.

Wesentlich „ungefährlicher“ ist da die Verwendung des Parameters -L (erstellt Hardlinks anstatt zu löschen).
Dieser Parameter ist z.B.: in fdupes 1.50-PR2 vorhanden.

Das „[L]“ gibt an, dass die Datei nun durch Hardlinks verbunden wurden. Dadurch ist die Datei noch in allen Verzeichnissen erhalten, belegt aber nur einmal den Speicherplatz dafür.
Man erkennt das an den Inodes der Dateien.
(Vor fdupes ./ -rL)

(Nach fdupes ./ -rL)

Während vorher alle Dateien eine eigene Inode hatten (erste Spalte), haben nun mehrere Dateien die gleiche Inode. Sie verweisen demnach alle auf die gleiche Datei.
Eine Datei mit mehreren Hardlinks existiert solange mindestens ein Verweis auf diese Datei vorhanden ist. Es ist demnach egal welche Datei man löscht; es gibt keine „Haupt“-Datei wie z.B.: bei symbolischen Links.

Die Gefahr von Hardlinks.
Hardlinks verweisen immer auf die gleiche Datei. Es ist somit egal von welchen Verzeichnis man auf die Datei zugreift, Änderungen an der Datei sind immer für alle Links gültig.
Man sollte vorsichtig sein, wann man Hardlinks einsetzt.
Wenn man eine Musiksammlung hat, in denen gleiche Musikstücke (gleich in den Bits!) mehrfach vorhanden sind weil diese z.B.: auf mehreren Sampler-CD´s angeboten werden, kann man Hardlinks durchaus verwenden um Fesplattenplatz zu sparen.
Gleiches Gilt z.B.: auch für Fotosammlungen.
In beiden Fällen würde man ein Musikfile oder Bild nicht ändern oder, wenn man es ändert, unter einen neuen Namen abspeichern.
Problematisch wird es, wenn man mehrere Stände von Projekt-Dateien abspeichert, um eine Histoire eines Projektes zu haben. Zwar würden auch hier alle doppelten Dateien verlinkt, aber es kann vorkammen, dass man eine solche Datei in einer aktuellen Projekt-Version ändert. In diesen Fall würde diese Datei aber auch in allen vorherig abgespeichterten Versionen geändert. Somit wäre zuvor abgespeicherten Projekt-Stände verfälscht, da sie nicht dem ursprünglichen Stand entsprechen.