Deduplizierung – Datenträger, die Backups enthalten, sind gefüllt mit redundanten Informationen. Entsprechende Werkzeuge helfen dabei, diese Verschwendung von Speicherplatz zu stoppen.
Noch vor wenigen Jahren schien Disk-to-Disk-Backup fast zu gut, um wahr zu sein. Getrieben von billigen ATA-Geräten (später S-ATA), entweder als virtuelle Bandbibliotheken oder Backup-to-Disk-Option implementiert, beschleunigte D-to-D die Datensicherungen und befreite von mechanischen Fehlern in Bandlaufwerken und Bibliotheken. Erleichterung erfuhr auch die Bearbeitung der zahlreichen Anfragen beim Helpdesk nach individuellen Datenwiederherstellungen.
Heute füllen sich die Backup-Speicher, und es gibt einfach nicht genug Platz im Daten-Center, um ein weiteres Petabyte Speicher hinzuzufügen. Also werden lediglich Backups verwahrt, die den Wert von zwei bis drei Tagen repräsentieren, obwohl Unternehmen lieber den Wert eines Monats sicher aufgehoben wüssten. Das Problem ist, dass es zu viele doppelte Daten in den Backup-Sets gibt. Aber die Hersteller – die natürlich Geld riechen – versprechen, dass ihre neusten Daten-Deduplizierungs-Produkte die zu speichernde Datenmenge um den Faktor 20 zu 1 oder gar 300 zu 1 reduzieren. Das ist einer Betrachtung wert.
Deduplizierungs-Technik erlaubt es, mehr Backup-Daten auf einer gegebenen Sammlung von Datenträgern zu speichern. Dies verlängert die Aufbewahrungszeit und verringert die Energiekosten. Wer Daten dedupliziert, bevor er sie über das WAN sendet, spart außerdem Bandbreite, was Online-off-site-Backups für Unternehmen praktisch macht, die bisher Bänder nutzten. Der einzige Haken daran ist, dass sie den Backup-Prozess verlangsamt.
Der Ursprungspunkt
Doppelte Daten finden ihren Weg in die Backups, wenn das Programm dieselbe Datei aus demselben Verzeichnis mehrmals oder dieselben Dateien von unterschiedlichen Standorten im Netzwerk sichert. Die meisten Netzwerke enthalten eine überraschend große Menge doppelter Daten, von der Party-Einladung im PDF-Format, die 57 Benutzer in ihren Verzeichnissen gespeichert haben, bis zu den 3 GByte Windows-Dateien auf den Systemlaufwerken eines jeden Servers.
Eine (temporäre) Lösung sind inkrementelle Backups. Es gibt viele Fans davon, und besonders der Inkrementell-für-immer-Weg, den Tivoli-Storage-Manager und andere einschlagen, ist wirklich gut. Aber inkrementelle Backups sind ebenso wenig Daten-Deduplizierungs-Lösungen, wie es Raid-Desaster-Recovery ist. Sie fallen eher unter die Überschrift »Duplikatvermeidung«.
Die einfachste oder grundlegendste Form von Daten-Deduplizierung ist der Single-Instance-Speicher auf Dateiebene, der in Content-Addressable-Storage-(CAS-) Geräten, beispielsweise EMCs Centera, zu finden ist. Sobald eine Datei auf einem CAS-System gepeichert wird, generiert es einen Hash des Dateiinhalts. Existiert bereits eine Datei mit demselben Hash, speichert das Gerät keine weitere Kopie, sondern erzeugt lediglich einen neuen Pointer zur bereits gepeicherten.
Microsofts jüngste Version von Windows-Storage-Server, die OEM-NAS-Version von Windows-Server, geht ein wenig anders vor, um doppelte Dateien zu eliminieren. Statt Duplikate beim Schreiben zu identifizieren, führt WSS einen Hintergrundprozess aus, den Single-Instance-Storage-Groveler (SIS). Dieser Prozess identifiziert doppelte Dateien unter Verwendung einer partiellen Datei-Hash-Funktion, gefolgt von einem vollständigen binären Vergleich. Er verschiebt die Datei dann in einen gemeinsamen Speicher und ersetzt die Dateien in ihren Originalstandorten durch Links zur Datei im gemeinsamen Speicher.
SIS auf Dateiebene spart schon einigen Platz, aber die Dinge werden wirklich interessant, wenn nicht nur doppelte Dateien, sondern auch doppelte Daten innerhalb der Datei gespeichert werden. Ein Beispiel dafür ist Outlooks PST-Datei. Ein typischer Benutzer hat vielleicht eine 300 MByte (oder mehr) große PST-Datei, die dessen E-Mail seit nicht mehr erinnerbarer Zeit enthält. Jeden Tag empfängt dieser Benutzer eine oder mehr neue Nachrichten, wodurch sich die PST-Datei jeden Tag ändert. Darum nimmt sie das Backup-Programm ins inkrementelle Backup auf, obwohl sich in der 300-MByte-Datei nur 25 KByte geändert haben.
Ein Deduplizierungs-Produkt, dass diese 25 KByte identifiziert und die neuen Daten ohne den Rest des Gepäcks speichert, spart viel Speicherplatz. Eine Erweiterung dieses Konzept, dass sich doppelte Daten, beispielsweise der 550-KByte-Dateianhang in den PST-Dateien von 20 Benutzern, eliminieren lassen, erzielt beeindruckende Deduplizierungs-Faktoren. Eine Gruppe solcher Lösungen sind die Deduplizierungs-Backup-Targets, für die Data Domain die Pionierarbeit geleistet hat. Diese Geräte sehen für eine Backup-Applikation aus wie eine Virtual-Tape-Library oder ein NAS-Gerät. Sie empfangen die Daten von der Backup-Applikation und erledigen ihre Deduplizierungs-Zauberei transparent.
dj@networkcomputing.de