Ziele der Datendeduplizierung sind eine effizientere Nutzung von Speicherplatz und Bandbreite sowie kürzere Backup- und Recovery-Zeiten. Damit ist sie eines der zentralen Werkzeuge eines umfassenden Daten-Managements. Dieser Beitrag diskutiert verschiedene Ansätze und Vorgehensweisen.
Konfrontiert mit immer höheren Speicheranforderungen und sinkenden Budgets suchen Unternehmen
nach weiteren Möglichkeiten zur Optimierung ihrer Speicherinfrastruktur und Datenverwaltung.
Techniken zur Speicheroptimierung wie die Datendeduplizierung liefern dazu wichtige Ansätze. Die
Deduplizierung reduziert die Datenmenge durch Löschen von Mehrfachkopien redundanter Daten und
ausschließlicher Speicherung eindeutiger Daten. Im Vergleich dazu greift die Datenkompression zu
kurz, denn sie unterscheidet nicht zwischen identischen Informationen. Die Deduplizierung ersetzt
Kopien mehrfach vorhandenen Daten durch Verweise (auch als Zeiger oder Pointer bezeichnet) auf die
ursprünglichen Daten.
Zum Einsatz kommt die Deduplizierung bei einem gesamten Datei- oder Speichersystem. Unterschiede
existieren auf dem Gebiet der Granularität (Datei- oder Blockebene) und dem Ort der Deduplizierung
(Primärspeicher oder Backup-Medium). Die Datensicherung ist derzeit eines der zentralen
Einsatzfelder der Deduplizierung, aber auch bei Network Attached Storage (NAS) und der
langfristigen Archivierung findet sie immer weitere Verbreitung.
Einige Verfahren (File-Level Deduplication oder Single Instance Storage, SIS) untersuchen
Dateien in ihrer Gesamtheit, um festzustellen, ob es sich um Duplikate handelt. Andere Methoden
untergliedern die Dateien in Blocksegmente, die sich im Vergleich zu Daten auf File-Ebene einfacher
auf mögliche Redundanzen analysieren und effizienter speichern lassen. Als Untermenge der
blockorientierten Verfahren gibt es zusätzlich Deduplizierungsalgorithmen, die mit variablen
Blockgrößen arbeiten.
Schwerpunktmäßig findet die Block-Level-Deduplizierung Verwendung im Bereich Backup, jedoch
nicht bei NAS und Archivsystemen. Denn die starke Fragmentierung der Daten bei der Deduplizierung
auf Blockebene wirkt sich negativ auf die Performance bei der Datenübertragung aus. Die
Deduplizierung auf Dateiebene kann ihre Stärke hingegen im NAS-Bereich ausspielen. Demonstrieren
lässt sich dies am Beispiel von Benutzerverzeichnissen, denn oft speichern mehrere Anwender die
gleichen Daten und Dokumente in ihren jeweiligen Directories.
Der Microsoft Windows Storage Server 2008 zum Beispiel verfügt über eine SIS-Funktion, die
doppelt gespeicherte, identische Dateien automatisch durch Dateisystem-Links ersetzt und damit
zwischen 25 und 40 Prozent des Speicherplatzes einspart. Auch bei der Datensicherung bietet die
Deduplizierung auf Dateiebene eine große Hilfe. Moderne NAS-Systeme verfügen über Funktionen für
die Deduplizierung und Kompression auf Dateiebene. Die automatische Erkennung nicht genutzter
Daten, die Dateikompression und Single-Instancing-Vorgänge können den Speicherplatzbedarf um 30 bis
40 Prozent reduzieren.
Die Daten-Deduplizierung kann zu zwei Zeitpunkten des Backup-Vorgangs erfolgen: bereits während
der Speicherung auf dem Primärmedium an der Quelle (Source) oder erst am Ziel (Target). Jede Art
hat ihre Vor- und Nachteile. Bei der Source-Deduplizierung (auch Inband-Deduplizierung genannt)
wird vor dem eigentlichen Sicherungsvorgang die zu sichernde Datenmenge reduziert. Der Nachteil: Es
wird dafür Rechenleistung auf dem System beansprucht, die dann für andere Aufgaben eines
Produktions-Servers fehlt. Darüber hinaus waren bis vor Kurzem die Source-Deduplizierungslösungen
nicht optimal auf die weit verbreiteten Backup-Systeme abgestimmt.
Im Fall der Target-Deduplizierung (auch Ziel- oder Outband-Deduplizierung genannt) erfolgt der
Vorgang erst auf dem Zielmedium. So ist zunächst – unter sonst gleichen Ausgangsbedingungen – eine
größere Datenmenge als bei der Source-Deduplizierung über das Netz zu schicken. Werden die Daten in
einer Tiered-Storage-Architektur anschließend an einen weiteren Standort repliziert, kann die
Target-Deduplizierung Vorteile für sich verbuchen. Ferner kommen in dem Fall die Stärken von Target
Deduplication Appliances zum Zuge, denn sie lassen sich einfacher in eine vorhandene
Backup-Umgebung integrieren als eine Source-Deduplizierungslösung.
Bei der Target-Deduplizierung sind zwei Varianten zu unterscheiden: Inline- oder
Post-Processing. Der Unterschied besteht darin, dass beim Inline-Processing die Daten vor dem
eigentlichen Schreibvorgang auf die Platte dedupliziert werden. Dabei wird lediglich so viel freier
Platz benötigt, um die seit dem letzten Backup geänderten Daten speichern zu können – allerdings
müssen auf der Deduplizierungs-Appliance genügend Ressourcen vorhanden sein, um in einem ersten
Arbeitsschritt die Duplikate aufzuspüren.
Beim Post-Processing werden zunächst einmal alle Daten auf die Platte geschrieben und erst dann
in einem Batch-Lauf nach Duplikaten untersucht. Der Vorteil: Dieses Verfahren hat keinen negativen
Einfluss auf die eigentliche Backup-Performance. Allerdings muss in dem Fall erst einmal deutlich
mehr Plattenkapazität als beim Inline-Processing zur Verfügung stehen.
Traditionell gelten Bandlaufwerke als kostengünstigste Speichermedien. Sie sind jedoch wegen der
vielen mechanischen Teile fehleranfälliger als Plattensysteme. Ein weiterer Schwachpunkt war die
Kapazität und die Performance. Zudem erweisen sich Bandlaufwerke bei kleinen Backup- oder
Recovery-Jobs als ineffizient, denn es wird mehr Zeit damit verbracht, das Band einzulegen und auf
die gewünschte Stelle zu positionieren, als mit den eigentlichen Lese- und Schreibvorgängen. In
vielen Fällen hat sich daher die Plattensicherung als deutlich effizienterer Weg erwiesen.
Allerdings haben Bänder durchaus ihre Stärken im Bereich Disaster Recovery – speziell dann, wenn
ein Unternehmen die Bänder in einem Safe an einem Ort außerhalb des Rechenzentrums aufbewahrt. Dann
empfehlen sich ein lokales Backup unter Einsatz der Deduplizierung auf Blockebene und eine
anschließende Replikation mithilfe der Bandsicherung. Da bei der Deduplizierung auf Blockebene
lediglich die Daten gespeichert werden, die sich seit dem letzen Backup geändert haben, sind die
Daten schneller auf die Archivierungsbänder geschrieben.
Um einen Gradmesser zur Effektivität der Daten-Deduplizierung zu erhalten, zieht man
typischerweise die Deduplizierungsrate heran. Ein Wert von 20:1 beispielsweise besagt, dass der
Speicherbedarf um 95 Prozent reduziert wurde. Dies bedeutet jedoch nicht zwangsläufig, dass
Administratoren jetzt das 20-fache an Daten auf der Festplatte unterbringen können: Beträgt die
Ausgangskapazität 500 GByte, schrumpft die Datenmenge bei einer Deduplizierung von 20:1 keineswegs
auf 25 GByte. Abhängig von der Art der Daten gelingt es in der Praxis bei fünf Sicherungsläufen,
die 500 GByte beispielsweise auf 525 GByte zu speichern, statt für fünf vollständige Backups 2,5
TByte zu benötigen.
Die theoretisch berechneten Werte weichen aus verschiedenen Gründen von tatsächlich erzielten
Werten ab. Verantwortlich dafür sind zunächst einmal die jeweils verwendeten
Deduplizierungsalgorithmen, die Änderungshäufigkeit der Daten, die Datentypen sowie der Mix aus
vollständigen oder inkrementellen Backups. Darüber hinaus lässt sich mit Software, welche die
Änderungsrate der Daten misst, nur die Zahl der geänderten Files, nicht aber die tatsächlich
geänderte Datenmenge messen. Tools zur Ermittlung der Deduplizierungsrate sollte man daher
bestenfalls zur Schätzung der benötigten Plattenkapazität, nicht aber mit dem Ziel einer Messung
exakter Kennziffern einsetzen. Die Deduplizierungsrate liefert bestenfalls einen groben
Richtwert.
Die Dateitypen haben bei der Deduplizierung auf Dateiebene keine Auswirkung. Allerdings sollten
sich Administratoren darüber im Klaren sein, dass die Daten-Deduplizierung auf Blockebene beim
Backup zu sehr unterschiedlichen Ergebnissen führen kann. Deduplizierungslösungen spüren doppelte
Daten in zwei Szenarien auf: wenn die gleiche Datei mehr als einmal gesichert wird oder wenn in
einem bestimmten Datenset Daten doppelt vorhanden sind. Beim Backup von Benutzerverzeichnissen etwa
werden Dubletten bereits beim ersten Backup aufgespürt. Eine solche Deduplizierungslösung macht
sich schon von Anfang an bezahlt.
Microsoft-Office-Dateien zum Beispiel eignen sich gut für die Deduplizierung auf Blockebene, da
ihre Inhalte sich häufig überlappen. Komprimierte oder Multimedia-Dateien bedürfen einer
Sonderbehandlung. Hier bringen weder die Datei- noch die Blockdeduplizierung überzeugende
Ergebnisse. Für solche Fälle bietet sich eine so genannte Content-Aware-Analyse an, wie sie zum
Beispiel Ocarina Networks verwendet. Dieser kürzlich von Dell übernommene Anbieter hat
Kompressionsverfahren für rund 900 unterschiedliche Dateitypen entwickelt – darunter beispielsweise
auch Bild- und Videoformate, die bereits komprimiert vorliegen.
Deduplizierung ist ein sehr effizientes Mittel, um die Datenflut in vielen Fällen einzudämmen –
allerdings ist sie nur eines von mehreren Tools im Rahmen eines umfassenderen Daten-Managements.
Als Punktlösung bringt sie wenig, die Hebelwirkung ergibt sich erst in einer mehrstufigen
Storage-Architektur einschließlich Backup, (Disaster) Recovery und Langzeitarchivierung. Zu
berücksichtigen ist ferner die Ausgangssituation: Bildet die Netzwerkbandbreite während des Backups
ein Nadelöhr? Laufen die Backup-Prozesse via WAN über eine langsame Datenleitung? Gibt es
umfangreiche gesetzliche Vorschriften für die langfristige Datenhaltung? Zudem sollten die
möglichen Deduplizierungslösungen mit der vorhandenen Server- und Speicherinfrastruktur kompatibel
sein. Erst wenn diese Aspekte geklärt sind, kann die Deduplizierung ihre volle Wirkung
entfalten.