In vielen Speicherumgebungen mittelständischer Unternehmen hat die Plattensicherung das Backup auf Bandmedien inzwischen abgelöst. Um der wachsenden Datenmengen Herr zu werden, kann sich der Einsatz von Deduplizierung schnell als strategische Komponente erweisen.
IT-Storage-Anbieter adressieren mit ihren Lösungen zunehmend mittelständische Unternehmen. Diese
halten typischerweise Speicherkapazitäten zwischen 20 und 40 TByte vor und sichern aufgrund ihrer
kostengünstigen Ethernet-Infrastruktur zunehmend direkt auf Festplatte. Auch sie kämpfen an der
Datenfront mit wachsenden Volumen, Wildwuchs und einer fehlenden Klassifizierung. Nur mit mehr
Speicher lassen sich diese Probleme nicht lösen. So steht auch der Mittelstand vor der
Herausforderung, sein wachsendes Datenaufkommen effizienter verwalten, sichern und für den
Ernstfall bereithalten zu müssen – und dies alles bei möglichst geringen Kosten.
Bei der Datensicherung in Unternehmen geht es nicht nur um die einmalige Sicherung des
augenblicklichen Stands der Primärdaten von den Online-Speichersystemen. Stattdessen sind möglichst
alle Daten zu sichern, die in den letzten Monaten oder Jahren erzeugt oder verändert wurden.
Abhängig von der individuellen Backup-Strategie – die sich beispielsweise hinsichtlich der Frequenz
der Voll-, Differenz- und Inkrementalsicherungen sowie der Aufbewahrungsfristen unterscheidet –
müssen schnell über 20-mal so viele Sicherungsdaten wie Primärdaten gespeichert werden. Techniken
wie Disaster-Recovery-Kopien und Replikation, die dazu beitragen sollten, die Datenverfügbarkeit
und Revisionssicherheit zu erhöhen, haben zudem zu einem weiteren Wachstum der Datenberge in
Unternehmen geführt. Damit hat sich der Speicher- und Administrationsbedarf erheblich vergrößert.
Als aktuelle Technik, um den wachsenden Kapazitätsbedarf zu reduzieren, kommt zunehmend
Deduplizierung zum Einsatz. Diese Technik bietet sich besonders dann an, wenn viele der zu
sichernden Daten redundant vorhanden sind. Abhängig von der Art der Daten und der jeweiligen
Backup-Methode lässt sich mit Deduplizierung das Speichervolumen im Idealfall um den Faktor zehn
oder mehr verringern.
In der Debatte um die Vor- oder Nachteile von "Backup to Disk" im Vergleich zu "Backup to Tape"
hat die Deduplizierung inzwischen geholfen, den Preis pro effektiv nutzbarer
Festplatten-Speicherkapazität zu reduzieren. Für Datenmengen mittelständischer Unternehmen ist
damit das Daten-Backup komplett auf Festplatte nicht mehr wesentlich teurer als die klassische
Bandsicherung. Da die Deduplizierungs-Engine nicht einfach einzelne Dateien komprimiert, sondern
deren physische Datenblöcke analysiert und die Redundanzen auf Blockebene überprüft, erweist sich
Datendeduplizierung jedoch als sehr ressourcenintensiv und wäre für das gesamte Datenvolumen von
Großrechenzentren beispielsweise nur eingeschränkt geeignet.
Zweigstellen und verteilte Standorte
Datensicherungs- oder Backup-Strategien, die Deduplizierung integrieren, können im Mittelstand
je nach der zu sichernden Datenmenge sehr unterschiedlich aussehen. Bei einem verteilten
Datenkonzept, beispielsweise zwischen einer Zentrale und mehreren Niederlassungen, bei dem
innerhalb einer Edge-to-Core-Strategie dezentrale Daten zentral abgelegt werden, erweist sich
Deduplizierung als besonders effektiv. Hier bieten sich unterschiedliche IT-Szenarien an. Eine
Variante ist, Daten, die an mehreren Standorten möglicherweise nahezu identisch vorliegen, zentral
zu deduplizieren. An eine nachgeschaltete Disaster Recovery Site ist dann lediglich ein reduzierter
einmaliger Datenbestand zu replizieren. Alternativ lassen sich je nach Datenstruktur die Daten aber
auch dezentral deduplizieren und anschließend zentral sichern. Im Wesentlichen lassen sich drei
verschiedene IT-Szenarien für Deduplizierung unterscheiden:
Nutzung der Deduplizierungstechnik dezentral innerhalb der Backup-Anwendung (Datenaufkommen bis
etwa 3 TByte),
Nutzung der Deduplizierungstechnik mit dezentraler Deduplizierungshardware als NAS-Appliance im
LAN oder als VTL-Appliance (Virtual Tape Library) im SAN (Storage Area Network) mit zentraler
Ablage der Disaster-Recovery-Kopien (Datenaufkommen dezentral etwa 3 TByte und zentral etwa
30 TByte) sowie
Nutzung der Deduplizierungstechnik in einer zentralen Virtual Tape Library.
All diese beschriebenen Szenarien haben gemeinsam, dass sie das Datenvolumen für das gesamte
Backup-Archiv eines Unternehmens reduzieren.
Ist die Deduplizierung direkt in die dezentrale Backup-Software integriert – eine Lösung, die
sich für Datenaufkommen bis etwa 3 TByte empfiehlt – gewinnt der IT-Administrator neben der
Reduktion des Backup-Archivs auf dem Backup-Rechner weitere Vorteile. Mit der Daten-Reduktion in
den Zweigstellen wird es möglich, eine vorher isolierte dezentrale Lösung kostengünstig über das
Netz in ein zentrales Backup-Konzept zu integrieren. Zusätzlich steigen Datensicherheit und
Qualität im Betrieb. Auch die Art und Weise wie sich Backups durchführen lassen, ändert sich für
den Betreiber: Aus logischer Sicht finden nur noch Vollsicherungen statt, obwohl tatsächlich
lediglich diejenigen Datenblöcke gesichert werden, die sich noch nicht im Backup-Archiv befinden.
Beim Restore zahlt sich dieses Vorgehen aus, da ein Sicherungsstand nicht mehr aus verschiedenen
Voll- und Inkrementalsicherungen zu restaurieren ist, sondern sich direkt aus dem deduplizierten
Datenbestand rekonstruieren lässt. Dadurch erreicht der Anwender neben der Reduktion des
Backup-Archivs auch eine Konsolidierung der Backup-Prozesse und eine Vereinfachung der
Wiederherstellungsprozesse.
Bei Unternehmen mit einem verteilten Datenkonzept, deren dezentrale Daten die Grenze von 3 TByte
überschreiten, bietet sich Deduplizierung über eine spezielle Deduplizierungshardware in den
einzelnen Zweigstellen an. Systeme wie beispielsweise die Eternus CS800 Data Protection Appliance
von Fujitsu können die Kapazitätsanforderungen für ein plattenbasierendes Backup um über 90 Prozent
verringern und das Volumen der Backup-Speicher erheblich reduzieren. Die dezentral deduplizierte
Datenmenge lässt sich dann kostengünstig über das Netzwerk in eine Zentrale replizieren. Die
Deduplizierungs-Appliance fungiert also wie ein reiner Backup-Speicher, der hinsichtlich nutzbarer
Kapazität beispielsweise von 8 TByte bis 80 TByte frei skalierbar ist. Bei anschließender
Replikation zwischen unterschiedlichen Standorten kann sich dank Deduplizierung der
durchschnittliche Bedarf an Netzwerkbandbreite um den Faktor 20 und mehr reduzieren. Eine solche
Appliance lässt sich dabei im Ethernet-LAN kostengünstig als NAS anbinden. Optional kann auch eine
VTL-Schnittstelle mit der klassischen Magnetbandvirtualisierung im SAN zur Verfügung stehen.
In der Praxis haben sich Virtual Tape Libraries als Disk-Backup-Architektur bereits auf breiter
Ebene sowohl für Mainframes als auch für offene Systeme bewährt. Für den Einsatz einer VTL mit
Deduplizierung gibt es einleuchtende Gründe:
Keine Backup-Software mit Deduplizierungstechnik kann für alle notwendigen Backup-Szenarien und
für große Datenvolumen einen performanten Betrieb garantieren, und
viele IT-Betreiber werden die Aufwände für die Umstellung ihres dezentralen Backups und den
damit verbundenen Prozessen scheuen.
Mit einer VTL-basierenden Lösung bleiben die ursprünglich auf physisches Tape gerichteten
Backups und Prozesse unverändert bestehen. Dieser Ansatz kapselt die Deduplizierung unsichtbar für
den IT-Betrieb in die "Black Box" VTL. Die Deduplizierungstechnik auf Festplatte lässt sich so
schnell und unkompliziert einsetzen und der Anwender erreicht mit der Reduktion des Datenarchivs
ein wesentliches Ziel. Daneben ergeben sich weitere Vorteile: Deduplizierte VTL-Archive lassen sich
über größere Entfernungen kostengünstiger replizieren, Unternehmen sind für den Katastrophenfall so
besser gerüstet. Entsprechende Systeme wie beispielsweise von Fujitsu (ab Eternus CS1000) bieten
dabei eine nutzbare Kapazität von bis zu 720 TByte dediziert für deduplizierte Daten. Eine
einheitliche Deduplizierungstechnik sorgt dann dafür, dass die Kompatibilität zu kleineren
Mittelstandslösungen für die Replikation von Daten weitgehend gegeben ist.
Abwägung
Doch trotz der Vorteile, die die Deduplizierung für das Backup mit sich bringt und über die
Einigkeit herrscht, bietet diese Technik weiteren Diskussionsstoff. So stehen immer wieder die
Auswirkungen der Deduplizierung auf die Performance des Backups im Mittelpunkt der Debatte. Dabei
ist es jedoch aus der Sicht des Anwenders im Mittelstand weniger wichtig, wie schnell Daten
gesichert werden beziehungsweise ob Deduplizierung die Datensicherung verlangsamt. Um dem
entgegenzuwirken, existieren mittlerweile ausgereifte Techniken, die dafür sorgen, dass
Datendeduplizierung auch zeitversetzt zum Backup-Prozess stattfinden kann. Entscheidend dagegen
ist, wie schnell ein Anwender im Bedarfsfall auf seine gesicherten Daten zugreifen kann. Und dort
befindet sich derzeit der Flaschenhals, da deduplizierte Daten erst wieder zusammengefügt werden
müssen. Bei sehr großen Datenbeständen von großen Unternehmen oder Daten die sehr schnell wieder
zur Verfügung stehen müssen, kann dies zu erheblichen Verzögerungen führen.
Nutzen der Datendeduplizierung für KMU
Backup to Disk bietet im Vergleich zur Bandsicherung latenzfreie Restores. Da die Daten auf den
Platten nicht sequentiell gelesen werden müssen, stehen die darauf gesicherten Daten unmittelbar
zur Verfügung. Datendeduplizierung verringert dabei den benötigten Bedarf an
Festplattenkapazität.
Platten-Backups mit Datendeduplizierung bieten sich für KMU an, da der Backup direkt über eine
vorhandene Ethernet-basierender Infrastruktur (LAN) erfolgen kann. Bei der Datendeduplizierung
mittels einer VTL werden die Daten ebenfalls auf Platte gesichert, allerdings über ein SAN mit den
gewohnten Backup-to-Tape-Prozessen.
Backup-Archive schrumpfen sich dank Deduplizierung so weit, dass sie sich ohne großen
Bandbreitenbedarf an mehrere Unternehmensstandorte replizieren oder an einen externen Provider von
Rechenzentrumskapazitäten auslagern lassen. Dadurch verbessert sich die
Disaster-Recovery-Fähigkeit.
Walter Graf ist Principal Consultant Data Protection bei Fujitsu Technology Solutions.