Dass Unternehmen stetig wachsenden Datenbergen ausgeliefert sind, ist nichts Neues. Doch IT-Verantwortliche sind dem Datenwachstum keineswegs völlig hilflos ausgesetzt - im Gegenteil. Längst existieren Lösungen für das Problem, das kleine und mittelständische Unternehmen ebenso beklagen wie internationale Konzerne. Für mehr Effizienz bei der Datensicherung sorgen Techniken wie Datendeduplikation und Virtual Tape Libraries (VTLs).
Der Einsatz von Festplatten kann die Leistung von Backup und Restore im Vergleich zu
Bandlaufwerken erheblich steigern und bietet zudem Fehlertoleranz. Dennoch ist Backup aus
konventionellen RAID-Arrays komplex und riskant. Disk-Systeme wurden als Primärspeicher entwickelt
und können für Backup schwer zu konfigurieren und zu verwalten sein. Geht es um ein schnelles
Restore von Daten, lassen sich aus Kostengründen auf Plattensystemen meist nur Backup-Daten von
einigen Tagen speichern. Auch bei der Katastrophensicherheit existieren Nachteile: Lokales
Festplatten-Backup ist nicht vor Feuer, Wasserschaden oder auch Virenangriffen geschützt. Versucht
der Anwender, die Daten zur Langzeitaufbewahrung auf Tape an einen anderen Ort zu übertragen, steht
er vor dem Problem, dass Bandbreite kosten- und der Datentransfer zeitintensiv sind.
Die Folge ist, dass sich Anwender oftmals zwischen schnellem Restore oder Datenabsicherung
off-site entscheiden müssen.
Hier kommt als relativ neuer Speichertrend Datendeduplikation ins Spiel. Viele Analysten
betrachten sie als eine der wichtigsten Speichertechnologien seit mehr als zehn Jahren. Bei der
Deduplikation werden doppelte Daten mittels der Blocklet-Technik unterhalb der File-Ebene
aufgespürt und eliminiert. Die Parallelen lassen sich dateiübergreifend, in Daten mit
unterschiedlicher Größe und an unterschiedlichen Speicherorten finden. Sobald sich ein Block (auch
Blocklet) wiederholt, wird ein Pointer gesetzt. Die "gemerkten" Inhalte lassen sich unabhängig vom
Dateiformat wiederfinden – auch unabhängig davon, welche anderen Elemente damit verbunden sind.
Backup betrifft normalerweise große Datensätze. Diese über das Netzwerk zu transportieren, ist
einfach nicht zweckmäßig. Ein Beispiel zeigt, wie Blocklets das ändern: Um 1 TByte über eine
Standard-T3-Leitung – etwa mit 5 MByte/s Durchsatz – zu übertragen, sind zirka 50 Stunden nötig.
Transferiert der Anwender hingegen deduplizierte Daten, so spart er etwa zwei Drittel der Zeit –
bei einem unterstellten durchschnittlichen 3:1-Vorteil. Dieser Vorteil kommt eigentlich erst bei
späteren Übertragungen richtig zum Tragen. Angenommen, nur zehn Prozent der Daten haben sich
geändert und diese Daten werden dedupliziert, dann könnte der Transfer leicht in weniger als einer
Stunde erfolgen. Damit hätte der Anwender ein vollständiges Backup im Data Center und so die
Möglichkeit, die Daten zentral für Disaster Recovery und Langzeitaufbewahrung auf Bandmedien zu
überspielen. Die Effekte dieser Technik werden umso sichtbarer, je mehr Redundanzen im Backup
entstehen.
Die tatsächliche Größenordnung, um die sich Daten reduzieren lassen, variiert nach Datentyp,
Veränderungshäufigkeit der Daten und Häufigkeit des Backups. Der Effekt der Deduplikation
vergrößert sich mit jedem Backup. Dies gilt insbesondere für Full Backups, in denen keine
Unterscheidung zwischen veränderten oder neuen Daten stattfindet. Gerade hier entstehen also über
die Zeit besonders viele Redundanzen. Doch auch bei inkrementellen oder mehr noch bei
differenziellen Backups zeigen sich die Vorteile dieser Technik. So existieren beispielsweise Daten
wie Powerpoint-Präsentationen oder Excel-Tabellen, die von ihrer Konzeption her erhebliche
Einsparungsmöglichkeiten bieten. Wird in einer Powerpoint-Datei zehnmal etwas geändert, so sind
stets nur die geänderten Blöcke zu sichern – das Einsparungspotenzial ist hier erheblich.
Deduplikation lohnt sich vor allem im Backup-Bereich. Je öfter der Anwender Backups durchführt
und je länger er diese vorhält, desto deutlicher wird der Spareffekt. Dies gilt auch, wenn er keine
vollen, sondern inkrementelle Backups durchführt. Durch das entsprechend langsamere Wachstum der
Datenvolumina lassen sich mehr Backups – oftmals bis zu einem Monat – auf Disk vorhalten und die
Daten im Bedarfsfall von dort wiederherstellen.
Weniger Disk-Storage bedeutet nicht nur weniger Investitionen, sondern auch weniger
eingenommener Raum, weniger Stromverbrauch sowie weniger Kühlung. Die Vorteile liegen in der
höheren Zuverlässigkeit und Performance der Disk und auch in der Entlastung beim Medienmanagement,
da Bandmedien oft nur noch für die langfristige Archivierung zum Einsatz kommen. Auch reichen nun
die üblichen Backup-Fenster aus, da sich die Daten außerhalb dieser Fenster auf andere
Sekundärspeicher, Rechenzentren oder Bandarchive auslagern lassen.
Ein weiterer Vorteil von Deduplikation liegt in der Möglichkeit, Daten über ein Netzwerk mit
relativ geringer Geschwindigkeit zu replizieren – und dies in wesentlich kürzerer Zeit, als es ohne
Deduplikation realisierbar wäre. Wenn weniger Daten über das WAN zu transportieren sind, dann sinkt
auch die Eintrittsschwelle bezüglich Kosten beziehungsweise Bandbreite für Remote-Replikation über
das WAN erheblich.
Eine entscheidende Rolle für die Erleichterung bei der Datenspeicherung spielen Virtual Tape
Libraries. Diese VTLs stellen eine Art Missing Link zwischen Tape und Disk dar und ermöglichen
Anwendern eine bessere Speicher- und Ressourcenauslastung bei besserer Performance. Sie beantworten
zwar nicht die alte Frage, ob Disk-zu-Disk-Backup das Tape-Backup verdrängen wird, zeigen aber
einen Weg, der über das reine Entweder-oder hinausgeht. In den meisten Unternehmen sind heute
sowohl Disk als auch Tape feste Bestandteile der Backup-Infrastruktur. VTL füllt die Lücke zwischen
beiden Medien. Es handelt sich dabei um Plattensysteme, die für Backup-Software wie reale Tape
Libraries aussehen, aber alle Vorteile der Disk bieten. Kurz: Die Anwender setzen Festplatten im
Backup ein, ohne ihre Backup- und Archivierungsprozesse mit allen Tools radikal überholen zu
müssen.
VTLs lassen sich nahtlos als weitere Ebene in die Speicherkette integrieren. So können Daten
rasch per Backup und in einem kontinuierlichen Datenfluss aus dem Primärspeicher auf die VTL
geschrieben werden. Im Recovery-Bedarfsfall lassen sich die Informationen sehr schnell aus der VTL
wieder in den Livebetrieb zurückholen. Virtuelle Laufwerke und Medien in der VTL sorgen für
zusätzliche Flexibilität und Sicherheit. Für langfristige Archivierung und Disaster Recovery
schreibt die VTL die Daten – unabhängig vom Backup-Fenster – auf Tape.
Die Akzeptanz virtueller Tape Libraries im Markt liegt nicht nur in Vorteilen wie Performance
oder Zuverlässigkeit. Über Verbesserungen bei Skalierbarkeit, Recovery-Funktionen und Leistung
hinaus erwarten sich Anwender gerade dann ein Zusatzpotenzial aus VTLs, wenn sie mit anderen
Techniken wie der Deduplikation kombiniert sind. Denn so finden um ein Vielfaches mehr Daten auf
der VTL Platz. Der Gedanke, damit die Backups auf Platte – mit allen damit verbundenen Vorteilen –
auch über längere Zeiträume vorzuhalten und erst für langfristige Archivierung auf Tape
auszulagern, erscheint vielen Unternehmen sehr reizvoll. Immerhin kann dann im Notfall das Recovery
wesentlich schneller und strukturierter erfolgen, und Backup-Fenster stellen kein Problem mehr dar.
Wenn zusätzlich regelmäßig Backups auf Tape erfolgen, sind ein hoher Schutz bei Katastrophen sowie
die Einhaltung von Vorschriften zur Langzeitarchivierung gewährleistet. Wird eine VTL regional
genutzt, steigt nicht nur die Datensicherheit vor Ort, auch die Übertragung der erheblich
reduzierten Datenmenge vom lokalen Backup-Device zum Datenzentrum stellt keine Herausforderung an
die Bandbreite mehr dar und ist auf diese Weise überhaupt erst in einem realistischen Zeitrahmen
durchführbar.
Obwohl noch recht neu auf dem Markt, zieht die Datendeduplikation großes Interesse seitens der
Industrie, der Hersteller und der Analysten auf sich. Dabei kommt beispielsweise die Enterprise
Storage Group zu dem Schluss, dass erst Technologien wie Datendeduplikation ein effizientes
Betreiben von Speichernetzen erlauben. Ohne solche Lösungen würden die Storage-Netzwerke in vielen
Unternehmen entweder explodierende Kosten oder einen Datenstau verursachen. Anwender, die hier früh
investieren, können so anderen kostspieligen Finanzaufwendungen aus dem Weg gehen. Die Daten
bleiben überschaubar und der IT-Raum oder das Rechenzentrum wird nicht durch ständigen
Hardwarezukauf "gesprengt". Deduplikation ist somit nicht nur funktions-, sondern auch
zukunftstauglich.