Deduplizierung zügelt den Storage-Hunger in der IT

Clever speichern spart Platz und Geld

20. Juli 2010, 15:27 Uhr | Ralf Ladner

Fortsetzung des Artikels von Teil 3

Technische Funktionsweise der Deduplizierung

Das Verfahren der Deduplizierung folgt einem simplen Prinzip. Es sucht nach identischen Dateien. Hat es mehrere solcher identischer Dokumente gefunden, speichert oder archiviert das Verfahren die entsprechende Datei nur einmal, während es alle weiteren identischen Dokumente durch eine kleinere Stellvertreterdatei ersetzt. Diese fungiert als Referenz für die größere Datei.

Damit das Verfahren fehlerfrei greift, muss die Deduplizierung eine Datei unverwechselbar identifizieren. Symantec setzt hierfür die so genannte Technologie „unique file identification“ ein. Hierbei wird jedes Bit und Byte in einem Dokument untersucht und daraus ein digitaler Fingerabdruck berechnet.

Die Technik greift hierzu auf den als Internet-Standard (RFC 1321) definierten MD5-Hash-Algorithmus zurück, mit dessen Hilfe sie einen 128 Bit langen Fingerabdruck generiert. Dieses eindeutige Erkennungsmerkmal für eine Datei wird schließlich in einer zentralen Index-Datenbank gesammelt.

Der Vorteil des Stellvertreter-Verfahrens: Dateien mit demselben Inhalt teilen denselben Fingerabdruck, auch wenn der Anwender oder eine Applikation sie anders benannte, an unterschiedlichen Zeiten bearbeitete oder an unterschiedlichen Orten ablegte. Es funktioniert über Namenskonventionen und Lokationen hinaus.

Der Effekt dieses Grundprinzips schwächt sich allerdings ab, je größer und dynamischer die Dateien werden. Insbesondere E-Mail-Archive zeigen diese Charakteristika. Bereits eine einzige neue Mail verändert die große .pst-Datei so sehr, dass ein frischer Fingerabdruck berechnet wird. Zwei Dokumente würden abgelegt, obwohl sie sich untereinander nur durch eine Nachricht unterscheiden.

Aus diesem Grund wurde die Deduplizierung weiterentwickelt. Inzwischen ist es möglich, große Dateien in mehrere kleinere, in ihrer Größe frei zu konfigurierende Segmente, aufzuteilen.

So werden nur die jeweiligen Dateisegmente abgespeichert, die sich von der Vorgängerversion unterscheiden. Da der Großteil der Segmente, in die eine voluminöse Datei aufgeteilt wurde, unverändert blieb, muss er nicht noch einmal archiviert werden.

Skalieren in großen Netzen

Zu archivierende und zu sichernde Daten sind in jedem Unternehmen auf das gesamte Netzwerk verstreut. Um sie alle zu erfassen, müsste der Administrator sie theoretisch alle an einer Stelle zusammenführen und dann per Deduplizierung bearbeiten.

Das ist weder praktikabel noch umsetzbar. Symantec hat die Deduplizierung daher auf verschiedene Standorte, Außenstellen und Systeme ausgedehnt.

Zu diesem Zweck wurde die Dateicharakteristika von dem eigentlichen Inhalten getrennt und auf die so genannte Metabase und den Content-Router aufgeteilt.

Die Metabase ist eine skalierbare Datenbank, in der die Metadaten eines Dokuments abgelegt sind. Darunter fallen sein Name, der Speicherpfad, die Sicherheitseinstellungen und natürlich der Fingerabdruck.

Die Metabase lässt sich an mehreren Lokationen im Netzwerk aufsetzen und fungiert prinzipiell als Ortungssystem. Sie weiß, wo das Dokument in welcher Version physisch abgelegt ist.

Das jeweilige Original oder seine Segmente sind in einem, beziehungsweise mehreren geographisch verteilten Content-Routern abgelegt.

Das erste Zeichen im Fingerabdruck eines Dokuments oder eines Dateisegments weist darauf hin, wo in den Content-Routern das entsprechende File zu finden ist.

Die Inhaltsrouter selbst sind direkt an ein physisches Speichersystem angekoppelt, sei es ein Direct-Attached-Storage- (DAS), Network-Attached-Storage-System (NAS) oder ein ganzes Storage-Area-Network (SAN). Dort liegen die einzigartigen Dokumente, auf die die Metabase schließlich verweist.

Um an die jeweiligen Dateien zu gelangen, werden auf den entsprechenden Servern Agenten installiert. Sie berechnen den Fingerabdruck für das Dokument und gleichen ihn mit den Pendants in der Metabase ab. Symantec hat die Deduplizierung standardmäßig auch in ihre Backup- und Disaster-Recovery-Lösungen eingebunden.

Dadurch ist gewährleistet, dass die Deduplizierung bereits an der Quelle der Daten eingreifen kann - und zwar den Backup-, File- und Anwendungs-Servern. Dadurch kann sie den vollen Effekt erzielen und den Speicherbedarf so wichtiger Prozesse wie der Archivierung und dem Backup erheblich senken.


  1. Clever speichern spart Platz und Geld
  2. Speichern mit Köpfchen
  3. KMU: Nachholbedarf ist akut
  4. Technische Funktionsweise der Deduplizierung

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Symantec (Deutschland) GmbH Central Europe

Matchmaker+