Eine bessere Auslastung des Plattenspeichers verspricht die Software-Version 5.6.44 von EMCs virtuellem Fileserver Celerra-NX4 mit Deduplication. Network Computing hat überprüft, ob die Lösung hält, was der Hersteller verspricht.
Wie wichtig das Thema Deduplikation für die Speicherhersteller ist, zeigt das Gezanke von EMC und Netapp um den Hersteller Data Domain. Letzten Endes legte EMC die stolze Summe von 2,1 Milliarden Dollar auf den Tisch, um sich den Spezialisten für Deduplizierung einzuverleiben.
Die Deduplizierungsfunktion von EMCs Celerra-NX4 ist leicht zu konfigurieren und liefert gute Ergebnisse. Ein Schwachpunkt ist die Limitierung auf ein Dateisystem.
Erste Schritte in Sachen Datenreduktion mittels Deduplication geht EMC bereits ohne Data-Domain-Technologie. Bereits in Ausgabe 1-2/2009 stellte Network Computing die virtualisierende Fileserver-Appliance Celerra NX4 vor (siehe Aus dem Testlabor: Data Mover von EMC mit vielen Funktionen).
Das System integriert eine Fibre-Channel-Speicherheinheit mit gespiegelten Fileservern. Die darauf arbeitende Software virtualisiert Dateisysteme und NFS/CIFS-Server. Unternehmen können mit einer einzigen dieser Appliances Hunderte von Dateiservern in unterschiedlichen ADS-Kontexten und IP-Segmenten konsolidieren.
In der Zwischenzeit hat EMC die System-Software des virtuellen Fileservers aktualisiert. Mit der Version 5.6.44 beherrscht das Gerät nun auch Deduplikation.
Ein besonderes Setup für diese Funktion gibt es nicht. Sie lässt sich für jedes virtuelle Dateisystem zu- oder abschalten. Die Deduplikationsparameter stellt der Verwalter entweder global oder individuell für jedes Dateisystem ein.
Hier wird allerdings die Schwäche von EMCs Implementierung der Deduplikations-Funktion sichtbar. Der Hersteller komprimiert auf Dateibasis innerhalb eines Dateisystems. Die Software reduziert Redundanzen leider nicht über die Dateisystemgrenzen hinweg.
Das Konzept der NX legt eigentlich nahe, für jeden virtuellen CIFS/NFS-Server auch ein eigenes Dateisystem anzulegen. Das jedoch widerspricht der Deduplizierungs-Funktion.
Im Labor erzeugt Network Computing daher ein einziges, großes Dateisystem, das den kompletten Fibre-Channel-Speicher der zugehörigen AX4 nutzt. Das Basisverzeichnis des Dateisystems namens »data« exportiert das Labor-Team via NFS und legt dort eine Reihe von Unterverzeichnissen an.
Diese verwandelt der Verwalter in CIFS-Freigaben und weist diese den virtuellen Data-Movern zu. So entstehen für den Test drei virtuelle CIFS-Server mit von einander getrennten Shares, die sich jedoch ein gemeinsames Volume teilen und damit gemeinsam die Deduplikation verwenden.
Nach dem Aufspielen der Testdaten passiert erst einmal nichts. EMCs Deduplikation arbeitet offline über einen Scheduler. Das Basis-Regelwerk gibt vor, dass nur Dateien, die seit mindestens 60 Tagen nicht mehr verändert und seit 30 Tagen nicht mehr gelesen wurden, zur Deduplikation anstehen.
Das Test-Team setzt die Parameter auf 0, und die NX beginnt im Hintergrund, Dubletten zu eliminieren. Das Regelwerk der Appliance steuert dabei auch den CPU-Bedarf der Deduplikation, um die Performance des normalen Betriebs während der Redundanzbeseitigung nicht zu behindern.
Nach etlichen Stunden Arbeit schafft es die Celerra-NX fast, den zuvor errechneten Prozentsatz einzudampfen. Die Testdaten hätten sich theoretisch um 50 Prozent reduzieren lassen müssen. Die Appliance schafft 45 Prozent.
Der Grund: Etliche Testdaten fallen unter die Mindestgröße der Deduplikationsfunktion, was die fünfprozentige Abweichung erklärt.
Die Deduplikationsfunktion der Celerra-NX lässt sich erfreulich detailliert konfigurieren, sowohl im GUI als auch auf der Kommandozeilen-Ebene. Der filebasierte Ansatz schafft dabei geringere Kompressionsraten, als das bei einer blockbasierten Lösung der Fall wäre.
Negativ fällt auf, dass die Deduplikationsfunktion nicht dateisystemübergreifend arbeitet. Je nach bestehender Konfiguration der Pools, Dateisysteme und Freigaben erhalten die Administratoren mehr oder weniger bis gar keine Reduktionsraten.
Insgesamt lässt sich feststellen, dass der erste Deduplikationsansatz von EMC nicht verkehrt ist, jedoch nicht so effizient arbeitet wie erhofft. EMC sollte hier in absehbarer Zeit nachlegen und zumindest optional eine blockbasierte Deduplikation offerieren.
Diese könnte dann auf der Ebene der Disk-Pools anstatt im Dateisystem arbeiten und effizientere Deduplikationsraten liefern.