Optimiertes Metadaten-Handling

Tempo steigern, Kosten senken

17. Dezember 2010, 6:00 Uhr | Wolfgang Oestreic, Sales Manager DACH bei Bluearc

IT-Entscheider sehen sich immer stärker mit der Anforderung konfrontiert, mehr Leistung schneller und flexibler mit weniger Mitteln zur Verfügung zu stellen. Die Speicherinfrastruktur nimmt auf Grund des exponentiellen Wachstums der zu verarbeitenden Informationsmenge eine zentrale Stelle bei der Effizienzsteigerung ein. Im Zusammenspiel mit der Virtualisierung der Server-Systeme gewinnt die Speichervirtualisierung an Bedeutung - und damit auch das Handling der Metadaten.

Moderne NAS-Systeme, bei denen der Speicherzugriff über 10 Gigabit Ethernet sowie die
Standard-Protokolle NFS und iSCSI erfolgt, eröffnen aufgrund ihrer Funktionalität, Leistung und
Skalierbarkeit völlig neue Dimensionen in der Speichernutzung. Die Anzahl benötigter File-Server
und damit die Infrastrukturkosten werden reduziert. Die Skalierbarkeit der nutzbaren Kapazität im
Bereich mehrerer hundert TByte korrespondiert mit den gewachsenen Möglichkeiten der
64-Bit-Betriebssysteme. Verfahren wie Snapshots und Cloning erlauben es einerseits, Systeme bei
Fehlern schnell und einfach zurückzusetzen, andererseits aber auch, unkompliziert Test- und
Entwicklungsumgebungen zu generieren, ohne die Daten mehrfach vorzuhalten.

Diese Anwendungsfälle haben jedoch Konsequenzen für die Architektur der NAS-Systeme. Ist beim
normalen Dateizugriff der Durchsatz eines Systems interessant, erfordert der parallele Zugriff auf
identische Daten eine hohe I/O-Rate des Systems, da am Ende kaum noch serielle Zugriffe erfolgen,
sondern zufällige (Random I/O) die hauptsächliche Zugriffsform darstellen. Der Behandlung der
Metadaten kommt dabei eine besondere Bedeutung zu.

Metadaten sind sowohl administrative Informationen wie Rechte, Dateiattribute sowie
Zeitinformationen, als auch strukturelle Daten über die Speicherorganisation selbst. Auf diese
Metadaten wird immer dann zugegriffen, wenn eine Information gesucht, gelesen oder geschrieben
wird. Je nach Anwendung sind zahlreiche dieser Metadatenoperationen notwendig. Die Behandlung der
Informationen durch das jeweilige Speichersystem hat also direkten Einfluss auf die Leistung der
Applikationen.

Üblicherweise legt man Daten Performance-kritischer Applikationen auf schnelle Medien wie
SAS-Platten mit 15.000 rpm (Umdrehungen pro Minute) oder sogar Solid-State-Speicher. In der Regel
lässt sich dabei die komplette, von der jeweiligen Applikation benötigte Kapazität mit den
schnelleren Medien realisieren, und zwar unabhängig von der am Ende tatsächlich geforderten
Leistung. In der Folge steigen die Kosten für das Speichersystem. Die Kosten steigen weiter, wenn
für diese schnellen Medien auch noch zusätzliche Speichersysteme zu beschaffen sind.

Bedeutung der Metadaten

Bei der Optimierung eines NAS-Systems ist daher die Verarbeitung der Metadaten zu
berücksichtigen. Da die meisten Dateioperationen Metadaten betreffen, gilt dies besonders für
Anwendungen, die große Datenbereiche mit einer Vielzahl an Objekten bearbeiten.

Dateisysteme, bei denen man Metadaten auf schnellere Speicherklassen auslagern kann, sind ein
hervorragender Weg zur Lösung des Widerspruchs zwischen Leistungsanforderung und Kostendruck.
Abhängig von der Zugriffscharakteristik der jeweiligen Anwendungen sind Verbesserungen um bis zu
800 Prozent zu erzielen. Systeme, die bereits auf hohe I/O-Leistung optimiert sind, profitieren
hier nochmals von einer größeren Zahl an Cache-Hits. Durch die Optimierung des Verhältnisses von
schnellen und günstigen Speichermedien lassen sich so erhebliche Kosteneffekte erzielen, ohne dass
man auf Leistung verzichten muss.

Von dieser Art der Metadatenbeschleunigung profitieren in erster Linie Applikationen, die
gleichzeitige Zugriffe auf große Dateien ausführen, also zum Beispiel Datenbanken oder virtuelle
Maschinen (VMs) beim Zugriff über NFS oder iSCSI. Aber auch beim Durchsuchen großer Datenbestände,
Auflisten von Verzeichnissen oder bei metadatenintensiven Applikationen wie Replikationen oder
Backups sind Leistungssteigerungen messbar. Werden die gleichen Metadaten jedoch mehrfach gelesen
oder handelt es sich um eine „Cache-freundliche“ Applikation, dann fallen die
Geschwindigkeitsgewinne eher gering aus.

Frage der Medienwahl

Es bleibt die Frage, welche Kapazität an schnellen Medien für die Metadatenbeschleunigung
vorzuhalten ist. Bei der Analyse verschiedener Datenbestände wurden durchschnittlich fünf Prozent
der Gesamtkapazität für die Verwendung von Metadaten ermittelt. Handelt es sich jedoch um ein
File-System mit einer großen Anzahl kleiner Dateien, kann die Menge der Metadaten auch schnell 60
Prozent erreichen. Jede Datei hat ihren eigenen Metadatenblock, und je nach zugrunde liegendem
File-System können bei größeren Dateien auch mehrere Blöcke mit Metadaten vorhanden sein. Hier sind
dann Informationen über den Speicherort der jeweiligen Dateiabschnitte im File-System
hinterlegt.

Bestimmung des Metadatenanteils

Daher ist neben der Blockgröße des File-Systems selbst auch die Anzahl vorgehaltener Snapshots
ein weiterer Faktoren bei der Bestimmung des Metadatenanteils. Eine 4 kByte große Datei kann in
einem 4-kByte-File-System beispielsweise zwei Blöcke belegen: einen mit den Nutzdaten und einen
weiteren mit den Metadaten. Dieser 50-Prozent-Anteil an Metadaten ist sicher ein Extrembeispiel,
jedoch in der Praxis nicht untypisch. Handelt es sich um eine 64 kByte große Datei im gleichen
File-System, liegt der Metadatenanteil schon bei nur noch etwa sechs Prozent. Komplizierter wird
die Sache bei einem File-System, das nicht nur die Originaldaten, sondern auch Snapshots dieser
Daten enthält und diese für den schreibenden Zugriff bereitstellt. Daher bieten einige
NAS-Hersteller Tools, mit denen sich der Anteil der Metadaten ermittelt lässt.

Um ein zufriedenstellendes Ergebnis zu erreichen, ist deshalb stets eine individuelle Analyse
des zu beschleunigenden Datenbestandes und der zugreifenden Applikationen notwendig. Denn ein
großer Anteil an Metadaten bedingt wiederum nicht immer eine hohe Zahl an Metadatenoperationen.

Testfall

Ein Test sollte die Wirkung einer gesonderten Metadatenbehandlung mit unterschiedlichen Medien
demonstrieren. Dabei hat der Tester mit einer metadatenintensiven „Applikation“ in einem per
NFS-Mount verbundenen File-System ein Verzeichnisbaum mittels ls-Kommando aufgelistet. Bild 2 zeigt
das Ergebnis dieses simplen Tests, bei dem vier Verzeichnisse mit jeweils 700.000 Dateien
aufgelistet wurden. Um die Vergleichbarkeit sicherzustellen, kam ein NAS-System mit einem Cold
Cache (nicht vorab befüllten Cache) zum Einsatz.

Zwischen der (aus Kostengründen oft gewählten) ausschließlichen Speicherung auf
Nearline-SAS-Platten sowie einem Tiered-File-System mit SSD für die Metadaten und Nearline-SAS für
die Nutzerdaten ergab dieser Test eine Geschwindigkeitssteigerung um nahezu 800 Prozent, konnte
doch die schnelle Technologie der Solid-State-Medien ihre Vorteile voll ausspielen.

Jedoch schon die Kombination SAS für die Metadaten und Nearline-SAS für die Nutzdaten erbrachte
einen Leistungsschub um das Dreifache, und dies zu vergleichsweise geringen Kosten. Legt man die
aufgeführten fünf Prozent Metadaten für ein 100 TByte Nettokapazität großes File-System zugrunde,
lassen sich 95 Prozent der Daten auf günstigen 2-TByte-Nearline-SAS-Platten speichern. Lediglich 5
TByte Nettokapazität würden die Metadaten beanspruchen. Auch wenn sich Solid-State-Medien einem für
den Massenmarkt tauglichen Preisniveau annähern, sind derzeit noch erhebliche Teile der
Beschaffungsinvestitionen an dieser Stelle zu erbringen. Die Möglichkeit, hier auf schnelle
SAS-Medien mit 15.000 rpm zurückzugreifen, ist also mittelfristig eine willkommene Alternative.

Festzuhalten ist jedoch, dass eine Beschleunigung der Metadatenoperationen die Grenzen des
NAS-Systems selbst nicht erweitert: Operieren Verarbeitungseinheit, Bus-Systeme oder andere
laufende Prozesse am Limit, kann eine verbesserte Metadatenbehandlung keine Abhilfe schaffen.

Fazit

Ohne grundlegende Änderung der NAS-Hardware ist eine verbesserte Systemleistung bereits durch
eine optimierte Verarbeitung der Metadaten zu erzielen. Weitergehende Maßnahmen wie gezielter
Einsatz von SAS- oder SSD-Medien zur Ablage von Metadaten verstärken den Effekt. Im Gegensatz zum
simplen Caching erreicht man durch optimierte Metadatenverarbeitung eine neue Qualität in der
Speichernutzung. Investitionen in neue Technik zeigen Verbesserungen bei einer ganzen Reihe von
Anwendungen, ohne dass es nötig ist, den gesamten Datenbestand auf teure Medien zu legen. Eine
langfristige Strategie zur Einführung einer leistungs- und kostenoptimierten
Speichervirtualisierung lässt sich mit verbessertem Metadaten-Handling in die Tat umsetzen. Wird
diese Technik mit weiteren Methoden der für Endnutzer transparenten Migration zwischen
verschiedenen Speicherklassen kombiniert, lassen sich auch langfristig Kosteneinsparungen ohne
Abstriche bei der Service-Qualität erzielen.

transfer

transfer


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+