Welche Datenraten liefern Festplatten tatsächlich?
Für jedes HDD-Modell gibt der Hersteller im Datenblatt die „Sustained Data Rate“ an. Wie aussagekräftig ist dieser Wert? Und wie wirken sich die realen Einsatzbedingungen – etwa RAID-Konfigurationen oder die Art der Arbeitslasten – auf die Geschwindigkeit aus? Toshiba geht dieser Frage in einem Gastbeitrag auf den Grund.
Die Geschwindigkeit zählt neben der Zuverlässigkeit und dem Energieverbrauch zu den wichtigsten Kennzahlen von Festplatten. Schließlich sollen sie Daten möglichst schnell aufnehmen oder bereitstellen, um Benutzer und Anwendungen nicht auszubremsen. Einen guten Anhaltspunkt für den Vergleich verschiedener HDD-Modelle liefern Datenblätter, in denen stets die „Sustained Data Rate“ beziehungsweise die „kontinuierliche Datenübertragungsrate“ aufgelistet ist. Bei den neuesten Enterprise-HDDs liegt sie in der Regel zwischen 280 und 310 MB/s.
Die Werte beziehen sich allerdings nur auf das Schreiben und Lesen der äußeren Datenspuren auf den Disks, werden also nicht immer und nicht dauerhaft erreicht. Auf den inneren Spuren fällt die Geschwindigkeit auf etwa zwei Drittel ab. Das liegt schlicht daran, dass die äußeren Spuren länger sind und mehr Bits aufnehmen. Während einer Umdrehung können die Schreib/Lese-Köpfe somit eine größere Datenmenge schreiben oder lesen als auf den inneren Spuren. Aus diesem Grund werden bei Festplatten die äußeren Disk-Bereiche auch als erstes beschrieben, was dazu führt, dass die Performance einer Festplatte mit dem Füllstand sinkt.
Anbieter zum Thema
Darüber hinaus werden die hohen Geschwindigkeiten nur beim Schreiben oder Lesen größerer Dateien oder Datenblöcke erreicht, denn in diesem Fall können die Schreib/Leseköpfe die Bits ohne Neupositionierung hintereinander weg abspeichern beziehungsweise erfassen. Beim Wechsel zwischen Schreib- und Leseaktivitäten oder vielen kleinen Files und Blöcken müssen die Schreib/Leseköpfe bewegt werden, um zu den jeweils richtigen Spuren zu gelangen – und dann durchschnittlich eine halbe Umdrehung warten, bis der gewünschte Sektor unter ihnen vorbeikommt. Das kostet Zeit und drückt die Performance.
Steigende Kapazitäten sorgen für steigende Geschwindigkeiten
Aktuelle Enterprise-HDDs arbeiten mit 7.200 Umdrehungen pro Minute. Die einstigen Performance-Modelle mit 10.500 oder 15.000 Umdrehungen pro Minute sind inzwischen fast vollständig vom Markt verschwunden, da SSDs ihnen den Rang abgelaufen haben und überall dort zum Einsatz kommen, wo es auf sehr hohe Geschwindigkeiten ankommt. Zudem liefern HDDs mit 7.200 Umdrehungen längst ähnliche oder sogar bessere Leistungswerte als die alten, schneller rotierenden Modelle – nicht zuletzt auch dank der gestiegenen Speicherkapazitäten der Laufwerke. Denn die höheren Kapazitäten werden durch eine höhere Datendichte möglich: Eine höhere Datendichte auf den einzelnen Spuren bedeutet, dass bei gleicher Rotationsgeschwindigkeit mehr Bits pro Zeiteinheit geschrieben oder gelesen werden können, während dichter liegende Spuren die Wege für die Schreib/Lese-Köpfe verkürzen.
Die Anzahl der Disks hingegen beeinflusst die Performance nicht, da – anders als häufig angenommen – immer nur auf einer Disk geschrieben oder gelesen wird. Durch die immer schmaleren Datenspuren, die eine äußerst filigrane Positionierung der Schreib/Leseköpfe notwendig machen, liegen die gewünschten Spuren selten oder nie exakt so übereinander, dass parallel auf sie zugegriffen werden könnte.
Auf die RAID-Konfiguration kommt es an
Letztlich hat die Sustained Data Rate aber nur bedingt Aussagekraft, da sie sich auf die einzelne Festplatte bezieht. In Servern und Storage-Systemen stecken jedoch mehrere Laufwerke, die im Verbund deutlich höhere Geschwindigkeiten erreichen. Ein JBOD-System (Just a Bunch of Disks) mit 78 HDDs beispielsweise kann fast 17 GB/s liefern.
Die Performance hängt also von der Anzahl der Festplatten und ihrer Konfiguration ab. In den meisten Fällen wird mit den Laufwerken ein RAID (Redundant Array of Independent Disks) eingerichtet, damit die Daten auch beim Ausfall einer oder mehrerer HDDs noch verfügbar sind. Im einfachsten Fall ist das ein RAID 1, bei dem die Daten einer Festplatte auf eine andere gespiegelt werden. Dadurch liegen sie auf zwei Laufwerken vor und können schneller als von einem einzigen Laufwerk eingelesen werden. Beim Schreiben bietet RAID 1 allerdings keine Vorteile, da sich die Schreibaktivitäten nicht auf beide Laufwerke verteilen lassen.
Ab vier Festplatten empfiehlt sich die Konfiguration anderer RAID-Level, die eine höhere verfügbare Speicherkapazität, eine höhere Leistung und/oder eine höhere Verfügbarkeit bieten. Am gebräuchlichsten sind RAID 5 und 10.
RAID 5 verteilt Datenblöcke und Paritätsinformationen über alle zur Verfügung stehenden Laufwerke. In einem System mit vier HDDs wird aus jeweils drei sogenannten Stripes, die auf drei verschiedenen HDDs liegen, eine Parität berechnet und auf der vierten HDD gespeichert. Es stehen also 75 Prozent der Gesamtkapazität für Daten bereit, während es bei RAID 1 lediglich 50 Prozent sind. Die Daten können von drei Laufwerke parallel gelesen werden, sodass die Leseperformance hoch ist. Auch geschrieben wird auf drei Laufwerken parallel, doch das Berechnen der Paritäten geht zulasten der Schreibperformance.
RAID 10 wiederum sind mehrere RAID 1, die in einem RAID 0 stecken, sodass die Daten über die Festplattenpaare hinweg „gestript“ werden können. Dadurch stehen zwar nur 50 Prozent der Gesamtkapazität für Daten bereit, doch es können mehrere Festplatten ausfallen, solange sie in verschiedenen RAID-1-Paaren stecken. Den Ausfall beider HDDs in einem RAID 1 verkraftet RAID 10 nicht.
Da dank Striping von allen Festplatten parallel gelesen werden kann, bietet RAID 10 hohe Lesegeschwindigkeiten. Die Schreibgeschwindigkeiten sind (im Vergleich zum RAID 5) jedoch niedriger, da nur auf jeweils der Hälfte der HDDs geschrieben wird.
Das Netzwerk kann zum Flaschenhals werden
Neben dem RAID-Level hat der Controller des Systems beziehungsweise die eingesetzte Storage-Software einen Einfluss auf die in der Praxis erreichbaren Geschwindigkeiten. Ein Test verschiedener Systeme und Konfigurationen mit vier Festplatten zeigt beispielsweise, dass Hardware-RAID-Controller eine bessere Performance bieten als ein schlüsselfertiges NAS. In einem RAID 5 liefern sie zudem mit über 700 MB/s deutlich höhere Schreibgeschwindigkeiten als in einem RAID 10. Die sequentielle Leseleistung schwankt hingegen in Abhängigkeit vom Controller und kann weit über 900 MB/s liegen. Bei gemischten Arbeitslasten sinkt die Performance erheblich, wobei RAID 10 mit knapp 120 MB/s fast 50 Prozent schneller als RAID 5 ist. Ein Software-RAID ist bei sequentiellen Zugriffen auf einem ähnlichen Leistungsniveau wie Hardware-Controller und fällt nur bei gemischten Arbeitslasten ab, was sich aber durch einen SSD-Cache verhindern lässt.
Um die Performance tatsächlich auszunutzen, die mehrere Festplatten im Verbund liefern, muss das Netzwerk ausreichend leistungsfähig sein. Gigabit Ethernet (GbE) und 2,5 GbE reichen nicht aus, da sie nur rund 100 beziehungsweise 250 MB/s übertragen. Schon bei Systemen mit vier Laufwerken ist 10 GbE somit Pflicht. Ab acht HDDs wird 25 GbE und ab 50 HDDs sogar 100 GbE benötigt, wenn das LAN nicht zum Flaschenhals werden soll.
Fazit
Welche Performance ein Storage-System in der Praxis bietet, lässt sich vorab nur grob abschätzen, denn die Leistung hängt unter anderem von den HDD-Modellen, der Anzahl der Laufwerke, dem Controller des Systems, dem RAID-Level und den Arbeitslasten ab. Hinzu kommt, dass die Systeme üblicherweise nicht allein für maximale Leistung konfiguriert werden, sondern auch bestimmte Anforderungen hinsichtlich Speicherkapazität, Verfügbarkeit und Energieverbrauch erfüllen sollen. Bei der Bewertung der Leistung und der Optimierung auf verschiedene Anforderungen hin helfen praxisnahe Test, beispielsweise in den Laboren von HDD-Herstellern wie Toshiba. Der Blick ins Datenblatt einer Festplatte liefert jedoch schon eine erste Entscheidungsgrundlage, denn eine HDD die dort schneller als ein anderes Modell spezifiziert ist, liefert auch in einem RAID-Verbund eine höhere Geschwindigkeit.