Wenn die Physik nicht mitspielt
- RAID-Systeme: Fehler in Physik und Logik killen Daten
- Wenn die Physik nicht mitspielt
- Physikalische und Virtualisierungsebene
Physikalische Fehler sind vielfältig: Entweder sind einzelne Bereiche oder Schreib-/Leseköpfe defekt oder der Controller versagt zum Beispiel durch Überhitzung.
Der Tausch von Ersatzteilen reicht oft nicht aus. Ersatz-Controller sprechen oft aus nicht nachvollziehbaren Gründen die Festplatten nicht an. Mechanische Ausfälle sind deswegen so gefährlich, weil sie selten allein auftreten.
Der erste verschleißbedingte Ausfall wird in RAID 6 von vielen Administratoren häufig fahrlässig hingenommen. Erst wenn eine weitere Platte ausscheidet, sind die Daten nicht mehr verfügbar. Dieser Fall ist aber gar nicht so selten, denn oft stammen die Platten aus einer Produktionscharge und ihre »Mean Time Between Failures« läuft gemeinsam ab.
Fehler in der Logik
Auch logische Fehler in der Verzeichnisstruktur sind zahlreich und oft noch schwieriger zu beheben. Vor allem die großen SANs und RAIDs beruhen wie jede Festplatte auf einem zentralen Verzeichnis der Dateien, welches genau die Speicherorte zuteilt. Neben dem Verlust des Verzeichnisses als Extremfall sind hier alle Spielarten denkbar, die dazu führen, dass Einträge nicht mehr korrekt sind.
So können Verzeichnisse von einer falschen Dateigröße ausgehen. Ist sie zu klein angegeben, liest der Controller die Folgebereiche nicht mehr richtig weiter ein und die Datei wird in seinen Augen korrupt.
Das ist häufig bei dynamischer Speicherverwaltung in virtuellen RAIDs der Fall, wenn ein RAID-Segment im Fehlerfall automatisch verkleinert wird und dadurch von ihm noch belegte Bereiche aus seinem Verfügungsbereich eigentlich konsequent heraus fallen. Dateien werden regelrecht abgeschnitten, obwohl sie physikalisch durch die elektromagnetische Polung der einzelnen Sektoren noch einwandfrei vorhanden sind. Ebenso können sich Korruptionen daraus ergeben, dass die einzelnen Fragmente einer Datei in der falschen Reihenfolge abgefragt werden.
Die Ursachen falscher oder fehlender Einträge sind unterschiedlich. Physikalische Ausfälle in RAID-Verbunden ziehen häufig eine logische Beschädigung nach sich. Banale Bedienungsfehler können eine weitere Ursache sein: Wer beim Austausch einzelner Festplatten diese eventuell auch vertauscht, kann böse Überraschungen erleben.
RAID 6 ist hier besonders sensibel, weil die neu einzusetzenden Festplatten bei der Einrichtung exakt wie die alten bezeichnet und implementiert werden müssen.
Datenrettung mit Bordmitteln hilft nur begrenzt
Manchmal lassen sich mit RAID-Bordmitteln logische Fehler beheben, aber hier ist äußerste Vorsicht geboten. Jedes System bringt Rebuild-Optionen mit. Der Rebuild berechnet fehlende Fragmente einer ausgefallenen Festplatte aus bestehenden Dateien und Parities der noch verbliebenen Datenträger und schreibt diese automatisch auf die neu eingesetzte Festplatte.
Bei manchen Systemen bringt sich diese Rebuild-Funktion auch automatisch von selbst ins Spiel, wenn beispielsweise die Hotspare-Option eingeschaltet ist. Der Administrator wird dadurch erst einmal in Sicherheit gewogen. Anschließende Austauschaktionen oder zusätzliche Backups finden kaum zeitnah statt. Wenn dann rasch weitere Festplatten ausfallen, dann ist ein Rebuild nicht mehr möglich.
Auch andere Bordmittel sind mit Vorsicht zu genießen, so etwa der Einsatz von »CHKDSK« in NTFS-Umgebungen. Wenn tiefer gehende Probleme vorliegen, kann »CHKDSK« wichtige Datenstrukturen löschen.
Bei einem RAID mit neun Platten traf es beispielsweise die Master-File-Table mit ihren File-Record-Tabellen, die die einzelnen Speicherorte zentral bezeichnet. Das Zusammentragen der vorhandenen File-Records beim Einzelscan aller Sektoren hatte weitere Tücken.
Es wurden auch ältere File-Records wiederhergestellt, die das Bordtool Shadow-Copy angelegt hatte. Sie führten nun ins Leere und hätten beim Nachgehen durch die Experten automatisch einen neuen und zeitraubenden »CHKDSK« veranlasst.
Das Team musste daher ein kundenspezifisches Toolset entwickeln, das nur die aktuellen Verweise auf die Speicherorte der Kundendaten berücksichtigte. Bei einem Volumen von 1 TByte mussten die Tools bereits nach dem Scan der Hälfte des Volumens über 19 Millionen File-Records bewerten. Ohne die Filterung hätte man alle Dateien und Verzeichnisse einzeln herauskopieren müssen. So aber ließ sich eine Verzeichnisstruktur vollständig rekonstruieren und die Daten konnten wieder gefunden werden.
Bordmittel zum richtigen Zeitpunkt einsetzen
Nicht weniger problematisch ist es, wenn Bordmittel zum falschen Zeitpunkt eingesetzt werden. Häufiger als vermutet wird bei Zugriffsproblemen das RAID einfach neu initialisiert, anstatt einen Rebuild durchzuführen. Dann wird nichts wieder aufgebaut, sondern lediglich neue Parities für ein bestehendes, nun aber korruptes System ausgerechnet. Dann kann kein korrektes Ergebnis mehr heraus kommen.