Lange Zeit geht alles gut und dann ist vieles zu spät: Wasser, das über das Dach oder durch die Klimaanlage in den Serverraum nicht nur tropft, sondern regelrecht fließt, eine Brandschutzanlage, die plötzlich losgeht, schlampige Wartung von Servern und Storages oder schlicht und einfach Überforderung der zuständigen Mitarbeiter. Die Liste, was alles zu einem Ausfall eines Rechenzentrums und dem damit verbundenen Datenverlust führen kann, ist lang und umfangreich.
Ist das Kind dann in den Brunnen gefallen, ist die meistgehörte Aussage der betroffenen IT-Administratoren und Rechenzentren-Leiter: „Ich war mir doch so sicher, dass es bei uns nie zu einem Datenverlust kommt“.
Aber die Praxis zeigt: Täglich gibt es eine Vielzahl von Datenverlusten, die eigentlich vermeidbar gewesen wären, hätte man sich bloß frühzeitig und intensiv mit der notwendigen Prävention und mit Strategien für das richtige Verhalten beim Worst-Case auseinandergesetzt. Denn was immer wieder auffällt ist, dass in vielen Fällen menschliche Fehler zwar nicht unbedingt zum eigentlichen Ausfall der Hardware führten, dafür aber im weiteren Verlauf konsequent zum Datenverlust.
Oftmals versuchen die betroffenen Mitarbeiter unter Stress noch etwas auf Teufel komm raus zu retten, wenn sie eigentlich die Finger davon lassen sollten.
RAID-Systeme fallen auch aus
Denn eine selbständige Datenrettung wird bei zunehmender Komplexität der miteinander verzahnten IT-Systeme und Applikationen für Administratoren immer schwieriger oder nahezu unmöglich. Neben unterschiedlicher Hardware verschiedener Hersteller stellen die zwei heutzutage am häufigsten genutzten Technologien in Rechenzentren nicht nur die Mitarbeiter der IT-Abteilungen, sondern auch Datenrettungsspezialisten vor besondere Herausforderungen: die RAID-Speicherung sowie die Virtualisierung, ob im eigenen RZ oder bei einem Cloud-Anbieter.
Bei der Datenspeicherung auf Festplatten-basierten Server- oder Storage-Systemen hat sich seit längerem der Einsatz von RAID-Systemen durchgesetzt. Egal ob RAID 0, 1, 5 oder 6, der Einsatz der Technologie hat – neben seinen unbestreitbaren Vorteilen der verbesserte Ausfallsicherheit und Auslastung des Speicherplatzes – auch seine Tücken. Nämlich dann, wenn das gesamte System doch mal ausfällt und wichtige unternehmenskritische Daten wiederhergestellt werden müssen. Das kann beispielsweise dann passieren, wenn ein RAID-Controller oder die immer populärer werdende rein Software-basierte Variante ausfällt, der Festplatten-Verbund nach einem Server-Neustart durch fehlerhafte Initialisierung „verloren“ geht oder mehrere Festplatten gleichzeitig ausfallen. Diese Fälle kommen nicht selten vor und der damit verbundene Aufwand, Dateien wiederherzustellen, ist alles andere als trivial.
Häufig werden von den Administratoren RAID-Recovery-Bordmittel zum falschen Zeitpunkt eingesetzt. So wird nach einem Plattenausfall das RAID versehentlich neu initialisiert, wo eigentlich ein Rebuild auf der Agenda stünde. Gefährlich ist die fehlerhafte Neuinitialisierung deshalb, weil die neue Parity einfach unter Missachtung der alten Parity neu geschrieben wird, teilweise in einer anderen Reihenfolge, anstatt aus den verbliebenen guten Festplatten die ausgefallene Festplatte auf einer neuen Ersatzfestplatte wieder aufzubauen. Denn unter einer Parity versteht man die so genannte RAID-Fehlerkorrektur, mit der man den Inhalt einer ausgefallenen Festplatte wiederherstellen kann. Bei der Initialisierung werden die eigentlichen Nutzdatenbereiche zunächst überschrieben und die vorhandenen kostbaren Daten sind für immer verloren.
Virtuelle Systeme schützen nicht vor Datenverlust
Spannend wird es für Administratoren auch bei einem Ausfall einer oder mehrerer virtueller Systeme. Auch bei der Virtualisierung sind überwiegend RAIDs im Einsatz. Unabhängig von der Hardware verteilt diese Technologie die Informationen über viele Festplatten. Einzelfestplatten werden zu LUNs zusammengeschaltet und die Daten nach RAID-Prinzipien darauf verteilt. Aber auch ein solcher hardwareunabhängiger RAID-Verbund unterliegt dabei den allgemeinen Ausfallrisiken des RAID-Prinzips. Diese Gefahr wird oft unterschätzt und Backups fehlen dann oder befinden sich bei heutigen Backup-to-Disk-Varianten auf dem gleichen Array und stehen im Ernstfall ebenfalls nicht zur Verfügung. Das Einsatzgebiet wird immer größer: So geht der neueste Trend dazu über auch Storage-Sys-teme zu virtualisieren. Bei einem Virtual-Storage-System werden Applikationen oder Dateien, die in virtuellen Maschinen gespeichert wurden, in einem gemeinsamen geclusterten Shared-Storage-Datastore zusammengefasst. Jeder angebundene Host-Rechner mit seinen Festplatten ist Teil dieses gemeinsamen Datastores.
Um die Ausfallsicherheit zu erhöhen, lässt sich auf Virtual-Storage-Ebene einstellen, wie die einzelnen Host-Rechner abgesichert werden sollen. Abhängig von der Anzahl der eingesetzten Hosts werden von dem Original-Host und seinen Daten auf anderen Hosts sowohl komplette Kopien als auch Verweise (so genannte „Witness“) erstellt, aus denen sich bei einem Ausfall eines Hosts dieser wiederherstellen lässt. Dabei gilt: Je mehr Hosts vorhanden desto mehr Original-Hosts können ausfallen. Bei einem Datenverlust bedeutet das für Datenrettungs-Ingenieure, dass sie sich neben den normalen virtuellen Maschinen und den darin eingebetteten Daten mit einer zusätzlichen Informationsebene beschäftigen müssen.