Startseite > Datacenter & Verkabelung > Appell an die Eigenverantwortung

Wenn das Datacenter stillsteht

Appell an die Eigenverantwortung

11. November 2021, 7:00 Uhr | Jürgen Kolb/am

Fortsetzung des Artikels von Teil 1

Erkennen und analysieren

Voraussetzung für jegliche Handlungsfähigkeit im fremden oder eigenen Datacenter sind zwei Punkte: die rasche Erkennung und ebenso schnelle Analyse von Problemen mit Hilfe von Sensoren. Diese lassen sich einerseits durch Monitoring-Systeme setzen, aber genauso durch eigene, einfache physikalische Messstellen, die sofort Alarm schlagen. Wer dann gut vorbereitet ist, profitiert: Gibt die Alarmierung gezielt und zuverlässig ein Problem weiter, greifen alle Rädchen gemäß des vorbereiteten und getesteten Notfallhandbuchs ineinander. Mit etwas Planung und Beratung können Verantwortliche an dieser Stelle also einen immensen Mehrwert schaffen. Business Continuity lässt sich mit der Komponente „Alarmierung“ zum Beispiel in ein gängiges Netzwerk-Monitoring integrieren, die Shutdown-Software verwaltet die USV-Anlagen und ist für Extra-Sicherheit mit der vorhandenen Server-Raum-Überwachung gekoppelt. Auch das Management der virtuellen Instanzen lässt sich optimieren, um – abgestimmt mit den Shutdown-Prozeduren – eine Live-Migration im Notfall durchzuführen. Der Wiederanlauf ist dann ebenso nur ein Knopfdruck. Beim Thema „geplant und vorbereitet“ kommen allerdings selbst gestandene Administrationsteams ins Schwitzen, denn hierzu zählen auch die oft gefürchteten Desastertests. Sie zeigen den Realzustand der IT und damit auch Schwachstellen auf und sind mit viel Vorbereitungszeit und Ausfallsrisiko verbunden.

Der Aufwand für diese Desastertests lohnt sich aber, denn geprobte Abläufe, Automatismen und Prozeduren sind unter Druck in einer Notlage besser umzusetzen. Wenn Sensoren einen Alarm auslösen, sollte man bereits mit der Live-Migration der wichtigsten Daten begonnen haben – ganz gleich zu welcher Uhrzeit. Dabei ist der Überblick über die virtuellen Systeme, die Restlaufzeiten von USV-Batterien oder Notsystemen entscheidend. Der automatisierte Shutdown inklusive Wiederanlauf in einer kontrollierten Umgebung ist die Königsdisziplin des Business-Continuity-Managements und lässt sich über eine bewährte Softwarelösung einleiten und abwickeln. Dabei sind auch Sonderfälle einer Krise abgebildet, zum Beispiel wenn die Stromversorgung immer wieder kurz da und dann doch wieder unterbrochen ist. Hinterlegt man diese Szenarien in der Software, ist Flexibilität gegeben, sei es durch manuelles Eingreifen anhand der Erfahrungen der bisherigen Tests und Simulationen oder durch Automatisierung.

Weniger Aufwand verspricht die Automatisierung, die auch in großen IT-Infrastrukturen an Fahrt aufnimmt. Routineaufgaben und insbesondere Notfallmechanismen sind geradezu prädestiniert dafür, Erfahrungen und gängige Logiken, auch als KI bekannt, von Softwareanbietern zu nutzen. So ist es empfehlenswert, statt wiederkehrender „handgestrickter“ Notfalltests auf ein permanentes System umzusteigen, um immer den neuesten Stand der Technik beziehungsweise das aktuelle Netzwerk-Design zu berücksichtigen. Gleiches passiert bereits im Bereich der IT-Security bei der Suche nach täglich neu auftretenden Schwachstellen im Rahmen von As-a-Service-Angeboten. Auch bei der Auslagerung der Systeme und Daten an Externe gilt: Ohne eigenes Zutun ist im Krisenfall schnell all das weg, was unternehmenskritisch ist. Die größte Gefahr für die IT sind eigene Fehleinschätzungen und der Glaube, dass man mit umfassenden Verträgen und der Auslagerung von Themen die Verantwortung für die Verfügbarkeit und Resilienz abgegeben hat.

Der Cloud- oder Rechenzentrumsbetreiber kann diametral andere materielle Interessen verfolgen als seine Kunden, die auf eine sichere Datenverwaltung setzen. Es bedarf daher eines Business-Continuity-Managements, das vom Notfallhandbuch und regelmäßigen Desastertests über das Log-Management und Alarmierung bis zur Datenmigration und Shutdown alles umfasst, was selbst komplexe IT-Infrastrukturen vor Angriffen oder Klimakatastrophen schützt.

Ohne Zahlen und Fakten lassen sich keine Standards entwickeln, die dann in der Krise schlagend werden: So kann ein 30-Minuten-Limit für einen geordneten Shutdown samt Datenmigration das Minimalziel sein, das dem Krisenteam im Leitstand eine Richtung vorgibt und bestenfalls den drohenden Datenverlust verhindert, denn dann zählt jede Sekunde – von der Alarmierung bis zum Wiederanlauf. Im Fall der Fälle zählen die Kommunikation mit den Verantwortlichen, die Datenverfügbarkeit und ein Plan B, der auch realistisch und abgestimmt ist.

Jürgen Kolb ist Managing Director bei iQSol.