Startseite > Datacenter & Verkabelung > Disaster Recovery auf dem Rückzug

Business Continuity

Disaster Recovery auf dem Rückzug

24. September 2018, 13:55 Uhr | Axel Pomper

Für Unternehmen von heute, unabhängig von der Branche, zählt der Ausfall eines wichtigen IT-Systems zu den größten technologischen Herausforderungen, denen sie sich stellen müssen. Business Continuity wird in diesem Kontext immer wichtiger, während Disaster Recovery an Bedeutung verliert.

Im Jahr 2017 wurde bereits mehrfach deutlich, wie problematisch Ausfallzeiten sein können. Bei mehreren große britische Banken traten technische Problemen auf. Viele Kunden hatten deswegen Probleme beim Zugriff auf ihre Konten, einige Buchungen vor dem Feiertagswochenende im Mai 2017 verschwanden sogar. Neben den finanziellen Auswirkungen von Ausfallzeiten sind die langfristigen Reputationsfolgen erheblich, da das Vertrauen der Kunden in die Bank oder in ein ähnlich betroffenes Unternehmen erschüttert wird. Der erneute Vertrauensaufbau nach einem größeren IT-Ausfall kann ein mehrjähriger Prozess sein, wie Pure Storage berichtet.

„In den 70er Jahren, als es zum ersten Mal Rechenzentrumsmanager gab, begannen sie zu verstehen, wie abhängig ihre Unternehmen von Computern bald sein würden. Vor diesem Hintergrund haben sie den Gedanken der Disaster Recovery angestoßen, der Wiederherstellung im Notfall: eine Versicherung, wenn eine oder mehrere Anwendungen, Speicherkomponenten, Datenbanken oder Netzwerkelemente offline gehen“, erklärt Markus Wolf, Regional Director Systems Engineering bei Pure Storage.

Damals kamen regelmäßig Nachrichten aus der IT-Abteilung, in denen es hieß: „E-Mail wird für drei Stunden nicht zur Verfügung stehen während wir das System wieder hochfahren“, oder „Die Kundendatenbank wird den ganzen Tag nicht erreichbar sein, während wir mehr Kapazität hinzufügen“. Mit der Entwicklung der IT in den 90er Jahren und dem Beginn des Internetzeitalters wurde die Konnektivität und Abhängigkeit von Computersystemen immer intensiver.

Abhängigkeit von stabilem IT-Betrieb immens gewachsen

Da Computer begannen, Echtzeitverarbeitung zu betreiben, nicht mehr nur Batch-Verarbeitung, war es umso wichtiger, dass die IT-Abteilung nicht den Anschluss verlor. Während es weltweit vereinzelt Katastrophenfälle gab, die durch Erdbeben, Überschwemmungen und andere Naturgewalten verursacht wurden, kam es eher zu Ausfallzeiten aufgrund von Stromausfall, beim Umstieg auf neue Technologie oder infolge von menschlichem Versagen.

Es entstanden zwei eng miteinander verbundene Disziplinen: Business Continuity (BC), also Geschäftskontinuität, das heißt, wie das Unternehmen im Falle eines Vorfalls seine Waren und Dienstleistungen weiterhin liefern kann; und Disaster Recovery (DR), also „Wie man die IT-Umgebung nach einem Problem wieder online bringt“.

Der Mangel an kostenmäßig vertretbaren Lösungen führte dazu, dass bereits Anfang der 90er Jahre eine ständige, hohe Bandbreitenkonnektivität zur Herausforderung wurde. IT-Manager neigten daher dazu, redundante Repliken ihrer IT-Umgebungen zu erstellen, oft zusätzlich zur Infrastruktur, die lokale Hochverfügbarkeit unterstützte. Dies war nicht nur eine Geschäftsentscheidung, sondern erfolgte auf Anordnung der Aufsichtsbehörden vieler Branchen. Unternehmen, die kritische Dienstleistungen wie Finanzdienstleistungen anbieten, mussten Maßnahmen integrieren, um die kontinuierliche Verfügbarkeit ihrer IT-Umgebung zu gewährleisten. Prozesse, um Systeme wieder online zu bringen, mussten geschrieben, den Unternehmen mitgeteilt und vor allem eingeübt werden. Dies war umso wichtiger, wenn man bedenkt, welche finanziellen Verluste durch einen Handelsausfall auch nur für wenige Minuten entstanden und entstehen konnten.

Daraus ging in der IT-Branche der überaus lukrative Markt für DR-Lösungen hervor – und belastete mit entsprechenden Lösungen die IT-Budgets der Unternehmen über Jahre hinweg. Zur Disaster-Recovery-Planung dienten SLAs (Service Level Agreements), die RPOs (Recovery Point Objectives) und RTOs (Recovery Time Objectives), also Wiederherstellungspunkt- und Wiederherstellungszeitziele enthielten. Die jeweiligen RPOs und RTOs wurden für bestimmte Komponenten der IT-Infrastruktur festgelegt.

Trotz dieses Schutzes waren Unternehmen bei Vorfällen und Katastrophen fast immer bestrebt, den Schaden an Ort und Stelle zu beheben, anstatt auf die Notfallwiederherstellung zurückzugreifen. Selbst wenn ein kürzlich durchgeführter Test erfolgreich war, wurden die Auswirkungen des Failovers auf die IT-Umgebung, die die Nutzung der DR-Fähigkeit bedeuteten, als letztes Mittel angesehen. Dies galt insbesondere angesichts der Komplexität, mit der man nach der Wiederherstellung der ausgefallenen Komponente oder des Dienstes wieder in den Normalbetrieb übergehen konnte.

Dieses „Stay or Go“-Dilemma konnte die Wiederherstellung von geschäftskritischen Diensten jedoch erheblich verzögern. Und so blieb es auch, bis sich die Cloud etablierte und die „Always-On“-Ökonomie mit ihrem ständigen Verlangen nach Echtzeit-Zugriff und -Verarbeitung von Daten.

„Die traditionelle Disaster Recovery – insbesondere die Wiederherstellung von Daten im Notfall und die damit verbundenen Kosten und möglichen Verzögerungen – ist für fast alle Unternehmen nach wie vor ein Problem. In der heutigen Echtzeit-Welt werden veraltete, herkömmliche Prinzipien der Wiederherstellung den Anforderungen, um Geschäftskontinuität zu bieten, nicht mehr gerecht“, führt Markus Wolf aus. „Es gibt keinen Grund, warum Unternehmen für vollständig redundante Datensysteme bezahlen sollten, die selten verwendet werden, insbesondere, wenn sie Ihr IT-Budget durch den Übergang von einem DR-Ansatz zu einem BC-Ansatz reduzieren könnten. Warum weiterhin Zeit, Ressourcen und Geld verschwenden, um starre Prozesse aufrechtzuerhalten, um Daten im Notfall wiederherzustellen, wenn es jetzt viel elegantere Wege gibt, eine viel flexiblere, dynamischere Arbeitsweise zu unterstützen.“

RTO und RPO werde immer weniger relevant für IT-Verantwortliche

Unternehmen sollten nach kosteneffizienten Lösungen suchen, die es ihnen ermöglichen, einen synchronen Aktiv/Aktiv-Ansatz für die Geschäftskontinuität zu verfolgen. Durch synchrone Replikation werden Daten an zwei Standorten gleichzeitig zur Verfügung gestellt. Auf diese Weise können Unternehmen mehrere gleichzeitig laufende Datensätze an mehreren Standorten erstellen. Selbst wenn ein Standort ausfällt, führt dies nicht zu Ausfallzeiten. Dies ermöglicht eine ununterbrochene Benutzererfahrung durch eine gemeinsame, standortübergreifende Verarbeitung, die den Datenverkehr im Fehlerfall automatisch umleitet.

„Die Konzepte von RTO und RPO werde immer weniger relevant für IT-Verantwortliche. Sobald dieser Ansatz umgesetzt ist, müssen die IT-Fachkräfte nur noch bestätigen, dass alle Instanzen noch online sind und funktionieren. Das ist alles, was es für die Vorbereitung für ein Katastrophenszenario zu tun gibt. Entsprechende Storage-Lösungen, die zeitgemäße Geschäftskontinuität unterstützen, gibt es bereits“, fasst Markus Wolf abschließend zusammen.