Ausweich-RZ als Hochverfügbarkeitselement

Retter von außerhalb

19. Mai 2005, 23:16 Uhr | Thomas Apel/jos Thomas Apel ist als technischer Direktor in Deutschland bei Ixeurope tätig.

Externes Equipment und Dienstleistungen können die Wiederherstellung der unternehmenseigenen IT bei einem Ausfall erheblich erleichtern. Bis hin zum kompletten Outsourcing gibt es allerdings viele Stufen, die den eigenen Anforderungen möglichst gut entsprechen müssen. Auch für die Infrastruktur eines Ausweichrechenzentrums gelten hohe Qualitätskriterien.

Verschiedene technische Voraussetzungen und Sicherheitsstandards müssen gegeben sein, um Daten
und Anwendungen in einer IT-Umgebung möglichst ausfallsicher und hochverfügbar vorzuhalten. Um für
einen etwaigen Ausfall einen Prozess parat zu haben, wie die unternehmenskritischen Daten schnell
wieder hergestellt werden können, spielt das Disaster Recovery eine entscheidende Rolle. Ein
umfassenderes Konzept, über die Datenkonservierung und Hard- und Softwarerekonstruktion
hinausgehend, erfordert ein Business-Continuity-Management.

Erklärtes Ziel dabei ist ein kontinuierliches Niveau an Hochverfügbarkeit der IT-Infrastruktur
bei hoher Leistung. Dies gilt für eigene Rechenzentren, aber auch für Outsourcing oder reine
Backup-Lösungen. Die Rahmenbedingungen für Hochverfügbarkeit setzen sich aus physikalischen,
technischen, sicherheitsbezogenen und Komponenten auf der Personalseite zusammen. Für Unternehmen,
die aufgrund ihrer Größe oder des Geschäftszwecks nicht auf ein eigenes professionell betriebenes
Rechenzentrum zurückgreifen können, ist Outsourcing eine Alternative. Gründe für eine solche
strategische Entscheidung sind die Steigerung der Qualität und Sicherheit – neben der ursprünglich
oft angestrebten Kostenersparnis. Zunehmend wird Wert auf Flexibilität gelegt, das heißt auf
adaptives Management der Ressourcen. Erste Produkt- und Serviceangebote gibt es bereits auf dem
Markt, nämlich solche, die "IT-on-Demand" tagesaktuell zur Verfügung stellen und nutzungsabhängig
abrechnen. Das Handling erfolgt als "Appliance Computing", das verschiedene Anwendungen mit den
erforderlichen IT-Komponenten wie Serverkapazität und Anbindung variabel kombiniert.

Zu den typischen technischen Ausstattungsmerkmalen eines Rechenzentrums, das höchsten
Anforderungen genügt, gehören folgende Merkmale:

Redundante Anbindung des Rechenzentrums an das Internet oder an einen bestimmten Kundenstandort
per Glasfaser oder Kupferkabel, ist für Netzwerkverfügbarkeit unabdingbar. Idealerweise sind
mehrere Carrier angebunden, um im Störungsfall schnell eine alternative Anbindung nutzen zu können.
Die Hauszuführung sollte an mindestens zwei verschiedenen Stellen am Gebäude erfolgen. Die
technische Ausstattung des Rechenzentrums unterstützt die Ausfallsicherheit der Systeme. Dazu
gehören der Anschluss an zwei Umspannwerke des örtlichen Stromversorgers, eine redundante
Notstromversorgung über mindestens zwei Notstromaggregate und die Versorgung der Technik über zwei
getrennte Stromkreise.

Ferner ist die Kabelverlegung auf unterschiedlichen Trassen und getrennten Wegen für Redundanz
entscheidend. Denn es hilft nichts, wenn die redundanten Kabel nebeneinander verlegt sind und durch
ein Ereignis gleichzeitig beschädigt oder zerstört werden. Eine leistungsfähige, mit entsprechenden
Reservekapazitäten ausgelegte Klimaanlage sorgt für die Kühlung der Systeme. Vorbeugende
Brandschutzmaßnahmen, ein Brandfrühwarnsystem sowie eine automatische Feuerlöschanlage minimieren
die Folgen im Fall eines Brandes.

Auf systemschonende Löschtechniken muss unbedingt geachtet werden, keine Sprinkleranlagen,
sondern Einsatz von Hochdrucknebel oder Stickstoff basierenden Löschanlagen sind nötig. Die
Verkabelung sollte halogenfrei sein, damit bei Feuer keine gefährlichen Toxine entstehen.

Kontinuierliche Überwachung von System und Netz

Wichtig ist eine kontinuierliche Überwachung der Systeme und des Netzes, also ein Monitoring
durch qualifiziertes Personal. Fehlermeldungen müssen nicht nur registriert, sondern auch für den
Kunden nachvollziehbar dokumentiert sein. Lastspitzen im Netzwerk oder im schlimmsten Fall der
Ausfall eines Servers müssen durch ein automatisches Netzwerkmanagementsystem abgefangen werden.
Durch eine intelligente Verteilung der Datenströme und bedarfsabhängiger Kapazitätserweiterung
lässt sich eine reibungslose Datenübertragung gewährleisten.

Firewalls und Schutz gegen Viren

Schutzsysteme, wie Firewalls und Intrusion Detection schützen das interne Firmennetz vor
Angriffen über das Internet. Virenschutz per Software überwacht den Datenverkehr, um infizierte
Dateien zu identifizieren und zu entfernen. Ein Schutz der Systeme und Daten vor unlauteren
Zugriffen erfordert neben den softwaretechnischen Vorkehrungen auch physikalische Schutzmaßnahmen.
Das Equipment ist sowohl mit einem physikalischen Zugangsschutz baulicher Art als auch über ein
Zutrittskontrollsystem zur Authentifizierung der Personen – möglichst biometrisch – zu sichern.

Die Aufrechterhaltung der Betriebssicherheit erfordert qualifiziertes, auf Abruf bereites
Personal und auch eine Überwachung der Rechenzentrumsinfrastruktur über eine Gebäudeleittechnik,
die mittels Alarmmeldung zum Beispiel den Ausfall einer Klimaanlage automatisch meldet. Der First-
oder Second-Level Support muss rund um die Uhr erreichbar sein, um kurzfristig vor Ort oder über
Remote-Zugriff Störungen zu beheben.

Verfügt ein externes Rechenzentrum eines Dienstleisters über all diese technischen und
sicherheitsrelevanten Vorkehrungen, werden die Determinanten des Leistungsniveaus für jeden Kunden
individuell festgeschrieben. Quality of Service (QoS) wird über das Service Level Management
gesteuert und kontrolliert. Service Level Agreements (SLAs) dokumentieren detailliert die
Beschaffenheit, das Leistungsniveau – auch als Performance bezeichnet – sowie die Zuständigkeiten
und Verantwortlichkeiten.

Backup-Lösungen kommen bei einem Störungsfall ins Spiel. Die Daten werden vor Ort auf ein
weiteres Speichermedium kopiert – in der Regel auf Tapes – oder durch ein Backup per
Datenspiegelung sofort an einem anderem Ort dupliziert. Prinzipiell lässt sich zwischen folgenden
Techniken als Basis für ein Disaster Recovery unterscheiden (siehe dazu auch den Beitrag auf Seite
44):

Backup/Restore: Dies ist die traditionelle Methode zur Datensicherung, indem
Informationen von den primären Plattensystemen auf Bänder geschrieben werden, um sie im Bedarfsfall
wieder auf Disks zurückzusichern,

Snapshot: Bei dieser Methode wandern Point-in-Time-Kopien der Daten auf eine
Festplatte. Die Snapshot-Technik vermeidet damit das Herunterfahren von Applikationen, um ein
Backup zu ziehen – das berüchtigte Backup-Fenster kann geschlossen bleiben,

Bare Metal Recovery: Das Betriebssystem und die Backup-Daten werden nach einem
Systemabsturz neu initialisiert. Restore-Prozesse lassen sich von Platte, Band oder über das
Netzwerk ohne größeren Zeitverlust in Gang gesetzt setzen,

Replication: Dieses – auch als asynchrones Mirroring bekannte – Verfahren
erzeugt zwei identische Datenkopien,

Mirroring: Zwei identische Datenkopien sind gleichzeitig an zwei verschiedenen
Orten niedergelegt, üblicherweise auf Platten (doppelter Plattenplatz unter RAID 1). Die Daten
lassen sich im Restore-Fall von beiden Lokalitäten zurückschreiben.

Die Datensicherung kann beim Backup auf den Umfang bezogen variieren. Bei einem "Full-Backup"
werden alle Daten oder der gesamte Serverinhalt der Festplatte vollständig kopiert, also ergänzend
gespeichert. Darauf basierend kann als "Differential-Backup" eine Kopie der Änderungen nach dem
letzten Full-Backup erfolgen. Möglich ist auch die dritte Form, bei der nur die Modifikationen im
Vergleich zum letzten Backup gespeichert werden. Präventive Datensicherung mit unterschiedlichen
Methoden und Sicherheitsstufen ist die Basis für Backup-Lösungen. Im Störungsfall verlorene Daten
lassen sich durch diese Ressourcen schnell wieder herstellen. Datensätze rekonstruiert das System
also nach dem Konzept Restore/Recovery. Ist die Sicherung der Daten oder Anwendungen über parallele
Spiegelung in ein zweites Rechenzentrum erfolgt, dann funktioniert dies als
Disaster-Recovery-Lösung ohne zeitliche Verzögerung.

RZ-Dienstleister offerieren angepasste Produkte

Die RZ-Dienstleister haben für solche Anwendungsfälle spezielle Produkte im Angebot. "IBM
iSeries-Backup" ist eine solche Lösung von Ixeurope, die dazu dient, dedizierte Anwendungen als
Fallback in einem externen Rechenzentrum vorzuhalten. Eine redundante Systemkonfiguration einer
AS/400-820-9406 (CPW 1035/35) umfasst zum Beispiel 1 GByte Hauptspeicher, 100 GByte
Plattenspeicher, ein Ultrium-LTO-2-Bandlaufwerk, 10/100-Ethernet-Anschluss, einen Systemdrucker und
zwei Administratorenarbeitsplätze. Die Einwahl erfolgt über ISDN. Serviceleistungen gibt es als
Notfallbereitschaftsdienst rund um die Uhr.

Disaster Recovery mit redundanter IT-Infrastruktur von Hard- und Software ist die nächste Stufe,
die bei einem (Teil-)Ausfall der IT-Infrastruktur – beispielsweise durch Störung der Stromzufuhr,
Virenattacken, Sabotage oder menschliches Versagen – greift. In der Regel betreiben Unternehmen aus
Sicherheitsdenken heraus ein primäres Rechenzentrum und eine sekundäre Site, die auch bei einem
externen RZ-Betreiber, der die redundante IT-Infrastruktur hostet, physisch vorhanden sein
kann.

Wenn sich das normale Tagesgeschäft temporär aufgrund eines Störungsfalls vor Ort nicht
fortsetzen lässt, bieten sich zudem Ausweicharbeitsplätze an einem zweiten Standort an. Die
redundante Infrastruktur, das heißt Hard- und Software des Unternehmens, sind parallel an einem
anderen Ort vorhanden, um extern die Arbeit fortzusetzen. Möglich ist ein Produktpaket in drei
Stufen. Unterscheidungskriterium ist dabei der Zeitraum (cold, warm, hot site), bis diese
IT-Infrastruktur funktioniert.

Das Basisprodukt (cold) gewährleistet eine minimale Infrastruktur, die im Bedarfsfall innerhalb
von zwei Tagen aufgerüstet wird. Die so genannte Remote Site verfügt über keine spezifische
Hardwareausstattung. Es gibt einen Basisserver und die Anbindung der Rechenzentren durch mehrere
Carrier. Die Hardware wird gegebenenfalls neu beschafft oder ins Rechenzentrum transportiert und
dort installiert. Ein Disaster-Recovery-(DR-)Arbeitsplatz ist mit einer LAN-Verkabelung, PC,
Schreibtisch und Telefon ausgestattet. Eine Wiederherstellung der Daten ist bis zum letzten
Backup-Datensatz möglich. Bei dem nächsten anspruchsvolleren Produktpaket (warm) besteht die Remote
Site aus identischer Hardware. Die Wiederherstellung der Daten erfolgt mit dem letzten
Backup-Datensatz.

Dem Kunden steht parallel zu dem unternehmensinternen Rechenzentrum ein betriebsbereites, sofort
konfigurierbares externes DR-Rechenzentrum als Ausweichlösung zur Verfügung. Eine Verzögerung bis
zur Inbetriebnahme der Notfallarbeitsplätze beträgt bei der vorgestellten Lösung vier bis 24
Stunden. Bei der dritten Form (hot) lässt sich der Betrieb in der sekundären Site ohne Verzögerung
aufgrund der redundanten Infrastruktur sofort übernehmen. Welche Form der Kunde letzendlich wählt,
hängt naturgemäß von den individuellen Anforderungen ab. Dabei spielen finanzielle Überlegungen
sicher auch eine wichtige Rolle.

Fazit

In ein professionelles Business-Continuity-Management (BCM) fließen die verschiedenen
beschriebenen Komponenten zur Erfassung der Ist-Situation der IT-Infrastruktur und Notfallplanung
ein. Dieser konzeptionelle Ansatz basiert auf dem Antizipieren von Notfallsituationen, wobei alle
möglichen Störfaktoren und diverse an den betrieblichen Abläufen beteiligten Bereiche
Berücksichtigung finden sollen. Basierend auf individuellen Fähigkeiten und Kompetenzen werden in
Eskalationsstufen Verantwortlichkeiten und Vorgehensweisen definiert. Das möglichst
uneingeschränkte Funktionieren der kritischen Geschäftsprozesse ist dabei die Herausforderung, die
es schnellstmöglich zu bewältigen gilt. Präventiv werden strategische, organisatorische und
technische Maßnahmen geplant, geübt und als Notfallinfrastruktur vorgehalten. In die Planung von
operativem und IT-Risikomanagement fließen alternative Standorte, redundante Infrastruktur,
Eskalationspläne, Anruflisten, Organisation, indizierte Aktivitäten, Prioritäten, Verwaltung und
Inventarlisten ein.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+