Das betriebssichere Rechenzentrum

Absicherung gegen den schnellen Server-Tod

14. August 2015, 6:00 Uhr | Guido Wienzek, beim TÜV Rheinland Consulting tätig, www.tuev-rheinland.de./jos

Sicherheit und Verfügbarkeit der IT sind für Unternehmen heute von existentieller Bedeutung, denn die meisten Geschäftsprozesse laufen IT-gestützt und noch dazu als Realtime-Anwendung. Eine Unterbrechung würde sofort zu unerwünschten Störungen und möglicherweise zu Einbußen in der Produktion führen. Daher spielt die Sicherheit von Rechenzentren auch in der Risikobewertung durch Banken und Versicherungen eine große Rolle.

Vielen Betreibern von Rechenzentren fehlt das Bewusstsein dafür, wie nah sie am Rande eines unerwarteten Ausfalls balancieren. Solange alles läuft, nimmt - außer der IT - niemand vom RZ Notiz. Fällt ein Rechenzentrum allerdings aus, dann hat die Katastrophe viele Gesichter. Eines war kürzlich auf dem Sender Arte öffentlich zu besichtigen. Aufgrund der hochsommerlichen Wetterlage war in der Senderegie ein Brand entstanden, selbst die Notstromversorgung griff nicht mehr. Die Bilanz: fünf Stunden Senderausfall, verärgerte Zuschauer und schlechte Reputation im Netz.
Und dieses Szenario ist noch vergleichsweise harmlos. Nicht nur privatwirtschaftliche Unternehmen, sondern auch kritische Infrastrukturen wie Gesundheits- und Stromversorgung oder der Geldverkehr hängen heute alle an der IT, also an Rechenzentren. Gleiches gilt für Handelsplattformen und Cloud-Services. Rechenzentren sind die zentrale Basis der digitalen Vernetzung. Auch der Erfolg von Megatrends wie Industrie 4.0 und Internet der Dinge ist ohne sie nicht denkbar.
 
Objektive Kriterien sind gefragt
Dass sich Vorfälle wie der bei Arte künftig häufen könnten, ist wahrscheinlich: Viele Betreiber von Rechenzentren haben die ursprünglichen Anforderungen ihres Datacenters gar nicht dokumentiert oder die Bestandsunterlagen nicht mehr griffbereit. Während sich Unternehmen weiterentwickeln, passen die Betreiber Kapazitäten und vor allem Sicherungsmaßnahmen eher selten an die steigenden Anforderungen an.
Allein die Frage, auf welche Umgebungstemperatur die Klimaanlage eines Rechenzentrums ausgelegt ist und ob das noch in die extremen Wetterlagen des gegenwärtigen Klimawandels mit "Hundstagen" und Orkanen passt, reicht aus, um so manchen Betreibern die Schweißperlen auf die Stirn zu treiben.
Damit die Betriebssicherheit von Rechenzentren gewährleistet ist, hat der TÜV Rheinland bereits vor mehreren Jahren das Experten-Team "Data Center Services" zusammengestellt. Die insgesamt sechs Spezialisten mit branchenübergreifender Erfahrung kommen aus allen relevanten Disziplinen, die für die physische Sicherheit und Hochverfügbarkeit eines Datacenters entscheidend sind, ob Elektro- und Klimatechnik, Architektur, Brand- und Einbruchschutz oder Organisation und Prozess-Management. Sie beraten Fluglinien ebenso wie den produzierenden Mittelstand, große Einzelhandelsketten oder Geldinstitute.
Um ein Rechenzentrum auch gegenüber Banken und Versicherungen objektiv zu bewerten, hat der TÜV Rheinland den Kriterienkatalog "Betriebssicheres Rechenzentrum" entwickelt. Er basiert auf internationalen Branchen-Normen wie der DIN EN ISO 50600, Uptime und TIA 942. Eingeflossen sind auch eigene Best-Practice-Erfahrungen. Der Standard enthält insgesamt 19 Anforderungen aus den Bereichen "Elektrische Versorgung", "Klimaversorgung", "Gebäudeleittechnik" und "Wartung" und ist eine praktikable Einführung in die Anforderungen, die beim Bau eines Rechenzentrums zu beachten sind.
Die Herausforderungen liegen im Detail. Wer unnötige Kosten und spätere Umbauten vermeiden möchte, sollte sich als Bauherr bereits zu Beginn des Prozesses genau darüber klarwerden, was das Rechenzentrum in den nächsten zehn Jahren leisten muss. Ebenso wesentlich ist: Welchen Anforderungen muss es in Bezug auf eine mögliche spätere Zertifizierung oder hinsichtlich Branchenauflagen und Compliance genügen? Die Auflagen für ein Geldinstitut, das der Bafin (Bundesanstalt für Finanzdienstleistungsaufsicht) unterliegt, sind andere als die an die Buchhaltung eines Mittelständlers aus dem produzierenden Gewerbe.
Die Zertifizierung eines Rechenzentrums ist nach verschiedenen Normen möglich, mitunter unterscheiden sich diese jedoch im Detail. Begleitet der TÜV Rheinland einen Rechenzentrumsbetreiber bis zur Zertifizierung, legt er zu Beginn unter anderem großen Wert auf die Definition der Betriebsanforderungen. Die ISO DIN EN 50600 stellt etwa im Brandschutz andere Ansprüche an ein Rechenzentrum als etwa der vergleichbare Standard des BSI oder von Uptime.
Abhängig vom Zertifikat sind beispielsweise automatische Ventilschließungen von Leitungen ausdrücklich untersagt, andere Audits schreiben genau dies vor. Ein nachträglicher Auf- oder Rückbau wegen dieser vermeintlichen Kleinigkeit wäre kostenträchtig. Umso wichtiger ist es, sich vorher zu entscheiden, nach welchem Standard sich das Unternehmen zertifizieren lassen will oder muss. Wer dieses differenzierte Know-how nicht im Haus hat, ist gut beraten, sich externe Unterstützung zu holen.
 
Mit der Wärmebildkamera auf der Suche nach Hotspots
Dies gilt auch für Unternehmen und Behörden, die wissen wollen, wie es aktuell um die Ausfallsicherheit ihres Rechenzentrums bestellt ist, das schon ein paar Jahre in Betrieb ist. Auf Wunsch führt der TÜV Rheinland Stresstests durch, entweder im unternehmenseigenen Rechenzentrum oder dem eines avisierten Partners. Auch dabei ist die Definition der Betriebsanforderungen zentral.
Anhand eines 30-seitigen Fragenkatalogs erfassen die Experten den Ist-Zustand des Datacenters und erstellen eine sogenannte Gap-Analyse. Dazu gehört auch eine Begehung mit der Wärmebildkamera. Die Spezialisten ermitteln mögliche Hotspots und die tatsächliche Auslastung des Rechenzentrums. Zu den typischen Schwachstellen, die im Datacenter-Alltag immer wieder anzutreffen sind, zählen unter anderem die mangelnde Pufferung von Kälteenergie oder die nicht unterbrechungsfreie Kälteversorgung.
Diese ist mindestens genauso wichtig wie eine unterbrechungsfreie Stromversorgung, damit die Server überhaupt weiterlaufen können. Neben nicht überzeugenden Erdungskonzepten ist auch der Brandschutz immer wieder ein Thema: Außeneinheiten wie der Rückkühler sind entweder nicht eingezäunt oder der Tank für das Notstromaggregat ist nicht mit einem Schloss gesichert. Beide Objekte wären perfekte Ziele für Saboteure.
Auch Grundlagen der IT-Sicherheit sind wesentliche Punkte des Stresstests: Gibt es einen Virenscanner, kommen Passwörter zum Einsatz? Wie ist das Notfall-Management gestaltet? Gibt es ein Ausweichrechenzentrum? In das sogenannte Colocation Datacenter werden Kernapplikationen, also überlebenswichtige Softwareanwendungen eines Unternehmens, ausgelagert oder dort regelmäßig gespiegelt - mit dem Ziel der nahtlosen Betriebsübernahme im Katastrophenfall. Im Rahmen des Stresstests überprüfen die Spezialisten, ob die Applikationen bei einem Ausfall tatsächlich unmittelbar erreichbar und weiterhin nutzbar sind. Wichtig sind auch Aspekte des Personal-Managements: Wie viele Administratoren gibt es, wie redundant sind Urlaubs- und Freizeitregelungen ausgelegt?
Der TÜV Rheinland dokumentiert die Schwachstellen und erarbeitet im Anschluss daran Empfehlungen für eine Steigerung der Betriebssicherheit. Bei Bedarf begleitet das Team den Auftraggeber auch bei der Implementierung der Optimierung. Dazu kann auch die Aus- und Weiterbildung des Personals gehören, zum Beispiel beim Notfall-Management. Ziel ist stets, Ausfallwahrscheinlichkeit und Störanfälligkeit soweit wie möglich zu reduzieren.
 
Stunde der Wahrheit: der Quick-Check
Wie kann der Betreiber eines Rechenzentrums feststellen, ob sein Datacenter den aktuellen Anforderungen Stand hält oder es dringend Zeit ist, sich Unterstützung ins Haus zu holen? Das Thema auszusitzen, ist keine gute Idee, sondern rächt sich erfahrungsgemäß. Folgende Indikatoren weisen auf dringenden Handlungsbedarf hin:
Gab es in der Vergangenheit Störfälle, deren Ursache und Hergang sich nicht eindeutig klären ließen?
Fehlen Verfahrensanweisungen für mögliche Störanfälle, werden sie nicht regelmäßig geübt?
Sind Inhalte von Wartungsverträgen nicht klar definiert?
Weiß der Betreiber nicht, welche Lebensdauer/Laufleistung bestimmte Geräte haben? Könnte es sein, dass eines, etwa der Rückkühler, demnächst unkontrolliert ausfällt?
Ist das Personal für die Bedienung der Klimageräte ausreichend geschult?
Sind die Betriebsparameter tatsächlich optimal aufeinander abgestimmt?
Sind die Risiken im Rechenzentrum klar definiert? Übernimmt der Generator zum Beispiel tatsächlich die Stromlast?

Die TÜV-Spezialisten ermitteln mögliche Hotspots und die tatsächliche Auslastung des Rechenzentrums.

Allein die Frage, auf welche Umgebungstemperatur die Klimaanlage eines Rechenzentrums ausgelegt ist, reicht aus, um so manchen Betreibern die Schweißperlen auf die Stirn zu treiben.

Anhand eines 30-seitigen Fragenkatalogs erfassen die Experten den Ist-Zustand des Datacenters. Dazu gehört auch eine Begehung mit der Wärmebildkamera.

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+