Das Risiko, Opfer eines Cyberangriffs zu werden, ist höher denn je. Was nützt jedoch die beste Netzwerksicherheit, wenn Switches oder Firewalls im Rechenzentrum aufgrund von Belastungen und Einflüssen aus der unmittelbaren Umgebung beschädigt werden?
Auch in Zeiten der Cloud benötigen die meisten Unternehmen immer noch eine eigene IT-Infrastruktur. Dazu betreiben sie Hardware-Lösungen in speziellen Bereichen ihrer Firmengebäude. Ihr Kernstück bilden Server. Ein Ausfall legt den gesamten Betrieb des Unternehmens lahm: Störungen führen zu Unterbrechungen der Arbeitsabläufe, da sich dann meist die Daten nicht mehr abrufen lassen. Auch Software und Services, die den Betriebsablauf bestimmen, stehen dann nicht mehr zur Verfügung. In einem solchen Fall ist die Einhaltung von Kunden- und Partnerverträgen und damit der Unternehmenserfolg gefährdet.
Aus diesem Grund beobachten IT-Administratoren und RZ-Betreiber ihre IT-Infrastruktur mit entsprechenden Monitoring-Tools. Damit kann der Administrator praktisch jeden Bereich des Rechenzentrums und nahezu alle Vorgänge 24/7 im Auge behalten. Die Tools überwachen die Verfügbarkeit von Geräten, Diensten sowie virtuellen Systemen und fragen in festgelegten Intervallen über Standardschnittstellen den jeweiligen Gerätezustand sowie technische Funktionen ab.
Umgebung im Blick behalten
IT-Systeme sind nicht nur anfällig für Gefahren aus dem Netz oder den normalen Verschleiß, sondern auch für Umgebungsparameter. Bereits kleinste Änderungen in der Umgebungsluft wie beispielsweise Temperatur, CO2-Konzentration oder Luftfeuchtigkeit wirken sich auf Zuverlässigkeit, Leistung und Lebensdauer von IT-Komponenten aus. Temperaturschwankungen können beispielsweise bei erhöhter Luftfeuchtigkeit Kondensation im Inneren eines Servers erzeugen. Kurzschlüsse und Korrosion können als Folge davon zu Ausfällen führen, die kaum vorhersehbar oder nachvollziehbar sind – ein Albtraum für jeden Systemadministrator. Die Verfügbarkeit und Funktion essenzieller Anwendungen, businessrelevante Prozesse, der Zugriff auf wertvolle Daten und die Arbeit ganzer Abteilungen können so gefährdet werden. Die Folgen sind enorme Kosten aufgrund der Ausfälle, aber auch zusätzlicher Aufwand für die IT in Form von Fehlersuche und -behebung.
Um solche unliebsamen Überraschungen von vornherein zu vermeiden, nutzen Administratoren Monitoring-Lösungen, die integrierte Umweltsensoren aufweisen. Damit lassen sich alle wesentlichen Umgebungs- und Umweltparameter erfassen: Temperatur, relative Luft-feuchtigkeit, Taupunkt, Kohlenmonoxid sowie Bewegung und Vibration.
Überhitzung und Brandgefahr
Kleine Schwelbrände durch defekte Kondensatoren, Netzteile oder andere Kurzschlüsse sind oft Ursache für Brandschäden im Rechenzentrum. Aber Überhitzungsschäden müssen nicht einmal durch ein Feuer verursacht werden: Oft reicht eine erhöhte Raumtemperatur aus, um ernsthafte Probleme zu verursachen. Prozessoren drosseln ihre Geschwindigkeit oder Server schalten aus Sicherheitsgründen ab.
Darüber hinaus beeinträchtigen dauerhaft hohe Raumtemperaturen die Lebensdauer vieler IT-Komponenten. So sind beispielsweise Elektrolytkondensatoren (Elkos) Bestandteil jedes elektronischen Geräts. Hohe Temperaturen führen zu einer starken Beanspruchung dieser Komponenten. Bereits ein Unterschied von +10 Grad Celsius kann die Lebensdauer der Elkos halbieren. Um das in den Griff zu bekommen, empfiehlt sich das Speichern der Monitoring-Daten zu Langzeitanalyse-Zwecken. Damit lassen sich auch anfallende Kosten planen und optimieren.
Die alleinige Überwachung der Systemtemperaturen mithilfe von Standard-SNMP- oder WMI-Anfragen genügt nicht, um Überhitzungsschäden vorzubeugen. Sobald sich die Temperatur des Servers im abnormen Bereich befindet, ist das Kind häufig schon in den Brunnen gefallen. Es empfiehlt sich daher, die Temperaturen an mehreren Stellen im Raum zu messen und die Ergebnisse auf einem Dashboard im Monitoring-Tool zusammenzuführen. So sehen Systemadministratoren auf einen Blick, ob beispielsweise die erhöhte Temperatur einer Server-CPU durch kurzfristig erhöhte Rechenlast verursacht wurde, oder ob die Raumtemperatur insgesamt gestiegen ist und so auch andere Komponenten beeinträchtigt werden. Ausgestattet mit diesem Wissen ist eine schnelle Reaktion möglich, wodurch größere Folgeschäden verhindert werden können.
Wenn es warm wird
Zeigt das Monitoring-Tool eine Erhöhung der Temperatur eines Serverraums an, sollte umgehend eine Überprüfung der Systeme sowie der Umgebung erfolgen. Bereits eine offenstehende Tür, ein ausgefallener Lüfter oder die falsche Installation neuer Hardware können die Quelle der Störung sein, die sich in solchen Fällen schnell beheben lässt. Aber auch bei schwerwiegenden Problemen wie einem Ausfall der Klimaanlage herrscht unmittelbarer Handlungsbedarf. Lässt sich die Temperatur nicht durch die Zufuhr kühler Luft regulieren, müssen möglicherweise Geräte ausgeschaltet werden. Ganz oben auf der Prioritätenliste stehen dann Geräte und Systeme, die viel Wärme produzieren, aber für die Geschäftsprozesse nicht von elementarer Bedeutung sind.
Zur Integration der Umgebungsparameter werden zunächst geeignete Hardware-Sensoren benötigt. Sie liefern Messwerte für Temperatur, Luftfeuchtigkeit und andere Umgebungsfaktoren. Um diese Parameter zuverlässig zu überwachen, werden die Sensoren innerhalb beziehungsweise außerhalb des Serverraums an den wichtigsten Stellen angebracht.
Nach der Anbindung an das Netzwerk gilt es, die Übertragungstechnik auszuwählen. Einige Geräte unterstützen SNMP und stellen eine entsprechende Management Information Base (MIB) zur Verfügung, die anschließend in ein geeignetes Format konvertiert werden kann. Eine MIB definiert die verfügbaren Informationen und Eigenschaften eines Netzwerkgeräts und wird zum Auslesen von Daten über SNMP gebraucht. Andere Geräte lassen sich über definierte Schnittstellen an die Monitoring-Lösung anbinden. Eine solche Lösung sollte über eine entsprechende API verfügen.
Im jeweiligen Monitoring-Tool können dann Grenzwerte definiert werden, sodass bei einer Abweichung umgehend ein Alarm per E-Mail, SMS oder Push-Benachrichtigung versendet wird. Auf diese Weise hat der Systemadministrator die Gewissheit, dass er bei kritischen Ereignissen umgehend informiert wird und sofort handeln kann.
Christian Gügel ist Senior Systems Engineer bei Paessler