Startseite > Netzwerke & IT-Infrastruktur > Blick auf alles

Monitoring as a Service

Blick auf alles

10. August 2015, 6:00 Uhr | Denis B. Wiebe, Technical Sales Representative bei Monitis, www.monitis.com./jos

Das Funktionieren der Unternehmens-IT ist von den Servern abhängig. Wenn sie ausfallen, nicht optimal arbeiten oder das Netz sie "ausgebremst", leidet das gesamte System. Damit es dazu nicht kommt, brauchen Unternehmen vor allem ein funktionierendes Monitoring.

Zufriedene Anwender innerhalb und außerhalb der eigenen Organisation sind das Ziel jedes IT-Verantwortlichen. Um dieses Ziel zu erreichen, muss er vor allem wissen, wie es um die Leistung der Systeme bestellt ist. Im Mittelpunkt einer erfolgreichen Monitoring-Strategie stehen in der Regel die Server, denn solange sie nicht einwandfrei arbeiten, können Anwender keine zufriedenstellenden Services erhalten. Wer hingegen CPU, Arbeitsspeicher, Festplatte, Bandbreite und Disk/IO mit Server-Monitoring im Blick behält, hat bereits einen entscheidenden Schritt zu einer überzeugenden System-Performance getan.

CPU - die Basis
Dort sollte der Systemadministrator besonders gut hinsehen: Denn wenn die CPU nicht läuft, kann sich im Normalfall die Ursachenforschung auf diesen Aspekt beschränken. Gutes CPU-Monitoring zeichnet sich dadurch aus, dass es nicht nur eine Durchschnittszahl, sondern die Auslastung für jeden einzelnen Kern auf Benutzer- und Kernel-Ebene liefert, um das Problem konkret lokalisieren zu können. Auch bei auf Linux basierenden Systemen ist eine Überwachung der CPU-Utilization (Iowait, idle) von hoher Bedeutung, um Engpässen in der Abarbeitung von IO-Operationen entgegenzuwirken. Dies lässt sich zum Beispiel durch genügend freien physischen RAM bewerkstelligen, damit das OS die Blöcke im Cache speichern kann. Die Festplattennutzung des Dateisystems sollte zudem unter 80 Prozent bleiben, um übermäßige Fragmentierung zu vermeiden.
Wichtig ist ferner, dass der Agent zur Überwachung der CPU die Performance nicht beeinträchtigt. Der Agent kann dabei als Daemon auf Unix-ähnlichen Maschinen oder als Service auf Windows laufen und jeden einzelnen Check durch interne Threads durchführen. Natürlich sollte der Administrator dabei auch sein Augenmerk auf eine möglichst geringe CPU-Last legen. Wer mit einer SaaS-Lösung arbeitet, sollte zudem sicherstellen, dass eine verschlüsselte HTTPS-Verbindung zum Server-Backend besteht.
Angesichts der eher zu- als abnehmenden Heterogenität der Systemlandschaften in vielen Organisationen sollte die Monitoring-Lösung unterschiedliche Betriebssysteme unterstützen. Dazu zählen natürlich vor allem die aktuellen Windows-Releases in 32- und 64-Bit-Versionen sowie die wichtigsten Linux-Derivate (Debian, Ubuntu, Red Hat, Suse, Fedora und z/OS). Wie viel RAM ist aktuell verfügbar? Wie viel MByte sind insgesamt vorhanden? Welches Volumen steht physisch oder virtuell bereit? Fragen wie diese müssen Administratoren jederzeit auf einen Blick beantworten können, um eine gute Performance sicherzustellen. Denn ein Arbeitsspeicher im Grenzbereich wirkt sich auf die gesamte Server-Performance aus.

Hauptspeicher: Was ist genug?
Die Möglichkeit, Schwellenwerte zu definieren, bei deren Über- oder Unterschreiten Warnmeldungen erfolgen, sorgt zudem dafür, dass der Administrator auf kritische Abweichungen schnell aufmerksam wird und gegensteuern kann. Die Definition dieser Schwellenwerte und der damit verknüpften Aktionen ist die eigentliche Kunst des Monitorings.
Denn einerseits muss sichergestellt sein, dass der Administrator möglichst früh erkennt, wo sich Probleme anbahnen, um sie verhindern zu können. Andererseits: Wer bei jeder Abweichung eine Meldung erhält, übersieht am Schluss leicht die wirklich relevanten Nachrichten. Allgemeingültige Richtlinien für Schwellenwerte gibt es dabei nicht: Jeder Server ist anders aufgebaut, und auch die Anforderungen daran sind unterschiedlich. Während eine Anwendung noch stabil läuft, wenn der Hauptspeicher zu 80 Prozent belegt ist, stockt eine andere schon bei 60 Prozent.

Festplatten und Laufwerke verwalten
Auch bei Speicherplatten, gleich ob physisch oder virtuell, ob herkömmliche Festplatte oder schnelle SSD, gilt generell: Vorgaben für die einzurichtenden Schwellenwerte, die das automatische Warnsystem einer Monitoring-Lösung aktivieren, sind immer von der jeweiligen Anwendung und den Nutzern abhängig.
Bei ausschließlich intern genutzten Servern werden Performance-Schwächen eher toleriert als bei solchen, auf die der Kunde direkt zugreift. Allerdings sollte sich jedes Unternehmen gut ausrechnen, was es kostet, wenn die Infrastruktur immer wieder die eigenen Mitarbeiter bremst. Genauso wichtig ist es natürlich, die vorhandenen Kapazitäten möglichst gut auszulasten. Um die optimale Balance zwischen effizienter Nutzung der Ressourcen und der Anwendungsperformance für die Mitarbeiter zu finden, empfiehlt es sich, die Möglichkeiten zu einer granularen Einstellung der Schwellenwerte für die verschiedenen logischen Speichereinheiten zu nutzen und diese dem wechselnden Bedarf anzupassen. Dabei hilft unter anderem die laufende Beobachtung und Analyse der Anzahl von Lese- und Schreibzugriffen.
Wichtig ist die Möglichkeit zur granularen Einstellung von Schwellenwerten vor allem auch, wenn es darum geht, nicht nur einzelne Komponenten des Systems zu überwachen, sondern die Performance von Services und Prozessen, etwa auf einem Terminal-Server oder beim Website-Hosting. Eine besondere Rolle spielen in diesem Zusammenhang solche Prozesse, die sich mit dem Standard der Lösung nicht überwachen lassen. Dabei kann eine offene Programmierschnittstelle immense Dienste leisten, indem sie es ermöglicht, auch individuell erstellte Monitore für Prozesse und Applikationen einzubinden.

Bandbreite im Blick
Bandbreiten-Monitoring verschafft dem IT-Team den Überblick über die Leistung der Netzwerkkarten und erlaubt auch dort das Festlegen von Kriterien und Metriken für die Einstufung von kritischen Levels, etwa für die Input- und Output-Geschwindigkeit in Bits pro Sekunde, für die Anzahl versendeter und empfangener fehlerhafter Pakete und für die Zahl verloren gegangener Pakete. Auf Basis dieser Informationen können Anwender nicht nur die Aufrüstung einzelner Server mit leistungsfähigeren Netzwerkkarten vorausschauend planen, sondern auch die organisationsweite Umstellung auf ein leistungsfähigeres Netzwerkprotokoll.

Keine Hexerei, sondern Muss
Wie viele Lese- und Schreibzugriffe (Disk I/O) auf einer Speichereinheit (Hard-Disk, SSD) pro Sekunde möglich sind, entscheidet in der Praxis mit darüber, wie lange ein Anwender zum Öffnen oder zum Speichern einer Datei braucht. Vom Start des Rechners bis zum Herunterfahren summieren sich viele Tausende Einzelvorgänge - und jede noch so kleine Verzögerung behindert Geschäftsabläufe und mindert die Produktivität. Doch nicht immer sind die Beschwerden von Anwendern über lange Ladezeit objektiv gerechtfertigt. Die Überwachung der Disk-I/O-Werte schafft in diesem Punkt Klarheit. Und die Anzahl unbearbeiteter Requests (Queue Length) und die "Busy Time" geben weitere Auskünfte darüber, wie stark das jeweilige Laufwerk ausgelastet ist und ob es den Anforderungen noch gerecht wird.
Wichtig in diesem Zusammenhang: Immer seltener kommen Unternehmen allein mit internen Ressourcen aus. Das Monitoring muss deshalb auch extern gehostete Services etwa von AWS und anderen Anbietern einbeziehen und die genannten Metriken an ein zentrales Dashboard liefern, um so den Gesamtüberblick über alle Platten hinweg zu ermöglichen.
Mit den bisher genannten Maßnahmen können Unternehmen eine solide Basis für ihr IT-Monitoring legen. Damit die Qualität der IT-Services auch tatsächlich den Anforderungen der Anwender entspricht, müssen jedoch in der Regel weitere Maßnahmen hinzukommen. Je nach Anforderungen und technischen Gegebenheiten im Unternehmen gehören dazu in unterschiedlichem Umfang:
Process Monitoring,
Windows Service Monitoring,
System Events Monitoring,
SNMP Monitoring,
(Advanced) Ping Monitoring sowie
HTTP und HTTPS Monitoring.
Die große Herausforderung für die IT besteht darin, angesichts der Vielzahl von Kennzahlen, Schwellenwerten, Benachrichtigungen und potenziellen Fehlerquellen den Überblick zu behalten und im Falle eines Falles schnell zu erkennen, wo was getan werden muss, um Einschränkungen der Service-Qualität für die Anwender zu vermeiden und zu beheben. Dabei ist es hilfreich, ein Dashboard einzusetzen, das alle erforderlichen Informationen auf einen Blick erfassbar macht. Je komplexer die Umgebung, desto wichtiger ist die Entlastung des IT-Personals durch möglichst einfach zu implementierende und bedienbare Lösungen.
Dies gilt vor allem für Anwender, die keine Spezialisten sind, was in mittelständischen Unternehmen schon in der Vergangenheit oft der Fall war und angesichts des herrschenden Fachkräftemangels bei gleichzeitig steigender Bedeutung der IT künftig nicht seltener vorkommen dürfte.

Fazit
Das Ziel des Monitorings sollte es zum einen immer sein, Fehlerursachen durch Real-Time-Monitoring frühzeitig zu erkennen und zu beheben. Zum anderen sollte es immer auch darum gehen, Flaschenhälse durch historische Daten (durchgängiges Monitoring) zu identifizieren erkennen und diese zu beseitigen oder bei Netzwerkerweiterungen zu berücksichtigen.

Angesichts der eher zu- als abnehmenden Heterogenität der Systemlandschaften in vielen Organisationen sollte die Monitoring-Lösung unterschiedliche Betriebssysteme und Protokolle unterstützen.