Das Monitoring als Basisdisziplin des IT-Servicemanagements muss sich einigen Herausforderungen stellen, um das Business weiterhin optimal zu unterstützen. Unified Monitoring führt verschiedene Ansätze einheitlich zusammen und soll den Administratoren so die richtigen Informationen bereitstellen.
Die Digitale Transformation ist in vollem Gange. Kaum eine Branche, die nicht von signifikanten Veränderungen durch die Digitalisierung betroffen ist. Damit einher geht eine neue Bedeutung der IT: In einer Wirtschaft, die von digitalen Produkten, Dienstleistungen und Prozesses bestimmt wird, ist das Funktionieren der IT kritisch. Denn ein Stillstand der IT bedeutet nicht, dass einzelne Prozesse oder Services vorübergehend nicht zur Verfügung stehen. Es bedeutet den kompletten Stillstand aller Geschäftstätigkeiten des Unternehmens.
Für das IT-Servicemanagement bedeutet das, dass ungeplante Downtimes um jeden Preis vermieden werden müssen. Potenzielle Schwierigkeiten müssen erkannt werden, bevor sie zum Problem werden. Egal, ob der Root Cause im eigenen Rechenzentrum, beim Hoster oder in der Cloud zu suchen ist. Mit den herkömmlichen Ansätzen des Monitorings als Basisdisziplin des IT-Servicemanagements können die heutigen Anforderungen an den IT-Betrieb jedoch nur unzureichend abgedeckt werden. Zu eindimensional ist die Sicht auf die Technologien, zu ungenau die erhobenen Daten. Das Monitoring im digitalen Zeitalter muss vier grundlegende Herausforderungen meistern.
Wie geht es dem User?
Traditionell werden im Monitoring Last- und Leistungsdaten der einzelnen Komponenten wie Server oder Netze erfasst. CPU-Auslastung, I/O-Last, Latenz – zahlreichen Daten werden aggregiert, um daraus ein möglichst exaktes Bild zum aktuellen Zustand der IT zu erhalten. Und dennoch beklagen sich Anwender oft über Schwierigkeiten, obwohl die Performance-Daten aus dem Rechenzentrum keinen Hinweis auf Einschränkungen geben. Daneben eignen sich diese Leistungsdaten kaum für die Überwachung von Cloud-Diensten. Selbstverständlich können bei den großen Plattformen wie Azure oder AWS Performance-Metriken abgerufen und im Monitoring verarbeitet werden. Doch sind diese Daten oft nicht hinreichend vollständig und zu ungenau, um möglichen Problemen schnell auf die Spur zu kommen.
Eine Möglichkeit, mehr über den Zustand der IT-Services zu erfahren, ist der Blickpunkt des Anwenders. Bei diesem als „Real User Experience“ (RUE) bezeichneten Ansatz wird die Performance gängiger IT-Services wie etwa eine Buchung in SAP vom Client aus gemessen. Die User-Aktionen werden dazu automatisch getriggert, die ermittelte Latenz an das Monitoring übermittelt. Dafür stehen am Markt einige Tools bereit. Auch im Open-Source-Umfeld gibt es leistungsstarke Angebote wie zum Beispiel Alyvix, das sich auch in großen Infrastrukturen bereits sehr gut bewährt hat. Mit den kombinierten Daten aus dem klassischen Monitoring und der RUE ist eine vollständige Sicht auf alle Performance-Metriken der IT möglich, die sowohl intern als auch extern erbrachte Services berücksichtigt.
Dichte statt Mittelwert
Um der steigenden Kritikalität der IT über das gesamte Unternehmen hinweg gerecht zu werden, muss das IT-Servicemanagement über exakte und aussagekräftige Daten verfügen. Der übliche Ansatz, Mittelwerte aus den Messungen zu bilden, wird diesem Anspruch aber immer weniger gerecht: Geht man im Monitoring von einem Mittelwert aus, der als normal angenommen wird, kommt es durch die gesetzten Zeitintervalle bei der Messung zu Informationsverlusten. Man erhält eine eindimensionale Abbildung eines einzelnen Messwerts, der mit einem mehr oder minder willkürlichen Schwellwert verglichen wird.
Ein wesentlich genauerer und in der Praxis bereits erfolgreich erprobter Ansatz ist die statistische Methode der Wahrscheinlichkeitsdichte, ein Verfahren zur Beschreibung einer Wahrscheinlichkeitsverteilung innerhalb eines gegebenen Intervalls. Anstatt den Standard-Traffic als „Datenverkehr innerhalb eines bestimmten Durchschnittsbereichs“ zu definieren, wird versucht, die als normal anzusehende Datenverteilung durch eine Funktion der Wahrscheinlichkeitsdichte abzuschätzen. Die daraus resultierende Definition des Standard-Datenverkehrs ist damit „Datenverkehr innerhalb einer bestimmten Bandbreite eines der deutlichsten Maximalwerte der Wahrscheinlichkeitsdichtefunktion.“ So erhält man statt des Mittelwerts eine Dichte, die anzeigt, wie sich der Datenverkehr und die Datenmenge verteilen. Client-Latenz und Datendurchsatz können somit in einen Zusammenhang gebracht werden. Man erhält eine informationsreichere Abbildung der Daten, die man zu Clustern zusammenfassen kann. Sinnvoll ist hier, die Cluster anhand der Dichte des Traffics im Netz zu bilden. Dabei geht man davon aus, dass dichter Traffic dem normalen Betrieb entspricht. Bereiche mit wenig Traffic – man spricht hier von Sparse Traffic – sind dagegen ein Hinweis auf Probleme.