Mit der Digitalisierung der Wirtschaft wird die Verfügbarkeit der IT zu einem geschäftskritischen Faktor. Für die Administratoren heißt das, dass sie Störungen und Probleme erkennen müssen, bevor es zu Einschränkungen bei den Geschäftsabläufen kommt. Unterstützung versprechen hierbei AIOps.
Die Digitale Transformation verändert die Art, wie Unternehmen Geschäfte machen. Neue Produkte und Dienstleistungen setzen eine funktionierende IT voraus; Business Analytics und Data Lakes bilden das unabdingbare Rückgrat der heutigen Wirtschaft. War während der Industrialisierung des 19. Jahrhunderts das Credo „Die Räder dürfen nicht stillstehen!“, so gilt heute analog, dass die IT performant verfügbar sein muss. Ungeplante Downtimes sind in der heutigen Zeit nicht akzeptabel. Die Betriebsbereitschaft der Services aus dem eigenen Rechenzentrum, aus der Cloud und anderen Quellen muss gewährleistet sein. Plakativ gesagt: Ein Alarm, der erst dann bei den Administratoren eingeht, wenn die Anwender bereits den Helpdesk bestürmen, ist nichts wert. Sich anbahnende Störungen müssen erkannt und beseitigt werden, bevor sie Auswirkungen auf die Produktivität der Anwender haben. Künstliche Intelligenz (KI) im Monitoring kann den Administratoren dabei helfen. Das Schlagwort lautet „Artificial Intelligence for IT-Operations“, kurz AIOps. Der Begriff wurde vom Marktforschungsunternehmen Gartner geprägt und definiert: „AIOps-Plattformen nutzen große Datenmengen, modernes maschinelles Lernen und andere fortschrittliche Analysetechnologien, um direkt und indirekt die IT-Operationen (Überwachung, Automatisierung und Service-Desk) mit proaktiven, persönlichen und dynamischen Einblicken zu verbessern.“
Maschinelles Lernen als Basis
Gartner unterteilt AIOps in fünf aufeinander folgende, unterschiedlich komplexe Stufen: Falsche Alarme loswerden, Verbesserung des Ist-Zustandes, Reduzierung eventueller Auswirkungen, Ausfallzeitenminimierung und generelle Verbesserung des Servicemanagements. Bei allen spielt KI eine Rolle. AIOps basiert zum einen darauf, dass durch maschinelles Lernen (ML) Muster in den Monitoring-Daten erkannt werden, die auf ungewöhnliche Vorfälle oder Zustände hinweisen. Die dafür notwendigen Funktionen sind mittlerweile etwa in Werkzeugen zur Datenanalyse integriert. Zum anderen umfasst AIOps eine KI, die anhand der gewonnenen Informationen Entscheidungen trifft.
Beim maschinellen Lernen sind im Wesentlichen zwei Ansätze üblich: univariat und multivariat. Die univariate Analyse wertet nur eine Datenreihe aus, zum Beispiel die Last eines Prozessors. Sie benötigt deutlich weniger Rechenleistung als eine multivariate Analyse, kann aber bereits aussagekräftige Ergebnisse liefern. Spitzenlasten und deren zeitliches Auftreten sind hierfür beispielhaft. Um daraus Entscheidungen abzuleiten, sind die möglichen Aussagen aber noch zu vage. Es braucht viel Erfahrung, um die Informationen zu interpretieren. Das Problem ist ähnlich wie beim klassischen Monitoring: Geht man von einem Mittelwert aus, der als normal angenommen wird, kommt es zum Beispiel durch gesetzte Zeitintervalle zu Informationsverlusten. Peaks könnten untergehen und damit Probleme unerkannt bleiben.
Dem gegenüber stehen multivariate Analysen. Sie umfassen mehrere Metriken, etwa die Spitzenlasten unterschiedlicher Server in Verbindung mit Log-Events. So lassen sich zum Beispiel die Lasten auf einzelne Workloads herunterbrechen. Erzeugt ein Batch-Job zyklische Lastspitzen? Oder ist ein Angriff dafür verantwortlich? Durch die Verknüpfung unterschiedlicher Metriken kann das im Monitoring gemessene Verhalten besser interpretiert werden und als Entscheidungsgrundlage dienen. Allerdings sollte man beachten, dass multivariate Analysen nicht automatisch besser sind als univariate. Die Analyse unterschiedlicher Metriken benötigt viele Ressourcen und einiges an Zeit. In der Praxis ergänzen multivariate Analysen die univariaten Analysen, wenn konkrete Fragen auftauchen, die einer genaueren Klärung bedürfen
KI ist dazu in der Lage, solche Konstellationen aus den Monitoring-Daten herauszufiltern und den Administratoren vorzulegen. Die manuelle Suche nach der Fehlerquelle wird damit deutlich einfacher und schneller. Zudem kann die KI in den Maßnahmen der Administratoren nach Mustern suchen und so bei ähnlichen Situationen aktiv eine bewährte Lösung vorschlagen. Oder in Einzelfällen selbst aktiv werden.