„Wie bei jedem KI-Modell sind AIOps-Anwendungen abhängig von der Qualität der Daten, die sie empfangen“, erläutert Isabell Sippli, Distinguished Engineer im Bereich AIOps bei IBM. Doch im IT- und Netzwerkbetrieb seien diese Daten oft heterogen und unvollständig. „Außerdem gibt es nur sehr wenig ,Ground Truth’, also einen Goldstandard, der beschreibt, welche möglichen Ergebnisse einer KI richtig oder falsch sind“, führt Sippli aus und nennt als Beispiel die automatische Event-Korrelation: „Dafür gibt es keine öffentlich verfügbaren ‚Labeled Data Sets‘ (annotierte Datensätze, d.Red.), die es uns erlauben zu vergleichen, welche Events richtig korreliert sind oder nicht.“
„AIOps ist nicht exakt definiert und kein besonders großer Bereich, verglichen mit einigen anderen KI-Einsatzgebieten“, sagt Sascha Giese, Head Geek bei SolarWinds. „Daher kann man auf kein vordefiniertes Framework zurückgreifen oder gar eines von der Stange kaufen.“ Fehlentscheidungen könnten aber ernsthafte Konsequenzen für die IT eines Unternehmens haben. Daher seien Kontrollmechanismen erforderlich, so Giese.
„Wenn für das Training nicht genug Daten zur Verfügung stehen, wenn die Daten irrelevant oder nicht vielfältig genug sind, werden die Ergebnisse unbrauchbar“, bestätigt Axel Simon, Chief Technologist DACH bei HPE Aruba Networking. „Actionable AIOps – die Kombination aus KI und Automatisierung – muss also umfassend genug sein, um individuelle Kundenprobleme schnell und präzise identifizieren und lösen zu können.“ Grundlage dafür sei ein Data Lake, in den die Netzwerkerkenntnisse einer möglichst großen Vielzahl von Installationen einfließen.
Disney-Titelheld Aladdin entdeckt zufällig, dass die Zauberlampe durch Reiben den Djinn freisetzt, der seine Wünsche erfüllt. Die IT-Anbieter hingegen mussten jahrelang forschen, um den AIOps-Teppich zum Fliegen zu bringen. „Wir haben das Glück, seit vielen Jahren im AIOps-Geschäft und damit zusammenhängenden Bereichen wie Operations-Management und Monitoring zu sein, sodass wir gute Arbeitsbeziehungen zu großen Kunden weltweit haben, die uns helfen, unsere Modelle mit Beispieldaten zu validieren“, so IBM-Ingenieurin Sippli.
Zudem hat IBM natürlich Zugriff auf hauseigene Daten seiner Teams. „Wir glauben auch, dass Foundation Models Chancen in bestimmten Bereichen von AIOps bieten, um einige Herausforderungen zu überwinden“, ergänzt Sippli. Foundation Models sind Basismodelle, auf denen sich dann einsatzspezifische aufbauen lassen. IBM hat kürzlich mit Watsonx entsprechende Lösungen vorgestellt.
„Die Entwicklung und das Training unserer KI haben etwa zwei Jahre gedauert“, so SolarWinds-Experte Giese. „Hauptsächlich haben wir unsere eigenen Daten genutzt, konnten aber auch auf externe Daten von Pilotprojekten zurückgreifen.“ Die Fortschritte beschreibt er anhand eines Beispiels: „Früher wurde ein Alarm ausgelöst, wenn ein Volume zu 85 Prozent gefüllt war. Das war zum Zeitpunkt von 1-TByte-Drives ein guter Wert, jedoch hat sich die Technologie weiterentwickelt.“
Also habe man eine Zusatzbedingung definiert: 85 Prozent und einen statischen, von der Volume-Größe abhängigen Wert an verfügbarem Speicherplatz. Damit habe man unnötige Alarme verringern können. „Mittlerweile“, so Giese, „nutzen wir Regressionsmodelle zur dynamischen Vorhersage der Auslastung in Kombination mit den oben aufgeführten Beobachtungen, zum einen, um ein Sicherheitsnetz aus redundanten Auslösern zu haben, zum anderen, um die Anzahl an Alarmen weiterhin zu minimieren.“
Auch Splunk ging den KI-Weg: „Splunk Enterprise und Splunk Cloud bieten umfassende Möglichkeiten, Daten aus heterogenen Quellen einzulesen, diese flexibel mithilfe der Suchsprache SPL (Search Processing Language) auszuwerten und in KI-Modelle zu übersetzen“, sagt Philipp Drieger, Global Principal Machine Learning Architect bei Splunk. Für AIOps habe man die Lösung IT Service Intelligence um vordefinierte KI-Funktionen ergänzt.
HPE-Experte Simon hebt die Bedeutung der Datenbasis hervor: „Unsere Domainexpertise basiert auf einem Data Lake von Aruba-Central-Nutzern mit über 31 TByte Messdaten pro Tag“, sagt er. „Sie stammen von zig-tausenden Installationen in allen Unternehmensgrößen, Branchen und Regionen weltweit.“ Die KI-Engine in der Cloud wisse somit jederzeit für jedes Anwenderunternehmen, wie gut das Netzwerk läuft.