Viele Unternehmen in Deutschland sind dabei, ihre Wertschöpfung in die Cloud zu verlagern, oder haben dies bereits getan. Technisch haben die Cloud-Anbieter dabei einen solchen Reifegrad erreicht, dass für nahezu jede Aufgabenstellung eine Lösung auf dem Markt existiert. Dennoch gibt es für Unternehmen weitreichende Herausforderungen, allen voran durch Legacy-Software, die viele Systemlandschaften prägen – etwa veraltete, über die Jahre gewachsene ERP-Systeme.
Nicht zu vernachlässigen ist zudem, dass die Verlagerung in die Cloud einen enormen Veränderungsprozess bedeutet, sowohl im Organisationsaufbau als auch in der notwendigen Expertise. Firmen benötigen entsprechend qualifizierte Beschäftigte – und diese Fachleute sind rar. Darüber hinaus ist ein Umdenken nötig, hin dazu, Infrastruktur- und Betriebsthemen noch stärker aus der Perspektive der Software-entwicklung anzugehen. Damit verbunden schreitet auch die Entwicklung in Unternehmen voran, einen stringenten Infrastructure-as-Code-Ansatz zu verfolgen, also Infrastrukturleistungen in maschinenlesbarem Code bereitzustellen und ähnlich wie Software zu programmieren. Dadurch lassen sich Vorteile gewinnen, etwa eine steigende Automatisierung der Prozesse, mehr Flexibilität im Entwicklungsprozess und eine noch höhere Testbarkeit. Das Worst-Case-Szenario, in dem die Plattform einige Minuten ausfällt, ist zunächst einmal nervenaufreibend, ärgerlich und teuer. Umso mehr sollte man aber auch die Chance nutzen, daraus zu lernen, um den Plattformbetrieb zu optimieren.
Incident-Management
Eine gründliche Auswertung der Daten, die während einer solchen Störung anfallen, sollte unbedingt erfolgen, stellen diese Informationen doch die beste Grundlage für Monitoring- und Logging-Tools dar. Zahlreiche Anwendungen, die Machine Learning in diesem Kontext nutzen, erheben auch ihre Trainingsdaten selbst. Die KI trainiert sich heutzutage eigenständig. Durch alle Schichten einer digitalen Plattform hinweg können Mustererkennungen zum Einsatz kommen und bei einer Abweichung im System lassen sich die verschiedenen Komponenten (Frontend, Backend, Server) sofort systematisch auf Fehler testen. Durch Technik wie Kubernetes entsteht eine zusätzliche Schicht, um Cloud-Infrastrukturen zu optimieren, zu automatisieren und flexibler zu gestalten.
Fazit
Die Grundlagen eines stabilen Plattformbetriebs sind bereits während des Baus gelegt: Durch kontinuierliches Testen lassen sich möglichst alle Fehler beseitigen, bevor sie auftreten. Nach der Inbetriebnahme sind intelligente Monitoring-Tools das Mittel der Wahl. Durch KI kann man Abweichungen vom Status quo unmittelbar registrieren und beheben, auch bei Lastspitzen oder ungewöhnlichen Zugriffen. Durch maschinelles Lernen verbessert sich die Mustererkennung durch Lernfortschritte kontinuierlich selbst. Dem spielt ein stringenter Infrastructure-as-Code-Ansatz in die Hände, erlaubt er doch mehr Flexibilität und eine größere Testbarkeit. Die technischen Weichen sind also gestellt. Wichtig ist, die Techniken durch entsprechend qualifizierte Mitarbeitende zum Einsatz zu bringen, um einen stabilen Plattformbetrieb zu gewährleisten.
Alexander Janthur ist CEO von Turbine Kreuzberg.