Der Betrieb virtueller Infrastrukturen stellt IT-Administratoren vor neue Herausforderungen. Da Computing-Ressourcen unkomplizierter und flexibler als in rein physischen Umgebungen zur Verfügung stehen, müssen die Administratoren mehr Systeme auf ihre Performance hin überwachen. Gleichzeitig fordert die im Vergleich zur Provisionierung physischer Systeme einfachere Bereitstellung virtueller Maschinen (VMs) auch eine angepasste Methode für das Kapazitäts-Management.Virtualisierung dient heute als Katalysator für Cloud Computing. Ursprüngliche Bedenken bezüglich Sicherheit und Zuverlässigkeit virtueller Infrastrukturen sind längst abgebaut. Somit ist der nächste logische Schritt, bei der IT-Verwaltung Werkzeuge einzusetzen, die automatisch neue VMs registrieren und in die Überwachung einbinden sowie selbstständig auf die Außerbetriebssetzung von VMs reagieren. Die Automation dieser Aufgaben ist eine wichtige Kenngröße bei der Tool-Auswahl. Weiter sollte ein solches Werkzeug zur Performance-Überwachung in der Lage sein, auf künftige Anforderungen durch neu provisionierte VMs zu reagieren und hinsichtlich ausreichender Ressourcen zu hinterfragen. Das Performance-Überwachungs-Tool muss es ermöglichen, proaktiv und planerisch zu agieren, indem es Trends in der Infrastruktur erkennt und für geplante Erweiterung durch neue VMs vorsorgt. Virtualisierung bedeutet heute nicht mehr nur die Zwischenschaltung eines Hypervisors auf Server-Ebene. Auf dem Weg zu einem softwaredefinierten Rechenzentrum sind alle Module neben den bereits vorhandenen virtuellen Servern, die einen Cloud-orientierten RZ-Betrieb ermöglichen, einzubeziehen - also Netzwerk, Storage und Sicherheit. Nur mit einem hohen Automationsgrad im Betrieb der Infrastruktur lässt sich ein Betriebsmodell erreichen, bei dem die Bereitstellung einfacher Rechenressourcen vollständig automatisiert abläuft und die IT im Sinne von IT as a Service (ITaaS) als Service-Provider agieren kann. Ein häufiges Problem sind die verwendeten Werkzeuge, die oftmals noch aus der "alten" Architekturzeit kommen, und für eine andere Art von Infrastruktur und Plattform entwickelt wurden. Früher standen jedem Service seine eigenen Ressourcen exklusiv zur Verfügung. Pro Service gab es meist einen Server mit lokalen Festplatten und getrennten Netzwerken - insgesamt eine sehr statische Konfiguration. Doch gängige IT-Architekturen umfassen heute virtuelle Infrastrukturen, physische Server und weitere Komponenten (Netzwerk, Storage) ebenso wie Public und/oder Hybrid Clouds. Hier ist es nicht so einfach, den Überblick zu behalten. IT-Teams stehen aber nicht nur technischen Problemen gegenüber. Auch das Organisatorische stellt sie immer wieder vor Aufgaben, die nicht einfach zu bewältigen sind. Beispielsweise müssen IT-Administratoren heute zwingender denn je Vorhersagen treffen können: zu künftig benötigten Servern, möglichen Kompatibilitätsanpassungen bestehender Plattformen für neue Projekte oder zu ausreichenden Infrastrukturkomponenten. Nur so können sie ihre Budgets korrekt planen. Bei diesen Vorhersagen können sie es sich nicht erlauben, mit ungenauen Zahlen zu arbeiten und diese wochenlang in Excel zu bearbeiten. Ein schneller, einfacher, verständlicher und genauer Abruf und Überblick des Kapazitätsbedarfs ist daher unbedingt notwendig. Unterstützung für den Administrator Eine Variante bei der Kalkulation der notwendigen Kapazitäten ist die On-Demand-Berechnung, also eine Berechnung der konfigurierten Systemanforderungen einer Beispiel-VM, die selbst definiert wurde, oder einer Durchschnitts-VM (auf der Basis aller VMs in der Infrastruktur). Daraus ergibt sich der Bedarf an Storage-, Netzwerk- und Computing-Ressourcen. Nicht berücksichtigt ist hier eine mögliche Überprovisionierung. Diese Überprovisionierung mit einrechnen zu können, ist jedoch in vielen Fällen notwendig. Ein Beispiel wäre das Ausrollen neuer Testsysteme der eigenen SAP-Umgebung, bei dem die Performance nicht ausschlaggebend und eine Überprovisionierung sinnvoll ist. Diese Methode der Berechnung nennt sich Allokationsmethode, den Grad der Überprovisionierung kann man hier frei wählen. Auf dem Weg zu einem automatisierten IT-Betrieb gibt es noch einige andere Dinge zu berücksichtigen, um den immer weiter fortschreitenden Wandel eines traditionellen Rechenzentrumbetriebs hin zur IT-as-a-Service-Umgebung zu unterstützen. Die geforderte Agilität der IT muss sich im Alltag bewähren und umsetzen lassen. Derartige Betriebskonzepte sollten sich daher auch im IT-Management-Ansatz wiederfinden und virtualisierte Infrastrukturen mit einer bedarfsorientierten Auslastung vollständig unterstützen. Traditionelle Verfahren greifen oft zu kurz und können der dynamischen Nutzung unter Gesichtspunkten der Betriebssicherheit, Performance und Automatisierung nicht folgen. Wandel beim Stand der Technik Viele Methoden, Verfahren und bewährte Werkzeuge für Monitoring, CMDB, Helpdesk etc. stammen aus einer Zeit, als die strikte Trennung von Systemressourcen "State of the Art" waren. Der Trend zur weiteren Virtualisierung und zum umfänglichen Cloud Computing führt jedoch dazu, dass IT-Abteilungen immer dynamischere Infrastrukturen kontrollieren müssen. Traditionelle Werkzeuge zur Überwachung der Infrastruktur kommen mit dieser Dynamik nicht mehr zurecht. Moderne Produkte erhalten hingegen aus einer virtuellen Infrastruktur stetig Informationen, um diese zeitnah zu analysieren und zu interpretieren. So kann man Ressourcenengpässen und Ausfällen vorbeugen. Die IT bekommt eine Vorwarnzeit, um bei bevorstehenden Problemen schon im Vorfeld Maßnahmen einzuleiten. Neuere Management-Werkzeuge haben die Fähigkeit, das Normalverhalten einer Infrastruktur zu ermitteln. Der manuelle Eingriff von IT-Profis wird nur noch benötigt, um Maßnahmen, die das Management-Werkzeug anbietet, zu bestätigen. Diese Werkzeuge erkennen selbstständig, ob Anomalien in der Infrastruktur zu einem Betriebsrisiko führen könnten. Dies gilt gleichermaßen bei Performance-Problemen und Kapazitätsoptimierungen virtueller Infrastrukturen. Trotz aller Intelligenz der Systeme bleibt der IT-Administrator aber nach wie vor wichtiger Know-how-Träger, auf dessen Erfahrung und Wissen man für das weitere Vorgehen in einem Fehlerfall angewiesen ist. Auswirkungen für den IT-Alltag Moderne Verwaltungswerkzeuge garantieren die Sicherstellung von SLAs (Service Level Agreements) und die Verfügbarkeit selbst der ressourcenintensivsten Anwendungen. Funktionen für einen unterbrechungsfreien Betrieb und einen abgestuften Schutz vor Service-Unterbrechungen oder Datenverlust reduzieren die Kosten und Komplexität bei der Verwaltung des ununterbrochenen Geschäftsbetriebs und der Disaster Recovery. Durch abgestimmte Werkzeuge oder Lösungssuiten für virtuelle Infrastrukturen verringern sich die vollständigen Betriebsaufwände im Durchschnitt um 69 Prozent im Vergleich zum klassischen Server-Betrieb, wie eine Kundenbefragung von VMware ergab. Um vermeintlich drohenden Performance-Engpässen zu entgehen, weisen IT-Administratoren ihrer virtuellen Infrastruktur häufig unnötig hohe Ressourcen zu. Dies ist oft dem Wunsch der Mitarbeiter nach maximaler Leistungsfähigkeit geschuldet. Zwar ist damit die Gefahr von Performance-Engpässen gebannt, doch Kapazitäten und somit Geld verschwendet. Bei der Beschaffung eines modernen Cloud-Management-Werkzeugs ist es daher wichtig, ein auf die besonderen Eigenschaften und Anforderungen abgestimmtes Tool-Set zu wählen. Eine Kernfunktion stellt dabei ein umfangreiches Reporting dar: Trendanalysen zur aktuellen Ressourcenverwendung, eine Auflistung über- und unterprovisionierter Systeme sowie Berichte über ausgeschaltete oder nicht mehr verwendete Systeme kann der Administrator heute mit einem Knopfdruck erstellen, statt sie mit viel Handarbeit mühsam zusammenzutragen. Natürlich darf die Performance einer VM oder Applikation nicht durch zu konservative Ressourcenbereitstellung leiden. Hier treffen zwei Gesichtspunkte aufeinander: Zum einen muss der Administrator die gegenwärtige Ressourcenverwendung optimieren und zum anderen auch eine künftige, bedarfsgerechte Ressourcenbereitstellung effizient planen. Diesen Spagat muss ein Management-Werkzeug leisten können, um den Anforderungen eines ITaaS-Betriebsmodels zu genügen. Anforderungen an Cloud-Management-Lösungen Wichtig ist eine Analyse des Ist-Zustands, also die Frage, wie der aktuelle Virtualisierungsgrad und die momentane Virtualisierungstiefe aussehen, aber ebenso die Frage, welche Leistungswerte in der bestehenden Infrastruktur als normal zu betrachten sind und wie der künftige RZ-Betrieb aussehen soll. Die IT in einen Service-Broker umzubauen bedeutet neben dem Ausbau der Virtualisierung und einer gesteigerten Effizienz auch, den Automatisierungsgrad zu erhöhen und sich gleichzeitig Gedanken zu machen, welche Services die IT anbieten kann und möchte: Sind meine wichtigen Anwendungen (Datenbanken, ERP, CRM oder Webshop) virtualisiert? Wenn ja, muss ich unter dem Gesichtspunkt der IT-Betriebssicherheit Ressourcenengpässe und Ausfälle möglichst vermeiden? Wie kann ein Ressourcen- und Kapazitäts-Management-Werkzeug dies unterstützen? Wie kann die IT die angebotenen SLAs sicherstellen? Um ein SLA erfüllen zu können, ist es heute dringend notwendig, die gesamte Infrastruktur durchgängig ("End-to-End") zu betrachten, also die Applikation über alle genutzten Ressourcen zu beobachten und die Zusammenhänge jedweder Komponenten darzustellen. Hat beispielsweise ein Storage Array Probleme, dauert es meistens sehr lange festzustellen, welche Services davon betroffen sind. Aufgrund der fehlenden Transparenz bleiben Zusammenhänge verborgen und die typischen Schuldzuweisungen im Betrieb setzen ein. Eine Fehlerursachensuche ist kompliziert und langwierig - was zur nächsten Kernfunktion führt: zur so genannten Root Cause Analysis. Diese erreicht man durch optimierte Transparenz - und zwar mittels einer Lösung, die virtualisierte wie auch physische Systeme unterstützt. Da jede Komponente in der Infrastruktur, basierend auf der jeweiligen Funktion, bereits ausreichend Daten sammelt, gilt es nun, die verschiedenen Quellen zusammenzuführen und durch intelligente Algorithmen auszuwerten. Die Informationen erreichen über Adapter die zentrale Analyse-Instanz, sodass die Daten nur eingesammelt werden. Dadurch kann die IT die Zusammenhänge einzelner Events verstehen und abbilden. Die dazu benötigten Informationen muss die Management-Lösung in einer einfach verständlichen Form darstellen. Für die Darstellung sind zum Beispiel Heatmaps bestens geeignet: Heatmaps ermöglichen es, so genannte Hotspots (Problemstellen) einfach und schnell zu identifizieren. So kann man beispielsweise einsehen, welche VM die meiste Netzwerklast oder welcher Host die meisten I/O-Operationen erzeugt. Damit kommt es nicht mehr zu Schuldzuweisungen, der Administrator kann damit die Fehlerursache schnell eingrenzen. Selbstlernendes Tool Wichtig für die Auswahl der Verwaltungslösung ist, dass sie das normale Verhalten der einzelnen Infrastrukturkomponenten zu unterschiedlichen Zeiten kennt und automatisiert mitlernt. Den meisten Werkzeugen fehlen historische Daten, um zu verstehen, ob die aktuelle Latenz des Storage Arrays normal ist oder sich ein Problem anbahnt. Hinzu kommen Kommunikationshürden durch die in den meisten Rechenzentren vorherrschende Siloarchitektur. Das Storage-Team agiert in der Regel unabhängig vom Virtualisierungs- und Applikationsteam, sodass oft der ganzheitliche Blick fehlt. Von potenziellen Problemen erfahren die Teams dann häufig zu spät oder gar nicht. Betriebsteams bekommen oft hundert Alarmmeldungen pro Tag. Viele davon zeigen lediglich an, dass statische Grenzwerte überschritten wurden. Diese Grenzwerte muss der Systemverwalter situativ interpretieren: Eine 80-prozentige CPU-Auslastung des Applikations-Servers ist am Morgen, wenn alle Benutzer nahezu zeitgleich das CRM-System öffnen, relativ normal. Wird dieser Wert jedoch am späten Vormittag erreicht, sollte das IT-Team alarmiert sein. Schwellenwerte richtig zu definieren ist daher eine wichtige Aufgabe. Das Schlimmste für einen Administrator einer komplexen Infrastruktur ist die E-Mail-Flut eines allzu gesprächigen Management-Tools. Dies führt dazu, dass er wichtige Events übersieht und erst der Benutzer die Auswirkungen eines Fehlers bemerkt. Oder diese E-Mails landen in der Mailbox einer großen Abteilung, die erfahrungsgemäß selten jemand pflegt, womit der Zweck der Alerts verfehlt ist. Das Management-Werkzeug hat eine sinnvolle Kanalisierung von E-Mails durch detaillierte Einstellungen zu liefern: Das Infrastrukturteam erhält E-Mails zu typischen Hardwarefehlern wie "VMNIC Device down" oder "Host Connection lost", der Alarm der Exchange-VMs bei zu hoher Workload bis zur Anzahl von Anomalien hingegen geht an die Exchange-Administratoren. Wer sich mit dem Thema Anwendungs- oder Service-Monitoring beschäftigt, sollte darauf achten, dass es einen Automatismus gibt, der die virtuelle Infrastruktur erkennt und deren Änderungen versteht. Dies bedeutet, das System sollte beim Umzug von VMs die Änderungen berücksichtigen, ohne dass die Administratoren die Zusammenhänge und Abhängigkeiten händisch nachbilden müssen.