IT-Infrastrukturen sind komplex geworden, die Fehlersuche bei Performance-Problemen ist dabei alles andere als trivial. Unternehmen können jedoch einen strukturierten Trouble-shooting-Prozess implementieren, der durch systematische Ausschlussverfahren IT-Experten entlastet und die Fehlerbehebung beschleunigt.Für Unternehmen ist ein leistungsfähiges, hochverfügbares Netzwerk geschäftswichtig. Die IT-Infrastruktur soll einen messbaren Beitrag zum Erreichen der Unternehmensziele sowie zur Kunden- und Anwenderzufriedenheit beitragen. Doch Unternehmensnetzwerke stellen komplexe Systeme dar, die je nach dem Zustand einzelner Komponenten, der Auslastung und weiterer Faktoren unterschiedlich gut funktionieren. Immer wieder kommt es zu Performance-Problemen einzelner Applikationen. Umso wichtiger ist es, diese schnell zu erkennen und zu beheben. Probleme beim Troubleshooting Jede Applikation hat spezifische Anforderungen an die IT. Geschäftswichtige Anwendungen wie Voice und Video over IP oder SAP, Citrix und Exchange benötigen für eine einwandfreie Funktion eine Mindest-Performance für Parameter wie Paketverlust, Jitter und One-way Delay. Diese zu messen und die Ergebnisse richtig zu interpretieren, um bei Support-Anfragen die nötigen Troubleshooting-Maßnahmen einzuleiten, ist nicht trivial. Mitarbeitern im First-Level-Support fehlen dazu in der Regel sowohl die Möglichkeiten als auch die nötige Expertise. Gleichzeitig stehen IT-Abteilungen unter hohem Kostendruck. Erfahrene Techniker können sich nicht jeder Anfrage aus dem Helpdesk umfassend annehmen. Für aufwendige Analysen fehlen oft die Zeit und das Personal. Besonders in großen IT-Infrastrukturen müssen die Techniker zudem erst einmal wissen, in welchem Bereich des Netzwerks die Ursache für die schlechte Performance zu suchen ist. Dazu ist es nötig, alle essentiellen Netzwerkparameter über den gesamten Übertragungsweg hinweg zu überwachen und zu analysieren. Integration in bestehende Support-Prozesse In vielen Fällen könnte bereits ein strukturiertes Vorgehen nach dem Ausschlussverfahren in der frühen Phase der Störungsbearbeitung helfen, die Ursache für Performance-Probleme auf einen Bereich des Netzwerks einzuschränken beziehungsweise das Netzwerk als Grund für den Leistungseinbruch auszuschließen. Eine Möglichkeit wäre das Verlagern der anfänglichen Störungsbearbeitung vom Spezialisten zum Service-Desk-Mitarbeiter. Das heißt: Dieser nimmt nicht nur die Störungsmeldung entgegen und leitet sie an das IT-Team weiter, sondern führt zur Fehlerlokalisierung mit wenigen Klicks sofort einen Ende-zu-Ende-Funktionstest auf der Transportschicht (OSI-Layer 4) des Übertragungskanals durch. Das Ergebnis kann eine - zum Beispiel mit Ampelfarben - qualifizierte Aussage sein, anhand der sich das eröffnete Ticket gleich an den richtigen IT-Spezialisten im Second-Level-Support weiterleiten ließe. Eine solche Messung dauert nur typisch etwa 60 Sekunden. Damit ein Monitoring Tool tatsächlich den gesamten Übertragungsweg überwachen kann, muss es von den jeweiligen Endpunkten aus messen - etwa vom Arbeitsplatz-PC eines Endanwenders zum Applikations-Server. Möglich machen dies Softwareagenten wie beispielsweise "Geniend2end Network" von Netcor, die sich auf den jeweiligen Rechnern installieren lassen. Wichtig ist, dass diese nur wenig Rechenleistung beanspruchen. Ergänzend ist auch der Einsatz von kompakten, mobilen Hardwareagenten denkbar, die flexibel im jeweils zu messenden Edge-Bereich ans Netzwerk gekoppelt werden. Der "Genijack" von Netcor zum Beispiel ist nur so groß wie ein gewöhnliches Steckernetzteil, beherrscht aber dennoch die Routinetests für den Transportschicht-Check. Über Programmierschnittstellen lässt sich eine solche Lösung direkt in First-Level-Support-Prozesse beziehungsweise in die Service-Desk-Software integrieren. Performance in virtuellen und WAN-Umgebungen optimieren Eine besondere Herausforderung stellen Performance-Probleme in virtuellen Umgebungen dar - zum Beispiel in verbreiteten Blade-Server-Systemen. Dort kommen auf einer Hardware über einen Hypervisor mehrere Betriebssysteme parallel zum Einsatz, auf denen wiederum Applikationen wie SQL-Server, Citrix oder Exchange-Server laufen. Oft tauschen diese auch untereinander Daten aus. Konventionelle Hardware-Monitoring-Lösungen können derartige Datenströme allerdings nur mit hohem Aufwand erfassen. Softwareagenten hingegen lassen sich problemlos auf den virtuellen Maschinen installieren und zum Lokalisieren der Schwachstellen zwischen den virtualisierten Servern einsetzen. Dabei ist es dann gleichgültig, ob die Server auf derselben Hardware laufen oder in einer anderen Lokation stehen. Auch über WAN-Strecken hinweg lässt sich mit agentenbasierenden Monitorlösungen die "User Experience" überwachen und belegen. Sind an den jeweiligen LAN/WAN-Übergabepunkten der Unternehmensstandorte zusätzliche Agenten positioniert, ist auch das rasche Prüfen der einzelnen Teilabschnitte möglich. So lässt sich das Performance-Problem schnell auf eine bestimmte Teilstrecke als Verursacher herunterbrechen. Auf der Basis dieser Informationen können IT-Experten schließlich punktgenau mit einer detaillierten Analyse die Quelle für die Performance-Probleme aufspüren. Performance-Schwachstellen proaktiv aufspüren Einen Schritt weiter geht das proaktive Aufspüren von Performance-Schwachstellen - noch bevor Anwender davon betroffen sind. Dies erfordert eine permanente Ende-zu-Ende-Überwachung auf der Applikationsebene (OSI-Schicht 7). Auf der Grundlage automatisierter Transaktions- und Dienstemessungen, können IT-Verantwortliche anhand der Ergebnisse die Wechselwirkung zwischen Applikationen untereinander und mit dem Netzwerk besser verstehen. Dies hilft ihnen, die Ursache zum Beispiel für zu lange Applikationsantwortzeiten zu finden und richtig zuzuordnen. Eine mögliche Lösung ist das Aufsetzen dedizierter Testrechner, die in festgelegten Zeitintervallen Endbenutzer-Transaktionen für Applikationen wie zum Beispiel VoIP, SAP, Lotus Notes oder Exchange emulieren. Das Ergebnis stellt eine feingranulare 24/7-Übersicht der tatsächlichen Performance dar. Über objektiv nachprüfbare Leistungsparameter wie der erreichten Antwortzeit einer Applikation oder der Sprachqualität (MOS-Wert) einer VoIP-Verbindung können Unternehmen dann die reale IT-Service-Qualität aus der Anwendersicht dokumentieren. Fazit Mit einem strukturierten, auf dem Einsatz von Monitoring-Agenten basierenden Performance-Troubleshooting-Ansatz ist es Unternehmen möglich, ihre IT-Experten zu entlasten, Support-Prozesse zu vereinfachen und die Fehlerbehebung zu beschleunigen. Dies spart Zeit und Geld. Durch die direkte Integration definierter Ende-zu-Ende-Testroutinen in die Service-Desk-Software des First-Level-Supports lässt sich in vielen Fällen schon nach kurzer Zeit von weniger als 60 Sekunden das Netzwerk als Problemursache ausschließen. IT-Experten im Second- und Third-Level-Support haben dann die Möglichkeit, die Fehlersuche mit leistungsfähigen modularen Testlösungen wie etwa Geniend2end unmittelbar auf die betroffenen Client- und Server-Bereiche zu konzentrieren. Mit dieser Strategie können Unternehmen die Dauer der Support-Tickets reduzieren und Performance-Schwachstellen schneller beseitigen.