In größeren Netzen sind Netzwerküberwachungslösungen gang und gäbe. Doch diese aufwändigen und mächtigen Lösungen schrecken manche IT-Verantwortliche zu Recht ab. Allerdings existieren auch einfache, überschaubare Netzwerk-Monitoring-Lösungen, die über eine Explorer-Funktion selbstständig alle Komponenten und Anwendungen im Netz registrieren. Mit nur einer Appliance an einem Netzwerkknoten liefern sie dem Helpdesk alle wichtigen Informationen für ein zielgerichtetes Troubleshooting.Wenn sich ein Anwender im Unternehmen meldet, weil sein Rechner zu langsam ist, kann dieses Problem vielfältige Ursachen haben: Es mag an schlechten Antwortzeiten bei Datenbankabfragen liegen, ein Server ist überlastet oder die Internet-Anbindung. Vielleicht blockiert auch eine bestimmte Anwendung die Netzwerkschnittstelle. Um in solchen Fällen eine schnelle Fehlersuche zu gewährleisten, setzen vor allem größere Unternehmen Monitoring-Lösungen ein, die den Netzverkehr überwachen. Diese benachrichtigen den IT-Service-Desk, sobald ein ungewöhnliches Ereignis oder eine Störung auftritt. Es gibt dabei Lösungen, die allein das Netzwerkverhalten oder nur die Server-Transaktionen oder das Quality-of-Service-Verhalten betrachten. Damit erhält der Administrator jedoch nur eine eingeschränkte Sicht auf die Vorgänge im Netz. Netzwerk, Anwendungen plus Komponenten Besonders für Helpdesk-Anwendungen ist eine Gesamtsicht auf alle Vorgänge im Netz erforderlich. Die Monitoring-Lösung sollte daher neben dem Netzwerk-Traffic auch das Benutzer- und Applikationsverhalten überwachen, um Ungewöhnliches frühzeitig erkennen zu können. Diese Bandbreite beherrschen allerdings nur wenige Monitoring-Lösungen wie etwa Visual Trueview von Fluke Networks. Eine solche Appliance-Lösung überprüft beispielsweise nicht nur die Datenpakete, sondern auch die Transaktionen von Anwendungen sowie den IPFIX (Internet Protocol Flow Information Export) der angeschlossenen Router und Switches. IPFIX stellt eine Weiterentwicklung des Netflow-Protokolls von Cisco dar. Darüber hinaus wertet ein derartiges System die SNMP-Daten (Simple Network Management Protocol) der angeschlossenen Verbindungen aus. Die Appliance sammelt alle diese Messdaten in einer gemeinsamen Datenbank und führt dann zeitlich korrelierte Analysen über alle Datenquellen hinweg aus. Die Daten werden dabei in Echtzeit und in "Line Rate" auf eine integrierte Festplatte geschrieben, um sicherzustellen, dass keine Pakete verloren gehen. Die Ergebnisse stellt die Lösung in einer Web-Oberfläche dar. Dabei zeigt sie nach dem Level-down-Prinzip zuerst im Überblick an, in welcher Niederlassung und an welchem Server oder welcher Station welche Störungen aufgetreten sind. Dies geht hinunter bis zur detaillierten Paket- sowie N-Tier-Anwendungs- und Transaktionsanalyse. Ist die Lösung mandantenfähig, lassen sich zum Beispiel auch spezielle Workflows für Spezialisten hinterlegen. Discovery und Baselining Gerade für Unternehmen, die für das Einrichten von Lösungen kaum Kapazitäten besitzen, bietet sich eine Monitoring-Lösung an, die über eine Discovery-Funktion das Netz selbsttätig erforscht und alle angeschlossenen Komponenten findet. Der Administrator muss dann bestenfalls noch einige Bezeichnungen einfügen. Über die Discovery-Funktion fallen im späteren Betrieb auch Komponenten auf, die erstmals ans Netz angeschlossen wurden. Überwacht die Monitoring-Lösung das Netz über einige Zeit hinweg, so lässt sich aus den gespeicherten Informationen das reguläre Verhalten des Netzwerks ableiten. Dieses "Normalverhalten" nutzt die Software für ein "Baselining", mit dem sich das jeweils aktuelle Netzwerk-, Anwendungs- und Anwenderverhalten vergleichen lässt. Bei dieser Vorgehensweise fällt Ungewöhnliches schnell auf und kann als Ereignis eine Meldung auslösen. Eine Besonderheit der genannten Lösung ist, dass der Service-Desk-Mitarbeiter auf seinem Bildschirm eine gemeinsame Darstellung aller Auswertungen über die Zeit erhält. Anomalien sind dabei farblich hervorgehoben und nach ihrer Dringlichkeit eingestuft. Der Nutzer kann mit wenigen Klicks in Sekundenschnelle eine Aussage darüber treffen, ob ein Ereignis den Client-PC, eine bestimmte Anwendung oder das Netzwerk betrifft. Zuständigkeiten schnell geklärt Dabei ist es entscheidend, dass der Support-Mitarbeiter bei einem Vorfall schnell von einem Knoten auf zugehörige Transaktionen und Komponenten zugreifen kann und alles zeitgleich im Blick hat. Wichtig ist außerdem, dass der Bearbeiter nach dem Level-down-Verfahren auf die aufgezeichneten Protokolldaten zugreifen kann und von einem Expertensystem Hinweise auf mögliche Störungsursachen erhält - möglichst gleich zusammen mit Tipps zu deren Beseitigung. Denn dann kann der First-Level-Support-Mitarbeiter viele Störungen schnell selbst beheben, ohne dass er den Vorgang an Experten im Unternehmen weiterleiten muss. Sollte das Problem für den First-Level-Support-Mitarbeiter nicht lösbar sein, so erhält der zuständige System- oder Netzwerkspezialist, an den der Vorgang weitergeleitet wird, eine zielgerichtete Anfrage zu seinem Bereich. Außerdem kann ihm der First-Level-Support-Mitarbeiter alle Informationen und Mess-Traces zu dieser Störung mitliefern. Dies entlastet die Experten erheblich und beschleunigt die Fehlerbehebung. Installation im Netz Unternehmen, die nur eine einzige Monitoring Appliance einsetzen, sollten diese an einer zentralen Verbindung im Netz positionieren, am besten direkt am Core Switch. Denn dann lassen sich über Aggregation TAPs (Test Access Points) und verteilte SPAN-Ports (Switched Port Analyzer) alle Server-, VLAN- und Uplink-Verbindungen ins WAN überwachen. Entscheidend ist, dass sich alle relevanten Daten erfassen lassen. Das heißt, auch bei Gigabit-Ethernet-Verbindungen muss die Lösung die Daten in Echtzeit auf eine Festplatte schreiben können. Dabei darf die Paketgröße und die Anzahl der Pakete keine Rolle spielen. Die Lösung von Fluke Networks beispielsweise analysiert 9 kByte große Pakete genauso wie kleine 64-Byte-Pakete bei voller Line Rate. Wenn mehrere Verbindungen parallel zu überwachen sind, reduzieren passende Filter den Traffic so, dass keine entscheidenden Pakete und Informationen verloren gehen. Um auch sporadisch auftretende Störungen aufspüren zu können, ist genügend Festplattenkapazität bereitzustellen. Bei der Überwachung von Gigabit-Ethernet-Verbindungen können durchaus Kapazitäten von über 40 TByte sinnvoll sein. Es kommt darauf an, auf welchen Zeitraum die Analyse zurückgreifen soll. Dies betrifft zum einen das Auffinden von sporadischen Fehlern und zum anderen das generelle Baselining. Praxisbeispiele Ist die Monitoring Appliance im Netz installiert, und sind die zu überwachenden Verbindungen über TAPs oder SPAN-Ports angeschlossen, sollte die Lösung das Netz in wenigen Minuten erkundet haben und erste Meldungen bringen. Nach einiger Zeit im Betrieb funktioniert auch das Baselining. Wenn dann zum Beispiel ein Alarm erscheint, dass die Antwortzeit in einer Niederlassung merklich angestiegen ist, klickt der Service-Mitarbeiter auf das Icon der Niederlassung und erkennt dort auf einen Blick den betroffenen Server. Wenn er sich dessen "Transaction Details" betrachtet, ist schnell klar, dass zum Beispiel die Antwortzeit bei bestimmten Datenbankabfragen deutlich gegenüber dem Normalwert gestiegen ist. Reagiert zum Beispiel ein Frontend-Server (Web) nur sehr langsam, kann dies daran liegen, dass die SQL-Datenbankabfragen mit dem Oracle-Server zu lange dauern, weil sie eventuell schlecht programmiert sind. Die in Bild 2 dargestellten Queries dauern jeweils über zwei Sekunden. Dies bedeutet für den Endanwender eine Gesamtwartezeit von über 14 Sekunden. Der Support-Mitarbeiter kann den Incident mit den zugehörigen aufgezeichneten Mess-Traces an einen Server-Spezialisten weiterleiten. Zeigt sich bei einer anderen Warnmeldung zum Beispiel, dass das Problem im WAN liegt, so kann er in diesem Fall das Problem direkt an den Internet-Service-Provider weitergeben. Bandbreiten-Management Wenn eine Monitoring-Lösung sowohl das Netzwerk als auch die Anwendungen überwacht, so lässt sich damit auch das Bandbreiten-Management überprüfen. Meldet das System zum Beispiel einen Anstieg der Übertragungszeit, so kann dies darauf hinweisen, dass eine Schnittstelle überlastet ist. Dann überprüft der Service-Desk-Mitarbeiter, welcher Traffic an dieser Schnittstelle aktiv ist. So kann es zum Beispiel vorkommen, dass ein Mitarbeiter parallel zu Business-Anwendungen auch ein Youtube-Video geöffnet hat (Bild 3). Wenn im Netz die relevanten Applikationen nicht priorisiert sind, nimmt ein solches Video den Geschäftsanwendungen die Bandbreite. Eine entsprechende Priorisierung könnte in dieser Situation Abhilfe schaffen. Entscheidend ist ein solcher Vorrang hauptsächlich für Anwendungen, die Echtzeitanforderungen besitzen. Dazu zählen zum Beispiel IP-Telefonie oder Videokonferenzen übers Netz. Sprachqualität überprüfen Speziell zur Prüfung von sprachbasierendem Traffic bietet beispielsweise Visual Trueview eine Softwareoption, mit der der Anwender die übertragene Sprachqualität nach ITU-T G.107 per MOS-Wert (Mean Opinion Score) bewerten kann. Dieser gewährleistet eine objektive Beurteilung und liefert Werte von 1 (mangelhaft) bis 5 (exzellent). Dabei stellt das Messergebnis auch die Ursache für einen degradierten Wert dar, sei es Jitter, Loss, Latenz oder die Komprimierung im Codec. Bei einer schlechten Sprachübertragung mit einem MOS-Wert von unter 2,8 sollte der Administrator die Priorisierung der Anwendungen überprüfen.