Die Netzwerküberwachung ist ein wichtiger Part des Netzwerk-Managements. Es gilt nicht nur zu prüfen, ob die angeschlossenen Geräte fehlerfrei und mit optimalem Datendurchsatz arbeiten, sondern auch, ob Anwendungsprozesse reibungslos ablaufen. Quality of Service und schnelle Antwortzeiten sind heute die maßgeblichen Parameter.
In einem Unternehmensnetz arbeiten heute eine Vielzahl unterschiedlichster Anwendungen. Neben vielen wichtigen TCP- und UDP-basierenden Applikationen zählen zunehmend auch Echtzeitanwendungen wie VoIP- oder Video-Streaming dazu. Diese sollten auch bei hohem Datenaufkommen störungsfrei funktionieren. Für die Performance-Überwachung solcher Anwendungen eignen sich herkömmliche SNMP- und Netflow-Tools nur bedingt. Sie ermitteln die Quantität der übertragenen Daten, liefern aber keine Informationen zur Qualität der übertragenen Dienste und Anwendungen. Ein Netzwerk-Monitoring mit Probes an zentralen Stellen dagegen kann den Netzwerkverantwortlichen die nötigen Informationen bereitstellen, um das Netz für die laufenden Anwendungen optimal konfigurieren zu können, bevor gravierende Störungen auftreten.
Monitoring bei 10 und 40 Gigabit Ethernet
In High-Speed-Umgebungen und bei Netzen mit vielen Anwendungen und hoher Auslastung setzen immer mehr IT-Abteilungen auf ein zentrales Performance-Monitoring mit leistungsfähigem Monitoring-Probes. Denn nur so lässt sich das Verhalten der Anwendungen lückenlos aufzeichnen und analysieren. Die Probes führen vor Ort nicht nur das Capturing, sondern auch gleich die Analyse der Messdaten bis hin zur Einbindung von Expertensystemen durch. Auf diese Weise ist es möglich, dass die zentrale Konsole lediglich Bildschirm-Updates erhält, also Statusveränderungen für die verschiedenen Reports. Dies können auch Abweichungen zu den abgespeicherten Messwerten einer Baseline sein. Beim Baselining zeichnet der Administrator das normale Netzverhalten auf und nutzt es zur Erkennung von außergewöhnlichen Ereignissen während des Monitorings. Baselining ist ein gängiges Verfahren vor dem Rollout einer neuen Anwendung oder zum Beispiel vor der Schaltung einer Videokonferenz. Auf die detaillierten Analysedaten einer Probe greift der Administrator erst bei einem konkreten Problem zu. Dies erfolgt zum Beispiel bei der Lösung von Network Instruments Web-basierend über die zentrale Konsole, damit er verteilte Messdaten miteinander verknüpfen kann. Zudem müssen die Probes mit genügend Speicherplatz zur Aufzeichnung der Messdaten ausgestattet sein.
Flächendeckend verteilt oder nur im Core
Für genaueste Laufzeitanalysen aus der Endanwendersicht wäre es sinnvoll, Probes direkt an den betroffenen Arbeitsplätzen zu installieren. Doch Probes generell flächendeckend im Access-Bereich zu verteilen, wäre unverhältnismäßig teuer und wartungsintensiv. Besser ist es, die Probes im Netzwerk-Core einzubinden, also möglichst nah vor den wichtigsten Anwendungs-Servern im Rechenzentrum. Grundsätzlich müssen Verarbeitungsgeschwindigkeit, Speicherkapazität und Netzwerkkarte der Probes für die vorherrschenden Gegebenheiten ausgelegt sein. Für eine Backbone-Verbindung im Rechenzentrum sollten sie zum Beispiel mindestens mit10GbE-Schnittstellen ausgestattet sein, manchmal ist sogar eine 40GbE-Schnittstelle notwendig. Solche Monitoring-Infrastrukturen sind beliebig erweiterbar und minimieren den zusätzlichen Traffic für das Monitoring. Alle Daten sind erfasst und lassen sich vor Ort detailliert analysieren. Mit einem leistungsfähigen Analyzer kann der Netzwerkverantwortliche dabei TCP-Anwendungen, Netz- und Server-Laufzeiten separat betrachten. So lässt sich zum Beispiel ermitteln, ob schlechte Antwortzeiten von Server- oder Netzwerkkomponenten herrühren. Die Architektur eignet sich auch zur Überwachung von Cloud-Anwendungen, wobei sich dann für den Netzwerkverantwortlichen die Frage stellt, ob das Netzwerk oder der Cloud-Anbieter Performance-Probleme verursacht. Die Probes sind zentral installiert und einfach zu warten. Für aussagekräftige Ergebnisse reicht dann folgerichtig eine überschaubare Anzahl von Probes. In heutigen komplexen Netzwerken gibt es meist mehrere Messpunkte, die sich aufgrund des redundanten Aufbaus des Netzwerks ergeben. Daher ist es wichtig, dass die Monitoring Probe möglichst viele Anschluss-Ports aufweist. Dies reduziert zum einen die Komplexität, da die zugehörigen Datenströme, die über redundante Verbindungen geführt werden, aggregiert werden. Zum anderen sinken damit die Anschaffungskosten sowie der Installations- und Wartungsaufwand. Ist zum Beispiel ein typisches, vierfachredundantes Cisco-Core-System (vier Switches) mit TAPs voll-duplex zu überwachen, benötigt der Netzwerker für die Überwachung nur dieses einen Switching-Cores acht Ports. Eine hohe Port-Zahl bieten dagegen 12-Port-Gigastor-Probes. Seit Kurzem lassen sich diese Probes auch mit Voll-Duplex-40-GBit/s-Schnittstellen für Single- und Multimode-Faserverbindungen ausstatten. Die dazu notwendigen 40-GBit/s-TAPs sind ebenfalls verfügbar. Diese Probes unterstützen neben Hardwarefiltermechanismen auch eine hardwarebasierende Paketdeduplizierung, da vor allem beim Spiegeln von mehreren Ports doppelte Pakete entstehen und die Messung verfälschen. Als Analysesoftware dient je nach Anwendungen und Analysebedarf eine Observer-Variante. Auch die Speicherkapazität lässt sich den Bedürfnissen vor Ort anpassen. Gerade bei High-Speed-Verbindungen ist die Speicherkapazität der Probe entscheidend. Um zum Beispiel eine 10GbE-Verbindung mit 75 Prozent Auslastung 21 Stunden lang verlustfrei zu erfassen, benötigt man eine Speicherkapazität von 144 TByte. Um eine GbE-Verbindung mit 50 Prozent Auslastung 36 Stunden lang zu überwachen sind immerhin 16 TByte nötig.
Kurzfristige Ereignisse wie Microbursts
Probes sammeln den kompletten Datenstrom, damit selbst kleine Unregelmäßigkeiten im Netz bei der Analyse nicht außen vor bleiben. So kann die IT-Abteilung bereits reagieren, bevor es zu ernsthaften Störungen kommt. Die Auflösung des Observers reicht bis in den Nanosekundenbereich, um auf jeden Fall unter der Antwortzeit der Systeme zu liegen. Microbursts etwa treten sehr kurzfristig auf und sind mit herkömmlichen SNMP-Tools nicht zu erkennen, weil diese statistische Durchschnittswerte im Sekunden- oder sogar Minutenbereich liefern. Microbursts treten zum Beispiel in Finanznetzen in den letzten Millisekunden einer Auktion oder eines Tradings auf, wenn zahlreiche Bieter ihre Order senden, um als letzter den Zuschlag zu erhalten. In diesen Situationen ist die Belastungsgrenze der aktiven Komponenten überschritten: Die Speicherkapazität von Router, Firewall, Switches reicht nicht aus, um die Microbursts zu puffern. Damit können Aufträge verloren gehen. Für den Netzwerkverantwortlichen heißt dies, dass die betroffenen Netzsegmente eine höhere Bandbreite oder höhere Leistungsparameter benötigen.
Protokolle und Anwendungen im Blick
Grundsätzlich sollte ein Analysator für ein unternehmensweites Monitoring den Netzverkehr über alle OSI-Schichten hinweg auswerten können und dabei möglichst alle Unternehmensanwendungen tiefgreifend unterstützen. Das gilt für SQL, Oracle, MS Exchange, Citrix und die gebräuchlichen E-Mail-Protokolle genauso wie für HTTP-Anfragen, FTP-Transfers oder VoIP-Gespräche. Auch Middleware-Lösungen wie IBM Websphere MQ zählen dazu. Websphere MQ arbeitet zwischen Anwendungen und Web-Diensten. Über die Analyse der Antwortzeiten und Nutzdaten lässt sich dabei zum Beispiel herausfinden, warum die Übertragungsleistung zwischen bestimmten Knoten beeinträchtigt ist. Über eine Anwendungs-Transaktionsanalyse am MQ-Server muss der Analysator den Zustand der verschiedenen Dienste ermitteln können, um zu erkennen, was zum Beispiel zwischen der SQL-Datenbank und den Web-Ebenen von komplexen E-Commerce-Anwendungen geschieht. Ein moderner Netzwerkanalysator muss in der Lage sein, aus den Einzelpaketen komplette Transaktionen herauszufiltern und als Ganzes auszuwerten. Nicht immer ist ein Netzproblem die Ursache für eine lange Antwortzeit. Oft liegen Fehler und Verzögerungen tief in der Anwendungsebene oder an der Konfiguration einer Anwendung. So kann die Umleitung einer Anfrage über ein HTTP Redirect zu längeren Antwortzeiten führen.
Beispiel Videokonferenz
Bei Echtzeitanwendungen wie Voice over IP oder Videokonferenzlösungen sorgt das Anwendungs-Monitoring für eine optimale Sprach- und Videoqualität bei den Teilnehmern. Dabei sollten die Analyse- und Überwachungsfunktionen nicht nur für Videokonferenzräume mit Telepräsenzanwendungen ausgelegt sein, sondern auch für die verschiedensten Desktop-Lösungen. Diese Form der Kommunikation findet vor allem bei international agierenden Firmen zunehmend Verbreitung. Die zugehörige Überwachungslösung sollte alle Codecs inklusive der neuen von Microsoft mit dynamischer und fester Payload unterstützen. Bei Observer 15 etwa stellen 30 Messparameter sicher, dass mögliche Störquellen zum Beispiel über ein Baselining vor einer Konferenzschaltung erkannt und beseitigt werden. Somit erhalten die Konferenzteilnehmer während der Konferenz eine optimale Sprach- und Videoqualität. Danach lassen sich die aufgezeichneten Daten aller Konferenzteilnehmer analysieren und miteinander vergleichen. Problemstellen kann der Administrator detailliert analysieren. Außerdem sieht er, wie sich die Konferenzanwendung in dieser Netzumgebung auswirkt. Bei Aufzeichnungen über einen längeren Zeitraum lassen sich die Systeme optimal für die vorherrschenden Gegebenheiten auslegen und zum Beispiel optimale Zeiten für Konferenzschaltungen ermitteln. Denn in Zeiten mit besonders hoher Netzauslastung läuft dann zwar zum Beispiel eine Telepräsenzanwendung mit einer Bandbreite von 5 MBit/s dank höchster Priorisierung reibungslos. Doch diese Priorisierung beeinträchtigt die Antwortzeiten der anderen Anwendungen im Netz. Immer mehr Unternehmen setzen eine Unified-Communication-Lösung (UC) wie die UC-Plattform von Microsoft ein. Diese basiert auf dem Microsoft Lync Server und bietet zahlreiche Kommunikationsanwendungen wie Voice-over IP-Telefonie, Konferenz-Tools, eine Chat-Funktion und konfigurierbare Benachrichtigungen. Damit ein Administrator sein Netz für diese Anwendungen optimieren kann, ist es wichtig, dass er sich die gemessenen UC-Voice-over-IP-Daten vor und nach einem Gespräch anzeigen lassen und den UC-Traffic detailliert überwachen und analysieren kann. Gute Lösungen entschlüsseln die UC-Daten in Echtzeit und überprüfen den Zustand des angeschlossenen Microsoft Lync Servers sowie der beteiligten UC-Komponenten. In einigen Netzen zählt IP-TV zu den kritischen Anwendungen. So übertragen Banken zum Beispiel mehrere Nachrichtensender an die Arbeitsplätze ihrer Analysten. Andere Firmen übertragen per Multicast-Stream die Daten von Überwachungskameras an die Sicherheitsabteilung oder zur Fertigungskontrolle an die Qualitätssicherung. Die Provider müssen sicherstellen, dass ihre Internet-TV-Programme reibungslos ausgestrahlt werden. Der Netzwerkmonitor sollte für diese Zwecke Multicast-Streams erkennen und analysieren können.
Fazit
Die Leistungsfähigkeit der Netze steigt weiter. Insbesondere bei Echtzeitanwendungen sind verteilte Monitoring-Lösungen, die den Netzverkehr aufzeichnen und über ein ausgereiftes Expertensystem analysieren können, die bessere Wahl. Wer effizient im Netz-Core überwachen will, sollte eine Lösung mit Hardware-Probes nutzen, die vor Ort das Capturing und die Analyse durchführen und nur wenige Daten über das Netz übertragen müssen. Insbesondere bei High-Speed-Verbindungen im Rechenzentrum sollte die Lösung Probes mit Schnittstellen bis 40 GBit/s und entsprechend hoher Speicherkapazität bieten. Ideal ist es, wenn sich der Speicherplatz nachträglich erweitern lässt