Netzwerkmanagement und Fehlersuche

Blick in das Innere

18. Juli 2007, 22:00 Uhr | Günter Naves/jos Günter Naves ist Director Technical Sales bei CA Deutschland.

Kleinste Ausfälle führen in stark vernetzten IT-Infrastrukturen zu einer Flut von Fehler- und Ergebnismeldungen. Eine intelligente Analyse der Fehlerursache macht Administratoren ohne Umwege auf die Ursache, den eigentlichen Kern des Problems, aufmerksam.

Zu den wichtigsten Erfolgsfaktoren des modernen IT-Managements eines Unternehmens zählt zweifelsfrei die konsequente Orientierung am Geschäftszweck als auch das permanente Anpassen an die sich wandelnden Geschäftsbedingungen. Schließlich gelten IT-Systeme zu Recht als das technische Rückgrat der Geschäftsprozesse. Die Prozess- und Service-Sicht im Rahmen eines umfassenden Business-Service-Managements löst deshalb die bislang vorherrschende rein funktionale Betrachtung der IT-Komponenten ab. Entsprechend wandelt sich die Rolle der IT-Organisation. Aus der eher techniklastigen Gruppe wird ein Dienstleister der Fachabteilungen. Dessen Hauptaufgabe besteht darin, IT-Services anzubieten, die das Unternehmen optimal bei der Erreichung seiner Ziele unterstützen.

Das ist leichter gesagt als getan. Denn ohne eine adäquate Softwareunterstützung in der Administration ist der hehre Anspruch der Prozess- und Serviceorientierung schnell zum Scheitern verurteilt. Gefordert ist ein durchgängiger, ganzheitlicher Ansatz, der das Management der unternehmensweiten IT vereinfacht und vereinheitlicht. Deutlich wird dies bereits bei der grundlegenden Frage der Ereignis- und Fehlerbehandlung. Denn gerade in stark vernetzten Infrastrukturen kann eine kleine Ereignismeldung schnell eine wahre Fehlerflut auslösen, die den Blick auf den Auslöser oder die Ursache im Wortsinne überschwemmt.

Beispielsweise führt der Ausfall der Stromversorgung des Internet-Routers in der Regel nicht allein zur Meldung über diese Ursache. Im Gegenteil: Die Administratoren erhalten neben der Nachricht über den Wegfall des Routers von allen direkt oder indirekt angeschlossenen Anwendungen und Client-Systemen in schöner Regelmäßigkeit Meldungen darüber, dass der Router nicht erreichbar ist oder keine Internet-Verbindung besteht. Ist für diesen Notfall der automatische Wechsel auf einen ISDN-Switch vorgesehen, sendet wiederum die Performancefunktion der Agenten zusätzlich die Meldung über einen Leistungseinbruch und die Nutzer beschweren sich per E-Mail beim Service-Desk über den lahmenden Zugriff.

Administratoren stehen angesichts der Fülle der Nachrichten vor der Herausforderung, auf die Schnelle zwischen wichtigen und unwichtigen Störmeldungen zu unterscheiden. Welche der Meldungen ist Auslöser und welche ist lediglich eine Konsequenz der Störung? Und was für Folgen hat eine Störung?

Viele Netzwerkmanagementsysteme lösen diese Aufgabe mit Hilfe der regelorientierten Ereigniskorrelation und -bearbeitung. In der zugehörigen Regelsprache wird aufwändig das Beziehungsnetz der IT-Ressourcen definiert. Das nahe liegende Vorgehen stellt hohe Ansprüche an den Kenntnisstand des Administrators, da er den Kontext jeder Meldung im Grunde beschreiben muss. Zugleich entsteht gerade in dynamischen Infrastrukturen ein hoher Anpassungs- und Pflegeaufwand, da der Einfluss jedes neuen Systems - etwa eines zweiten Backup-Routers - umfangreich "nachprogrammiert" werden muss.

Eine Alternative stellen hier mehrstufige Verfahren der Analyse von Fehlerursachen (Root Cause Analysis) dar, wie sie beispielsweise von "CA Spectrum" umgesetzt werden. Im Mittelpunkt steht dabei neben der regelorientierten Ereignisbearbeitung die so genannte induktive Modellierungstechnik (IMT) und die richtlinienbasierende Condition Correlation Technologie (CCT).

Kern der IMT ist eine objektorientierte Datenbank, die das Modell der realen physikalischen Infrastruktur verwaltet. Die objektorientierten Methoden, insbesondere die Vererbung, erlauben detaillierte Modellierung der zu überwachenden Objekte einschließlich der Abhängigkeiten und Wechselbeziehungen. Die Eigenschaften eines einmal definierten Modelltyps etwa eines Cisco- oder Nortel-Routers lassen sich problemlos auf einen weiteren "vererben" und um Spezifika hinsichtlich angeschlossener Systems etc. ergänzen. Zugleich sichern die Vererbungsmechanismen die Konsistenz und Plausibilität des virtuellen Abbilds, da die Modellierung sinnleerer Verbindungen wie die einer Steckkarte ohne System von vorneherein ausgeschlossen wird. Ebenso weiß das System, dass der Ausfall der Stromversorgung eines Systems den Wegfall aller Ports und damit Leitungen bedeutet.

Um die Abbildung des physikalischen Netzwerkes (Layer 2 und 3) möglichst komfortabel umzusetzen, stehen eine Anzahl vordefinierter Modelle der Netzwerkkomponenten bereit. Zudem werden die Informationen durch Autodiscovery-Funktionalität aus XML-Beschreibungen, Workflows zur Service-Abdeckung, Router-Tabellen, MIBs etc. automatisch eingelesen. Syslogs-Dateien, CORBA-Interfaces, XML-Dateien, SNMP-Traps etc. sind weitere Quellen der Ereignisverarbeitung. Zusätzlich "versteht" das System den Managementagenten von CA Unicenter Network and Systems Management und hat so Zugriff auf weitere über 750 System- und Performance-SNMP-Traps.

In dem Modell der physikalischen Infrastruktur sind implizit grundlegende Beziehungen und Regelbedingungen festgeschrieben, die bei der Root-Cause-Analyse zum Tragen kommen. Kontinuierlich werden nun der Status des physischen Systems und sein Modell miteinander verglichen.

Wird ein Fehler für ein Objekt gemeldet, wird sofort der Status aller verbundenen, benachbarten Objekte geprüft. Findet das erste Objekt mindestens einen "guten" - sprich fehlerfreien - Nachbarn, so muss es selbst am Rand der Fehlerwolke liegen. In diesem Fall erhält es selbst ein Kennzeichen als Verursacher (root cause). Nicht erreichbare, fehlerhafte Modelle oder Objekte, deren Nachbarn alle verloren oder. fehlerhaft sind, gelten hingegen als Symptom. Die von ihnen ausgelösten Alarme werden unterdrückt, so dass allein die ursächliche Fehlerquelle angezeigt wird. Eine Fehlersuche unter "unwichtigen" und "wichtigen" Störmeldungen entfällt folglich von vorneherein.

Da manche Fehlersituationen eine Einordnung durch Regeln benötigen, lässt sich die IMT zusätzlich durch eher traditionelle Verarbeitungsregeln und durch die intelligente Ereignis-Korrelation ergänzen. Beispielsweise erlaubt der Regeltyp EventPair (Eintreffen zweier Ereignisse innerhalb eines vordefinierten Zeitfensters), den Erfolg der Neukonfiguration eines Routers zu überprüfen. Mit ihm lässt sich folgende Regel festlegen: Falls die Syslog-Nachricht des Routers eine neue Konfiguration anzeigt, muss innerhalb von 15 Minuten die Meldung über den Restart des Systems eingehen. Andernfalls wird dem Administrator ein Alarm mit dem Hinweis "Fehler während der Neukonfiguration" gemeldet.

In komplexeren Szenarien kommt die CCT zum Tragen. Im eingangs skizzierten Fall des Internet-Router-Ausfalls und des Wechsels auf eine ISDN-Verbindung meldet der Service Assurance Agent des Performance-Monitors ungewöhnlich hohe Antwortzeiten. Im Normalfall würden zugleich die Meldungen "VDSL-Verbindung weggefallen" und "ISDN-Switch aktiv" erscheinen. Mit CCT lassen sich nun die entsprechenden Bedingungen - "ISDN ist Backup zu VDSL"; "fehlerhafter VSDL-Link und aktiver Backup, heißt primäre Internet-Verbindung ist down und die Antwortzeiten steigen" - formulieren. Als einzige Alarmmeldung erscheint auf dem Bildschirm des Administrators nun "Primäre Internet-Verbindung ist weggefallen, die Antwortzeiten steigen". Arbeiten zwei Router via HSPR (Hot Standby Routing Protocol) oder VRRP (Virtual Router Redundancy Protocol) im ausfallsicheren Verbund, bewirkt der Ausfall eines Systems gewöhnlich keinen Einbruch in der Service-Qualität. Allerdings wird ein Router-Ausfall im Ereignismanagement in der Regel als kritischer Alarm eingeordnet und führt zu einschlägigen Eskalationsschritten. Die Korrelationstechnik hilft in diesem Fall, die Bedeutung des Ereignisses zwar als bedeutend, aber nicht als kritisch einzuordnen. Schließlich ist der Service zunächst nicht gefährdet. Der Administrator kann sich erst einmal auf das Beheben wirklich kritischer Fehlerzustände konzentrieren.

Auf traditionellem Wege wäre der Aufbau eines vergleichbar, leistungsfähigen Regelwerks eine sehr zeitaufwändige Tätigkeit. Zudem entpuppt sich die Umsetzung in manchem Fall als moderne Variante der Sisyphos-Arbeit, da jede Änderung in der Infrastruktur das Überarbeiten ganzer Regelbäume nach sich ziehen kann. Die intelligente Korrelation auf Basis der objektorientierten Modellbildung führt an dieser Stelle ungleich schneller und unkomplizierter zum Ziel. Störungen lassen sich präziser und effizienter eingrenzen und gemäß ihrer Priorität lösen.

Zudem bildet die Root-Cause-Analysis-Technik in Kombination mit der Performance-Management-Lösungl eHealth, Unicenter NSM oder Fremdsystemen die sinnvolle Grundlage für ein effizientes IT-Service-Management. Erkennt beispielsweise eHealth anhand spezifischer Muster und Auffälligkeiten eine anbahnende Störung, lässt sich mit CA Spectrum die Ursache ausfindig machen. Die Administration eines Unternehmens hält eine leistungsstarke Software-Umgebung in den Händen, die mit den Fachabteilungen vereinbarten SLAs (Service Level Agreements) besser abzubilden und überwachen zu können. Schlussendlich mündet dies in ein umfassendes Business-Service-Management, das die IT optimal an den unternehmerischen Erfordernissen ausrichtet und betreibt


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+