Störungen im Netz können Administratoren großer Netze zu Höchstleistungen antreiben. Denn häufig lassen sich die Fehler nicht mit den herkömmlichen Methoden auffinden. Hier ist dann Routing-Know-how gefragt. Doch für eine manuelle Suche fehlt den Administratoren meist die Zeit. Daher sind effektive Verfahren und Werkzeuge notwendig, um Probleme schnell eingrenzen und beheben zu können.
Fehler in Netzwerken können unterschiedliche Ursachen haben. Sei es, dass ein kompletter Router
ausfällt, eine Standleitung unterbrochen wird oder Routing-Pfade in die falsche Richtung zeigen.
Gemeinsam habe sie jedoch eines: Sie kosten Geld und den Netzwerkadministrator Nerven. Die
Schwierigkeit besteht nicht allein darin, einen Fehler festzustellen, sondern darin, ihn zu
lokalisieren und seine Ursache zu erkennen.
Fällt ein Router komplett aus, ist die Ursache für das Netzwerkproblem meist schnell ermittelt.
Eine unterbrochene Standleitung zu erkennen, stellt für die meisten Administratoren ebenfalls kein
Problem dar, zudem sind in der Regel Backup-Systeme oder -Leitungen vorhanden. Was aber, wenn trotz
Backup-Weg verschiedene Systeme plötzlich nicht mehr erreichbar sind, obwohl sie es sein
sollten?
Spätestens jetzt ist schnelles Handeln gefragt. Der Netzwerkadministrator wird zunächst
versuchen, das Problem einzukreisen. Welche Systeme sind von diesem Problem betroffen? Auf welchem
Weg sind diese Systeme zu erreichen? Sind alle Komponenten auf diesem Weg noch erreichbar? Mittels
Traceroute, Ping und vor allem diversen Show-Kommandos sind diese Fragen in der Regel schnell
beantwortet. Wenn aber alle Router arbeiten und erreichbar sind und auch das Monitoring-System
keine Ausfälle lokalisiert, aber dennoch das Netz nicht wie gewünscht funktioniert, dann ist tiefes
Routing-Know-how gefragt und zudem ein guter Überblick über das Netz.
Denn viele Fehler sind nicht offensichtlich. Bei der Größe und Komplexität heutiger Netze ist es
aber schwierig bis unmöglich, einen kompletten Überblick zu gewinnen, beziehungsweise zu behalten.
Netzwerkpläne helfen dabei, doch nicht immer geschieht auf den Leitungen in der Realität das, was
der Netzwerkplan dokumentiert und beschreibt. Allein über eine Routing-Analyse ist es möglich
herauszufinden, was auf den Leitungen geschieht. Doch sie kann in komplexen Infrastrukturen zu
einer echten Herausforderung werden. Nicht immer sind sämtliche Routing-Informationen korrekt oder
entsprechen den aktuellen Gegebenheiten. Viele Fehler machen sich erst dann bemerkbar, wenn
aufgrund des Ausfalls eines Hauptsystems ein Backup-Szenario greift. Plötzlich fehlen Routen, da
sie vom Backup-System nicht wie vorgesehen mitverteilt werden. Eine fehlerhaft konfigurierte Route
für den Backup-Fall fällt meist erst dann auf, wenn sie benötigt wird. Tatsächlich sollten diese
Fehler bereits im Vorfeld erkannt werden.
Zudem liegen gerade in den Vorteilen aktueller Routing-Protokolle wie Redundanz, dynamisches
Routing oder Load-Balancing auch deren Tücken. Fehlerhafte Konfigurationen erhalten schnell
Einfluss auf das Verhalten des gesamten Netzwerks. False Injections bei Peering-Partnern verbreiten
sich unter Umständen im kompletten Netz und können zur Nichterreichbarkeit ganzer Netzbereiche
führen, wenn fehlerhafte Routing-Informationen beispielsweise blind vom Partner übernommen werden.
Nicht selten anzutreffen sind auch Routing-Loops, bei denen ein Router auf dem Weg zum Ziel
aufgrund falscher Konfiguration die Pakete wieder zu einem Routing-Partner sendet, den sie bereits
durchlaufen haben. Häufige Ursache von Problemen ist auch asymmetrisches Routing – für ein Ziel
existieren also unterschiedliche Hin- und Rückwege. Diese entstanden möglicherweise durch statische
Routen, die irgendwer irgendwann einmal auf einem System eingepflegt hatte, um schnell ein akutes
Problem zu "lösen". Diese Reparaturversuche sind auf den letztlich betroffenen Systemen unter
Umständen nicht mehr als Ursache erkennbar. Sie führen auch gern zu Dead Ends, bei denen
Routing-Pfade auf ein System verweisen, das den Weg zum Ziel nicht kennt, sodass die Pakete es nie
erreichen können.
Administratoren sehen sich also mit einer enormen Vielfalt an Möglichkeiten und Ursachen für
fehlerhaftes Routing konfrontiert. Allerdings ist der Weg zum Aufspüren dieser Fehler immer
identisch: Der Administrator gleicht den Ist-Zustand des Netzwerks mit dem Soll-Zustand ab, sucht
Unterschiede und überprüft, auf welche Umstände diese Unterschiede zurückzuführen sind. In den
meisten Fällen geschieht das noch manuell per CLI-Analyse (Calling Line Identification Number). Der
Routing-Spezialist wird sich von Hand oder mit Skripten an den einzelnen Routing-Devices anmelden
und Routing-Informationen sowie Konfigurationen der Geräte überprüfen und nach Fehlerursachen sowie
Unstimmigkeiten abklopfen. Diese Maßnahmen zur Fehleranalyse werden jedoch schlagartig hinfällig,
wenn plötzlich im Netzwerk alles wieder funktioniert wie es soll. Das passiert, weil beispielsweise
die Hauptleitung wieder verfügbar ist und somit das Backup-Szenario nicht mehr aktiv ist. An diesem
Punkt die Fehlersuche einzustellen wäre jedoch fatal, denn beim nächsten Backup-Fall könnte der
Fehler erneut auftreten.
Um die Ursache zu finden, kann der Administrator zum Beispiel auf Snapshots von
Routing-Analysewerkzeugen zurückgreifen. Entsprechende Software-Tools sammeln sämtliche von allen
Routing-Devices verfügbaren Informationen ein und legen davon einen Snapshot an. Dies geschieht
regelmäßig und parallel auf allen anzufragenden Geräten. Die Tools überprüfen die
Routing-Informationen auf mögliche Fehlerquellen, indem sie automatisiert die gleichen Schritte
durchführen, die auch ein Spezialist vornehmen würde. Am Ende der Analyse, die nur wenige Sekunden
in Anspruch nehmen sollte, zeigt eine solche Software dann mögliche Fehlerquellen beim Routing an.
Der Netzwerkadministrator kann sich nun darauf beschränken, diese zu begutachten und hat das
Problem sehr schnell lokalisiert. Durch Vergleiche zweier Snapshots ist zudem sofort erkennbar,
welche Pfade sich geändert haben oder ob sich dadurch die möglichen Fehlerquellen verändert haben.
Auch zwischenzeitliche Änderungen an der Konfiguration einzelner Geräte erkennen solche Tools
sofort und zeigen sie an. Im direkten Vergleich wird also deutlich, welche Änderungen in der
Zwischenzeit erfolgten. Asymmetrische Routing-Pfade können unter Umständen notwendig sein. Ändert
sich jedoch deren Anzahl, dann hat sich im Netz etwas geändert, das es zu überprüfen gilt. Es gilt
also immer das Prinzip des einfachen Ist-Soll-Vergleichs.
Viele Netz-Management-Tools nutzen SNMP, um Informationen von den Geräten einzusammeln. Das
birgt jedoch das Risiko der unsicheren Übertragung (per UDP) sowie hoher Netzlast. Zudem haben
viele Gerätehersteller SNMP nicht vollständig und korrekt implementiert. Hier besteht also die
Gefahr von Fehlinterpretationen. Weiterhin riskant ist das Auswerten von beispielsweise nur einem
Routing-Protokoll, da es Routen, die nicht in dieses Protokoll redistribuiert werden, auch nicht
berücksichtigt. In der Praxis ist häufig zu erleben, dass etwa BGP-Sessions (Border Gateway
Protocol) mit Full-Routing konfiguriert wurden, was bei mehr als einer Session und beispielsweise
über 200.000 Einträgen den Speicher des Routers zum Überlauf bringen kann, insbesondere wenn eine
der BGP-Sessions nach einer Störung neu aufgebaut wird. Dabei kann kurzfristig ein höherer
Speicherbedarf entstehen als im Normalbetrieb, da schlechtere Routen erst nach dem Lernen von
besseren gelöscht werden. Ein dabei auftretender Speicherfehler kann dann zum Reboot des Routers
führen.
Besser ist es daher, gleich den klassischen Weg der CLI-Analyse einzuschlagen und sich die
Routing-Tabellen der Router genauer anzusehen.
Doch tatsächlich alle Routing-Tabellen im Netz einzusammeln und wiederum alle Pfade zu
berechnen, um daraus spezifische Routing-Probleme abzuleiten, lässt sich weder manuell noch mit
Skripten bewerkstelligen. Hierfür sind spezielle Route-Analytics-Tools wie Niams von T&A
Systeme notwendig (siehe Tabelle 1).