Die aktuellen Fälle rücken vor allem die Wartungsarbeiten am Netzwerk in den Fokus. Hier ist vorab intensiv zu testen, ob die Anpassungen und Aktualisierungen zu Netzwerkfehlern führen können. Es empfiehlt sich, jede Änderung in einem Test-Netzwerk zu simulieren. Dies deckt häufig fehlerhafte Updates und Konfigurationen auf. In den meisten Unternehmen ist dies bereits Standard. Doch möglicherweise werden Wechselwirkungen mit anderen Systemen übersehen. So berichten zum Beispiel Windows-Nutzer nach Updates immer wieder von Problemen mit Druckern, zuletzt am Patch Day im September. Microsoft wird nicht jede mögliche Drucker-Konfiguration testen können, die seine Kunden nutzen. Doch Unternehmen setzen oft standardisierte Hardware und Software ein, die auf Änderungen in der Netzwerkkonfiguration hin geprüft werden sollten.
Schwieriger ist es, menschliche Fehler wie bei OVH auszuschließen. So kann etwa im Test alles reibungslos laufen. Doch beim Live-Update wird möglicherweise dann doch eine Eingabe falsch gesetzt. Theoretisch könnte man jede Eingabe durch einen zweiten Administrator prüfen lassen. Doch in der Praxis wird auch dies nicht vor menschlichen Fehlern schützen, da auch Prüfer falsche Eingaben übersehen können. Vielversprechender sind automatische Prüfsysteme. Doch wie der Fall Facebook zeigt, sind auch sie nicht perfekt – vor allem wenn sie nicht korrekt funktionieren. So müssen Unternehmen auch automatische Prüfsysteme immer wieder testen. Zum Beispiel lassen sich in einem abgeschotteten Bereich kleine Fehler ausprobieren, die das Prüfsystem erkennen sollte.
Häufig liegt es auch am DNS, wenn Internetseiten nicht erreichbar sind, so zum Beispiel bei Akamai im Juli 2021. In der Praxis werden die DNS-Server meist einmal konfiguriert – und dann vergessen, solange sie reibungslos ihren Dienst verrichten. Doch beim Einsatz derselben Software auf allen DNS-Servern kann ein kleiner Fehler, der sich auf alle Server ausbreitet, erhebliche Störungen verursachen. Der Betrieb von DNS-Servern an nur einem Standort führt etwa bei Stromausfall zu einem kompletten DNS-Ausfall. Gleiches gilt bei Netzwerkproblemen, wenn die DNS-Infrastruktur über ein einziges Netzwerk (Autonomes System/ASN) betrieben wird. Daher sollten Unternehmen mehrere DNS-Anbieter nutzen. Dazu verfügt das DNS-Protokoll über integrierte Mechanismen, die das Hinzufügen von „sekundären DNS-Diensten“ über Zonentransfers ermöglichen. Dadurch erzeugt jede Änderung beim Hauptanbieter eine Benachrichtigung (Notify) an die sekundären Provider. Die meisten DNS-Anbieter unterstützen diese Funktionen. Dabei ist jedoch auf folgende Punkte zu achten:
Eine dritte mögliche Fehlerquelle ist BGP. Dieses Protokoll kommt im Internet zum Einsatz, um die autonomen Systeme der verschiedenen Internetdienstanbieter über Router miteinander zu verbinden. Auch Unternehmen müssen dieses Protokoll nutzen, wenn sie über mehrere Anbieter gemeinsame Verbindungen zum Internet besitzen. Sonst werden sie von außen nicht gefunden. Zum Beispiel kann es wie bei Facebook geschehen, dass die Präsenz des Netzwerks im Internet nicht angezeigt wird. Der dafür bestimmte Datenverkehr wird dann abgewiesen. Dies geschieht manchmal absichtlich, um Verbindungen zu oder von einem bestimmten Netz zu blockieren. Gründe dafür können die Abwehr von DDoS-Angriffen oder erhebliche Probleme im eigenen Netzwerk sein. Eine Route kann auch falsch angegeben sein. Möglicherweise erweckt das autonome System dann den Anschein, dass es Datenverkehr an Netze weiterleitet, die es gar nicht steuert. Obwohl es entsprechende Schutzmechanismen gibt, kommt es immer wieder vor, dass große Mengen an Datenverkehr an seltsame Orte geleitet werden – teils auch zu Spionagezwecken.
Häufiger sind jedoch unabsichtliche Fehlkonfigurationen durch Menschen oder automatisierte Systeme. Die benötigte Route verschwindet dann entweder ganz oder der Fehler verursacht eine Routing-Schleife, bei der Datenverkehr endlos zwischen Routern hin- und hergeleitet wird. Auch kann es sein, dass der Datenverkehr bei einem Router landet, der nichts über die Route weiß und sie dann verwirft.
„Jeder Fehler wie dieser ist eine Gelegenheit, zu lernen und besser zu werden“, resümiert Santosh Janardhan, Vice President Infrastructure bei Facebook, in seinem Blogbeitrag zum Ausfall Anfang Oktober. Dies sollten alle Unternehmen beherzigen – und am besten ihre Systeme prüfen, bevor ein ähnlicher Fehler geschieht. Damit lassen sich zwar nicht alle Probleme vermeiden. Aber umfangreiche Tests und Notfallübungen können dazu beitragen, sich möglichst schnell von einem Ausfall zu erholen oder ihn gar nicht erst entstehen zu lassen.
Malcolm Heat, Senior Threat Researcher bei F5 Labs