Aus Fehlern anderer lernen
Anfang Oktober waren die Facebook-Dienste stundenlang nicht erreichbar. Ein fehlerhaftes Update hat dazu geführt, dass das gesamte Netzwerk des Anbieters quasi aus dem Internet verschwand. Für viele Unternehmen könnte das nun der Weckruf sein, ihre Netzwerkabläufe genauer zu überprüfen.

- Aus Fehlern anderer lernen
- Updates prüfen, DNS absichern
Immer wieder fallen Online-Dienste aus. Am spektakulärsten traf es zuletzt die Facebook-Gruppe, inklusive WhatsApp, Instagram und Oculus VR. Am 4. Oktober waren sämtliche Angebote über sechs Stunden nicht erreichbar. Und kurz darauf erwischte es den Cloud-Dienstleister OVH. Am 13. Oktober fiel sein Netzwerk eine Stunde lang komplett aus, wodurch die Dienstleistungen weltweit beeinträchtigt wurden. Auffällig ist, dass in beiden Fällen die Ursachen recht ähnlich waren: Fehler bei Netzwerk-Updates. OVH hatte in den Tagen vor dem Ausfall einen Anstieg von DDoS-Angriffen registriert. Daher wollte man in den USA die Kapazitäten für die Abwehrmaßnahmen erhöhen. Beim Anschluss der Geräte hat dann jedoch ein falsch konfigurierter Router das gesamte Netz in die Knie gezwungen. Die eigentliche Ursache war also ein menschlicher Fehler.
Anbieter zum Thema
So lief es bei Facebook

Bei Facebook wurde der Ausfall durch das System ausgelöst, das die Kapazität des weltweiten Backbone-Netzwerks verwaltet. Dieses verbindet alle Rechenzentren der Facebook-Gruppe. Bei routinemäßigen Wartungsarbeiten werden Teile des Backbones abgeschaltet – etwa zur Reparatur einer Glasfaserleitung, Ergänzung von Kapazität oder Aktualisierung der Software auf dem Router. Während einer solchen Wartung wurde ein Befehl erteilt, um die Verfügbarkeit der Backbone-Kapazität zu bewerten. Dieser führte jedoch unbeabsichtigt dazu, dass alle Verbindungen im Backbone-Netz unterbrochen und dadurch die Rechenzentren von Facebook weltweit abgetrennt wurden. Normalerweise werden solche Befehle automatisch geprüft. Doch ein Fehler im Überwachungssystem verhinderte das Deaktivieren dieses falschen Befehls.
Das war aber noch nicht alles: In den Rechenzentren stehen auch DNS (Domain Name System)-Server, die einfache Webnamen wie „facebook.com“ in spezifische Server-IP-Adressen übersetzen. Die Server selbst besitzen ebenfalls IP-Adressen, die wiederum über das Border Gateway Protocol (BGP) an den Rest des Internets weitergegeben werden. Um einen zuverlässigen Betrieb zu gewährleisten, deaktivieren die Facebook DNS-Server diese BGP-Informationen, wenn sie selbst keine Verbindung zu den eigenen Rechenzentren besitzen. Daher funktionierten sie zwar grundsätzlich, waren aber nicht erreichbar.
Diese Vorfälle sollten Unternehmen zum Anlass nehmen, ihre eigenen Prozesse für Netzwerk-Updates und die Erreichbarkeit im Internet zu überprüfen. Denn wenn es selbst große Online-Anbieter erwischt, kann im Prinzip jeder von größeren Ausfällen betroffen sein.