Startseite > Security > Aus Fehlern anderer lernen

Updates, BGP und DNS

Aus Fehlern anderer lernen

17. Januar 2022, 6:30 Uhr | Autor: Malcolm Heat / Redaktion: Diana Künstler

Anfang Oktober waren die Facebook-Dienste stundenlang nicht erreichbar. Ein fehlerhaftes Update hat dazu geführt, dass das gesamte Netzwerk des Anbieters quasi aus dem Internet verschwand. Für viele Unternehmen könnte das nun der Weckruf sein, ihre Netzwerkabläufe genauer zu überprüfen.

Immer wieder fallen Online-Dienste aus. Am spektakulärsten traf es zuletzt die Facebook-Gruppe, inklusive WhatsApp, Instagram und Oculus VR. Am 4. Oktober waren sämtliche Angebote über sechs Stunden nicht erreichbar. Und kurz darauf erwischte es den Cloud-Dienstleister OVH. Am 13. Oktober fiel sein Netzwerk eine Stunde lang komplett aus, wodurch die Dienstleistungen weltweit beeinträchtigt wurden. Auffällig ist, dass in beiden Fällen die Ursachen recht ähnlich waren: Fehler bei Netzwerk-Updates. OVH hatte in den Tagen vor dem Ausfall einen Anstieg von DDoS-Angriffen registriert. Daher wollte man in den USA die Kapazitäten für die Abwehrmaßnahmen erhöhen. Beim Anschluss der Geräte hat dann jedoch ein falsch konfigurierter Router das gesamte Netz in die Knie gezwungen. Die eigentliche Ursache war also ein menschlicher Fehler.

Matchmaker+ Anbieter zum Thema

zu Matchmaker+

So lief es bei Facebook

Bei Facebook wurde der Ausfall durch das System ausgelöst, das die Kapazität des weltweiten Backbone-Netzwerks verwaltet. Dieses verbindet alle Rechenzentren der Facebook-Gruppe. Bei routinemäßigen Wartungsarbeiten werden Teile des Backbones abgeschaltet – etwa zur Reparatur einer Glasfaserleitung, Ergänzung von Kapazität oder Aktualisierung der Software auf dem Router. Während einer solchen Wartung wurde ein Befehl erteilt, um die Verfügbarkeit der Backbone-Kapazität zu bewerten. Dieser führte jedoch unbeabsichtigt dazu, dass alle Verbindungen im Backbone-Netz unterbrochen und dadurch die Rechenzentren von Facebook weltweit abgetrennt wurden. Normalerweise werden solche Befehle automatisch geprüft. Doch ein Fehler im Überwachungssystem verhinderte das Deaktivieren dieses falschen Befehls.

Das war aber noch nicht alles: In den Rechenzentren stehen auch DNS (Domain Name System)-Server, die einfache Webnamen wie „facebook.com“ in spezifische Server-IP-Adressen übersetzen. Die Server selbst besitzen ebenfalls IP-Adressen, die wiederum über das Border Gateway Protocol (BGP) an den Rest des Internets weitergegeben werden. Um einen zuverlässigen Betrieb zu gewährleisten, deaktivieren die Facebook DNS-Server diese BGP-Informationen, wenn sie selbst keine Verbindung zu den eigenen Rechenzentren besitzen. Daher funktionierten sie zwar grundsätzlich, waren aber nicht erreichbar.

Diese Vorfälle sollten Unternehmen zum Anlass nehmen, ihre eigenen Prozesse für Netzwerk-Updates und die Erreichbarkeit im Internet zu überprüfen. Denn wenn es selbst große Online-Anbieter erwischt, kann im Prinzip jeder von größeren Ausfällen betroffen sein.

Was Netzwerkausfälle kosten
Mehr als die Hälfte der leitenden IT-Entscheider und Netzwerkmanager weltweit geben an, dass sie 2019 vier oder mehr Netzwerkausfälle hatten, die länger als 30 Minuten dauerten. Diese Ausfälle kosteten die Hälfte der befragten Organisationen weltweit zwischen 300.000 und sechs Millionen US-Dollar an Ausfallzeit, so eine Studie im Auftrag von Opengear. Und in den USA gaben fast zwei Fünftel der Befragten an, allein in den letzten zwölf Monaten mehr als eine Million Dollar verloren zu haben. Steve Cummins, Vice President of Marketing bei Opengear: „Die wahren Kosten eines Netzwerkausfalls sind viel mehr als nur verlorene Einnahmen. Unsere Umfrage ergab, dass die verringerte Kundenzufriedenheit laut 41 Prozent der Befragten die größte Auswirkung eines Ausfalls ist, noch vor dem Datenverlust (34 Prozent) und dem finanziellen Verlust (31 Prozent). Unternehmen müssen sich im Voraus Gedanken darüber machen, wie sie einen Ausfall vermeiden und dann schnell wiederherstellen können, bevor die Folgen gravierend werden.“ Die Studie ergab außerdem, dass, obwohl mehr als drei Viertel der Unternehmen weltweit ein entsprechendes Budget für die zielgerichtete Gewährleistung der Netzwerk-Resilienz vorgesehen haben, bei fast der Hälfte die Ausfälle in den letzten fünf Jahren um zehn Prozent oder mehr gestiegen sind. In den USA waren die Ausfälle sogar noch häufiger: Fast ein Drittel meldete einen Anstieg von 25 Prozent oder mehr. Darüber hinaus berichteten mehr als vier von zehn US-Unternehmen, dass es im Durchschnitt mehr als einen Arbeitstag dauerte, um Netzwerkausfälle zu finden und zu beheben, nachdem sie gemeldet wurden. Bei vielen Unternehmen, die geografisch verteilte Netzwerke betreiben, ist die Reisezeit, um Techniker vor Ort zu bringen, die häufigste Herausforderung bei der schnellen Lösung von Netzwerkproblemen. Das gaben mehr als zwei von fünf Befragten weltweit und über die Hälfte der Befragten in den USA an. Die USA unterscheiden sich jedoch von anderen Regionen in Hinblick auf die Herausforderung auf dem zweiten Rang: Während die Unternehmen weltweit einen Mangel an internen technischen Fähigkeiten angaben, war es in den USA die Netzwerküberwachung. Für die Studie hat Opengear 500 IT-Leiter in den USA, Großbritannien, Frankreich und Deutschland im Jahr 2020 befragt – 125 davon in Deutschland. (DK)

Was Netzwerkausfälle kosten

Mehr als die Hälfte der leitenden IT-Entscheider und Netzwerkmanager weltweit geben an, dass sie 2019 vier oder mehr Netzwerkausfälle hatten, die länger als 30 Minuten dauerten. Diese Ausfälle kosteten die Hälfte der befragten Organisationen weltweit zwischen 300.000 und sechs Millionen US-Dollar an Ausfallzeit, so eine Studie im Auftrag von Opengear. Und in den USA gaben fast zwei Fünftel der Befragten an, allein in den letzten zwölf Monaten mehr als eine Million Dollar verloren zu haben. Steve Cummins, Vice President of Marketing bei Opengear: „Die wahren Kosten eines Netzwerkausfalls sind viel mehr als nur verlorene Einnahmen. Unsere Umfrage ergab, dass die verringerte Kundenzufriedenheit laut 41 Prozent der Befragten die größte Auswirkung eines Ausfalls ist, noch vor dem Datenverlust (34 Prozent) und dem finanziellen Verlust (31 Prozent). Unternehmen müssen sich im Voraus Gedanken darüber machen, wie sie einen Ausfall vermeiden und dann schnell wiederherstellen können, bevor die Folgen gravierend werden.“ Die Studie ergab außerdem, dass, obwohl mehr als drei Viertel der Unternehmen weltweit ein entsprechendes Budget für die zielgerichtete Gewährleistung der Netzwerk-Resilienz vorgesehen haben, bei fast der Hälfte die Ausfälle in den letzten fünf Jahren um zehn Prozent oder mehr gestiegen sind. In den USA waren die Ausfälle sogar noch häufiger: Fast ein Drittel meldete einen Anstieg von 25 Prozent oder mehr. Darüber hinaus berichteten mehr als vier von zehn US-Unternehmen, dass es im Durchschnitt mehr als einen Arbeitstag dauerte, um Netzwerkausfälle zu finden und zu beheben, nachdem sie gemeldet wurden. Bei vielen Unternehmen, die geografisch verteilte Netzwerke betreiben, ist die Reisezeit, um Techniker vor Ort zu bringen, die häufigste Herausforderung bei der schnellen Lösung von Netzwerkproblemen. Das gaben mehr als zwei von fünf Befragten weltweit und über die Hälfte der Befragten in den USA an. Die USA unterscheiden sich jedoch von anderen Regionen in Hinblick auf die Herausforderung auf dem zweiten Rang: Während die Unternehmen weltweit einen Mangel an internen technischen Fähigkeiten angaben, war es in den USA die Netzwerküberwachung. Für die Studie hat Opengear 500 IT-Leiter in den USA, Großbritannien, Frankreich und Deutschland im Jahr 2020 befragt – 125 davon in Deutschland. (DK)