Als besonders ausfallsicher gelten virtuelle Server. Für einzelne virtuelle Server kann die Verfügbarkeit auf das Jahr gerechnet bei etwa 99,99 Prozent liegen. Allerdings bezieht sich die Verfügbarkeit bei der Miete einer „nackten” Ressource ausschließlich auf die virtuelle Hardware. Diese ist beim Ausfall eines Knotens durch Redundanzen und Failover-Technologien innerhalb weniger Minuten wieder verfügbar. Nun booten die Server bei einem Failover einmal neu und je nach Installation kann es einige Zeit dauern, bis alle Dienste wieder verfügbar sind. Dies ist nicht in der Verfügbarkeit der virtuellen Maschine abgebildet.
Zudem hängt die Verfügbarkeit der Applikationen auf dem virtuellen Server nicht nur von der virtuellen Hardware, sondern auch von der Verfügbarkeit des internen und externen Netzes ab. Wenn beide ebenfalls zu 99,99 Prozent verfügbar sind, kann für den Kunden letztendlich die absolute Verfügbarkeit der Applikation maximal bei 99,97 Prozent liegen, weil sich bei der Verknüpfung von Verfügbarkeiten die Ausfallrisiken summieren. Bei einer Verfügbarkeit von 99,99 Prozent liegt das Ausfallrisiko bei 0,01 Prozent, die drei genannten Services haben ein Ausfallrisiko von 3 x 0,01 Prozent = 0,03 Prozent, daraus errechnet sich eine Gesamtverfügbarkeit von 99,97 Prozent. Werden zudem Risiken aus den betriebenen Applikationen berücksichtigt, wird die realistische Verfügbarkeit auch unter optimalen Bedingungen kaum höher als 99,95 Prozent liegen. Zur Erhöhung der Verfügbarkeit wird daher auf Redundanzen zurückgegriffen. Wenn zwei Systeme praktisch das Gleiche leisten und jeweils eine Verfügbarkeit von
98 Prozent haben, werden die Ausfallrisiken rechnerisch multipliziert, da es nur dann zu einem kompletten Ausfall kommt, wenn beide Ressourcen zur gleichen Zeit ausfallen. Im genannten Beispiel mit einem Ausfallrisiko von zwei Prozent wäre die Rechnung also 0,02 x 0,02, was unter dem Strich in einer sehr hohen Verfügbarkeit von 99,9996 Prozent resultiert.
Ein typisches Einsatzgebiet von Redundanzen ist ein Datenbank-Cluster: Um die Verfügbarkeit eines Datenbank-Servers zu erhöhen, wird ein zweiter Server daneben gestellt, häufig in einer einfachen „Aktiv/Passiv”-Konstellation: Wenn der aktive Datenbank-Server ausfällt, übernimmt der passive und wird zum aktiven. Voraussetzung ist eine kontinuierliche Synchronisierung der Daten, die aber wiederum eine potenzielle Fehlerquelle mit zusätzlicher Ausfallwahrscheinlichkeit für das System ist. Außerdem wird ein Failover-Mechanismus benötigt, der den Übergang von einem auf den anderen Server regelt. Auch dieser hat wieder eine Ausfallwahrscheinlichkeit. Dazu kommen noch Ausfallrisiken, die durch die gemeinsame Umgebung geprägt sind: Stromversorgung, internes und externes Netz oder Klima.
Die Bestimmung der wirklichen Verfügbarkeit einer redundanten Lösung ist also alles andere als trivial. Natürlich wäre es auch möglich, den zweiten Server in ein anderes Rechenzentrum zu schaffen und eine viel höhere Verfügbarkeit zu erreichen, weil gemeinsame Risiken wie ein Stromausfall dann entfallen. Dann wird aber wiederum die Synchronisation der Daten erheblich schwieriger, da es zwischen den beiden Rechenzentren zu Latenzen kommen kann. Außerdem muss die Verbindung zwischen den beiden Rechenzentren absolut stabil sein. Bereits kleinere Probleme, etwa Verbindungsabbrüche oder zu große Latenzen, hätten massive Auswirkungen auf die Verfügbarkeit der Lösung. Gerade bei großen Datenbank-Clustern, die als zentrale Lösung für Unternehmensdatenbanken dienen, kann die höhere Verfügbarkeit mittels Redundanzen durch eine deutlich höhere Komplexität der Gesamtarchitektur und den dadurch entstehenden Fehlern konterkariert werden. Im Problemfall kann die Fehlersuche bei einer komplexen zentralen Lösung sehr viel länger dauern, als dies bei einfachen Architekturen der Fall ist: Redundanz ist demnach kein Allheilmittel.
Wie belastbar ist ein SLA?
Die aufgeführten Beispiele zeigen: Bei 99 Prozent Verfügbarkeit und selbst bei 99,9 Prozent können Szenarien eintreten, die kritisch für ein Unternehmen werden können. In der Praxis werden häufig im Rahmen von SLAs Aussagen zu Verfügbarkeiten gemacht, die technisch nicht verifiziert sind. Kunden sollten sehr genau hinterfragen, unter welchen Bedingungen die Verfügbarkeit gilt und welche Risiken berücksichtigt werden. Katastrophenszenarien beispielsweise sind häufig nicht dabei: Sollte eine Flugzeug auf das Rechenzentrum stürzen, wird die Verfügbarkeit sehr schnell und für längere Zeit von 99,9 Prozent auf Null sinken. Zugegeben, das passiert in Deutschland eher selten, genauso wie starke Erdbeben oder Terrorangriffe. Aber wer solche Risiken eines Totalausfalls ausschließen will, müsste sein Projekt komplett verteilt an zwei Standorten betreiben, was in der Regel aus Kostengründen nicht gemacht wird. Nicht selten werden SLAs von Anbietern einfach aus kaufmännischen Überlegungen heraus definiert und Verletzungen bewusst in Kauf genommen. Solange keine empfindlichen Vertragsstrafen vereinbart sind, ist das meist kein großes Problem für den Anbieter. Insofern sollten Unternehmen immer den Eventualfall mit einbeziehen. Es gilt zu hinterfragen, wie belastbar SLAs in der Praxis sind und entsprechenden Vertragsstrafen mit dem Anbieter vereinbaren. Vor allem gilt, sich nicht von der Zahl 99,9 beeindrucken lassen, denn 99,9 sind weit von 100 entfernt.
Thomas Wittbecker ist einer der Gründer von Adacor Hosting