In der Branche hieß es bisweilen, CFD (Computational Fluid Dynamics) schaffe eine historische Ansicht des Luftstroms in einem Rechenzentrum, die wahrscheinlich bis zur Erstellung des Berichts schon veraltet ist. Diese Sichtweise von CFD als Momentaufnahme der Vergangenheit verfehlt die wahre Stärke der Technik - nämlich die Vorhersage. Eine detaillierte Betrachtung lohnt sich also in jedem Fall.
Viele Gespräche auf Konferenzen mit Rechenzentrumsbetreibern endeten in der Vergangenheit bisweilen in einer Sackgasse. Sie verliefen nach dem Muster: "Warum brauche ich jemanden, der eine CFD-Studie durchführt, um mir zu zeigen, wie meine Anlage vor zwei Wochen aussah? Ich habe Sensoren, die mir sagen können, was aktuell passiert." Diese Wahrnehmung ist nicht von ungefähr entstanden.
Der Einsatz von CFD in Rechenzentren begann vor etwa zehn bis 15 Jahren, als die Leistungsdichte zu stieg. Wenn IT-Geräte aufgrund von thermischen Problemen ausfielen, war der Grund für die Betreiber sehr schwer zu verstehen - in den meisten Fällen, weil ihnen die Daten zur Analyse des Problems fehlten. Dann kam CFD ins Spiel: Betreiber beauftragten Ingenieurbüros, ihre Anlagen zu modellieren, um zu erläutern, was schief gelaufen ist. Der Berater kehrte nach Aufnahme der Daten nach etwa drei Wochen mit einem Bericht über die Umgebung der Anlage zurück. In der Regel enthielten diese Berichte Temperaturebenen oder Temperaturkarten, die die Umgebung zeigten.
Für viele Betreiber war es das erste Mal, dass sie die Anlagenumgebung visualisieren konnten. Die Möglichkeit, zu sehen, wie sich die klimatischen Bedingungen im Raum verhalten, bot damals und bietet auch heute einen großen Mehrwert. Darüber hinaus ermöglichte die CFD-Simulation erstmals die Rückverfolgung der Fehlerquelle und gab einen tiefen Einblick in die Leistungsfähigkeit der Anlage. Der Berater arbeitete daraufhin mit dem Betreiber zusammen, um eine Lösung zu erarbeiten und diese dann im virtuellen Modell zu evaluieren - und dies, bevor die Änderungen implementiert wurden.
Mit der Zeit kamen Überwachungssysteme auf den Markt, die den Betreibern die Möglichkeit gaben, das Geschehen im Rechenzentrum in Echtzeit zu verfolgen. Die Hersteller dieser Systeme mussten einen Weg finden, die Daten vieler (wahrscheinlich mindestens 100) Einzelsensoren leicht verständlich darzustellen. Sie wählten dazu einen Prozess namens Interpolation, um virtuell die Punkte zwischen den Sensoren zu verbinden und Temperaturkarten zu erstellen. Diese sahen den Ergebnissen der CFD-Simulationsmodelle sehr ähnlich.
An dieser Stelle lohnt es sich, über die primäre Frage nachzudenken, die sich die Betreiber bei der Durchführung einer CFD-Analyse tatsächlich gestellt haben - "Was passiert in meinem Rechenzentrum?" Sie haben vielleicht Antworten auf "Warum passiert dieses" und "Was passiert, wenn wir jenes tun" als Bonus aus dem CFD-Modell erhalten, aber dies war nicht der Hauptanstoß des Gedankenprotokolls. Für den Markt könnten die Temperaturkarten der bereits im Einsatz befindlichen Überwachungssysteme diese Frage beantworten, auch ohne dass Betreiber einen teuren Berater hinzuziehen mussten. Dies sollte auch den zusätzlichen Vorteil bieten, dass die Daten eine Darstellung dessen sind, was gerade passiert ist, und nicht wie der Stand vor bereits drei Wochen war.
Betreiber, die CFD als Werkzeug nutzten, um eine Momentaufnahme dessen zu erhalten, was in ihrer Einrichtung geschah, kamen häufig zu dem Schluss, dass sie durch moderne Überwachungstechnik ohne Aufwand fast die gleichen Informationen in Echtzeit erhalten konnten. Diesem Standpunkt kann man nicht fundamental widersprechen. Damit war CFD als nicht mehr notwendig abgeschrieben. Es gilt jedoch: Eine CFD-Analyse wird einem Betreiber immer mehr Informationen liefern als ein Überwachungssystem. CFD ist teuer und umständlich im Vergleich zu einem Überwachungssystem, wenn ein Betreiber es nur für eine Momentaufnahme der klimatischen Umstände in seinem Rechenzentrum nutzt. Genau dann zeigt sich allerdings der Mehrwert der CFD: Der eigentliche Nutzen liegt in seiner Fähigkeit, auf das "Warum" und "Was wäre, wenn" zu antworten.
Die Einführung von Überwachungssystemen ermöglichte zu dieser Zeit massive Leistungssteigerungen im Rechenzentrum, da sie den Betreibern zeigten, wann sie die Grenzwerte überschritten. Allerdings waren die Systeme bereits in einem riskanten Bereich. Heute bietet die Nutzung der thermischen Simulation des Rechenzentrums weit mehr: Anstatt die gleichen Daten der Sensoren zu liefern, fügt die CFD-Modellierung dem Arsenal des Bedieners neue Informationen hinzu. Zukunftspläne (Rack-Bestückung, Wartungsarbeiten an Klimageräten etc.) lassen sich auf diese Weise risikofrei prüfen, was mit keiner anderen Technik möglich wäre. Damit kann sich der Betrieb weiter der optimalen Kapazitätsauslastung des Rechenzentrums nähern, etwa indem das Kühlsystem bis zu seiner maximalen Effizienz verbessert wird, ohne einen IT-Ausfall zu riskieren.
Was sich mit der Simulation erreichen lässt, veranschaulicht ein früheres Projekt, das FutureFacilities bereits vor einigen Jahren für ein großes Finanzinstitut durchgeführt hat. Ziel des Projekts war es, rund 150 alte, direkt gekühlte, frontverglaste Schränke zu demontieren und durch eine modernere Warmgang-/Kaltganganordnung zu ersetzen. Dies sollte die vorhandene Kühllösung besser nutzen. Der Austausch betraf rund 50 Prozent der Server-Schränke in der Anlage. Gleichzeitig leiteten die Betreiber zusätzliche 200 kW Last aus Server-Räumen anderer Standorte in die Halle um, wodurch sich die Gesamtleistung von 900 kW auf 1,1 MW erhöhte. Die Arbeiten fanden an 20 Wochenenden statt, wobei der Rest des Rechenzentrums voll funktionsfähig und belastbar bleiben musste.
Zu Beginn simulierte das Team den zeitlichen Endpunkt jeder der 20 Arbeitswochenenden im Voraus, um sicherzustellen, dass die Eingriffe den Betrieb nicht negativ beeinflussen würden. Bei diesen virtuellen Vorabsimulationen lag zum Beispiel ein besonderes Augenmerk auf einer Reihe von Kabelrinnen im Boden, die entfernt werden mussten, da sie direkt unter den neuen Kaltgängen lagen und den Luftstrom beeinträchtigten.
Den wirklich interessanten Teil bildete allerdings erst der Beginn der Arbeiten: Kaum war das erste Wochenende abgearbeitet, wichen die weiteren Schritte von dem ursprünglichen Plan ab. Verschiedene Anlagen/Racks mussten, obwohl sie im Raum verschoben wurden, in Betrieb bleiben. Das Simulationsteam arbeitete dazu vor Ort mit den Projektteams zusammen, um das virtuelle CFD-Modell mit den Arbeiten abzugleichen, die jedes Wochenende tatsächlich abgeschlossen wurden. Dies erlaubte es, die Risiken für die kommenden Arbeitsschritte am nächsten Wochenende wieder realistisch abzuschätzen und die Arbeiten zu koordinieren. Anschließend führten die Techniker eine neue Simulation durch, um den Migrationsteams sichere Lastgrenzen für jeden der neuen Schränke zu geben. Diese wöchentlichen Sicherheitsgrenzwerte lagen oft deutlich unter der endgültigen Auslegungslast jedes Schranks.
Das sorgfältige Vorgehen führte dazu, dass das Projekt innerhalb des geschätzten Zeitrahmens und ohne eine einzige thermische Abschaltung abgeschlossen war. Denn die Migrationsteams wussten genau, wo die Grenzen lagen, und konnten sich diesen risikofrei nähern, da sie jede Situation zuvor simuliert hatten. Ohne den Einsatz der Simulation wäre dies nicht der Fall gewesen, und die Grenzwerte wären entweder überschritten worden (was zu thermischen Abschaltungen geführt hätte), oder man hätte jede Woche weniger Anlagen installiert.
Die von einer CFD-Lösung bereitgestellten Daten können heute noch einmal die gleichen Leistungssteigerungen im Rechenzentrum erzielen wie die Einführung von Überwachungssystemen in den vergangenen zehn Jahren. Es gibt zwar gute Gründe für die Branche, CFD und Monitoring als konkurrierende Techniken zu betrachten, tatsächlich ergänzen sie sich bei einem klugen Einsatz jedoch vollständig.