Best Practices für ausfallsichere IT-Schränke in KI-Umgebungen
In vielen Rechenzentren ist in den letzten Jahren die Packungsdichte und insbesondere die Leistungsdichte extrem angestiegen. Grund dafür ist oft die Einführung von KI- und Machine-Learning-Anwendungen mit ihren energieintensiven Workloads. Die zugehörigen IT-Schränke müssen aufgrund der hohen Energielasten und geschäftskritischen Anwendungen besonders sicher und resilient ausgelegt sein, damit es zu keinen Unfällen und Ausfällen kommt.
Künstliche Intelligenz (KI) ist derzeit die treibende Kraft in der Unternehmens-IT und stellt Rechenzentrumsbetreiber vor große Herausforderungen. Bisher waren Server für Lasten bis etwa 500 Watt pro Netzteil ausgelegt. Die derzeit für KI-Workloads entwickelten Server verbrauchen aber etwa 1.000 bis 2.000 Watt pro Netzteil. Wenn die KI-Infrastruktur mehrere Server und verschiedene KI-Modelle umfasst, kann die Last schon heute bis in den mehrstelligen Megawattbereich großer Rechenzentren ansteigen.
Derart hohe Energielasten haben Auswirkungen auf die Ausfallsicherheit und Sicherheit von Racks. Die Energieversorgungsinfrastruktur sowie die unterbrechungsfreie Stromversorgung müssen dafür ausgelegt sein. Serverschränke für KI-Anwendungen sind mehr als doppelt so schwer wie klassische Server-Racks und benötigen einen entsprechend stabilen Aufbau.
Anbieter zum Thema
Schutz vor Stromunfällen
Außerdem sollte der Betreiber Lichtbogen-Risikominderungstechnologien einsetzen. Dazu zählen zum Beispiel ferngesteuerte Montagehilfen für Arbeiten an Stromschienen, sogenannte Remote-Plug-in-Aktuatoren (RPAs). Um Stromunfälle mit Personenschaden zu vermeiden, verlangen die Sicherheitsvorschriften in der Regel, dass für das Anschließen zusätzlicher Geräte die Stromversorgung einer Stromschiene abgeschaltet werden muss. Mit einem RPA lassen sich die Geräte auch installieren, wenn die Stromschiene unter Spannung steht. Denn der Servicetechniker aktiviert die Geräte erst nach der Installation mithilfe eines RPA von einem sicheren Standpunkt aus außerhalb der Lichtbogengrenze. Dafür ist auch keine besondere Schutzkleidung notwendig.
Energieverteilung in Racks mit Serverlasten bis 2.000 Watt pro Netzteil
Server benötigen heute pro Netzteil etwa 500 bis 1.000 Watt. Spezielle Varianten für KI-Anwendungen liegen bei 2.000 Watt pro Netzteil und verfügen in der Regel über vier bis sechs Netzteile. Wird der Serverschrank mit Wechselstrom versorgt, können Lasten bis etwa 90 KVA pro Rack integriert werden. Geht es darüber hinaus, ist eine Gleichstromversorgung notwendig.
Derart hohe Leistungen gefährden neben dem Personal auch die empfindliche Elektronik in den IT-Schränken: Diese kann überhitzen, außerdem reagieren die hochintegrierten Chips besonders empfindlich auf Netzstörungen. Deshalb sollten die IT-Schränke auf jeden Fall mit intelligenten PDUs ausgestattet werden, um jedes einzelne angeschlossene Netzteil separat überwachen zu können.
Monitoring und Datenerfassung erhöhen die Rack-Ausfallsicherheit
Intelligente Rack-PDUs und Sensoren erfassen und übertragen Strom- und Umgebungsdaten. Diese können Techniker aus der Ferne oder vor Ort analysieren, um Störungen frühzeitig zu erkennen und die Fehlerursache zu beheben. Manche intelligenten PDUs verfügen über Mess- und Überwachungsfunktionen, die potenzielle Probleme in ihrer Entstehung identifizieren. Sie erkennen zum Beispiel, welche Steckdosen übermäßig viel Strom verbrauchen und können bei ungewöhnlich hohen Werten ab einem festgesetzten Grenzwert eine Alarmmeldung ausgeben.
Überwachung der Stromqualität
Insbesondere für hochintegrierte Server, die für KI-Anwendungen konzipiert sind, ist es wichtig, dass neben den klassischen Leistungsmesswerten detaillierte Messwerte zur Stromqualität erfasst werden. Der Markt bietet intelligente PDUs, die zum Beispiel zusätzlich harmonische Verzerrungen erfassen können und darüber hinaus eine Auslöseforensik bieten. Wird ein Leitungsschutzschalter aktiviert, zeichnet das Monitoring-System die die zu diesem Zeitpunkt vorliegende Wellenform sowie die zeitgleich erfassten Daten über die Stromqualität an der betroffenen Steckdose auf. So lässt sich die Ursache einer Auslösung besser ermitteln.
Zudem erhalten Benutzer einen umfassenden und historischen Überblick über das Rack und kennen die Betriebsdaten im störungsfreien Normalbetrieb. Ähnliche Vorfälle lassen sich künftig oft schon im Vorfeld über die gespeicherten historischen Daten erkennen und verhindern.
Zugriffskontrolle und Überwachung von Umgebungsbedingungen
Remote managebare PDUs verbessern zudem die Zugriffskontrolle. Edge-Rechenzentren sind oft unbemannt und müssen daher mit einer Remote-Managementlösung sowie einer Videoüberwachung geschützt werden. Selbst wenn Techniker nicht vor Ort am IT-Rack arbeiten, benötigen sie dennoch Zugriff auf eine Live-Ansicht der Betriebs- und Leistungskennzahlen. Daher sollte alles diesen Rechenzentren überwacht werden, von Servern über Racks und Stromschienen bis hin zu den klimatischen Bedingungen im und rund um ein IT-Rack.
Dies kann über eine separate Schranküberwachungslösung erfolgen oder über das Remote-Management von intelligenten PDUs mit Sensor-Port. Diese überwachen und analysieren dann die Messergebnisse der angeschlossenen Umweltsensoren zusammen mit den Leistungskennwerten. So lassen sich an mehreren Punkten im und um den Schrank Temperatur, Luftfeuchtigkeit und Luftstrom überwachen. Zudem können Vibrations- und Wasserleckage-Sensoren sowie eine remote verwaltbare Türverriegelung integriert werden. All diese Überwachungsfunktionen vermeiden Störungen und kostspielige Ausfallzeiten.
Optimiertes Kühlmanagement und sichere Flüssigkeitskühlung
Für hochintegrierte Server, die eine hohe Abwärme erzeugen, sind fein abgestimmte Umgebungsbedingungen (Temperatur, Luftfeuchte, ungehinderter Luftstrom) entscheidende Kriterien für einen ausfallsicheren Betrieb. Wenn mit Wasser gekühlt wird, ist eine frühzeitige Erkennung von Leckagen unverzichtbar. Selbst bei leckagefrei konzipierten Flüssigkeitskühlsystemen bieten Sensoren hier eine zusätzliche Schutzmaßnahme. Denn der Betreiber erhält so frühzeitig eine Warnmeldung, falls das unwahrscheinliche Ereignis einer Leckage dennoch auftritt, und kann so Gegenmaßnahmen ergreifen, bevor das Wasser die Elektronik beschädigt.
Geprüft stabile Schrankkonstruktion
Die Resilienz und Sicherheit von Racks und IT-Schränken hängt nicht zuletzt auch von deren Stabilität ab. IT-Schränke für KI-Anwendungen wiegen etwa doppelt so viel wie herkömmliche Serverschränke und benötigen deshalb eine entsprechend robuste Schrankkonstruktion. Ausschlaggebend sind hier zusätzliche Kühlelemente wie eine wasserbasierte Rücktürkühlung.
Bei der Auswahl der IT-Schränke für KI-Anwendungen sollte die IT-Abteilung darauf achten, dass diese nachweislich die notwendige Stabilität für die geforderten hohen Lasten aufweisen. Dazu müssen sie strengen Tests unterzogen werden. Mithilfe von Neigungstests, bei denen die Schränke in einem Winkel von 10 Grad geneigt und eine Minute lang in dieser Position gehalten werden, kann zum Beispiel sichergestellt werden, dass sich bei den Schränken während des Transports nichts verzieht. Bei einem Funktions- und Rolltest werden voll beladene Schränke über Rampen, Steigungen und um Hindernisse herum gerollt, um ihre Transportfestigkeit zu überprüfen. Darüber hinaus müssen die Schränke natürlich die einschlägigen Normen erfüllen.
Alexander Weigel ist Sales Engineer DACH – Center of Excellence bei Legrand.
Zusammenfassung
Für eine resiliente Schranklösung für KI-Anwendungen sollte auf folgende Kriterien geachtet werden:
- Eine sichere und ausreichende Energieversorgung bis 1.000 bis 2.000 Watt pro Netzteil über Stromschienen
- Eine intelligente Energieverteilung mit intelligenten, fernüberwachbaren PDUs, die auch die Stromqualität überwachen können
- Eine Remote-Überwachung der Umgebungsbedingungen im und am IT-Schrank
- Ein geprüft robuster IT-Schrank, bei dem sich zum Beispiel auch nachträglich noch eine Rücktürkühlung integrieren lässt