Ein Testlabor für die Zuverlässigkeitsanalyse von Stromschalt- und Messtechnik ist eine äußerst sinnvolle Einrichtung. Denn das Vorhandensein eines zuverlässigen Leistungsverteilungsnetzes (Power Distribution Network) gehört zu den grundlegenden Voraussetzungen für einen reibungslosen Betrieb des Rechenzentrums.Innerhalb dieser Stromversorgungsinfrastruktur sind intelligente Stromschaltleisten (Power Distribution Units) eine der kritischen Komponenten, da sie im Vergleich zu reinen Stromverteilgeräten eine komplexe Steuerung mit Möglichkeiten der Stromunterbrechung enthalten. Darüber hinaus gehören diese Geräte selbst auch zur IT-Infrastruktur und unterliegen den Anforderungen an einen geringen Eigenstromverbrauch. Die verschiedenen PDU-Implementierungen sind daher nicht nur in Bezug auf ihre Zuverlässigkeit zu testen, sondern insbesondere auch in Bezug auf den Trade-off zwischen Zuverlässigkeit und Energieeffizienz. Motivation Zuverlässigkeit ist ein entscheidender Faktor für heutige elektronische Systeme, vor allem aufgrund ihrer zunehmenden Komplexität und ihrer Anfälligkeit für Ausfälle. Ein typisches Beispiel sind moderne Rechenzentren. Dort müssen Hunderte von Servern sowie ihre Service-Infrastruktur als eine komplexe, funktionale Einheit zusammenspielen. Unter Worst-Case-Bedingungen kann der Ausfall eines einzelnen Elements und dabei besonders in der Service-Infrastruktur das gesamte System zum Versagen bringen. Als fatale Konsequenz stehen dann die vom Kunden gewünschten Leistungen nicht zur Verfügung. Ein wichtiger Teilaspekt im Kontext der Zuverlässigkeit von Rechenzentren ist der Bereich der Energieverteilung. Jede einzelne Komponente ist zur Erfüllung ihrer spezifischen Funktion im Auge zu behalten. Eine zuverlässige Stromversorgung aller Komponenten im Rechenzentrum, darunter auch der Stromversorgungskomponenten selbst, ist eine grundlegende Voraussetzung. Zur Vermeidung von Single-Points-of-Failure sollten die beteiligten Komponenten redundant aufgebaut sein. Dazu existieren verschiedene Klassifikationen, die die Verfügbarkeit der Rechenzentren (mit Bezug auf die dort vorhandenen Installationen) beschreiben - einschließlich Überlegungen zu den benötigten Redundanzschemata. Für RZs mit hohen Anforderungen an die Verfügbarkeit ist die Stromversorgung in der Regel vollständig in mindestens zwei getrennten Pfaden ausgeführt, also redundant zur Verfügung gestellt. Die Energie sollte von außerhalb des RZs aus verschiedenen Unterstationen heraus gespeist und über getrennte Netzleitungen mit eigener Stromversorgung verteilt werden. Zusätzlich zu diesem Best-Practice-Ansatz lässt sich die zu erwartende Zuverlässigkeit auch unter Verwendung spezifischer Systemmodelle abschätzen. Innerhalb eines RZs gehören Power Distribution Units (PDU) zu den kritischsten Komponenten innerhalb des Versorgungspfades. Dies hat mehrere Gründe. Intelligente PDUs: kritischer Faktor Die intelligenten PDUs mit Schalt- und Messfunktion sind selbst eine komplexe IT-Komponente und damit anfälliger als einfacher strukturierte Bauelemente zur reinen Energieverteilung wie Stromschienen etc. PDUs befinden sich zudem "am Ende" des Stromverteilungspfades in direkter Verbindung zu den stromversorgten Servern und Routern. Ausfälle dieser IT-Infrastruktur können damit direkt auf diese PDUs wirken und deren Ausfall provozieren. Intelligente PDUs sind aus der Ferne steuerbar. Sie sind damit zum einen mit einer lokalen IP-Netzinfrastruktur verbunden und damit möglichen Fehlverhalten dieses IP-Netzes ausgesetzt. Zum anderen müssen geeignete Autorisierungs- und Authentifizierungsmechanismen sie vor unbefugtem Zugriff schützen. Als "Embedded Device" verfügen sie aber in der Regel nicht über die bei IT-Server-Betriebssystemen üblichen Mechanismen zur Sicherstellung hoher IT-Sicherheit (zum Beispiel Zertifikats-Updates) und werden damit leicht zu Opfern von Hacker-Angriffen. Die Hersteller statten die PDUs mehr und mehr mit interner (Strom, Spannung, Leistung) oder externer Sensorik (Temperatur, Feuchtigkeit, Türschloss) aus und verleihen ihnen damit eine Doppelfunktion als Schrank- oder Umweltüberwachungsinstanz. Der nächste Schritt, die an der PDU ermittelten Messwerte wiederum zur Steuerung der Klima- und Zutrittstechnik zu verwenden, liegt nahe und erhöht die Kritikalität der PDU-Komponente weiter. Intelligente PDUs ermöglichen heute schon die interne Verknüpfung von Eingangsgrößen wie Stromverbrauch, Temperatur etc. mit der Schaltaktorik - zum Beispiel zur Notabschaltung von Geräten bei Überschreiten von Schwellwerten. Sie werden damit zur eigenständigen, dezentralen Regelintelligenz im Rechenzentrum mit oder ohne Verbindung zu anderen zentralen oder dezentralen Regelungen und Steuerungen. Abhängig von der angebotenen Funktionalität kann man Stromschaltleisten in vier Kategorien einteilen: "Basic": keine Schalt- oder Messfunktion, "Metered": Strommessfunktion, "Switched": schaltbar, entweder als Gerät oder per Ausgangs-Port und "Intelligent": Ausgangs-Port ist schaltbar, Energieverbrauch wird gemessen, interne Logik ermöglicht autarke Schaltentscheidungen. Im Markt ist ein klarer Trend zu mehr Intelligenz in den PDUs zu beobachten, der dazu zwingt, den genannten Zuverlässigkeitsaspekten mehr Beachtung zu widmen. Weiterhin kommen aus ökonomischen Gründen in der Regel baugleiche Geräte in den verschiedenen redundanten Versorgungspfaden zum Einsatz. Dies schafft zwar physische Redundanz, jedoch reagieren die verschiedenen Versorgungspfade auf einen auftretenden Fehler auch identisch (homogene Redundanz). Sind redundant aufgebaute Strukturen dann noch den gleichen Umgebungsgrößen und Umwelteinflüssen ausgesetzt, können diese Strukturen trotz redundanten Aufbaus gleichzeitig ausfallen und damit den unter allen Umständen zu vermeidenden Ausfall der Stromversorgung für die IT auslösen. Bei intelligenten Stromschaltleisten, die in homogenerer Redundanz (beide redundanten Phasen sind identisch) verbaut sind, ergeben sich gleich drei gemeinsame "Berührungspunkte", die den für homogene Redundanz typischen Ausfall erzeugen können. Die Steuerung übernimmt das gleiche Steuernetz (gegebenenfalls sogar von der gleichen Software). Sie sind mit dem gleichen IT-System (Server-Netzteil A und Server-Netzteil B) verbunden, sodass eine Fehlfunktion innerhalb des Servers direkt auf beide Versorgungsstränge zurückwirken kann. Oder sie befinden sich im Schaltschrank in unmittelbarer Nähe und sind den dort herrschenden Umweltbedingungen gemeinsam ausgesetzt. Bisher existieren keine industrieweit anerkannten Mess- und Vergleichsgrößen zur Einschätzung der Zuverlässigkeit dieser kritischen intelligenten Stromverteilleisten. Das PDU Test Lab an der Technischen Universität Chemnitz schließt diese Lücke. Das PDU Text Lab hat es sich zum Ziel gesetzt, intelligente Komponenten der Stromverteilnetze in Bezug auf ihre Zuverlässigkeit zu analysieren, zu bewerten und Entwurfskriterien für die Komponenten selbst, aber auch für Stromversorgungsnetze unter Einsatz dieser Komponenten abzuleiten. Obwohl sich die Untersuchungen nicht auf intelligente Stromschaltleisten (iPDUs) beschränken, bilden diese aufgrund der Marktbreite an Produkten, der Komplexität des Produktes selbst und der Kritikalität ihres Einsatzes den aktuellen Schwerpunkt der Untersuchungen. Die Tests und Untersuchungen im PDU Test Lab sollen alle Aspekte abbilden, die in Bezug auf die Zuverlässigkeit und Qualität des Produktes relevant sind. Die Tests reichen von der Sichtprüfung der mechanischen und elektrischen Komponenten bis zu Funktionstests der integrierten Schalt- und Messfähigkeiten und der Emission von Wärme und elektromagnetischer Strahlung sowie der Festigkeit der Elektronik gegen diese Strahlung. PDU Test Lab Die wissenschaftlichen Grundlagen liefern die parallel an der Stiftungsprofessur für Systemzuverlässigkeit der TU Chemnitz laufenden Arbeiten zur Erfassung von Systemzuverlässigkeit komplexer Systeme anhand von Ein- und Ausgangsparametern. Diese wiederum basieren auf den jahrelangen Forschungen an dem Lehrstuhl für Schaltungs- und Systementwurf zum zuverlässigen Entwurf und der Verifikation dieses Entwurfs in Bezug auf komplexe digitale und hybride Schaltungen. Die wissenschaftliche Arbeitshypothese ist, dass es allein aufgrund von Tests und Analysen eines Gesamtsystems ohne Wissen um interne Strukturen möglich ist, hinreichende Informationen über die Zuverlässigkeit eines gegebenen Testobjektes zu erhalten. Bild 1 gibt einen Überblick über die aktuellen Hardwarekomponenten der Testanordnung. Die PDU als intelligente Stromverteilungseinheit dient als Prüfling, der über mehrere Power- (rot gefärbt) und Kommunikationsverbindungen (schwarz) mit der Testumgebung verbunden ist. Sowohl das Controlling als auch die Überwachung der PDU kann über verschiedene Kommunikationsprotokolle wie SNMP, Telnet oder HTTP ablaufen und ist damit automatisierbar. Sehr präzise Leistungsmesstechnik sowie Normlasten ermöglichen einen sehr genau und zeitlich hoch aufgelösten Test einer angebotenen Messtechnik im Gerät und dienen gleichzeitig der Erfassung des Eigenstromverbrauchs des Geräts unter verschiedenen Einsatzbedingungen und Systemzuständen. Die eingesetzten Lasten können verschiedene komplexe elektrische Lastzustände (von stark induktiv über normal ohmsch bis zu stark kapazitiven Lasten sowie das schnelle Umschalten zwischen diesen Lastzuständen) emulieren und damit auch Grenzsituationen der Belastbarkeit der PDU-Schalt- und -Verteilschaltungen wie den hohen Einschaltstrom heutiger Schaltnetzteile (High Inrush Current) gut abbilden. Multiplexer ermöglichen das Testen verschiedener Schaltausgänge. Alle Komponenten sind vernetzt und von Steuerskripten aus zu bedienen. Damit ist eine Vielzahl unterschiedlicher Belastungs- und Schalttests möglich, die sich in akzeptabler Zeit automatisch abarbeiten und protokollieren lassen. Die Tests basieren auf einem Eigenschaftenkatalog, der die PDU-Zuverlässigkeit und deren Energieverbrauch sowie passsende Auswertungsmethoden berücksichtigt. Testkriterien Bis jetzt sind über 100 zuverlässigkeitsrelevante Testkriterien definiert, über die während eines Testdurchlaufes quantitative oder qualitative Aussagen zu treffen sind. Diese Testkriterien lassen sich folgenden Untersuchungsschwerpunkten zuordnen: dem Schalten, Verteilen und Messen von elektrischer Energie. Beispiele für Untersuchungen sind das Schaltverhalten von Relais, die Einschaltsequenz, die Schaltung im Phasendurchgang, Abhängigkeiten des Schaltverhaltens zwischen Ausgängen oder das Schalten von stark kapazitiven oder stark induktiven Lasten. Außerdem zählen dazu das Boot-Verhalten, Nullungskonzepte, spezielle Probleme in Design von Dreiphasen-PDUs, die Messgenauigkeit in Abhängigkeit des Dynamikbereiches und die elektromagnetische Verträglichkeit. Die meisten dieser Untersuchungen erfolgen teilautomatisiert über Steuersoftware und werden entsprechend protokolliert. Mechanische Eigenschaften lassen sich nicht über automatisierte Testskripte und Messtechnik erfassen, sind aber dennoch wichtig für die Gesamteinschätzung des Systems. Dazu erfolgen meist eine Sichtprüfung sowie die Validierung der Angaben des Datenblattes. Zu untersuchten Punkten zählen beispielsweise der Gehäuseentwurf, insbesondere vor dem Hintergrund des Einsatzes in vibrierenden Rechnerschränken (Gewichtsverteilung, Montagemöglichkeiten), Kabeldurchführungen, die Verlegung und Sicherung der internen Verkabelung, Gefahren durch Scheuern sowie die Montage der Leiterplatten, insbesondere vor dem Hintergrund von Zug- und Druckbelastung durch an den Steckdosen angesteckte Stromkabel. Kommunikation und Steuerung Die PDU-Prüflinge sind in der Regel in einer bestehenden IT-Infrastruktur integriert, wo sie das Rechenzentrums-Management kontrollieren und überwachen kann. Somit ist eine zuverlässige und sichere Netzwerkschnittstelle eine der fundamentalen Voraussetzungen dieser Geräte. Die Kategorie Kommunikationseigenschaften umfasst Testkriterien im Zusammenhang mit der in der PDU integrierten Management-Netzwerkschnittstelle. Dazu gehören die Anzahl und Art der unterstützten Netzwerkschnittstellen, die Unterstützung von Netzwerkkommunikationsprotokollen sowie Schutzmechanismen gegen Überlastung oder das Zugreifen Unbefugter. Weitere Testziele sind die Systemzuverlässigkeit trotz nicht-spezifizierten Kommunikationsmustern und anderer Formen von "Denial of Service"-Attacken. Die Untersuchungen betrachten alle Kommunikationsschichten der IP-Netzschnittstelle und erfolgen komplett automatisiert. Funktionalität und Bedienbarkeit Eine gute Bedienbarkeit ist zwar kein notwendiges Kriterium für einen zuverlässigen Betrieb eines Geräts, unklare Bedienführung, schlechte Dokumentation oder Divergenzen zwischen Dokumentation und realem Gerät führen jedoch zu Fehlbedienungen oder falscher Konfiguration mit entsprechenden Folgen für die Zuverlässigkeit. Daher zählen auch diese Aspekte im Rahmen der Untersuchungen und sind adäquat dokumentiert. Ein besonderer Aspekt in dieser Kategorie ist das Firmware-Update und das Verhalten der PDUs während und nach einem Update. Ein spezieller Schwerpunkt der Untersuchungen ist der Eigenstromverbrauch der getesteten Geräte und deren Abhängigkeit von verschiedenen Betriebszuständen und Eingangsgrößen. Die Messungen des Eigenstromverbrauchs erfolgen mit der beschriebenen Messanordnung. Darüber untersucht der Test mit einer thermisch-bildgebenden Kamera mögliche Hotspots und falsche Bauelementepositionierungen und Dimensionierungen. Vorläufige Ergebnisse Bis zum Erscheinen dieses Artikels haben die Tester bereits eine erste Reihe von PDUs von verschiedenen Herstellern auf Basis des beschriebenen Kriterienkatalogs untersucht - beginnend mit der Sichtprüfung der elektrischen und mechanischen Teile sowie den Zuverlässigkeitstests der Stromleitungen und der Verwaltung der Netzwerkschnittstellen. Ein Großteil der getesteten PDUs hat die aktuellen Test bislang erfolgreich bestanden, jedoch kamen selbst bei den bisherigen kommerziell verfügbaren Testobjekten, die nur zur Validierung des Testansatzes dienen sollten, ernsthaftes Fehlverhalten ans Licht, das im Feldeinsatz zu schwerwiegenden Störungen führt. Dazu zählt ein fehlerhaftes oder nicht gewünschtes Schaltverhalten der internen Relais, ausgelöst durch eine nicht spezifikationskonforme TCP/IP-Kommunikation. Der Prüfling wurde mit Denial-of-Service-Attacken angegriffen und verweigerte an einem bestimmten Punkt jede weitere Kommunikation. Er startete neu und schaltete dabei alle Ausgangs-Ports ab. Eine neuere Produktvariante des betroffenen Herstellers weist das Fehlverhalten nicht mehr auf. Zudem gab es im Test ein unkontrolliertes Hin-und-her-Schalten der Relais: Das Senden defekter TCP-Pakets führte zu einem Zustand, in dem die Relais der AusgangsPorts permanent ein- und ausschalteten. Dies ist faktisch der schlimmste anzunehmende Fehlerfall, weil das ständige kurzzeitige Einschalten der Last diese und auch die PDU nach kurzer Zeit zerstören würde. Die meisten untersuchten PDUs nutzen monostabile Relais, die im Ruhezustand abgefallen sind. Dies ist für einen stabilen Einschaltvorgang zwingend notwendig, führt jedoch im Dauerbetrieb zu einem erheblichen Eigenverbrauch an elektrischer Energie. Energiereduzierende Maßnahmen wie das Heruntermodulieren des Spulenstroms im Haltezustand der Relais traten bisher nicht auf, sollten aber in modernen Designs irgendwann zu beobachten sein. Die Tester rechnen mit weiteren Problemen hinsichtlich der Zuverlässigkeit bei den PDU-Netzwerk-Interface-Implementierungen sowie bei den Schaltfähigkeiten der Ausgänge. Neben der Erweiterung der Tests sollte es ab einer statistisch relevanten Anzahl getesteter PDUs möglich sein, Fehlermuster und Fehlertrends aufzuzeigen. Bei der Erweiterung der Tests stehen die folgenden Maßnahmen im Vordergrund: die Auswertung unserer Wärmebildkamera am Prüfstand mittels Infrarot zur Erfassung der Hauptfaktoren für den Energieverlust sowie die Installation einer abgeschirmten Messkammer für EMI-/EMV-Messungen. Dies soll klären, wie sich die PDU unter dem Einfluss elektromagnetischer Bestrahlung verhält. Die Weiterentwicklung der Kontroll- und Analyse-Software für die automatisierte Testdurchführung und -auswertung haben sich die Tester ebenfalls vorgenommen.