Supermicro, Anbieter von IT-Gesamtlösungen für KI, Cloud, Storage und 5G/Edge, hat sein Produktportfolio ergänzt, um den Einsatz von generativer KI zu beschleunigen. Die Supermicro-Supercluster-Lösungen sollen grundlegende Bausteine für KI-Sprachmodelle (Large Language Models, LLM) bilden.
Die drei leistungsstarken Supermicro Supercluster sind jetzt für generative KI-Workloads verfügbar. Die flüssigkeitsgekühlten 4HE-Systeme und die luftgekühlten 8HE-Systeme seien speziell für leistungshungrige LLM-Trainingsleistungen sowie für große Batch-Größen und LLM-Inferenzen mit hohem Volumen ausgelegt. Der luftgekühlte Nvidia-MGX-1HE-Supercluster sei zudem für Cloud-Scale Inferenz-Workloads optimiert.
Die 4HE Nvidia-HGX-H100/H200-8-GPU Systeme verdoppeln die Dichte der 8HE-luftgekühlten Systeme durch den Einsatz von Flüssigkeitskühlung, reduzieren den Energieverbrauch und senken die TCO des Rechenzentrums, wir Supermicro verspricht. Diese Systeme sind laut dem Hersteller für die nächste Generation der auf der Nvidia-Blackwell-Architektur basierenden Grafikprozessoren ausgelegt. Die hauseigene Cooling Distribution Unit (CDU) und Manifold (CDM) seien die Hauptadern für die Verteilung der gekühlten Flüssigkeit an die kundenspezifischen Direct-to-Chip Cold Plates, die die GPUs und CPUs auf optimaler Temperatur halten, was zu einer maximalen Leistung führen soll. Diese Kühltechnik ermöglicht laut Supermicro eine Senkung der Stromkosten für das gesamte Rechenzentrum um bis zu 40 Prozent und spart Platz in den Räumlichkeiten des Rechenzentrums.
Die mit 8-GPUs Systeme eignen sich laut Hersteller besonders gut für das Training von generativer KI. Die Hochgeschwindigkeits-GPUs, die über Nvidia NVLink miteinander verbunden sind, sowie die hohe GPU-Speicherbandbreite und -kapazität seien der Schlüssel zur kosteneffizienten Ausführung von großen Sprachmodellen. Die Supercluster schaffen so einen massiven Pool von GPU-Ressourcen, die wie ein einziger KI-Supercomputer funktionieren, so der Hersteller weiter.
„In der KI-Ära wird die Recheneinheit jetzt an Clustern gemessen, nicht nur an der Anzahl der Server. Mit unserer erweiterten globalen Fertigungskapazität von 5.000 Racks pro Monat können wir unseren Kunden komplette generative KI-Cluster schneller als je zuvor liefern", sagte dazu Charles Liang, President und CEO von Supermicro. Ein 64-Node-Cluster nutze dabei 512 Nvidia HGX H200 GPUs mit 72 TByte HBM3e durch skalierbare Cluster-Bausteine mit 400 GBit/s Quantum-2 InfiniBand und Spectrum-X Ethernet-Netzwerken. Diese Cluster-Lösungen in Kombination mit der Nvidia-AI-Enterprise Software eigneten sich ideal für Unternehmens- und Cloud-Infrastrukturen, um die heutigen LLMs mit bis zu Milliarden von Parametern zu trainieren, so Liang weiter. Die miteinander verbundenen GPUs, CPUs, Speicher, Storage und Netzwerke bilden, wenn sie über mehrere Nodes in Racks eingesetzt werden, die Basis für die heutige KI.