Mit einem Cluster-System auf Basis von Sun-Multiplattformservern unter Linux werden im Deutschen Klimarechenzentrum (DKRZ) und dem Max-Planck-Institut für Meteorologie (MPI-M) in Hamburg komplexe numerische Modelle zu Klimasimulationen berechnet. In der Vergangenheit kamen dazu vorwiegend Vektorsysteme mit einer verhältnismäßig geringen Zahl parallel genutzter Prozessoren zum Einsatz. Um die Skalierung und Effizienz der eingesetzten Klimamodelle auf hoch parallelen Rechnersystemen zu testen und zu verbessern, suchten die Experten nach einer Systemlösung, die es ermöglicht, die rechenintensiven Aufgaben auf viele parallele Prozesse zu verteilen. Zudem sollte das neue System auch die hohen Speicher- und Input-Output-Anforderungen effizient erfüllen. Unter Abwägung aller Anforderungen kristallisierte sich für diesen Zweck ein Cluster-System als die am besten geeignete Lösung heraus.
Den Kern des Systems bilden 256 Rechnerknoten des Typs Sun Fire X2200M2 Server mit jeweils zwei AMD-Opteron-Doppelkern-Prozessoren, die in der Summe 1024 Prozessorkerne ausmachen. Jeder Rechnerknoten enthält einen 16 GByte großen Hauptspeicher. Als Frontend-Rechnerknoten fungieren fünf schnelle Sun Fire X4600M2 Server mit jeweils acht AMD-Opteron-Doppelkern-Prozessoren. Zur Nutzung des schnellstmöglichen Datentransfers sind die Rechner untereinander per "Double-Data-Rate"-Infiniband von Voltaire verbunden. Die Bandbreite beträgt je Infiniband-Link 20 GBit/s.
Eine weitere Besonderheit dieses Clusters ist der Einsatz von acht Sun Fire X4500 Servern mit einer Bruttokapazität von je 24 TByte Festplattenspeicher, die die Rechnerknoten gleichzeitig mit Daten versorgen. Möglich wird dies durch den Einsatz des parallelen Lustre-Filesystems, das den Datentransfer drastisch beschleunigt. Bisherige Dateisysteme haben die Daten von einem zentralen Server - mit entsprechendem Zeitaufwand - seriell an die einzelnen Rechnerknoten verteilt. Neben der hohen Geschwindigkeit liegt ein weiterer herausragender Vorteil des Lustre-Dateisystems in der hohen Skalierbarkeit von bis zu mehreren tausend Rechnerknoten mit Datenkapazitäten im Petabyte-Bereich.
In Verbindung mit der intelligenten Architektur erreicht die Performance des Systems den beachtlichen Wert von 5,6 Teraflops (Billionen Gleitkommaoperationen pro Sekunde). Diese hohe technische Leistungsfähigkeit ist für die Anwender die Voraussetzung, die eingesetzten Simulationsmodelle in kürzerer Zeit zu verbessern und auch schneller an neue Systeme anzupassen.
Als Ressource Management System des Linux-Clusters ist eine Sun Grid Engine im Einsatz. Diese Systemsoftware steuert das Management der gesamten Jobs, indem es deren optimale Verteilung auf die einzelnen Rechnerknoten vornimmt.
LANline/jos