In der Liste der 500 weltschnellsten Rechner steht ein deutscher Superrechner auf Platz drei, ist von der International Supercomputing Conference in Hamburg zu hören. Spannend auch Bausteine aus dem deutschen QPace-Projekt: Das komplett wassergekühlte System ist strikt auf Kostenoptimierung und Anwendungsorientierung designt.
Das deutsche Supercomputing zeigt Flagge: Der Blue Gene/P Jugene am Forschungszentrum Jülich rangiert auf dem dritten Platz in der aktuellen Top-500-Liste der weltschnellsten Rechner, berichtet Co-Listenautor Professor Hans Werner Meuer. Und auf der von Meuer organisierten und heute beginnenden
International Supercomputing Conference (ISC 2009) ist ein zukunftsweisendes Design für Wissenschaftsrechner zu sehen: Im Projekt QPace deutscher Unis und der IBM Entwicklungs GmbH entstehen Racks mit je 25 Teraflops Leistung - auf geringe Anschaffungskosten hin entworfen, komplett wassergekühlt und durch IBMs Cell-Prozessor energieeffizient: Das System soll sich nach der Auslieferung um den Spitzenplatz in der Green Top 500 bewerben.
2008 hatte der IBM-Hybridcomputer Roadrunner an den Los Alamos National Labs aus Cell- und Opteron-Blades die Marke von eine Billiarde Gleitkommaoperationen pro Sekunde (Petaflops) geknackt - im Herbst folgte der von Cray am Oak Ridge National Laboratory gebaute Jaguar mit AMD Quad-Core-Opterons, in Europa übersprang im Juni der IBM Blue Gene/P Jugene vom Forschungszentrum Jülich die magische Schranke. Exascale Computing lautet nun das Fernziel der Gemeinde des High-Performance Computing (HPC): 2018 sollen also eine Trillion Gleitkommaoperationen pro Sekunde berechnet werden.
Exascale-Rechner dürfte über eine Milliarde Dollar kosten - "Wir wissen nicht sicher, wie sich die Rechenleistung in zehn Jahren um den Faktor 1000 steigern lässt", dämpft Michael Malms von der IBM Research & Development GmbH in Böblingen Erwartungen. "Wir können nämlich technologisch nicht mehr einfach Moores Gesetz folgen", so der Leiter von IBMs Hauptabteilung Open Systems Design and Development. "Es muss noch viel erfunden werden." Bisher konnte mit verfügbaren Standardkomponenten ein Toprechner für 200 Millionen Dollar entstehen - nun dürften die Investition leicht eine Milliarde Dollar überschreiten, was auch die bisher spendable US-Regierung wohl vorsichtig macht.
Ein paar Standards zeichnen sich laut Malms aber ab. Bei künftigen High-end-Systemen werde immer Wasser im Spiel sein, und maßgeblich würden hybride Strukturen wie beim Roadrunner. "Accelerators sind hochgetunte Logik, die bestimmte Operationen energieeffizient beschleunigen - das ist der langfristige Trend." Dabei würden CPU und Accelerator mit kurzen Leitungen auf einem Chip zusammen wachsen. Generell sind nicht alle Anwendungen gut parallelisierbar - noch lange wird eine klassische CPU serielle Tasks abarbeiten.
Doch dann türmen sich Hürden auf. "Durch Leckströme hat ein Hochleistungsrechner im Leerlauf ungefähr 30 Prozent Verlustleistung, und bei zunehmender Miniaturisierung müssen wir immer mehr Logik spendieren, um Fehler in den Arrays und der kombinatorischen Logik zu erkennen", erklärt Systemexperte Gottfried Goldrian, der bei der IBM Entwicklungs GmbH auch z-Mainframes designt hat. Leakage Current lässt sich durch eine reduzierte Spannung vermindern - mit dem Nachteil, dass man damit die Prozessorfrequenz limitiert. "Um Energie zu sparen, muss man alles abschalten, was gerade inaktiv ist - eine logistische Herausforderung für die Zukunft." Das betrifft, so Goldrian, auch die individuellen Prozessor-Cores - und sogar Teile der Cores.
Laut Malms beginnt die Software-Community an Softwarestrukturen zu arbeiten, die mit weniger Speicher- und I/O-Zugriffen auskommen. "Die Prozessoren werden immer schneller, die Speicherchips halten nicht mit - ein Speicherzugriff kostet also immer mehr Zeit und mehr Power, dabei wollen wir ja in Zukunft alles abschalten, was Energie frisst." Das entscheidende Moment um Energie zu sparen, sind laut Goldrian kurze Leitungen, weshalb das 3-D-Design an Bedeutung gewinne: "Der Software kommt ein Prozessor und ein nahes Embedded Array gelegen, das fast die Dichte eines normales DRAMs hat und bei der Zugriffszeit nahe an den Cache herankommt."
Die großen Probleme bestehen nun in den Konsequenzen aus der Miniaturisierung: Die Leckströme nehmen drastisch zu und es muss immer mehr Zusatzlogik eingesetzt werden, um Fehler zu korrigieren (siehe Kasten).
Als Zukunftstechnik werden auch optische Verbindungen gehandelt. "Die optische Datenübertragung hat den Nachteil, dass ein elektrisches Signal erzeugt und dann in ein optisches Signal umgewandelt werden muss - diese Zusatzleistung braucht nämlich Energie", erklärt IBM Distinguished Engineer Gottfried Goldrian. Im Power-Budget bringe deshalb die Optik weniger bei kurzen Strecken im Chip ein Plus, sondern erst, wenn im I/O-Bereich lange Entfernungen mit breitbandigen Leitungen sehr effizient überbrückt würden. "Je mehr sich das Chip-Design in 3-D-Richtung bewegt, desto geringer ist der Vorteil von Optik - zudem sind die Fertigungskosten enorm."
Wie die Entwicklung durch Einfallsreichtum voranschreitet, belegt das Projekt QPace. Die ersten zwei QPace-Racks stehen auf der Testfläche bei IBM in Böblingen. Zuerst fällt die Höhe der Racks auf: fast drei Meter. Dann die dicken Kupfer-Wasserrohre und die beidseitig eingesteckten Rechnerknoten im Alugehäuse. Fahren die 256 dicht gepackten Knoten ihre Spitzenleistung von 26 Teraflops, so dürfte die entstehende Hitze bei normalem Design fürs Pizza-Backen reichen. Aber QPace bleibt cool. "Das Metallgehäuse der Knoten führt die Wärme an die Cold Plate ab, die mit Wasser gekühlt wird", erklärt Chefentwickler Goldrian den Trick. "Der Clou ist, dass die Kosten der Wasserkühlung denen einer Luftkühlung entsprechen."
Das einfache Prinzip ist aber nur durch Raffinessen umgesetzt worden, die mehrere Patente eingebracht haben. "Wir haben die wasserführenden Kanäle in der Cold Plate lange auf ein Optimum an Kühlung hin simuliert - und je heißer die Bauelemente sind, desto näher befinden sie sich in dem Gehäuse an der Kühleinrichtung." Das so fein justierte Gehäuse wird von einer Firma in Italien produziert. "Statt teuer die Form aus Aluminium zu fräsen, wird gegossen", erläutert QPace-Designer Goldrian. "Das ist zwar in der Wärmeleitung um 40 Prozent schlechter, aber billiger."
Auch bei der Systemarchitektur geht das internationale Konsortium aus industriellen Partnern und den Universitäten Regensburg, Wuppertal, Ferrara, Mailand, dem Forschungszentrum Jülich, DESY und der IBM Research & Development GmbH in Böblingen neue Wege. "Das Linux-System basiert rein auf dem energieeffizienten Cell-Prozessor, durch die Cold Plate können wir kurze preiswerte Flachkabel verwenden und die Verbindung nach außen zum 3-D-Torus regeln Field Programmable Gate Arrays." Diese FPGAs lassen sich laut Goldrian auch für andere Systeme verwenden - mit entsprechender Backplane könne auch eine hybride Architektur, ähnlich Roadrunner, nachgebaut werden. Die von den akademischen Partnern entwickelte Kommunikation ist auf Low-Latency getrimmt.
"Ein kosten- und kundenoptimiertes Design, ausgelegt auf 2000 bis 4000 Knoten", konstatiert QPace-Projektchef Malms. "Wir müssen intensive Kooperationen wie mit dem Forschungszentrum Jülich eingehen, um frühzeitig von Anwendern ein Feedback zu bekommen." Entwicklungspartnerschaften seien keine Prestigeangelegenheit mehr, sondern unabdingbar. Zudem punkten die Böblinger auch IBM-intern mit QPace durch die Wasserkühlung und FPGA-Anbindung bei hohen Bandbreiten: "Wir sind bei der Energiebilanz schon jetzt besser als die Nummer 1 der Green Top 500 des Jahres 2008 - im Herbst wollen wir an der Spitze sein."
"Hardware und Anwendung müssen getunt werden", begründet Dirk Pleiter vom Deutschen Elektronen-Synchrotron (DESY) den Design-Alleingang. "Wir brauchen für die numerische Simulation in der Quantenchromodynamik starke, aber preiswerte Leistung bei günstigen Betriebskosten." Die Elementarphysiker der Unis und Jülich wollen mit den Racks den Ursprung und die Kräfte des Universums besser verstehen - und gleichzeitig stärkt die deutsche Szene beim HPC ihre Kompetenzen.
Laut Malms lernt auch IBM durch das HPC auf Power-, x86- und Cell-Basis, denn in zehn Jahren seien heutige HPC-Ansätze bei Mikro- und Systemarchitektur, Firm- und Middleware dann im kommerziellen Bereich zu finden. "Eine Analogie zur Formel 1 der Autobranche - in Spitzensystemen wird die eigene Technologie ausgetestet und unter Stress gesetzt, wir bringen Middleware zum Skalieren und erschließen durch Machbarkeit auch neue Anwendungsfelder."
So haben IBMs HPC-Experten schon Memory-Hersteller auf Qualitätsprobleme hingewiesen - am Barcelona Supercomputer Center lernte IBMs kommerzielle Systemmanagement-Software das Steuern riesiger Cluster. So baut sich auch ein Erfahrungsschatz auf, wie bei großen Dimensionen ein Service effizient bereit zu stellen ist. "Mit dem kostengünstigen Cell-Prozessor eröffnen sich neue Gebiete", erläutert Malms. Beim Stream Computing will IBM einen Service zur Verfügung stellen, der einen Strom von Wirtschaftsdaten in Echtzeit analysiert, damit ein Unternehmen sofort über Investitionen entscheiden kann.
Das Projekt Qpace kann theoretisch auch in den Petaflops-Bereich skalieren, das Design bringt Energieeffizienz und Wasserkühlung auf ein neues Niveau. "Es geht also nicht stets um die absolute Spitzenleistung", so Malms, für den das Supercomputing dem Standort beim Innovationsprozess stützt: "Die Simulation komplexer Zusammenhänge hat sich in der Wissenschaft als dritte Disziplin neben Theorie und Experiment etabliert - und in der Wirtschaft wird HPC bald die Entscheidungsunterstützung auf ein höheres Level bringen."
Rochus Rademacher/CZ