Stromverbrauch und Wärmeentwicklung sind heute für Serversysteme mindestens genauso große technische Herausforderungen wie der Bedarf nach immer noch mehr Rechenleistung. Energieeffizienz ist gefragt, nicht nur bei modernen CPUs, sondern auch beim Gesamtsystem mit allen Komponenten. Doch auch der Trend zur Virtualisierung stellt neue Anforderungen an die nächste Servergeneration. Hier geht es um optimierte Hardwareunterstützung wie I/O- und Cache-Management für die Virtualisierungstechniken auf Softwareebene.
Seit der erste Server kommerziell zum Einsatz kam, galt nur ein Motto für die Hardware: "
schneller, höher, weiter". Im Prinzip hat sich daran nichts geändert. Immer wenn eine neue
Generation von Servern auf den Markt kommt, stehen sogleich Anwendungen und Dienste bereit, die die
Ressourcen ausreizen. Doch seit einiger Zeit folgt das "Wettrüsten" anderen Regeln. Die lange Jahre
bewährte Strategie, dass der einzige Weg zum "Leistungsglück" über höhere Taktfrequenzen führt, hat
sich – zumindest vorübergehend – als nicht mehr praktikabel erwiesen. Die CPUs wurden durch die
ständig steigenden Frequenzen zwar schneller, bei gleich bleibender Chipkonstruktion stieg der
Stromverbrauch aber exponential an. Der Energieverbrauch und die Kühlung der Chips entwickelten
sich zum Problem, und die Leistungszunahme stand in keinem Verhältnis mehr zum Aufwand.
Als Folge davon begannen die Prozessorhersteller umzudenken und realisierten mehr Rechenleistung
durch Parallelverarbeitung in Form mehrerer Prozessorkerne. Dies hatte verschiedene Vorteile: Zum
einen sank die Stromaufnahme deutlich, da jetzt geringere Taktfrequenzen zum Einsatz kamen. Mehrere
Kerne waren auch Wasser auf die Mühlen von Virtualisierungsanbietern: Entsprechende Programme
profitieren erheblich von separaten Kernen, die noch dazu mit Virtualisierungserweiterungen
ausgestattet sind. AMD nutzte die Gelegenheit und konnte dem Erzrivalen Intel mit ihrer auf
Energieeffizienz ausgerichteten Opteron-CPU deutlich Marktanteile im Servermarkt abnehmen, bis
Intel Mitte 2006 mit eigenen Multi-Core-CPUs konterte und langsam wieder Boden gutmachte.
Vor allem der kürzlich von Intel vorgestellte Vier-Kern-Xeon-Prozessor ("Clovertown") sorgt für
lange Gesichter bei AMD, denn deren Quad-Core-CPU ("Barcelona") soll erst in der zweiten
Jahreshälfte verfügbar sein. Dies liegt zu einem großen Teil am grundsätzlichen Design. Denn
während Intel zwei Dual-Core-Kerne auf einem Chipträger zu einer Quad-Core-CPU "verheiratet", wird
AMD einen reinen Quad-Core-Prozessor vorstellen. Dies mag Vorteile für die Rechengeschwindigkeit
haben, für eine rasche Markteinführung war es sicher nicht förderlich. Mario Rivas, Executive Vice
President bei AMD, bedauerte kürzlich, nicht ebenso wie Intel zwei Dual-Cores zu einem Chip
kombiniert zu haben. "Wenn ich etwas anders machen könnte, würde ich mir wünschen, wir hätten als
erstes ein ?Multi-Chip?-Modul gemacht", so Rivas.
Dabei zeigen die AMD-Server-CPUs durchaus Vorteile – nicht nur in puncto Stromverbrauch. Während
Intel nach wie vor den Speicher-Controller getrennt von der CPU im Chipsatz unterbringt, ist der
Memory-Controller beim Opteron Bestandteil der CPU. Dies eliminiert den Flaschenhals "Front Side
Bus" (FSB) und sorgt für sehr schnelle Speicherzugriffe. Ob dies in der jeweiligen Anwendungspraxis
Auswirkungen zeigt, ist eine andere Frage. Klaus Rumsauer, Director Enterprise Server & Storage
Systems bei HP Deutschland, kennt beide CPU-Konzepte gut. Hewlett-Packard bietet ihre x86-Server
durchgehend mit AMD- oder Intel-CPU zur Auswahl an. "AMD war in der Vergangenheit zeitweise
technisch überlegen", sagt Rumsauer: "Mittlerweile hat Intel nachgezogen. Welche CPU besser zum
Einsatzgebiet beim Kunden passt, kann man aber oftmals nur mit anwenderspezifischen Benchmarks
herausfinden."
Dennoch scheint die Idee des Speicher-Controllers in der CPU auch Intel überzeugt zu haben.
Deren geplanter Acht- Core-Prozessor ("Nehalem") soll 2008 auf den Markt kommen und ebenfalls über
einen integrierten Speicher-Controller verfügen. Und noch eine Idee hat Intel für gut befunden und
übernommen: die serielle Kommunikation mit der Peripherie. Bei AMD heißt das Konzept "
Hypertransport" und kann aus mehreren, zusammen bis zu 24 GByte/s schnellen Links bestehen. Intel
entwickelt ihre serielle Kommunikationsschnittstelle selbst, sie wird CSI (Common System Interface)
heißen.
Klar zurück liegt AMD beim Herstellungsprozess. Erst "Barcelona" soll mit
65-Nanometer-(nm-)Strukturen hergestellt werden, während die aktuellen Opterons noch einen
90-nm-Prozess nutzen. Intel verwendet bereits 65 nm und wird in diesem Jahr die Produktion der
Multi-Core-Xeons auf 45 nm umstellen. Natürlich finden auch Entwicklungen bei nicht-x86-basierenden
Prozessoren statt: Intels Itanium wird noch in diesem Jahr als Dual-Core auf den Markt kommen, die
Quad-Core-Variante (Code-Name "Tukwila") soll 2008 folgen. Auch Sun entwickelt ihre RISC-CPU
Ultrasparc weiter. Der im Herbst 2005 eingeführte Niagara repräsentiert die zweite Generation der
Chip-Multi-Threading-(CMT-)Prozessoren. Die Ultrasparc-T1-Prozessoren laufen zwar nur mit 1,2 GHz,
verarbeiten aber bis zu 32 Threads gleichzeitig und besitzen einen eingebauten
Memory-Controller.
Neue Wege beschritt Sun beim Nachfolger Niagara 2. Hier wurden bei der Entwicklung alle Elemente
des Prozessors weggelassen, die nicht unbedingt nötig sind. Das Ergebnis ist eine sehr effiziente
CPU, die mehr Threads gleichzeitig verarbeiten kann und über acht eingebaute Encryption-Engines
verfügt. Damit ist Verschlüsselung in Echtzeit mit Wirespeed möglich. Natürlich müssen
Betriebssystem und Anwendung die Engines unterstützen: Ein Apache-Webserver beispielsweise muss so
kompiliert sein, dass er unter Solaris auch die Verschlüsselungs-Engine benutzt. Sun wird sogar
korrekt vorkompilierte Pakete für die wichtigsten Open-Source-Programme zum Download anbieten.
Der Trend, die CPU durch spezialisierte Koprozessoren zu unterstützen, zieht sich durch die
gesamte Branche. Bei Intel ist dazu "Application Abstraction Layer" vorgesehen, das es
Softwareherstellern ermöglichen soll, Beschleunigungs-Engines zu entwickeln, ohne die letztendlich
verwendete Hardware genau zu kennen. Die Engines lassen sich etwa über PCI-Express, einen eigenen
FPGA-Sockel, oder sogar direkt als Bestandteil einer noch zu entwickelnden CPU realisieren.
Ähnliches plant AMD mit "Torrenza". Dieses Projekt lädt Fremdhersteller dazu ein, Hilfsprozessoren
für AMD-CPUs zu entwickeln, die entweder auf einem freien Prozessorsockel auf dem Motherboard Platz
finden oder über einen Hypertransport-Link angebunden sind.
Das Core-Konzept ist zwar auch – aber nicht nur – wegen der erwarteten Leistungssteigerung so
beliebt. Vor allem die Jagd nach dem effizientesten Prozessor, der die geringste Stromaufnahme bei
hoher Rechenleistung benötigt, sorgt für starke Motivation in den Entwicklungsabteilungen.
Schließlich gehören Bladeserver zum am schnellsten wachsenden Marktsegment unter den Servern. Doch
vielen Rechenzentrumsleitern wird langsam klar, dass die extreme Konzentration von CPUs auf
geringem Platz nicht nur Vorteile aufweist. Viel Leistung erzeugt viel Abwärme, und mittlerweile
erreichen Rechenzentren ihre Kapazitätsgrenzen nicht mehr aufgrund mangelnden Platzes, sondern weil
die Kühlung für all diese Systeme Probleme bereitet.
Einfach größere Klimaanlagen zu kaufen, ist selten eine Option. Zum einen erfordern die
Änderungen meist bauliche Maßnahmen, die niemand gern in seinem Rechenzentrum vornehmen will. Zum
anderen ist die Situation in puncto Energieverbrauch – verstärkt durch die Diskussion über den
Klimawandel – grundsätzlich angespannt. Serverhersteller wie Dell kontern mit besonders sparsamen
Gerätemodellen. Die Systeme Poweredge 2970 und Energy Smart 2970 sollen – allerdings bei höherem
Preis – verglichen mit herkömmlichen Servern die doppelte Leistung pro Watt Stromaufnahme bringen
und 34 Prozent weniger Strom verbrauchen. Peter Dümig, System Consultant bei Dell, sieht die
Mehrkosten nicht als Problem: "Bei den aktuellen Strompreisen, haben sich die Systeme in neun bis
zwölf Monaten amortisiert." Erreicht wird dies durch sparsamere RAM-Module, Netzteile mit hohem
Wirkungsgrad und spezielle Prozessoren.
Sowohl AMD als auch Intel haben CPUs mit besonders niedrigem Stromverbrauch im Programm. So
ziehen die Quad-Core-Xeons L5320 und L5310 von Intel nur 50 Watt anstatt 80 oder 120 Watt, und AMDs
High-Efficiency (HE) Opteron kommt mit 68 Watt aus. Mit der Barcelona-CPU sind noch zusätzliche
Energieeinsparungen geplant: Die Quad-Core-CPU kann die Taktfrequenz für jeden Kern getrennt regeln
und entsprechend reduzieren, wenn dieser Kern gerade wenig oder nichts zu tun hat. Auch IBM setzt
auf Niedrigenergie-CPUs und bietet sowohl Bladecenter-Einschübe als auch System-x-Server mit Intel-
oder AMD-Niedrigenergieprozessoren an. Dazu kommen noch besonders energieeffiziente Netzteile, eine
optimierte Luftführung und – bei ausgewählten Blades – optionale Flash-Drives als
Festplattenersatz.
Sun verfolgt einen anderen Ansatz. Gerhard Schlabschi, Leiter Produktmarketing bei Sun
Microsystems sagt: "Unsere Server sind ohnehin sehr energieeffizient, da müssen wir keine
dedizierten Stromsparmodelle herausbringen. Ein T1-Prozessor erreicht mit einmal 70 Watt die
gleiche Leistung wie zwei der modernsten Quad-Core-x86-CPUs mit zweimal 70 Watt. Ein T2-Prozessor
wird bei gleichem Stromverbrauch die doppelte Leistung haben. Netzteile mit hohem Wirkungsgrad sind
darüber hinaus bei uns serienmäßig – nicht aufpreispflichtig." Die Entwickler bei Sun haben eher
das Gesamtbild im Auge: Das Rechenzentrum muss gekühlt werden, nicht der Server an sich. Wie sich
dies effizient und auf geringstem Raum realisieren lässt, zeigt das Blackbox-Konzept, bei dem die
Server-Racks in einem Container untergebracht sind. Kühlplatten zwischen den Racks sorgen dafür,
dass für jedes Rack die Eingangstemperatur gleich niedrig ist. Als Medium kommt Flüssigkeit zum
Einsatz – jedoch nur zwischen und nicht in den Racks.
Hewlett-Packard hingegen sieht dies nicht so eng und kühlt die Racks sehr wohl mit Wasser. Das
HP Modular Cooling System (MCS) bietet eine Kühlleistung von 30 Kilowatt und besteht aus einem
HP-Standard-Rack und einem modular aufgebauten Kühlsystem. Aber auch HP betrachtet das
Rechenzentrum im größeren Rahmen und sieht in ihrem Kühlungskonzept Klimazonen mit thermischen
Messpunkten vor, die Kühlungsenergie gezielt einsetzen und nicht den ganzen Raum herunterkühlen.
Die Server werden dabei durch ein neues Lüfterdesign unterstützt, das nach einem Düsenprinzip
arbeitet und mehr Luftdurchsatz bei geringerer Geräuschentwicklung bringt.
Dell hält den Ansatz, Racks mit Flüssigkeit zu kühlen, ebenfalls für eine gute Idee, sieht aber
noch Schwierigkeiten bei der Kompatibilität unterschiedlicher Rack-Hersteller. "Wenn es eine
gemeinsame Norm oder einen Standard geben würde, wäre sowohl den Serverherstellern als auch den
Kunden geholfen", meint Peter Dümig. Und Gerhard Schlabschi von Sun erinnert daran, dass
Stromsparen nicht alles ist, wenn es um die Umwelt geht. "Wir bauen mittlerweile unsere Gehäuse
komplett aus Aluminium und lackieren die Teile nicht, sondern bürsten sie: Dies erleichtert das
Recycling und senkt den Wasserverbrauch bei der Herstellung."
Virtualisierung hat sich in den letzten 18 Monaten zum Megatrend entwickelt: Immer mehr
Hersteller bieten entsprechende Lösungen an, und die Prozessorhersteller haben durchweg
Virtualisierungsunterstützung in die aktuellste Generation ihrer CPUs eingebaut. Intel bietet "
Vanderpool", AMD "Pacifica", und bei Sun heißen die Virtualisierungserweiterungen "Logical Domains"
. Zusätzlich hat Sun im Betriebssystem Solaris noch die Erweiterung Solaris Container eingebaut,
die die Partitionierung auf Softwareebene erlaubt.
Das Konzept der Hardwareunterstützung funktioniert – in den nächsten Prozessorgenerationen geht
es um dessen Optimierung. Intel plant Verbesserungen bei der Virtualisierung der I/O-Zugriffe.
Derzeit ist es immer noch so, dass ein Port blockiert wird, wenn I/O-Zugriffe darüber erfolgen
sollen – selbst dann, wenn im Moment noch keine Datenübertragung stattfindet. Intels entsprechende
Prozessorerweiterung heißt "Virtualization Technology for Directed I/O" (VT-d), bei AMD nennt sich
die Technik "I/O Memory Mapping Unit" (IOMMU). Damit lässt sich auch die Kommunikation der
virtuellen Maschinen untereinander verbessern, die derzeit noch über die Netzwerkschnittstelle
Daten austauschen und dies künftig per Direct Memory Access (DMA) erledigen können.
Dieses Thema spielt auch stark in die Domäne des I/O-Bussystems hinein – mittlerweile ist dies
fast durchgehend PCI-Express (PCIe). Das zuständige Standardgremium, die PCI-SIG, arbeitet zurzeit
Vorschläge aus, wie eine IO-Virtualisierung aussehen sollte. Virtualisierte Geräte könnten dabei
den virtuellen Maschinen (VM) jeweils eine eigene Schnittstelle anbieten, die diese zur
Kommunikation mit der Außenwelt nutzen.
Auch an der Sicherheit der Virtualisierung arbeiten die Entwickler. AMD wird mit "Barcelona"
Device Exclusion Vector (DEV) einführen, eine Technik die dem Hypervisor mitteilt, welche
Speichersegmente zu einer bestimmten VM gehören und daher von dieser angefordert werden dürfen. Bei
Intel existiert ein ähnliches Konzept, allerdings ist es in Software realisiert und deshalb
langsamer. Mehr Geschwindigkeit wiederum soll der "Tagged Translation Look-aside Buffer" (Tagged
TLB) von AMD bringen. Dabei sind die Daten im Speicher entsprechend ihrer Zugehörigkeit zu einer VM
gekennzeichnet. Sobald eine VM Daten anfordert, wird der Cache – anders als beim Virtual Memory
Management von Xeon – nicht geleert, sondern die Daten anderer VMs werden lediglich "geparkt".
Fordert eine weitere VM Zugriff auf Informationen, sind die Daten nach wie vor im Cache und lassen
sich sehr schnell laden.
Gute Nachrichten kommen auch von der Betriebssystemebene: So ist ab Linux-Kernel 2.6.21 Vmwares "
Virtual Machine Interface" (VMI) integriert. Damit kann der Kernel direkt mit Vmwares Hypervisor
kommunizieren. Eine ähnliche Technik existiert auch für Xen – die Integration ist allerdings erst
in einer späteren Kernel-Version vorgesehen.
Die Fortschritte bei der Virtualisierung bleiben nicht ohne Folgen für den Servermarkt – wenn
auch weit weniger drastische, als dies manche Hersteller befürchtet hatten. Analysen von Gartner
Dataquest belegen, dass die entsprechenden Stückzahlen für den Bereich EMEA im letzten Jahr um 6,8
Prozent stiegen, weltweit sogar um 12,8 Prozent. Allerdings lag das Umsatzwachstum EMEA nur bei
zwei Prozent. Die höheren Stückzahlen trotz Virtualisierungstrend könnten an einem langsamen
Wechsel von RISC-/Unix-Systemen hin zu x86-Architekturen liegen – wie Stephen Josselyn, Analyst bei
IDC, vermutet.
Was die Marktanteile bei den Prozessoren angeht, ist das Bild eindeutig. Nach einer
Isuppli-Studie konnte Intel allein im ersten Quartal 2007 fünf Prozentpunkte von AMD
zurückgewinnen. Damit liegt Intels Marktanteil für alle Prozessoren bei etwa 80 Prozent während AMD
von 15 auf zehn Prozent abgerutscht ist. Alles wartet nun auf "Barcelona", Analysten sind sich aber
noch unsicher, ob AMD mit dem Quad-Core-Prozessor Kunden zurückgewinnen kann.
Der Wettlauf um immer kleinere Strukturen bei der Chipfertigung und damit effizientere CPUs geht
weiter. Intels experimenteller Polaris-Chip bringt 80 Kerne auf einem Trägerelement unter und
schafft Rechenleistungen von bis zu zwei Teraflops. Dabei liegt sein Energieverbrauch mit 200 Watt
relativ niedrig. IBM wiederum gab dieser Tage bekannt, dass sie das nanotechnische
Selbstanordnungsverfahren – ein aus der Natur übernommener Prozess – zum ersten Mal in der
konventionellen Chipherstellung eingesetzt hat. Der natürliche Prozess, der Meeresmuscheln,
Schneeflocken oder Zahnschmelz entstehen lässt, wurde von IBM aufgegriffen, um Billionen kleinster
Löcher zu erzeugen. Diese legen ein isolierendes Vakuum um die kilometerlangen nanoskalierten
Kabelstränge in den Chips. Im IBM-Labor haben Forscher mit dieser Technologie bereits bewiesen,
dass die elektronischen Signale auf den Chips im Vergleich zu konventionellen Chiptechniken
entweder 35 Prozent schneller fließen können, oder 15 Prozent weniger Strom verbrauchen. Dieser
technologische Fortschritt ermöglicht unter Anwendung konventioneller Herstellungstechniken eine
Leistungsverbesserung, die zwei Generationen des Moore?schen Gesetzes entspricht.