Setzt man statt herkömmlicher Dual-Core-Prozessoren Quad-Core-Modelle ein, erhält man je nach Benchmark-Verfahren eine Leistungssteigerung zwischen 40 und 100 Prozent. Eine Leistungsverdoppelung An wird jedoch nur dann erzielt, wenn die Algorithmen und Daten hervorragend in die CPU-Caches passen und keine Daten aus dem Hauptspeicher angefordert werden müssen.
Bei speicherlastigen Algorithmen, beispielsweise Data-Warehouse-Applikationen, kann die Performance aber deutlich schwächer sein, weil sich alle Cores den Front-Side-Bus teilen müssen. Hier ist Bandbreite gefordert.
Um die Ultra-Sparc-T-Prozessoren entsprechend mit Daten versorgen zu können, wurden mehrere Design-Entscheidungen gefällt. So sind innerhalb der CPUs die Cores durch eine Low-Latency-Crossbar verbunden. Sie hilft dabei, die Kohärenz des Cache-Speichers sicherzustellen, wenn ein Thread eines Rechenkerns Daten anfordert. In diesem Fall muss immer geprüft werden, ob die Daten in einem Cache eines anderen Cores liegen, wenn er sie nicht in seinem eigenen Cache-Speicher findet.
Über die Crossbar haben die Cores zudem Zugriff auf die On-Chip-Level-2-Caches. Während sich beim Ultra-Sparc-T1 die acht Cores noch vier Level-2 Caches teilten, wurden beim Ultra-Sparc-T2 und Ultra-Sparc-T2-Plus-Prozessor insgesamt acht separate Level-2 Caches implementiert.
Die Verbindung zu den Speicherbausteinen wurde bei den Ultra-Sparc-T1-CPUs noch per DDR2 (zwei Kanäle) realisiert. Daraus resultierte aber eine extrem hohe Anzahl von Anschluss-Pins an der CPU, nämlich mehr als 1400, weil der T1-Prozessor insgesamt vier Speicherbänke separat ansprechen kann.
Für die Ultra-Sparc-T2- und Ultra-Sparc-T2-Plus-Prozessoren wurde daher auf FB-DIMMs (Fully-buffered) zurückgegriffen, die gegenüber DDR2 eine bis zu viermal höhere Bandbreite aufweisen. Durch das Protokoll ergibt sich zudem ein einfacheres Motherboard-Design und eine geringere Zahl von Anschlusspins bei den CPUs.
Außerdem stellt sich die Frage nach dem I/O-Bereich. Bei klassischen Server-Designs spricht die CPU selber über ein bestimmtes Protokoll mit der Außenwelt. So wurde bei den Ultra-Sparc-IIIi-Prozessoren der JBUS für die Kommunikation mit dem Hauptspeicher und den I/O-Bausteinen eingesetzt. Die höherwertigen Ultra-Sparc III, IV und IV+ nutzen das Sun-eigene »Safari«-Protokoll, das eine Skalierung über mehr als 100 Cores in High-End-Systemen ermöglicht.
Die I/O-Komponenten mussten dann jedoch an dieses Protokoll angepasst werden, damit sie sich ebenfalls mit den CPUs und den Speicher-DIMMs unterhalten konnten. Bei den Ultra-Sparc-CMT-Prozessoren ging Sun einen neuen Weg: Hier wurden die I/O-Komponenten direkt auf den Prozessoren implementiert. Die Vorteile dabei liegen auf der Hand: