Schneller als Apple und Qualcomm

Nvidias erste eigene CPU rasiert die Konkurrenz

22. August 2014, 11:16 Uhr | Lars Bube

Fortsetzung des Artikels von Teil 5

Tegra K1 mit Kepler-GPU

Denver schlägt Apples A7 und Cortex-A57. ST=Single-Thread, MT=Multi-Thread. *: Relativ zu einem 1,0-GHz-ARM-Cortex-A9. ***: Ermittelt mit Manhattan Offscreen 1080p von www.gfxbench.com (Quelle: Hersteller, außer **:Schätzung der Elektronik).
Denver schlägt Apples A7 und Cortex-A57. ST=Single-Thread, MT=Multi-Thread. *: Relativ zu einem 1,0-GHz-ARM-Cortex-A9. ***: Ermittelt mit Manhattan Offscreen 1080p von www.gfxbench.com (Quelle: Hersteller, außer **:Schätzung der Elektronik).
© Elektronik

Wie es auch für seine letzten Prozessoren zeigte Nvidia kunstvollen Zeichnungen anstelle tatsächlicher Die-Fotos. Diese Kunstwerke zeigen, dass jede Denver-CPU die gleiche Chipfläche wie zwei A15-Cores belegt. Durch den Wegfall eines Befehlsdekoders und viel von der OOO-Komplexität sollte Denver in der Theorie kleiner als ein Cortex-A15 sein, aber mehrere Faktoren geben den Ausschlag in die andere Richtung.

Der 128 KB große Befehls-Cache, der die breiten Mikrobefehle aufnimmt, ist vier Mal größer als beim A15 und belegt erhebliche Chipfläche. Die Dual-128-Bit-Neon-Einheiten sind doppelt so groß wie beim A15. Und man darf nicht vergessen, dass der Cortex-A15 ein 32-Bit-ARMv7-Design ist, was bedeutet, dass Denver alle Integer-Datenpfade verdoppelt. Diese Änderung allein erfordert mindestens 20 % zusätzlicher Chipfläche. Die Code-Übersetzung erfordert auch einige inkrementelle Logik, darunter zusätzliche Tabellen in der Verzweigungseinheit und Hardware-Überprüfung auf Laufzeit-Probleme, die der Optimierer nicht antizipieren kann.

Nvidia gibt keine spezifischen Daten bezüglich der Leistungsaufnahme bekannt, aber der Zwei-zu-Eins-Austausch bedeutet, dass jeder Denver-Core in etwa die doppelte Leistung des Cortex-A15 aufnimmt. Die Leistungsaufnahme ist in etwa proportional zur Anzahl der Transistoren, so liegt dieses Verhältnis im Einklang mit Denvers größerer Chipfläche. Der Tegra K1-32 (und frühere Tegra-Prozessoren) hatten einen „Begleiter-Core“, der für einen Low-Power-Betrieb bei geringen Workloads optimiert ist. Der K1-64 hat diesen Core nicht und operiert einfach bei niedrigeren Taktfrequenzen und Versorgungsspannungen, wenn die Arbeitsbelastung sinkt. Qualcomm hat diesen Ansatz einst mit seinen Krait-CPUs eingeführt.

Bei Denver hat Nvidia hat einen neuen Energiezustand CC4 eingeführt, der die Spannung der CPU unter den minimalen Betriebswert senkt, aber über der Mindestspannung für SRAM-Statusbewahrung liegt. Die CPU kann in nur 150 µs (abhängig von der Anstiegsgeschwindigkeit der Versorgungsspannung) jeweils in den Zustand CC4 eintreten und diesen wieder verlassen, so dass dieser Energiesparmodus häufig genutzt werden kann. Traditionelles Power-Gating hingegen erfordert Löschen und Neuladen der Caches und Register und sollte nur verwendet werden, wenn die CPU mindestens für eine zweistellige Zahl von Millisekunden im Leerlauf sein wird.

In der meisten anderen Hinsicht ist der Tegra K1-64 identisch mit dem K1-32. Beide Chips beinhalten eine Kepler-GPU mit 192 Schattierern und OpenGL 4.4-Unterstützung. Im Xiaomi MiPad liefert der K1-32 beim Manhattan-Offscreen-Test 27 Frames/s und schlägt damit Qualcomms neuen Snapdragon-805 und Apples A7-Prozessor (Tabelle). Mit 4K-Auflösung bei Dekodieren und Codieren von Videos schließt der Chip zum Wettbewerb auf.


  1. Nvidias erste eigene CPU rasiert die Konkurrenz
  2. Optimierer analysiert den ARM-Code und übersetzt ihn in den CPU-nativen Mikrocode
  3. Front-End verarbeitet zwei Befehlstypen
  4. Mikrokodierte Ausführungs-Engine
  5. Blick auf die Pipeline
  6. Tegra K1 mit Kepler-GPU
  7. Branchenführende CPU-Leistung
  8. Auswirkungen der dynamischen Übersetzung
  9. Die weitere Tegra-Roadmap
  10. Hoch über seine Rivalen

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu NVIDIA Corporate

Matchmaker+