Entwickelt wurde die Skylake-Architektur vier Jahre lang im Design-Center in Haifa. Die Chips werden wie auch die vorangegangenen Generationen mit vier unterschiedlichen Maskensätzen gefertigt, um damit der unterschiedlichen Anzahl von CPU-Cores (2 oder 4) und Ausführungseinheiten der GPU (GT2, GT3e und neuerdings GT4e) Rechnung zu tragen. Ein weiteres Differenzierungsmerkmal der unterschiedlichen Modelle ist das Embedded-DRAM, das 64 MB bei GT3e bzw. 128 MB bei GT4e groß ist. Wie Bild 2 zusätzlich zeigt, liegt der L3-Cache auf dem Chip anders als bislang jeweils um ein Core-Paar herum. Hinzugekommen ist ein Bildsignal-Prozessor (ISP) on Chip für bis zu vier Kameras und Bildsensoren mit bis zu 13 Megapixeln.
Hinsichtlich der Offenlegung von Details der CPU-Cores hielt sich Intel merklich zurück. Klar ist, dass die Sprungvorhersage mehr Einträge beinhaltet und die Prefetch-Stufen Daten schneller in die Caches übertragen können. Der Puffer für die sogenannten Mikro-Ops, in welche komplexe x86-Instruktionen übersetzt werden, soll hingegen weiterhin 1.500 Einträge umfassen. Mehr Einträge beinhaltet hingegen der Puffer für die Out-of-Order-Befehlsausführung (224 statt 192 bei Haswell, Bild 3), was zu einer besseren „Fütterung“ der einzelnen Ausführungseinheiten führt. Auch die Reservation-Station, in welcher die an die einzelnen Ausführungseinheiten zu übergebenden Instruktionen bis zu ihrer Verteilung zwischengespeichert werden, kann mit 97 mehr Einträge als jemals zuvor aufnehmen. Statt 168 gibt es jetzt 180 Integer-Register, was natürlich die Zugriffe auf Caches und externen Speicher reduziert, da mehr Variablen in Registern gespeichert werden können. Ein Blick auf den Die zeigt jedoch auch, dass die CPU-Cores dank dieser ganzen Maßnahmen enorm an Fläche (und Transistoren) zugelegt haben. Aus der Reservation-Station können übrigens wie beim Vorgänger Haswell bis zu sechs Mikro-Ops pro Taktzyklus an die Ports verschickt werden.
Bild 4 fasst den generellen Aufbau grob zusammen, was allerdings insofern wertlos erscheint, da dieser seit der Vor-Vorgängergeneration „Sandy Bridge“ unverändert aussieht – die Unterschiede der einzelnen Mikroarchitekturen liegen eben im Detail, und dies geht aus dieser Grobdarstellung eben gerade nicht hervor. Bedauerlicherweise hat Intel den Aufbau des Backends, insbesondere die Anzahl der Ausführungseinheiten und deren Aufgaben, nicht verraten. Die offizielle Angabe von „mehr als drei Ports“ ist vollkommen wertlos, da schon bei der Haswell-Architektur deren Anzahl von 6 auf 8 erhöht wurde. Tatsächlich wurde in einer IDF-Präsentation mündlich bestätigt, dass die Anzahl der Ausführungseinheiten bei Skylake erhöht wurde, deren Latenzzeiten zudem gesunken sind. Wieviele Taktzyklen jedoch z.B. Integer- oder Gleitkomma-Befehle zur Abarbeitung benötigen, wurde im Detail nicht verraten. Die für Vektoroperationen zuständigen Ausführungseinheiten (AVX2) werden je nach Applikations-Typ entweder extrem oder gar nicht genutzt. Für letztere, zu denen man wohl u.a. die meisten Büroanwendungen zählen darf, wurde eine dedizierte Power-Gating-Funktion implementiert, mit der man die AVX2-Einheiten abschalten und damit die lästigen Leckströme unterdrücken kann. Bemerkenswerte Änderungen gab es bei der Cache-Architektur. Während der L1-Cache mit jeweils 32 KB für Daten und Instruktionen gleich bleib und auch gegenüber Haswell keine Geschwindigkeitssteigerung pro Taktzyklus vermelden kann, arbeitet der 1 MB große L2-Cache statt achtfach-assoziativ nur noch vierfach-assoziativ, um Energie zu sparen. Eigentlich müsste man annehmen, dass hierdurch der Datendurchsatz reduziert würde, aber weit gefehlt: Die Übertragungsrate zwischen dem 4 oder 8 MB großen und von allen Cores geteilten Last-Level-Cache und dem L2-Cache konnte verdoppelt werden, was insbesondere bei Cache-Misses in L1- und L2-Cache zu schnelleren Datenzugriffen führt. Auch die mitunter sehr langen Wartezeiten durch Page-Misses im TLB wurden deutlich verkürzt, der Prefetch verbessert, die Puffer vergrößert. Mehr wollte Intel zur CPU-Seite nicht sagen. Im Vergleich dazu ist die Informationspolitik auf der GPU-Seite extrem offen, selbst wenn hier auch noch einige Details schwammig bleiben.