Accueil Réflexion prospective Ivytown, rouleau compresseur, processus 14 et 16 nm mettent en évidence les problèmes

Ivytown, rouleau compresseur, processus 14 et 16 nm mettent en évidence les problèmes

Vidéo: Trans-Siberian Orchestra - Christmas Canon (Official Music Video) (Novembre 2024)

Vidéo: Trans-Siberian Orchestra - Christmas Canon (Official Music Video) (Novembre 2024)
Anonim

Alors que les vendeurs de puces n'introduisent généralement pas de nouvelles puces lors de la conférence annuelle ISSCC (International Solid State Circuits), ils donnent souvent plus de détails sur le fonctionnement interne des produits déjà annoncés. Voici quelques trucs que j'ai trouvés intéressants au spectacle de cette semaine.

Architecture de serveur Ivytown d'Intel

Intel a présenté la dernière version de sa famille de processeurs Xeon E7, une puce comportant jusqu'à 15 cœurs et 30 threads, connue sous le nom d'Ivytown. Il est basé sur l'architecture Ivy Bridge EP utilisée dans le Xeon E5 2600 V2. Le processeur est construit à l'aide de la technologie de traitement 22 nm d'Intel et de transistors Tri-Gate (les ailettes ont une hauteur de 34 nm et une largeur de 8 nm) et remplacera l'actuel Xeon E7 basé sur Westmere EX. En comparaison, le Xeon E7 actuel, qui est produit sur un processeur HKMG planaire de 32 nm, a 10 cœurs et 20 threads et 30 Mo de cache L3, contre 37, 5 Mo dans la version Ivytown.

L’une des caractéristiques les plus intéressantes de cette nouvelle famille de processeurs est son architecture modulaire. Le plan d'étage se compose de trois colonnes de cinq cœurs, chacune avec sa propre tranche de cache L3, un bus en anneau intégré et des E / S dédiées en haut et en bas des colonnes (liaisons QPI en haut et contrôleur de mémoire en bas). Intel prévoit de créer une version à 10 cœurs en supprimant la colonne de droite. et pour créer une version à 6 cœurs en supprimant deux lignes.

La version à 15 cœurs comporte 4, 31 milliards de transistors (ce qui, selon Intel, est le plus puissant des microprocesseurs) et mesure 541 millimètres carrés. La version à 10 cœurs comporte 2, 89 milliards de transistors et mesure 341 millimètres carrés. La variante à 6 cœurs a 1, 86 milliard de transistors et mesure 257 millimètres carrés. Les fréquences de fonctionnement vont de 1, 4 GHz à 3, 8 GHz avec des TDP allant de 40 W à 150 W.

L’autre aspect intéressant d’Ivytown est son architecture de mémoire tampon. La même puce prend en charge la mémoire DDR3 standard à quatre canaux fonctionnant jusqu'à 1867MT / s et une nouvelle interface VMSE à quatre canaux avec une mémoire tampon d'extension de mémoire fonctionnant à 2667 MT / s. Au total, il peut prendre en charge jusqu'à 12 To de mémoire sur un serveur à 8 sockets, soit trois fois la capacité de mémoire de Westmere EX. La version à 15 cœurs sera disponible dans deux packages différents: un compatible avec la plate-forme Romley existante (Socket-R) pour faciliter les mises à niveau et un autre permettant une nouvelle plate-forme utilisant des mémoires tampons.

Plus de détails Haswell

Intel a également donné un certain nombre de détails sur l'architecture Haswell, utilisée dans la famille Core actuelle. Ceci utilise également des transistors Tri-Gate de 22 nm. Selon Intel, Haswell intègre plusieurs nouvelles technologies, notamment un régulateur de tension entièrement intégré ou FIVR (consolidant la plate-forme de cinq régulateurs de tension à un), un cache DRAM intégré pour de meilleures performances graphiques, des états de consommation réduite, des E / S optimisées, des instructions AVX2 et un unité entière SIMD plus large.

Haswell comporte trois variantes de base: premièrement, il existe un quad-core qui communique avec un PCH (Platform Controller Hub) séparé avec des graphiques plus rapides (deux à quatre cœurs). Deuxièmement, il existe une plate-forme ultra-livre combinant un processeur Haswell double cœur et le PCH dans un boîtier unique à puces multiples. Le processeur prend en charge les états à faible consommation, le PCH est modifié pour une consommation inférieure et les deux communiquent via un bus à faible consommation, réduisant ainsi la consommation en veille de 95%. Enfin, il existe une version avec des graphiques Iris Pro et un cache eDRAM de 128 Mo dans le même package. Les packages multi-puces utilisent une entrée-sortie intégrée qui fournit une bande passante élevée à faible consommation d'énergie entre le processeur, PCH et eDRAM.

En fonction du nombre de cœurs de processeur et des graphiques (GT2 ou GT3), Haswell dispose de 960 millions à 1, 7 milliard de transistors et la puce mesure 130 à 260 millimètres carrés. Il est conçu pour fonctionner entre 0, 7 et 1, 1 volt avec une large gamme de fréquences allant de 1, 1 à 3, 8 GHz.

La puce eDRAM de 128 Go mesure 77 millimètres carrés et offre une bande passante maximale de 102 Go / s. Intel a déclaré que, comparé au même système sans eDRAM, le cache supplémentaire offre des gains de performances pouvant atteindre 75%, bien que les performances globales augmentent de 30 à 40%.

Le Steamroller d'AMD propulse Kaveri

AMD, qui a tendance à utiliser davantage de graphiques sur ce qu’il appelle ses unités de traitement accélérées (APU, ou processeurs combinant processeurs et graphiques), se concentre sur son nouveau cœur, appelé Steamroller, qui est utilisé dans la nouvelle série de processeurs Kaveri de la société. Le cœur du Steamroller, produit dans un processus CMOS en vrac de 28 nm, compte 236 millions de transistors dans une zone de 29, 47 millimètres carrés. Cela inclut deux cœurs entiers, deux unités de décodage d'instructions et plusieurs éléments partagés, y compris la récupération d'instruction, l'unité à virgule flottante et 2 Mo de mémoire cache N2. AMD utilise généralement l’un de ces modules Steamroller dans ses puces «double cœur» (reflétant les deux cœurs entiers); et deux dans ses puces "quad-core".

Comparé au noyau Piledriver précédent, produit sur un processus SOI de 32 nm, Steamroller ajoute une deuxième unité de décodage d’instructions, un cache d’instructions partagées plus volumineux de 96 Ko et d’autres améliorations. Selon AMD, cela a entraîné une augmentation du nombre d'instructions jusqu'à 14, 5% par cycle, ce qui se traduit par une performance améliorée de 9% sur les applications à un seul thread et de 18% sur les applications à double fil. Il peut également fonctionner à une fréquence supérieure de 500 MHz à la même puissance ou offrir à peu près les mêmes performances avec une réduction de puissance de 38%. Le noyau du Steamroller est conçu pour fonctionner dans une plage de 0, 7 à 1, 45 volts.

Processeurs mobiles de MediaTek, Renesas et Qualcomm

Un certain nombre de sociétés ont présenté des exposés sur leurs processeurs basés sur ARM.

MediaTek a parlé de son processeur multi-cœur (HMP) hétérogène de 28 nm avec un processeur à quatre coeurs et un double processeur graphique. La puce MediaTek comporte deux cœurs Cortex A15 cadencés à 1, 8 GHz et deux cœurs Cortex A7 cadencés à 1, 4 GHz, associés à un GPU double cœur Imagination G6200 400 MHz. Il dispose également d'un codec vidéo matériel Full HD et d'un processeur de capteur d'image de 13 mégapixels.

MediaTek a également parlé de la technologie PTP (Performance, Thermal et Power) qui surveille la puce et contrôle l’alimentation. Dans ce cas, la société a déclaré que PTP permettait une augmentation de 23% de la vitesse d'horloge ou une économie d'énergie pouvant atteindre 41%.

Cette puce utilise le véritable traitement HMP d’ARM, ce qui signifie que toute combinaison de petits et grands noyaux de un à quatre peut être exécutée en fonction de la charge de travail. MediaTek a déclaré qu'en utilisant de véritables technologies HMP, la puce pouvait offrir des performances supérieures de 33 à 51% sur des charges de travail lourdes ou une efficacité énergétique supérieure de 2 à 5 fois supérieure, tandis que la gestion thermique adaptative offrait un gain de performances supplémentaire de 10%.

Renesas a présenté un processeur "proposé" à huit cœurs hétérogène HPM 28 nm conçu pour les appareils mobiles et les systèmes d’information multimédia. La puce utilise quatre cœurs Cortex A15 à 2 GHz et quatre cœurs Cortex A7 à 1 GHz. Il est capable d'exploiter simultanément les 8 cœurs pour une performance optimale, mais il utilise également une architecture hétérogène et des techniques de gestion de l'alimentation permettant d'optimiser les performances de certaines charges de travail ou enveloppes d'alimentation.

Qualcomm a décrit son processeur de signal numérique Hexagon, utilisé dans ses systèmes sur puce mobiles pour diverses applications multimédias et modems. La version actuelle est fabriquée selon le procédé CMOS en vrac HKMG de 28 mm. Cette conception vise des instructions élevées par horloge plutôt que des fréquences de fonctionnement élevées.

Sur le serveur ARM, Applied Micro a présenté le processeur ARMv8 64 bits de première génération de la société, annoncé lors du dernier sommet Open Compute. Ceci est basé sur un module de processeur "Potenza" (PMD), qui comprend deux cœurs partageant 256 Ko de cache L2. Potenza est fabriqué en CMOS en vrac de 40 nm et chaque PMD contient 84 millions de transistors et utilise une surface de 14, 8 millimètres carrés. Il peut fonctionner à une fréquence pouvant atteindre 3 GHz à 0, 9 volt, mais consomme en moyenne 4, 5 W sous des charges de travail typiques. La plate-forme de serveur X-Gene 3 comprend quatre PMD (huit cœurs), un cache L3 partagé de 8 Mo et quatre canaux de mémoire DRAM autour d’un commutateur central. Il intègre également 10 Go Ethernet, SATA 2/3, PCIe Gen. 3 et USB 3.0.

La nouvelle génération de technologie de traitement de puce

Quelques présentations ont également eu lieu sur la prochaine génération de technologie de traitement de puces, car presque tous les principaux fabricants de puces envisagent de passer à la production 3D ou FinFET, au nœud 14 ou 16 nm (après Intel, qui fournit déjà des puces de 22 nm avec une telle technologie).

Samsung a parlé de son prochain processus FinFET 14 nm, montrant une matrice SRAM de 128 Mo et une puce de test. Samsung a déclaré que les FinFET sont une bonne solution pour les SoC mobiles de faible puissance, car ils offrent une bonne mise à l'échelle, des fuites importantes et une faible fuite, ainsi qu'un bon contrôle des canaux courts.

Cela pose également certains problèmes aux SRAM, car la tension d’alimentation de celles-ci n’a pas été mise à l’échelle. La mémoire SRAM occupe maintenant entre 20 et 30% de la surface d’un SoC, mais elle consomme environ 40 à 50% de l’énergie. Pour remédier à ces problèmes, Samsung a proposé de nouvelles techniques permettant de faire fonctionner des mémoires SRAM utilisant des transistors FinFET avec une tension d’alimentation inférieure.

TSMC a abordé des problèmes similaires en mettant en avant sa puce SRAM de 16 nm à 128 Mo. TSMC a déclaré que les FinFET sont devenus une technologie courante pour la production au-delà de 20 nm, mais que la taille de la largeur et de la longueur du canal avec FinFET est un défi pour la mise à l'échelle de la SRAM 6T conventionnelle et de la tension d'alimentation. TSMC a proposé deux techniques d'assistance en écriture pour résoudre ces problèmes.

Ce sont des problèmes assez techniques, mais la résolution de ces problèmes est essentielle si nous voulons obtenir des puces plus denses et plus efficaces en énergie.

Ivytown, rouleau compresseur, processus 14 et 16 nm mettent en évidence les problèmes