Vidéo: Nvidia to buy chip designer Arm for $40 billion as SoftBank exits (Novembre 2024)
L’annonce de Broadwell par Intel a suscité l’enthousiasme pour les puces la semaine dernière, mais un certain nombre de puces ont également été examinées en détail lors de la conférence annuelle Hot Chips.
Le salon est connu pour ses puces haut de gamme, avec Intel, Oracle et IBM discutant de leurs dernières entrées, mais seul le Sparc M7 d’Oracle était vraiment nouveau. Au lieu de cela, une grande partie de la série a fini par se concentrer sur les produits ARM, y compris les premiers détails de la prochaine version "Denver" 64 bits de son processeur Tegra K1
Oracle, Intel et IBM visent les puces de serveur
Parmi les puces haut de gamme, les nouvelles les plus impressionnantes sont venues d’Oracle, qui a parlé de la prochaine génération de son processeur SPARC, connu sous le nom de M7. Cette puce aura 32 cœurs SPARC S4 (chacun avec jusqu'à huit threads dynamiques), 64 Mo de cache L3, huit contrôleurs de mémoire DDR4 (jusqu'à 2 To par processeur et 160 Go / s de bande passante de mémoire avec DDR4-2133) et huit accélérateurs d'analyse de données connectés un réseau sur puce.
La puce est organisée en huit grappes avec quatre cœurs avec chacun un cache L2 partagé et un cache partitionné de 8 Mo avec une bande passante supérieure à 192 Go / s entre un cluster principal et son cache L3 local. Comparé au M6 (une puce de 28 nm dotée de 12 cœurs SPARC S3 à 3, 6 GHz), le M7 offre des performances 3 à 3, 5 fois supérieures sur la bande passante mémoire, le débit entier, OLTP, Java, les systèmes ERP et le débit à virgule flottante. Stephen Phillips, directeur principal de SPARC Architecture chez Oracle, a déclaré que l'objectif était une augmentation progressive des performances, plutôt que des gains incrémentiels.
Le M7 peut s’adapter à 8 prises sans colle (jusqu’à 256 cœurs, 2 000 threads et 16 To de mémoire), et avec un commutateur ASIC pour gérer le trafic entre elles dans une configuration SMP, jusqu’à 32 processeurs, de sorte que vous puissiez vous retrouver avec un système avec 1 024 cœurs, 8 192 threads et jusqu'à 64 To de mémoire. Assez impressionnant. Oracle indique qu'il offre des performances 3 à 3, 5 fois supérieures sur différents tests par rapport au SPARC M6 de l'année dernière. La société a déclaré que cette solution serait optimisée pour la pile logicielle propre à Oracle, fabriquée sur un processus de 20 nm et disponible dans les systèmes l’année prochaine.
IBM a également donné plus de détails sur sa ligne Power8, annoncée lors du salon de l'année dernière. Cette version de la puce comportait 12 cœurs, chacun comportant jusqu'à huit threads avec 512 Ko de cache SRAM de niveau 2 par cœur (6 L au total) et 96 Mo de mémoire DRAM intégrée partagée en tant que cache de niveau 3. Cette énorme puce, qui mesure 650 millimètres carrés avec 4, 2 milliards de transistors, est fabriquée selon le processus SOI 22 nm d’IBM et a commencé à être expédiée en juin, selon IBM.
Il y a quelques mois, IBM a annoncé une version à six cœurs de 362 mm 2. La conférence de cette année portait sur la manière dont IBM peut combiner deux des versions à six cœurs en un seul package avec 48 voies de PCIe Gen 3. IBM a déclaré qu'une version à deux sockets comportant un total de 24 cœurs et 192 threads surperformera un processeur à deux processeurs. Serveur Xeon Ivy Bridge à 24 cœurs (avec 48 threads). IBM vend Power principalement sur des marchés hautement performants et spécialisés. La plupart des gens ne comparent donc pas les deux, mais c’est intéressant. Dans le but de rendre l'architecture Power plus traditionnelle, IBM a annoncé l'année dernière l'Open Power Consortium. Cette année, la société a annoncé qu'elle disposait d'une pile logicielle open-source complète pour la plate-forme. Mais jusqu’à présent, seul IBM a annoncé un serveur basé sur la plate-forme.
Intel a parlé d '"Ivytown", la version serveur d'Ivy Bridge, qui inclut les versions du Xeon E5 introduites il y a un an et du Xeon E7 introduites en février. La conférence de cette année portait sur la manière dont Intel dispose désormais d'une architecture pouvant couvrir les deux marchés, avec des puces pouvant accueillir jusqu'à 15 cœurs, deux contrôleurs de mémoire DDR3, trois liaisons QPI et 40 voies PCI Gen 3, disposées dans un sol modulaire. plan qui peut être transformé en trois matrices différentes, chacune conçue pour différentes prises, avec un total de plus de 75 variantes. Ceci peut être utilisé dans des serveurs à deux, quatre et huit sockets sans interconnexions spéciales.
Bien entendu, ces puces constituent la majeure partie des achats de serveurs de nos jours, car Intel représente la grande majorité des unités de serveur. Une grande partie des informations étaient auparavant couvertes par ISSCC et Intel devrait présenter très prochainement la prochaine version de la famille E5 (E5-1600v3 et E5-2600 v3), basée sur une version mise à jour utilisant une variante du Architecture de Haswell appelée Haswell-EP. (La semaine dernière, Dell a annoncé de nouveaux postes de travail basés sur ces nouvelles puces.)
Intel a également évoqué son Atom C2000, connu sous le nom d'Avoton, entré en production à la fin de 2013. Cette puce, ainsi que les puces Ivy Bridge et Haswell, sont toutes basées sur le processus 22 nm d'Intel.
Nvidia, AMD et Applied Micro visent de nouveaux marchés pour ARM
La plus grande surprise de la série a probablement été la focalisation sur la technologie basée sur ARM, y compris les discours des orateurs ARM et les détails de Nvidia sur sa prochaine version "Denver" de son processeur Tegra K1.
Dans un discours liminaire, Mike Muller, CTO d’ARM, a abordé les contraintes de puissance dans tous les domaines, des capteurs aux serveurs, et a mis l’accent sur la manière dont ARM essayait de se développer dans l’entreprise. Muller a également avancé l'idée d'utiliser des puces de capteurs ARM pour l'Internet des objets, un sujet repris également dans une allocution de Rob Chandhok de Qualcomm. Mais aucune des deux sociétés n’a annoncé de nouveaux cœurs ou processeurs.
Au lieu de cela, la grande nouvelle sur ce front est venue de Nvidia, qui a donné beaucoup plus de détails sur la nouvelle version de son processeur K1. Lorsque le projet de la société à Denver a été annoncé pour la première fois, il semblait que cette puce serait destinée au marché de l'informatique haute performance, mais la société semble désormais s'être davantage concentrée sur les tablettes et le marché de l'automobile. Le Tegra K1 sera disponible en deux versions. Le premier, annoncé plus tôt cette année et actuellement disponible sur la tablette Shield de la société, comprend quatre cœurs ARM Cortex-A15 32 bits, ainsi qu'un "noyau compagnon" basse consommation dans la configuration 4 + 1 proposée par Nvidia. sa ligne Tegra depuis plusieurs années.
La version de Denver est assez différente avec deux nouveaux cœurs propriétaires 64 bits conçus par Nvidia, et la société vante réellement les gains de performances qu’elle obtient. Le noyau est superscalaire à sept voies (ce qui signifie qu’il peut exécuter jusqu’à sept micro-opérations simultanément) et possède un cache d’instruction L1 à quatre voies de 128 Ko et un cache de données L1 à quatre voies de 64 Ko. La puce associe deux de ces cœurs, ainsi qu’un cache de niveau 2 de 2 Mo qui dessert les deux cœurs, comme les 192 "cœurs CUDA" (cœurs graphiques) qu’elle partage avec le K1 32 bits. En tant que tel, il représente un grand départ de l’architecture 4 + 1.
Un grand changement concerne ce que Nvidia appelle "l'optimisation dynamique de code", conçue pour prendre le code ARM fréquemment utilisé et le convertir en un micro-code spécialement optimisé pour le processeur. Cette mémoire est stockée dans 128 Mo de mémoire cache (extraite de la mémoire principale du système traditionnel). L'objectif est de lui donner les performances d'une exécution dans le désordre sans nécessiter autant de puissance que cette technique utilise habituellement. Le concept n’est pas nouveau - Transmeta l’a essayé il ya plusieurs années avec sa puce Crusoe - mais Nvidia affirme que cela fonctionne désormais beaucoup mieux.
Nvidia a présenté plusieurs critères, affirmant que la nouvelle puce pouvait atteindre des performances nettement supérieures à celles des processeurs mobiles à quatre ou huit cœurs existants - citant notamment le Snapdragon 800 (MSM8974) de Qualcomm, le Apple A7 (parfois appelé Cyclone) utilisé sur iPhone 5s - et même certains processeurs PC traditionnels. Nvidia a déclaré avoir surperformé un processeur Atom (Bay Trail) et était similaire au processeur Intel 1.4GHz dual-core Celeron (Haswell). Bien sûr, j’ai tendance à prendre les chiffres de performance des fournisseurs avec un grain de sel: non seulement les fournisseurs choisissent les repères, mais il n’est pas évident que nous parlions des mêmes vitesses d’horloge ou de la même puissance absorbée.
Pendant ce temps, dans les puces destinées davantage aux serveurs, AMD a parlé davantage de son Opteron A1100, connu sous le nom de "Seattle", la société déclarant qu'il échantillonnait actuellement et qu'il devrait être disponible sur les serveurs vers la fin de cette année. Cette puce comporte huit cœurs de processeur Cortex A57 64 bits; 4 Mo de cache N2 et 8 Mo de cache N3; deux canaux de mémoire pour jusqu'à 128 Go de mémoire DDR3 ou DDR4 avec correction d'erreur; beaucoup d'E / S intégrées (8 voies chacune de PCIe Gen3 et 6 Gbps SATA et deux ports Ethernet 10 Gbps); un "processeur de contrôle système" Cortex A5 pour un démarrage sécurisé; et un accélérateur pour accélérer le cryptage et le décryptage. Il est fabriqué sur le procédé 28 nm de GlobalFoundries. AMD n'a pas encore donné de détails sur la fréquence, la puissance ou les performances de la puce, mais a montré un schéma de base de la puce. (au dessus de)
Applied Micro revendique depuis longtemps la première puce de serveur ARM sur le marché, avec son X-Gene 1 (connu sous le nom de Storm) contenant 8 cœurs ARMv8 propriétaires de 2, 4 GHz, quatre contrôleurs de mémoire DDR3, PCIe Gen3 et SATA à 6 Gbps, et Ethernet 10 Gbps.. Ceci est actuellement en production sur le procédé 40 nm de TSMC, indique la société.
Aux Hot Chips, Applied Micro a poussé sa conception X-Gene 2 (Shadowcat), qui sera disponible avec huit ou 16 cœurs "améliorés", fonctionnant à une vitesse de 2, 4 à 2, 8 GHz, et ajoute un hôte RoCE (RDMA sur Ethernet convergé) Channel Adapter en tant qu’interconnexion conçue pour permettre des connexions à faible temps de latence entre des grappes de microserveurs. Ceci est conçu pour être utilisé dans des grappes, avec un seul rack de serveur prenant en charge jusqu'à 6 480 threads et 50 To de mémoire, partageant tous un même pool de stockage. La société a déclaré que le X-Gene 2 offrira une performance entière supérieure d’environ 60%, deux fois celle de Memcache et une desserte Web Apache d’environ 25% supérieure. Il est fabriqué sur un processus de 28 nm et est en cours d'échantillonnage.
Applied Micro affirme que le X-Gene 2 comble un fossé entre les microserveurs concurrents (Cavium ThunderX, Intel Atom C2000 "Avoton" et AMD Opteron A1100 "Seattle") et les serveurs Xeon de taille normale. Il a donné quelques détails sur la prochaine génération, le X-Gene 3 (Skylark), qui devrait commencer l'échantillonnage l'année prochaine. Cette puce aura 16 cœurs ARMv8 fonctionnant jusqu'à 3 GHz et sera fabriquée à l'aide de la technologie FinFet 16 nm.