Table des matières:
Vidéo: Pourquoi les gens ne naissent pas avec des yeux noirs ? (Novembre 2024)
Lors de la conférence SC16 Supercomputing de ce mois-ci, deux tendances se sont dégagées. Le premier est l’apparition du dernier Xeon Phi (Knights Landing) d’Intel et du dernier Tesla de Nvidia (le P100 basé sur Pascal) sur la liste Top500 des ordinateurs les plus rapides au monde; Les deux systèmes ont atterri dans le top 20. Le second met l'accent sur la façon dont les fabricants de puces et de systèmes utilisent les concepts des systèmes d'apprentissage automatique modernes et les appliquent aux superordinateurs.
Dans la révision en cours de la liste Top500, qui est mise à jour deux fois par an, le sommet du tableau est toujours entre les mains de l'ordinateur Sunway TaihuLight du centre national de superinformatique de Chine à Wuxi et de l'ordinateur Tianhe-2 du super ordinateur national de Chine. Centre à Guangzhou, comme depuis le salon ISC16 de juin. Aucun autre ordinateur n’est proche de la performance totale. Les systèmes classés aux troisième et quatrième rangs - toujours le superordinateur Titan à Oak Ridge et le système Sequoia à Lawrence Livermore - fournissent tous deux environ la moitié des performances de Tianhe-2.
Le premier est basé sur un processeur chinois unique, le SW26010 à 1, 45 GHz, qui utilise un cœur RISC 64 bits. Cela a un nombre inégalé de 10 649 600 noyaux fournissant 125, 4 pétaflops de débit de pointe théorique et 93 pétaflops de performances mesurées maximales sur la référence Linpack, avec une puissance de 15, 4 mégawatts. Il convient de noter que, même si cette machine est en tête des performances Linpack de loin, elle ne se comporte pas aussi bien dans les autres tests. Il existe d’autres références, telles que la référence HPCG (Gradients Conjugués Conjugués), où les machines ont tendance à ne voir que 1 à 10% de leurs performances maximales théoriques, et où le système de pointe, dans ce cas la machine Riken K, fournit toujours moins de performances. que 1 pétaflop.
Mais les tests Linpack sont la norme pour parler du calcul haute performance (HPC) et de ce qui est utilisé pour créer la liste Top500. En utilisant les tests Linpack, la machine n ° 2, Tianhe-2, était n ° 1 sur la carte ces dernières années et utilisait les accélérateurs Xeon E5 et plus anciens Xeon Phi (Knights Corner). Cela offre 54, 9 pétaflops de performances de pointe théoriques et des points de repère à 33, 8 pétaflops à Linpack. De nombreux observateurs estiment qu'une interdiction d'exportation des versions plus récentes de Xeon Phi (Knights Landing) a conduit les Chinois à créer leur propre processeur de supercalculateur.
Knights Landing, anciennement Xeon Phi 7250, a joué un grand rôle dans les nouveaux systèmes de la liste, à commencer par le supercalculateur Cori du Lawrence Berkeley National Laboratory qui a terminé cinquième, avec une performance maximale de 27, 8 pétaflops et une performance mesurée de 14 pétaflops.. Il s’agit d’un système Cray XC40 utilisant l’interconnexion Bélier. Notez que Knights Landing peut servir de processeur principal, avec 68 cœurs par processeur fournissant 3 téraflops de crête. (Intel liste une autre version de la puce avec 72 cœurs à 3, 46 téraflops de performances théoriques maximales en double précision sur sa liste de prix, mais aucune des machines de la liste n'utilise cette version, peut-être parce qu'elle coûte plus cher et consomme plus d'énergie.)
Auparavant, les Xeon Phis ne pouvaient fonctionner qu'en tant qu'accélérateurs dans des systèmes contrôlés par des processeurs Xeon traditionnels. Le système Oakforest-PACS du Joint Center for Advanced High Performance Computer du Japon a enregistré la sixième place avec 24, 9 petaflops de pointe. Ceci est construit par Fujitsu, utilisant Knights Landing et l'interconnexion Omni-Path d'Intel. Knights Landing est également utilisé dans le système n ° 12 (l'ordinateur Marconi de CINECA en Italie, construit par Lenovo et utilisant Omni-Path) et dans le système n ° 33 (le Camphor 2 à l'Université de Kyoto au Japon, construit par Cray et utilisant Aries interconnexion).
Nvidia était également bien représenté sur la nouvelle liste. Le système n ° 8, Piz Daint au Centre national suisse de superinformatique, a été mis à niveau pour devenir un Cray XC50 avec Xeons et le Nvidia Tesla P100. Il offre maintenant un peu moins de 16 pétaflops de performances de pointe théoriques et 9, 8 pétaflops de performances de Linpack - un avantage considérable. mise à niveau des performances de pointe de 7, 8 pétaflops et de 6, 3 pétaflops de Linpack lors de son itération précédente basée sur les accélérateurs Cray XC30 avec Nvidia K20x.
L’autre système P100 figurant sur la liste était le système DGX Saturn V de Nvidia, basé sur les systèmes DGX-1 de la société et une interconnexion Infiniband, classé numéro 28 sur la liste. Notez que Nvidia vend maintenant à la fois les processeurs et l’appliance DGX-1, qui comprend un logiciel et huit Tesla P100. Le système DGX Saturn V, utilisé par Nvidia pour la recherche en intelligence artificielle, totalise près de 4, 9 pétaflops de pointe et 3, 3 pétaflops de Linpack. Mais ce que Nvidia souligne, c’est qu’elle n’utilise que 350 kilowatts d’énergie, ce qui la rend beaucoup plus économe en énergie. En conséquence, ce système figure en tête de la liste Green500 des systèmes les plus éconergétiques. Nvidia souligne qu'il s'agit de beaucoup moins d'énergie que le système Camphor 2 basé sur Xeon Phi, qui offre des performances similaires (près de 5, 5 pétaflops de crête et 3, 1 pétaflops de Linpack).
C’est une comparaison intéressante, Nvidia vantant une meilleure efficacité énergétique sur les GPU et Intel vantant un modèle de programmation plus familier. Je suis sûr que nous allons voir plus de concurrence dans les années à venir, alors que les différentes architectures se font concurrence pour déterminer laquelle d'entre elles sera la première à atteindre "l'informatique exascale" ou si l'approche chinoise en dépendra. Actuellement, le projet informatique Exascale du département de l'Énergie des États-Unis prévoit que les premières machines exascales seront installées en 2022 et mises en service l'année suivante.
Je trouve intéressant de noter que, malgré l’accent mis sur les accélérateurs multi-cœur tels que les solutions Nvidia Tesla et Intel Xeon Phi, seuls 96 systèmes utilisent de tels accélérateurs (y compris ceux qui utilisent uniquement Xeon Phi); par opposition à 104 systèmes il y a un an. Intel reste le plus grand fournisseur de puces, avec ses puces dans 462 des 500 principaux systèmes, suivis des processeurs IBM Power en 22. Hewlett-Packard Enterprise a créé 140 systèmes (y compris ceux construits par Silicon Graphics, dont HPE a acquis), construits par Lenovo 92 et Cray 56.
Concours d'apprentissage automatique
Un certain nombre d'annonces ont été faites à ou autour de l'exposition, la plupart d'entre elles ayant trait à une forme d'intelligence artificielle ou d'apprentissage automatique. Nvidia a annoncé un partenariat avec IBM sur un nouveau toolkit logiciel d'apprentissage en profondeur appelé IBM PowerAI, qui exploite les serveurs IBM Power à l'aide de l'interconnexion NVLink de Nvidia.
AMD, qui a été pensée après coup dans les environnements HPC et d’apprentissage automatique, cherche à changer cela. Dans ce domaine, la société s'est concentrée sur ses propres GPU Radeon, a poussé ses GPU de serveurs FirePro S9300 x2 et a annoncé un partenariat avec Google Cloud Platform pour permettre son utilisation sur le cloud. Mais AMD n’a pas autant investi dans les logiciels de programmation de GPU, car il a mis l’accent sur OpenCL plutôt que sur l’approche plus propriétaire de Nvidia. Lors du salon, AMD a présenté une nouvelle version de sa plate-forme Radeon Open Compute (ROCm) et a annoncé son intention de prendre en charge ses GPU dans des scénarios informatiques hétérogènes avec plusieurs processeurs, notamment ses futurs processeurs "Zen" x86, à partir de ThunderX et de Cavium. Les processeurs IBM Power 8.
Lors du salon, Intel a présenté une nouvelle version de sa puce Xeon E5v4 (Broadwell) actuelle, adaptée aux charges de travail à virgule flottante, et a expliqué comment la prochaine version, basée sur la plate-forme Skylake, devrait sortir l'année prochaine. Mais lors d'un événement ultérieur cette semaine-là, Intel a fait une série d'annonces destinées à positionner ses puces dans l'intelligence artificielle ou dans le domaine de l'apprentissage automatique. (Voici la conclusion de ExtremeTech.) Une grande partie de cela a des implications pour l'informatique haute performance, mais est pour la plupart distinct. Pour commencer, outre les processeurs Xeon standard, la société fait également la promotion des FPGA pour la plupart des inférences dans les réseaux de neurones. C'est l'une des principales raisons pour lesquelles la société a récemment acheté Altera, et de tels FPGA sont maintenant utilisés par des sociétés telles que Microsoft.
Mais l'accent mis sur l'IA la semaine dernière a porté sur de nouveaux jetons. Il y a tout d'abord Xeon Phi, où Intel a indiqué que la version actuelle de Knights Landing sera complétée l'année prochaine par une nouvelle version appelée Knights Mill, destinée au marché du "deep learning". Annoncé à la FID, il s’agit d’une autre version de 14 nm, mais qui prend en charge les calculs de demi-précision, qui sont fréquemment utilisés dans les réseaux de neurones d’entraînement. En effet, l’un des grands avantages des puces Nvidia actuelles dans l’apprentissage en profondeur est leur prise en charge des calculs de demi-précision et des opérations sur les nombres entiers sur 8 bits, ce que Nvidia appelle souvent l’apprentissage en profondeur "tera-ops". Intel a annoncé que Knights Mill offrirait quatre fois plus de performances que Knights Landing pour un apprentissage en profondeur. (Cette puce devrait toujours être suivie ultérieurement par une version 10 nm appelée Knights Hill, qui viserait probablement davantage le marché traditionnel de l'informatique haute performance.)
Le plus intéressant pour l’année prochaine est une conception de Nervana, récemment acquise par Intel, qui utilise un ensemble de grappes de traitement conçues pour effectuer des opérations mathématiques simples connectées à une mémoire à large bande passante (HBM). La première de cette famille sera Lake Crest, qui a été conçue avant qu'Intel n'achète la société et soit fabriquée selon un procédé TSMC de 28 nm. Dans des versions tests au cours du premier semestre de l’année prochaine, Intel déclare qu’il offrira plus de performances de calcul brutes qu’un GPU. Knights Crest suivra à la suite de cette nouvelle technologie, qui met en œuvre la technologie de Nervana aux côtés de Xeon, avec des détails toujours non annoncés.
"Nous prévoyons que les technologies de Nervana produiront des performances 100 fois supérieures au cours des trois prochaines années pour former des réseaux de neurones complexes, permettant ainsi aux scientifiques du traitement des données de résoudre plus rapidement leurs plus grands défis en matière d'intelligence artificielle", a déclaré le PDG d'Intel, Brian Krzanich.
Intel a récemment annoncé son intention d’acquérir Movidius, qui fabrique des puces basées sur le DSP particulièrement adaptées à la déduction de la vision par ordinateur, prenant à nouveau des décisions basées sur des modèles déjà formés.
C'est une histoire compliquée et en évolution, certainement pas aussi simple que Nvidia souhaite obtenir ses GPU partout. Mais ce qui est clair, c’est la rapidité avec laquelle l’apprentissage machine décolle et les nombreuses façons différentes que les entreprises envisagent de résoudre, de GPU tels que ceux de Nvidia et AMD à de nombreux processeurs x86 tels que Xeon Phi, en passant par les FPGA., à des produits spécialisés pour la formation, tels que Nervana et TrueNorth d’IBM, à des moteurs d’inférence de type DSP personnalisés, tels que les unités de traitement Tensor de Google. Il sera très intéressant de voir si le marché a de la place pour toutes ces approches.