Vidéo: Mukbangers try the DEADLY ONE CHIP CHALLENGE 🔥 *hilarious* (Novembre 2024)
L'apprentissage automatique est actuellement le sujet le plus brûlant de l'informatique et il est certainement visible du côté matériel. Ces dernières semaines, nous avons beaucoup entendu parler de nouvelles puces conçues pour l'apprentissage en profondeur, des Tesla P100 et Drive PX 2 de Nvidia aux unités de traitement Tensor de Google et aux processeurs Intel Xeon Phi. Il n’est donc pas surprenant que lors de la conférence Hot Chips de la semaine dernière, nous ayons entendu différentes sociétés ayant adopté des approches de conception très différentes, adaptées à l’apprentissage automatique et au traitement de la vision.
La plus grande nouvelle est peut-être la divulgation par Nvidia de davantage de détails sur sa puce Parker, utilisée dans son module Drive PX 2 pour voitures autonomes et visant un apprentissage en profondeur pour les machines autonomes. Cette puce utilise deux cœurs de processeur Denver spécialement conçus pour la compatibilité ARM, quatre cœurs ARM Cortex-A57 et 256 de ce que Nvidia appelle les cœurs Pascal CUDA (graphiques).
Nvidia a déclaré qu'il s'agissait de sa première puce conçue et conçue pour une utilisation automobile, avec des caractéristiques de résilience spéciales, et a parlé de sa vitesse et de sa mémoire plus rapides, notant que le noyau de Denver fournit une amélioration significative des performances par watt. Parmi les nouvelles fonctionnalités, citons la virtualisation assistée par le matériel, avec jusqu'à 8 VMS pour permettre l'intégration de fonctionnalités de voiture traditionnellement réalisées sur des ordinateurs distincts. Dans l’ensemble, la société a déclaré que le modèle Drive PX 2 pouvait avoir deux de ces puces Parker et deux GPU discrets, avec une performance totale de 8 téraflops (double précision) ou 24 opérations d’apprentissage en profondeur (8 bits ou demi-précision.) La société a inclus des tests comparatifs le comparant favorablement au traitement mobile actuel à l’aide de SpecInt_2000, test relativement ancien. Mais les performances semblent impressionnantes et Volvo a récemment annoncé qu’elle l’utiliserait pour tester les véhicules autonomes à partir de l’année prochaine.
Bien sûr, il existe de nombreuses autres approches.
La startup chinoise DeePhi a discuté d'une plate-forme basée sur FPGA pour les réseaux de neurones, avec deux architectures différentes en fonction du type de réseau impliqué. Aristotle est conçu pour les réseaux de neurones convolutifs relativement petits et basé sur le Xilinx Zynq 7000, tandis que Descartes est conçu pour les réseaux de neurones récurrents plus importants utilisant une mémoire longue et à court terme (RNN-LSTM), basée sur le FPGA Kintex Ultrascale. DeePhi affirme que son compilateur et son architecture réduisent le temps de développement par rapport à la plupart des utilisations de FPGA et que l'utilisation d'un FPGA peut offrir de meilleures performances que les solutions Tegra K1 et K40 de Nvidia.
Une autre approche consiste à utiliser un processeur de signal numérique ou DSP, qui exécute généralement une fonction spécifique ou un très petit ensemble de fonctions très rapidement, en utilisant très peu d'énergie. Celles-ci sont souvent intégrées à d'autres puces plus complexes pour accélérer certaines fonctions, telles que le traitement de la vision. Un certain nombre de sociétés, notamment Movidius, CEVA et Cadence partageaient leurs solutions chez Hot Chips.
Movidius présentait sa solution basée sur le DSP, appelée unité de traitement de la vision Myriad 2, et l’affiche dans le drone DJI Phantom 4. Il a également montré comment Myriad 2 surpasse les GPU et le réseau de neurones profonds GoogLeNet utilisé dans le cadre du concours ImageNet 2014.
CEVA faisait la promotion de son DSP CEVA-XM4 Vision, spécialement conçu pour le traitement de la vision et destiné au marché automobile, ainsi que de sa plateforme CEVA Deep Neural Network 2, qui pourrait prendre tout ce qui était écrit pour les frameworks Caffe ou TensorFlow et l'optimiser pour fonctionner. sur son DSP. Le nouveau processeur devrait être en SoC l'année prochaine.
Pendant ce temps, Cadence, qui fabrique la famille de processeurs de vision Tensilica (qui peut être intégrée à d’autres produits), a présenté sa nouvelle version, la Vision P6, qui a ajouté de nouvelles fonctionnalités telles que la prise en charge vectorielle en virgule flottante et d’autres pour les réseaux de neurones à convolution.. Les premiers produits devraient sortir sous peu.
Microsoft a parlé des détails du matériel de son casque HoloLens, expliquant qu'il utilisait un processeur Intel Atom Cherry Trail de 14 nm sous Windows 10 et un concentrateur de capteurs Holographic Processing Unit (HPU 1.0) personnalisé, fabriqué par TSMC selon un processus de 28 nm. Cela comprend 24 noyaux Tensilica DSP.
Une des diapositives de Cadence qui m'a particulièrement séduit montre les différences de débit et d'efficacité entre les GPU, les FPGA et les différents types de DSP en termes d'opérations multiplicatives, l'un des éléments essentiels des réseaux de neurones. Bien que visiblement intéressée (comme le sont toutes les présentations de fournisseurs), elle a souligné la différence de rapidité et d'efficacité entre les différentes techniques (performance par watt), sans oublier le coût et la facilité de programmation. Il y a beaucoup de solutions pour différentes approches ici, et il sera intéressant de voir comment cela se passera au cours des prochaines années.