Cœurs V9.0 à 72 bras, cache L3 de 117 Mo, 68 voies PCIe Gen 5, processus TSMC 4N et TDP de 500 W

  • Français


  • NVIDIA a révélé de nouveaux détails sur les interconnexions de ses puces Grace CPU, Orin SOC et NVLINK lors de Hot Chips 34.

    NVIDIA Grace CPU Breaks Cover, comprend 72 cœurs Arm v9.0 par puce, 117 Mo de cache L3, 68 voies Gen 5, le tout sur le nœud de processus TSMC 4N

    NVIDIA a annoncé pour la première fois son processeur Grace et la conception respective de Superchip lors du GTC 2022. Le processeur Grace est le premier processeur de NVIDIA basé sur une architecture Arm personnalisée qui visera le segment serveur / HPC. Le processeur est disponible en deux configurations Superchip, un module Grace Superchip avec deux processeurs Grace et un Grace + Hopper Superchip avec un processeur Grace connecté à un GPU Hopper H100.

    Certains des principaux points forts de Grace incluent:

    • Processeur haute performance pour HPC et cloud computing
    • Conception de super puce avec jusqu’à 144 cœurs de processeur Arm v9
    • Premier LPDDR5x au monde avec mémoire ECC, bande passante totale de 1 To/s
    • SPECrate2017_int_base sur 740 (estimation)
    • Interface cohérente de 900 Go/s, 7 fois plus rapide que PCIe Gen 5
    • 2 fois la densité de conditionnement des solutions DIMM
    • 2 fois les performances par watt des principaux processeurs actuels
    • Exécute toutes les piles et plates-formes logicielles NVIDIA, y compris RTX, HPC, AI et Omniverse

    En tant que premier processeur serveur de NVIDIA, Grace dispose de 72 cœurs Arm v9.0 qui prennent en charge SVE2 et diverses extensions de virtualisation telles que Nested Virtualization et S-EL2. Le processeur est fabriqué sur le nœud de processus 4N de TSMC, une version optimisée du nœud de processus 5 nm conçu exclusivement pour NVIDIA.

    Grace est conçu pour être couplé et, à ce titre, l’un des aspects les plus cruciaux de la conception est son interconnexion C2C (Chip-To-Chip). Grace y parvient avec NVLINK qui est utilisé pour fabriquer les Superchips et supprime tous les goulots d’étranglement associés à une configuration typique entre sockets.

    L’interconnexion C2C NVLINK fournit 900 Go/s de bande passante bidirectionnelle brute (même bande passante qu’un commutateur GPU à GPU NVLINK sur Hopper), tout en fonctionnant à une interface à très faible puissance de seulement 1,3 pJ/bit ou 5 fois plus efficace que le Protocole PCIe.

    Le processeur NVIDIA Grace dispose d’une structure de cohérence évolutive avec une conception de cache distribué. La puce a jusqu’à 3,225 To/s de bande passante bi-section, est évolutive au-delà de 72 cœurs (144 sur Superchip), intègre 117 Mo de cache L3 et prend en charge le partitionnement et la surveillance de la mémoire Arm (MPAM). Grace permet également une architecture de mémoire unifiée avec des tables de pages partagées. Deux Superchips NVIDIA Grace+Hopper peuvent être interconnectés via un NVSwitch et un processeur Grace sur un Superchip peut communiquer directement avec le GPU sur l’autre puce ou même accéder à sa VRAM à des vitesses NVLINK natives.

    nvidia-grace-cpu-superchips-_-hot-chips-34-_9
    nvidia-grace-cpu-superchips-_-hot-chips-34-_10

    En examinant de plus près la conception de la mémoire de Grace, NVIDIA utilise jusqu’à 512 Go de LPDDR5X sur 32 canaux, offrant jusqu’à 546 Go/s de bande passante mémoire. NVIDIA déclare que LPDDR5X offre la meilleure valeur en gardant à l’esprit la bande passante globale, le coût et les besoins en énergie. Pour les E/S, vous disposez de 68 voies PCIe Gen 5.0, dont quatre peuvent être utilisées pour des liaisons x16 à 128 Go/s, et les deux autres sont utilisées pour MISC. Il existe également 12 voies de voies NVLINK cohérentes partagées avec deux liaisons Gen 5 PCIe x16.

    En ce qui concerne le TDP, la super puce NVIDIA Grace (CPU uniquement) est optimisée pour les performances monocœur et offre jusqu’à 1 To/s de bande passante mémoire et un TDP de 500 W pour la configuration à double puce à 144 cœurs. Nous avons déjà mis les chiffres en perspective dans un précédent article que vous pouvez voir ci-dessous :

    Maintenant, ce n’est pas une si grande différence de performances, mais ce que nous aimerions vraiment voir, ce sont les mesures de performances. Les Grace SUPERCHIPS sont évaluées à environ 500 W tandis que chaque puce AMD EPYC 7763 a un TDP de 280 W, donc deux d’entre elles seront d’environ 560 W et nous n’ajoutons pas la puissance supplémentaire du système alors que le chiffre de 500 W de NVIDIA concerne l’ensemble du package GRACE SUPERCHIP.

    NVIDIA déclare que son Grace est un processeur hautement spécialisé ciblant des charges de travail telles que la formation de modèles NLP de nouvelle génération qui ont plus de 1 000 milliards de paramètres. Lorsqu’il est étroitement couplé aux GPU NVIDIA, un système basé sur le processeur Grace offrira des performances 10 fois plus rapides que les systèmes NVIDIA DGX à la pointe de la technologie, qui fonctionnent sur des processeurs x86.

    Il sera certainement intéressant de voir comment les processeurs Grace se comparent aux puces x86, mais au moment de leur sortie, ils seront en concurrence avec les processeurs Genoa d’AMD et Sapphire Rapids d’Intel. Les processeurs NVIDIA Grace devraient être utilisés dans le supercalculateur ATOS, comme indiqué ici.

    Nvidia aussi

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *