Lancement de l’accélérateur PCIe NVIDIA A100 80 Go
NVIDIA a annoncé le lancement aujourd’hui de ses tout nouveaux systèmes HGX A100 qui intègrent les accélérateurs GPU A100 PCIe mis à jour offrant deux fois plus de mémoire et une bande passante plus rapide pour les utilisateurs HPC.
NVIDIA met à niveau les systèmes HGX A100 avec des accélérateurs GPU A100 HPC phares basés sur l’ampère – 80 Go de mémoire HBM2e et 2 To/s de bande passante
L’accélérateur NVIDIA A100 HPC existant a été introduit l’année dernière en juin et il semble que l’équipe verte envisage de lui apporter une mise à niveau majeure des spécifications. La puce est basée sur le plus grand GPU Ampere de NVIDIA, l’A100, qui mesure 826 mm2 et abrite 54 milliards de transistors. NVIDIA donne à ses accélérateurs HPC un coup de pouce aux spécifications à mi-cycle, ce qui signifie que nous entendrons parler des accélérateurs de nouvelle génération au GTC 2022.
Les GPU NVIDIA A100 Tensor Core offrent une accélération HPC sans précédent pour résoudre les problèmes complexes d’IA, d’analyse de données, de formation de modèles et de simulation pertinents pour le HPC industriel. Les GPU PCIe A100 80 Go augmentent la bande passante de la mémoire GPU de 25 % par rapport au A100 40 Go, à 2 To/s, et fournissent 80 Go de mémoire à bande passante élevée HBM2e.
L’énorme capacité de mémoire de l’A100 80 Go PCIe et sa bande passante de mémoire élevée permettent de conserver plus de données et de plus grands réseaux de neurones en mémoire, minimisant la communication entre les nœuds et la consommation d’énergie. Combiné à une bande passante mémoire plus rapide, il permet aux chercheurs d’obtenir un débit plus élevé et des résultats plus rapides, maximisant ainsi la valeur de leurs investissements informatiques.
A100 80 Go PCIe est alimenté par l’architecture NVIDIA Ampere, qui intègre la technologie GPU multi-instance (MIG) pour fournir une accélération pour les charges de travail plus petites telles que l’inférence AI. MIG permet aux systèmes HPC de réduire le calcul et la mémoire avec une qualité de service garantie. En plus du PCIe, il existe des configurations NVIDIA HGX A100 à quatre et huit voies.
Le support des partenaires NVIDIA pour le PCIe A100 80 Go comprend Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT et Supermicro. La plate-forme HGX comprenant des GPU basés sur A100 interconnectés via NVLink est également disponible via les services cloud d’Amazon Web Services, Microsoft Azure et Oracle Cloud Infrastructure.
En termes de spécifications, l’accélérateur GPU A100 PCIe ne change pas beaucoup en termes de configuration de base. Le GPU GA100 conserve les spécifications que nous avons pu voir sur la variante 250W avec 6912 cœurs CUDA disposés en 108 unités SM, 432 cœurs Tensor et 80 Go de mémoire HBM2e qui offre une bande passante plus élevée de 2,0 To/s par rapport à 1,55 To/s sur la variante 40 Go.
La variante A100 SMX est déjà livrée avec une mémoire de 80 Go, mais elle ne comporte pas les matrices HBM2e plus rapides comme cette prochaine variante A100 PCIe. Il s’agit également de la plus grande quantité de mémoire jamais présentée sur une carte graphique basée sur PCIe, mais ne vous attendez pas à ce que les cartes graphiques grand public présentent des capacités aussi élevées de si tôt. Ce qui est intéressant, c’est que la puissance nominale reste inchangée, ce qui signifie que nous envisageons des puces à plus haute densité pour des cas d’utilisation hautes performances.
Les performances du FP64 sont toujours évaluées à 9,7/19,5 TFLOP, les performances FP32 sont évaluées à 19,5/156/312 TFLOP (épaississement), les performances FP16 sont évaluées à 312/624 TFLOP (épaississement) et l’INT8 est évaluée à 624/1248 TOP parcimonie). NVIDIA prévoit de sortir son dernier accélérateur HPC la semaine prochaine et nous pouvons également nous attendre à un prix de plus de 20 000 $ US étant donné que la variante 40 Go A100 se vend environ 15 000 $ US.
En plus de ces annonces, NVIDIA a également annoncé sa nouvelle solution InfiniBand qui fournit des configurations jusqu’à 2048 points de NDR 400 Gb/s (ou 4096 ports de NDR 200) avec un débit bidirectionnel total de 1,64 Pb/s. Cela seul est une augmentation de 5 fois par rapport à la génération précédente et offre un accélérateur d’IA 32 fois plus élevé.
Spécifications Tesla A100 basées sur le GPU NVIDIA Ampere GA100 :
Carte graphique NVIDIA Tesla | Tesla K40 (PCI-Express) |
Tesla M40 (PCI-Express) |
Tesla P100 (PCI-Express) |
Tesla P100 (SXM2) | Tesla V100 (SXM2) | Tesla V100S (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) |
---|---|---|---|---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GP100 (Pascal) | GV100 (Volta) | GV100 (Volta) | GA100 (Ampère) | GA100 (Ampère) |
Nœud de processus | 28 nm | 28 nm | 16 nm | 16 nm | 12 nm | 12 nm | 7 nm | 7 nm |
Transistors | 7,1 milliards | 8 milliards | 15,3 milliards | 15,3 milliards | 21,1 milliards | 21,1 milliards | 54,2 milliards | 54,2 milliards |
Taille de matrice GPU | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 815mm2 | 815mm2 | 826mm2 | 826mm2 |
SMS | 15 | 24 | 56 | 56 | 80 | 80 | 108 | 108 |
TPC | 15 | 24 | 28 | 28 | 40 | 40 | 54 | 54 |
FP32 CUDA Noyaux Par SM | 192 | 128 | 64 | 64 | 64 | 64 | 64 | 64 |
FP64 CUDA Noyaux / SM | 64 | 4 | 32 | 32 | 32 | 32 | 32 | 32 |
Noyaux FP32 CUDA | 2880 | 3072 | 3584 | 3584 | 5120 | 5120 | 6912 | 6912 |
Cœurs FP64 CUDA | 960 | 96 | 1792 | 1792 | 2560 | 2560 | 3456 | 3456 |
Noyaux tenseurs | N / A | N / A | N / A | N / A | 640 | 640 | 432 | 432 |
Unités de texture | 240 | 192 | 224 | 224 | 320 | 320 | 432 | 432 |
Booster l’horloge | 875 MHz | 1114 MHz | 1329MHz | 1480 MHz | 1530 MHz | 1601 MHz | 1410 MHz | 1410 MHz |
TOP (DNN/AI) | N / A | N / A | N / A | N / A | 125 TOP | 130 TOP | 1248 TOP 2496 TOP avec parcimonie |
1248 TOP 2496 TOP avec parcimonie |
FP16 Calculer | N / A | N / A | 18.7 TFLOP | 21.2 TFLOP | 30.4 TFLOP | 32,8 TFLOP | 312 TFLOP 624 TFLOP avec parcimonie |
312 TFLOP 624 TFLOP avec parcimonie |
Calcul FP32 | 5.04 TFLOP | 6.8 TFLOP | 10.0 TFLOP | 10.6 TFLOP | 15.7 TFLOP | 16.4 TFLOP | 156 TFLOP (norme 19,5 TFLOP) |
156 TFLOP (norme 19,5 TFLOP) |
Calcul FP64 | 1,68 TFLOP | 0,2 TFLOP | 4.7 TFLOP | 5.30 TFLOP | 7.80 TFLOP | 8.2 TFLOP | 19.5 TFLOP (norme 9.7 TFLOP) |
19.5 TFLOP (norme 9.7 TFLOP) |
Interface mémoire | GDDR5 384 bits | GDDR5 384 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2 4096 bits | HBM2e 6144 bits | HBM2e 6144 bits |
Taille mémoire | 12 Go de GDDR5 à 288 Go/s | 24 Go de GDDR5 à 288 Go/s | 16 Go HBM2 à 732 Go/s 12 Go HBM2 à 549 Go/s |
16 Go HBM2 à 732 Go/s | 16 Go HBM2 à 900 Go/s | 16 Go HBM2 à 1134 Go/s | Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 1,6 To/s |
Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 2,0 To/s |
Taille du cache L2 | 1536 Ko | 3072 Ko | 4096 Ko | 4096 Ko | 6144 Ko | 6144 Ko | 40960 Ko | 40960 Ko |
TDP | 235W | 250W | 250W | 300W | 300W | 250W | 400W | 250W |