Lancement de l’accélérateur PCIe NVIDIA A100 80 Go

par L'équipe de Comparaland · 28 juin 2021

NVIDIA a annoncé le lancement aujourd’hui de ses tout nouveaux systèmes HGX A100 qui intègrent les accélérateurs GPU A100 PCIe mis à jour offrant deux fois plus de mémoire et une bande passante plus rapide pour les utilisateurs HPC.

NVIDIA met à niveau les systèmes HGX A100 avec des accélérateurs GPU A100 HPC phares basés sur l’ampère – 80 Go de mémoire HBM2e et 2 To/s de bande passante

L’accélérateur NVIDIA A100 HPC existant a été introduit l’année dernière en juin et il semble que l’équipe verte envisage de lui apporter une mise à niveau majeure des spécifications. La puce est basée sur le plus grand GPU Ampere de NVIDIA, l’A100, qui mesure 826 mm2 et abrite 54 milliards de transistors. NVIDIA donne à ses accélérateurs HPC un coup de pouce aux spécifications à mi-cycle, ce qui signifie que nous entendrons parler des accélérateurs de nouvelle génération au GTC 2022.

NVIDIA prépare le GPU Ampere A100 PCIe avec 80 Go de mémoire HBM2e et jusqu’à 2 To/s de bande passante

Les GPU NVIDIA A100 Tensor Core offrent une accélération HPC sans précédent pour résoudre les problèmes complexes d’IA, d’analyse de données, de formation de modèles et de simulation pertinents pour le HPC industriel. Les GPU PCIe A100 80 Go augmentent la bande passante de la mémoire GPU de 25 % par rapport au A100 40 Go, à 2 To/s, et fournissent 80 Go de mémoire à bande passante élevée HBM2e.

L’énorme capacité de mémoire de l’A100 80 Go PCIe et sa bande passante de mémoire élevée permettent de conserver plus de données et de plus grands réseaux de neurones en mémoire, minimisant la communication entre les nœuds et la consommation d’énergie. Combiné à une bande passante mémoire plus rapide, il permet aux chercheurs d’obtenir un débit plus élevé et des résultats plus rapides, maximisant ainsi la valeur de leurs investissements informatiques.

A100 80 Go PCIe est alimenté par l’architecture NVIDIA Ampere, qui intègre la technologie GPU multi-instance (MIG) pour fournir une accélération pour les charges de travail plus petites telles que l’inférence AI. MIG permet aux systèmes HPC de réduire le calcul et la mémoire avec une qualité de service garantie. En plus du PCIe, il existe des configurations NVIDIA HGX A100 à quatre et huit voies.

Le support des partenaires NVIDIA pour le PCIe A100 80 Go comprend Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT et Supermicro. La plate-forme HGX comprenant des GPU basés sur A100 interconnectés via NVLink est également disponible via les services cloud d’Amazon Web Services, Microsoft Azure et Oracle Cloud Infrastructure.

En termes de spécifications, l’accélérateur GPU A100 PCIe ne change pas beaucoup en termes de configuration de base. Le GPU GA100 conserve les spécifications que nous avons pu voir sur la variante 250W avec 6912 cœurs CUDA disposés en 108 unités SM, 432 cœurs Tensor et 80 Go de mémoire HBM2e qui offre une bande passante plus élevée de 2,0 To/s par rapport à 1,55 To/s sur la variante 40 Go.

Une image en vedette de la matrice NVIDIA GA100.

La variante A100 SMX est déjà livrée avec une mémoire de 80 Go, mais elle ne comporte pas les matrices HBM2e plus rapides comme cette prochaine variante A100 PCIe. Il s’agit également de la plus grande quantité de mémoire jamais présentée sur une carte graphique basée sur PCIe, mais ne vous attendez pas à ce que les cartes graphiques grand public présentent des capacités aussi élevées de si tôt. Ce qui est intéressant, c’est que la puissance nominale reste inchangée, ce qui signifie que nous envisageons des puces à plus haute densité pour des cas d’utilisation hautes performances.

Spécifications de la carte graphique A100 PCIe 80 Go répertoriées sur la page Web de NVIDIA. (Crédits image : Videocardz)

Les performances du FP64 sont toujours évaluées à 9,7/19,5 TFLOP, les performances FP32 sont évaluées à 19,5/156/312 TFLOP (épaississement), les performances FP16 sont évaluées à 312/624 TFLOP (épaississement) et l’INT8 est évaluée à 624/1248 TOP parcimonie). NVIDIA prévoit de sortir son dernier accélérateur HPC la semaine prochaine et nous pouvons également nous attendre à un prix de plus de 20 000 $ US étant donné que la variante 40 Go A100 se vend environ 15 000 $ US.

En plus de ces annonces, NVIDIA a également annoncé sa nouvelle solution InfiniBand qui fournit des configurations jusqu’à 2048 points de NDR 400 Gb/s (ou 4096 ports de NDR 200) avec un débit bidirectionnel total de 1,64 Pb/s. Cela seul est une augmentation de 5 fois par rapport à la génération précédente et offre un accélérateur d’IA 32 fois plus élevé.

Spécifications Tesla A100 basées sur le GPU NVIDIA Ampere GA100 :

Carte graphique NVIDIA Tesla	Tesla K40 (PCI-Express)	Tesla M40 (PCI-Express)	Tesla P100 (PCI-Express)	Tesla P100 (SXM2)	Tesla V100 (SXM2)	Tesla V100S (PCIe)	NVIDIA A100 (SXM4)	NVIDIA A100 (PCIe4)
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)	GP100 (Pascal)	GV100 (Volta)	GV100 (Volta)	GA100 (Ampère)	GA100 (Ampère)
Nœud de processus	28 nm	28 nm	16 nm	16 nm	12 nm	12 nm	7 nm	7 nm
Transistors	7,1 milliards	8 milliards	15,3 milliards	15,3 milliards	21,1 milliards	21,1 milliards	54,2 milliards	54,2 milliards
Taille de matrice GPU	551 mm2	601 mm2	610 mm2	610 mm2	815mm2	815mm2	826mm2	826mm2
SMS	15	24	56	56	80	80	108	108
TPC	15	24	28	28	40	40	54	54
FP32 CUDA Noyaux Par SM	192	128	64	64	64	64	64	64
FP64 CUDA Noyaux / SM	64	4	32	32	32	32	32	32
Noyaux FP32 CUDA	2880	3072	3584	3584	5120	5120	6912	6912
Cœurs FP64 CUDA	960	96	1792	1792	2560	2560	3456	3456
Noyaux tenseurs	N / A	N / A	N / A	N / A	640	640	432	432
Unités de texture	240	192	224	224	320	320	432	432
Booster l’horloge	875 MHz	1114 MHz	1329MHz	1480 MHz	1530 MHz	1601 MHz	1410 MHz	1410 MHz
TOP (DNN/AI)	N / A	N / A	N / A	N / A	125 TOP	130 TOP	1248 TOP 2496 TOP avec parcimonie	1248 TOP 2496 TOP avec parcimonie
FP16 Calculer	N / A	N / A	18.7 TFLOP	21.2 TFLOP	30.4 TFLOP	32,8 TFLOP	312 TFLOP 624 TFLOP avec parcimonie	312 TFLOP 624 TFLOP avec parcimonie
Calcul FP32	5.04 TFLOP	6.8 TFLOP	10.0 TFLOP	10.6 TFLOP	15.7 TFLOP	16.4 TFLOP	156 TFLOP (norme 19,5 TFLOP)	156 TFLOP (norme 19,5 TFLOP)
Calcul FP64	1,68 TFLOP	0,2 TFLOP	4.7 TFLOP	5.30 TFLOP	7.80 TFLOP	8.2 TFLOP	19.5 TFLOP (norme 9.7 TFLOP)	19.5 TFLOP (norme 9.7 TFLOP)
Interface mémoire	GDDR5 384 bits	GDDR5 384 bits	HBM2 4096 bits	HBM2 4096 bits	HBM2 4096 bits	HBM2 4096 bits	HBM2e 6144 bits	HBM2e 6144 bits
Taille mémoire	12 Go de GDDR5 à 288 Go/s	24 Go de GDDR5 à 288 Go/s	16 Go HBM2 à 732 Go/s 12 Go HBM2 à 549 Go/s	16 Go HBM2 à 732 Go/s	16 Go HBM2 à 900 Go/s	16 Go HBM2 à 1134 Go/s	Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 1,6 To/s	Jusqu’à 40 Go HBM2 à 1,6 To/s Jusqu’à 80 Go HBM2 à 2,0 To/s
Taille du cache L2	1536 Ko	3072 Ko	4096 Ko	4096 Ko	6144 Ko	6144 Ko	40960 Ko	40960 Ko
TDP	235W	250W	250W	300W	300W	250W	400W	250W

Lancement de l’accélérateur PCIe NVIDIA A100 80 Go

NVIDIA met à niveau les systèmes HGX A100 avec des accélérateurs GPU A100 HPC phares basés sur l’ampère – 80 Go de mémoire HBM2e et 2 To/s de bande passante

Spécifications Tesla A100 basées sur le GPU NVIDIA Ampere GA100 :

Laisser un commentaire Annuler la réponse

Statistiques du site

Informatique