Lancement de l’accélérateur PCIe NVIDIA A100 80 Go

  • FrançaisFrançais



  • NVIDIA a annoncé le lancement aujourd’hui de ses tout nouveaux systèmes HGX A100 qui intègrent les accélérateurs GPU A100 PCIe mis à jour offrant deux fois plus de mémoire et une bande passante plus rapide pour les utilisateurs HPC.

    NVIDIA met à niveau les systèmes HGX A100 avec des accélérateurs GPU A100 HPC phares basés sur l’ampère – 80 Go de mémoire HBM2e et 2 To/s de bande passante

    L’accélérateur NVIDIA A100 HPC existant a été introduit l’année dernière en juin et il semble que l’équipe verte envisage de lui apporter une mise à niveau majeure des spécifications. La puce est basée sur le plus grand GPU Ampere de NVIDIA, l’A100, qui mesure 826 mm2 et abrite 54 milliards de transistors. NVIDIA donne à ses accélérateurs HPC un coup de pouce aux spécifications à mi-cycle, ce qui signifie que nous entendrons parler des accélérateurs de nouvelle génération au GTC 2022.

    NVIDIA prépare le GPU Ampere A100 PCIe avec 80 Go de mémoire HBM2e et jusqu’à 2 To/s de bande passante

    Les GPU NVIDIA A100 Tensor Core offrent une accélération HPC sans précédent pour résoudre les problèmes complexes d’IA, d’analyse de données, de formation de modèles et de simulation pertinents pour le HPC industriel. Les GPU PCIe A100 80 Go augmentent la bande passante de la mémoire GPU de 25 % par rapport au A100 40 Go, à 2 To/s, et fournissent 80 Go de mémoire à bande passante élevée HBM2e.

    L’énorme capacité de mémoire de l’A100 80 Go PCIe et sa bande passante de mémoire élevée permettent de conserver plus de données et de plus grands réseaux de neurones en mémoire, minimisant la communication entre les nœuds et la consommation d’énergie. Combiné à une bande passante mémoire plus rapide, il permet aux chercheurs d’obtenir un débit plus élevé et des résultats plus rapides, maximisant ainsi la valeur de leurs investissements informatiques.

    A100 80 Go PCIe est alimenté par l’architecture NVIDIA Ampere, qui intègre la technologie GPU multi-instance (MIG) pour fournir une accélération pour les charges de travail plus petites telles que l’inférence AI. MIG permet aux systèmes HPC de réduire le calcul et la mémoire avec une qualité de service garantie. En plus du PCIe, il existe des configurations NVIDIA HGX A100 à quatre et huit voies.

    Le support des partenaires NVIDIA pour le PCIe A100 80 Go comprend Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT et Supermicro. La plate-forme HGX comprenant des GPU basés sur A100 interconnectés via NVLink est également disponible via les services cloud d’Amazon Web Services, Microsoft Azure et Oracle Cloud Infrastructure.

    En termes de spécifications, l’accélérateur GPU A100 PCIe ne change pas beaucoup en termes de configuration de base. Le GPU GA100 conserve les spécifications que nous avons pu voir sur la variante 250W avec 6912 cœurs CUDA disposés en 108 unités SM, 432 cœurs Tensor et 80 Go de mémoire HBM2e qui offre une bande passante plus élevée de 2,0 To/s par rapport à 1,55 To/s sur la variante 40 Go.

    Une image en vedette de la matrice NVIDIA GA100.

    La variante A100 SMX est déjà livrée avec une mémoire de 80 Go, mais elle ne comporte pas les matrices HBM2e plus rapides comme cette prochaine variante A100 PCIe. Il s’agit également de la plus grande quantité de mémoire jamais présentée sur une carte graphique basée sur PCIe, mais ne vous attendez pas à ce que les cartes graphiques grand public présentent des capacités aussi élevées de si tôt. Ce qui est intéressant, c’est que la puissance nominale reste inchangée, ce qui signifie que nous envisageons des puces à plus haute densité pour des cas d’utilisation hautes performances.

    Spécifications de la carte graphique A100 PCIe 80 Go répertoriées sur la page Web de NVIDIA. (Crédits image : Videocardz)

    Les performances du FP64 sont toujours évaluées à 9,7/19,5 TFLOP, les performances FP32 sont évaluées à 19,5/156/312 TFLOP (épaississement), les performances FP16 sont évaluées à 312/624 TFLOP (épaississement) et l’INT8 est évaluée à 624/1248 TOP parcimonie). NVIDIA prévoit de sortir son dernier accélérateur HPC la semaine prochaine et nous pouvons également nous attendre à un prix de plus de 20 000 $ US étant donné que la variante 40 Go A100 se vend environ 15 000 $ US.

    En plus de ces annonces, NVIDIA a également annoncé sa nouvelle solution InfiniBand qui fournit des configurations jusqu’à 2048 points de NDR 400 Gb/s (ou 4096 ports de NDR 200) avec un débit bidirectionnel total de 1,64 Pb/s. Cela seul est une augmentation de 5 fois par rapport à la génération précédente et offre un accélérateur d’IA 32 fois plus élevé.

    Spécifications Tesla A100 basées sur le GPU NVIDIA Ampere GA100 :

    Carte graphique NVIDIA Tesla Tesla K40
    (PCI-Express)
    Tesla M40
    (PCI-Express)
    Tesla P100
    (PCI-Express)
    Tesla P100 (SXM2) Tesla V100 (SXM2) Tesla V100S (PCIe) NVIDIA A100 (SXM4) NVIDIA A100 (PCIe4)
    GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal) GP100 (Pascal) GV100 (Volta) GV100 (Volta) GA100 (Ampère) GA100 (Ampère)
    Nœud de processus 28 nm 28 nm 16 nm 16 nm 12 nm 12 nm 7 nm 7 nm
    Transistors 7,1 milliards 8 milliards 15,3 milliards 15,3 milliards 21,1 milliards 21,1 milliards 54,2 milliards 54,2 milliards
    Taille de matrice GPU 551 mm2 601 mm2 610 mm2 610 mm2 815mm2 815mm2 826mm2 826mm2
    SMS 15 24 56 56 80 80 108 108
    TPC 15 24 28 28 40 40 54 54
    FP32 CUDA Noyaux Par SM 192 128 64 64 64 64 64 64
    FP64 CUDA Noyaux / SM 64 4 32 32 32 32 32 32
    Noyaux FP32 CUDA 2880 3072 3584 3584 5120 5120 6912 6912
    Cœurs FP64 CUDA 960 96 1792 1792 2560 2560 3456 3456
    Noyaux tenseurs N / A N / A N / A N / A 640 640 432 432
    Unités de texture 240 192 224 224 320 320 432 432
    Booster l’horloge 875 MHz 1114 MHz 1329MHz 1480 MHz 1530 MHz 1601 MHz 1410 MHz 1410 MHz
    TOP (DNN/AI) N / A N / A N / A N / A 125 TOP 130 TOP 1248 TOP
    2496 TOP avec parcimonie
    1248 TOP
    2496 TOP avec parcimonie
    FP16 Calculer N / A N / A 18.7 TFLOP 21.2 TFLOP 30.4 TFLOP 32,8 TFLOP 312 TFLOP
    624 TFLOP avec parcimonie
    312 TFLOP
    624 TFLOP avec parcimonie
    Calcul FP32 5.04 TFLOP 6.8 TFLOP 10.0 TFLOP 10.6 TFLOP 15.7 TFLOP 16.4 TFLOP 156 TFLOP
    (norme 19,5 TFLOP)
    156 TFLOP
    (norme 19,5 TFLOP)
    Calcul FP64 1,68 TFLOP 0,2 TFLOP 4.7 TFLOP 5.30 TFLOP 7.80 TFLOP 8.2 TFLOP 19.5 TFLOP
    (norme 9.7 TFLOP)
    19.5 TFLOP
    (norme 9.7 TFLOP)
    Interface mémoire GDDR5 384 bits GDDR5 384 bits HBM2 4096 bits HBM2 4096 bits HBM2 4096 bits HBM2 4096 bits HBM2e 6144 bits HBM2e 6144 bits
    Taille mémoire 12 Go de GDDR5 à 288 Go/s 24 Go de GDDR5 à 288 Go/s 16 Go HBM2 à 732 Go/s
    12 Go HBM2 à 549 Go/s
    16 Go HBM2 à 732 Go/s 16 Go HBM2 à 900 Go/s 16 Go HBM2 à 1134 Go/s Jusqu’à 40 Go HBM2 à 1,6 To/s
    Jusqu’à 80 Go HBM2 à 1,6 To/s
    Jusqu’à 40 Go HBM2 à 1,6 To/s
    Jusqu’à 80 Go HBM2 à 2,0 To/s
    Taille du cache L2 1536 Ko 3072 Ko 4096 Ko 4096 Ko 6144 Ko 6144 Ko 40960 Ko 40960 Ko
    TDP 235W 250W 250W 300W 300W 250W 400W 250W

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *