La vue d’ensemble du matériel et des logiciels d’IA •

  • Français


  • Fonctionnalité sponsorisée Cela fait une décennie et demie que les chercheurs ont ébloui le monde de la technologie en démontrant que les unités de traitement graphique pouvaient être utilisées pour accélérer considérablement les opérations clés de l’IA.

    Cette prise de conscience continue de saisir l’imagination des entreprises. IDC a signalé qu’en matière d’infrastructure, le calcul accéléré par GPU et la mise à l’échelle HPC sont parmi les principales considérations pour les leaders technologiques et les architectes qui cherchent à développer leur infrastructure d’IA.

    Mais pour toutes les organisations qui ont appliqué avec succès l’IA à des problèmes du monde réel, beaucoup d’autres ont du mal à dépasser le stade de l’expérimentation ou du pilote. Les recherches d’IDC en 2021 ont révélé que moins d’un tiers des répondants avaient mis leurs projets d’IA en production, et seulement un tiers d’entre eux avaient atteint un “stade de production mature”.

    Les obstacles cités incluent des problèmes de traitement et de préparation des données et de renforcement de l’infrastructure pour prendre en charge l’IA à l’échelle de l’entreprise. Les entreprises devaient investir dans “une infrastructure spécialement conçue et de la bonne taille”, a déclaré IDC.

    Quel est le problème de l’IA ici ?

    Alors, où ces organisations se trompent-elles avec l’IA ? L’un des facteurs pourrait être que les leaders technologiques et les spécialistes de l’IA ne parviennent pas à jeter un regard holistique sur le pipeline plus large de l’IA tout en accordant trop d’attention aux GPU par rapport aux autres moteurs de calcul, notamment le vénérable CPU.

    Car finalement, il ne s’agit pas de soutenir les CPU contre les GPU contre les ASIC. Il s’agit plutôt de trouver le moyen optimal de construire un pipeline d’IA qui peut vous faire passer des idées, des données et de la création de modèles au déploiement et à l’inférence. Et cela signifie apprécier les forces respectives des différentes architectures de processeur, afin que vous puissiez appliquer le bon moteur de calcul au bon moment.

    En tant que directeur principal d’Intel, Datacenter AI Strategy and Execution, Shardul Brahmbhatt explique : « Le processeur a été utilisé pour les microservices et les instances de calcul traditionnelles dans le cloud. Et les GPU ont été utilisés pour le calcul parallèle, comme le streaming multimédia, les jeux et pour les charges de travail d’IA. .”

    Ainsi, alors que les hyperscalers et autres acteurs du cloud se sont tournés vers l’IA, il est devenu clair qu’ils exploitent ces mêmes atouts pour différentes tâches.

    Les capacités des GPU autour du calcul parallèle les rendent parfaitement adaptés à la formation d’algorithmes d’IA, par exemple. Pendant ce temps, les processeurs ont un avantage en ce qui concerne l’inférence en temps réel par lots et à faible latence, et l’utilisation de ces algorithmes pour analyser les données en direct et fournir des résultats et des prédictions.

    Encore une fois, il y a des mises en garde, explique Brahmbhatt, “Il y a des endroits où vous voulez faire plus d’inférence par lots. Et cette inférence par lots est également quelque chose qui se fait via des GPU ou des ASIC.”

    Regardant le pipeline

    Mais le pipeline de l’IA va au-delà de la formation et de l’inférence. Du côté gauche du pipeline, les données doivent être prétraitées et des algorithmes développés. Le processeur généraliste a ici un rôle important à jouer.

    En fait, les GPU représentent une proportion relativement faible de l’activité totale du processeur dans le pipeline de l’IA, les charges de travail « étape de données » alimentées par le processeur représentant les deux tiers dans l’ensemble, selon Intel (vous pouvez lire une présentation de solution – Optimiser l’inférence avec le processeur Intel technologie ici).

    Et Brahmbhatt nous rappelle que l’architecture CPU a d’autres avantages, dont la programmabilité.

    “Parce que les processeurs ont été utilisés si largement, il existe déjà un écosystème de développeurs et d’applications disponibles, ainsi que des outils qui offrent une facilité d’utilisation et une programmabilité pour le calcul à usage général”, dit-il.

    “Deuxièmement, les processeurs offrent un accès plus rapide à l’espace mémoire plus grand. Et puis la troisième chose est qu’il s’agit d’un calcul plus non structuré par rapport aux GPU. [which] sont plus calcul parallèle. Pour ces raisons, les processeurs fonctionnent comme des déménageurs de données qui alimentent les GPU, aidant ainsi les modèles de système de recommandation ainsi que les charges de travail évolutives comme les réseaux de neurones graphiques. »

    Un plan ouvert pour le développement de l’IA

    Alors, comment devrions-nous voir les rôles respectifs des CPU et des GPU lors de la planification d’un pipeline de développement d’IA, que ce soit sur site, dans le cloud ou à cheval sur les deux ?

    Les GPU ont révolutionné le développement de l’IA, car ils offraient une méthode d’accélération qui décharge les opérations du CPU. Mais il ne s’ensuit pas que ce soit l’option la plus sensée pour un travail donné.

    Comme l’explique Sharath Raghava, architecte de la plate-forme Intel, “les applications d’IA ont des calculs vectorisés. Les calculs vectoriels sont parallélisables. Pour exécuter efficacement les charges de travail d’IA, on pourrait exploiter les capacités des processeurs et des GPU en tenant compte de la taille des calculs vectoriels, de la latence de déchargement, de la parallélisabilité et de nombreux autres facteurs”. . Mais poursuit-il, pour une tâche “plus petite”, le “coût” du déchargement sera excessif, et il n’est peut-être pas logique de l’exécuter sur un GPU ou un accélérateur.

    Les processeurs peuvent également bénéficier d’une intégration plus étroite avec d’autres composants du système qui leur permettent de terminer le travail d’IA plus rapidement. Pour tirer le meilleur parti des déploiements d’IA, il ne suffit pas d’exécuter les modèles eux-mêmes : les informations recherchées dépendent d’opérations de prétraitement, d’inférence et de post-traitement efficaces. Le prétraitement nécessite que les données soient préparées pour correspondre aux attentes d’entrée du modèle formé avant qu’elles ne soient alimentées pour générer une inférence. Les informations utiles sont ensuite extraites des résultats d’inférence lors de l’étape de post-traitement.

    Si nous pensons à un système de détection d’intrusion (IDS) dans un centre de données, il est important d’agir sur la sortie du modèle pour protéger et prévenir tout dommage causé par une cyberattaque en temps opportun. Et généralement, les étapes de prétraitement et de post-traitement sont plus efficaces lorsqu’elles sont effectuées sur les processeurs du système hôte, car elles s’intègrent plus étroitement au reste de l’écosystème architectural.

    Amélioration des performances sous les commandes de démarrage

    Alors, cela signifie-t-il renoncer complètement aux avantages de l’accélération GPU ? Pas nécessairement. Intel intègre l’accélération de l’IA dans ses processeurs évolutifs Xeon depuis quelques années. La gamme comprend déjà Deep Learning Boost pour une inférence haute performance sur des modèles d’apprentissage en profondeur, tandis que les extensions vectorielles avancées 512 (AVX 512) et Vector Neural Network Extensions (VNNI) d’Intel accélèrent les performances d’inférence INT8. Mais DL Boost utilise également le format à virgule flottante du cerveau (BF16) pour améliorer les performances sur les charges de travail d’entraînement qui ne nécessitent pas de niveaux de précision élevés.

    Les prochains processeurs Intel Xeon Scalable de quatrième génération ajouteront une multiplication matricielle avancée, ou AMX. Cela donnera un coup de pouce supplémentaire de 8 fois par rapport aux extensions AVX-512 VNNI x86 mises en œuvre dans les processeurs précédents selon les calculs d’Intel, et permettra aux processeurs Intel Xeon Scalable de 4e génération de “gérer les charges de travail de formation et les algorithmes DL comme le fait un GPU”. Mais ces mêmes accélérateurs peuvent également être appliqués au calcul général du processeur pour les charges de travail IA et non IA.

    Cela ne signifie pas qu’Intel s’attend à ce que les pipelines d’IA soient x86 du début à la fin. Lorsqu’il est plus logique de décharger complètement les charges de travail de formation qui bénéficieront de la parallélisation, Intel propose son processeur de formation Habana Gaudi AI. Les tests de référence suggèrent que ces dernières alimentent les instances Amazon EC2 DL1 qui peuvent offrir un rapport qualité-prix jusqu’à 40 % supérieur à celui des instances de formation comparables basées sur le GPU Nvidia également hébergées dans le cloud.

    Dans le même temps, la série Data Center GPU Flex d’Intel est orientée vers les charges de travail et les opérations qui bénéficient de la parallélisation telles que l’inférence de l’IA, avec différentes implémentations conçues pour des modèles d’IA “plus légers” et plus complexes. Un autre GPU Intel® Data Center, nommé Ponte Vecchio (PVC), va bientôt alimenter le supercalculateur Aurora du Laboratoire national d’Argonne.

    Peut-on aller de bout en bout ?

    Potentiellement, le silicium d’Intel peut donc sous-tendre l’ensemble du pipeline d’IA, tout en minimisant le besoin de décharger inutilement des données entre différents moteurs de calcul. Les processeurs de la société – qu’ils soient GPU ou CPU – prennent également en charge un modèle logiciel commun basé sur des outils et des cadres open source avec des optimisations Intel via son programme OneAPI.

    Brahmbhatt cite l’héritage d’Intel dans la construction d’un écosystème logiciel x86 basé sur la communauté et l’open source comme un autre avantage. “La philosophie d’Intel est …” laissez l’écosystème piloter l’adoption “. Et nous devons nous assurer que nous sommes justes et ouverts à l’écosystème, et nous fournissons toute notre sauce secrète à l’écosystème.”

    “Nous utilisons une pile logicielle commune, pour nous assurer que les développeurs n’ont pas à se soucier de la différenciation sous-jacente de l’IP entre CPU et GPU pour l’IA.”

    Cette combinaison d’une pile logicielle commune et de l’accent mis sur l’utilisation du bon moteur de calcul pour la bonne tâche est encore plus importante dans l’entreprise. Les entreprises comptent sur l’IA pour les aider à résoudre certains de leurs problèmes les plus urgents, qu’ils résident dans le cloud ou sur site. Mais les charges de travail mixtes nécessitent un logiciel complet, ainsi que la maintenance et la gestion de la pile système, pour exécuter le code non inclus dans le noyau qui se trouve sur l’accélérateur.

    Ainsi, lorsqu’il s’agit de répondre à la question “comment pouvons-nous amener l’IA à l’échelle de l’entreprise”, la réponse peut dépendre de l’examen de la situation dans son ensemble et de la garantie d’utiliser l’intégralité du kit matériel et logiciel à votre disposition.

    Sponsorisé par Intel.

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *