Remplacer les travailleurs par l’IA ? N’oubliez pas les frais de reconversion • Le Registre

  • Français


  • Commenter Les divagations lucides et l’art synthétisé par ChatGPT ou Stable Diffusion ont captivé l’imagination et suscité de nombreuses controverses sur le rôle que l’IA générative jouera dans notre avenir.

    Comme nous l’avons vu avec CNET et Buzzfeed, les dirigeants ne sont pas moins éblouis par le potentiel créatif de l’IA pour remplacer les travailleurs par des profits. Mais l’une des choses qui passe souvent inaperçue dans ces conversations est la nécessité de recycler régulièrement ces modèles ou de les risquer de devenir obsolètes, en particulier dans des environnements en évolution rapide comme les actualités.

    ChatGPT, Stable Diffusion, Dall-E-2 et la majorité de l’IA générative d’aujourd’hui sont formés sur de grands ensembles de données, puis mis à disposition en tant que preuve de concepts ou exportés en tant que modèle pré-formé.

    Prenons Stable Diffusion comme exemple, car il offre un aperçu de la portée trompeuse de ces modèles. Comme Dall-E-2 Stable Diffusion est multimodal. Il est composé d’une collection de modèles qui travaillent ensemble pour transformer vos œuvres en une représentation visuelle.

    Mais là où Stable Diffusion se démarque, c’est que son modèle pré-formé peut tenir dans seulement 4 Go de vRAM Nvidia sans envoyer le processeur en surcharge en essayant de transformer des données. Cela signifie que vous pouvez l’exécuter à la maison sur un ordinateur portable ou de bureau suffisamment puissant tant que vous disposez d’un GPU dédié avec suffisamment de mémoire. La possibilité d’exécuter des modèles à la maison a ouvert les yeux sur de nombreux potentiels d’IA générative, mais bien qu’amusants, les modèles pré-formés ont également une durée de vie limitée.

    Imaginez si vous exposiez un enfant à tout ce que le monde a à offrir. Pendant 18 ans, ils absorbent toutes les connaissances qu’ils peuvent, mais le premier jour de leur vie d’adulte, ils sont enfermés dans une grotte et isolés du monde. Imaginez maintenant que vous fournissez à cette personne des fournitures artistiques et que vous lui demandiez de dessiner, de peindre et de rendre des images en fonction de vos invites.

    Au début, les images seraient relativement précises, mais chaque jour qui passe, l’isolement les désavantage davantage. Au fur et à mesure que les invites s’aventurent de plus en plus dans un territoire inconnu, l’art devient de moins en moins précis.

    Un modèle d’IA pré-formé n’est pas très différent. Il est aveugle au monde à partir du moment où sa formation est terminée. C’est pourquoi, pour que l’IA générative soit vraiment utile, elle devra être recyclée à plusieurs reprises. Et c’est là que réside le problème : bien que ces modèles d’IA semblent tous magiques, leur formation ne serait-ce qu’une seule fois reste une proposition exceptionnellement coûteuse.

    Cela fait que l’école privée ressemble à une bonne affaire

    Le calcul du coût de la formation est une chose délicate car il y a tellement de variables en jeu. Mais pour les besoins de cet article, nous allons examiner la précision en virgule flottante, la taille du modèle et le temps de formation pour aider à mettre tout cela en perspective.

    Aujourd’hui, la plupart des formations sur l’IA sont effectuées sur des GPU, chacun avec une quantité relativement faible de mémoire rapide intégrée. Les GPU A100 et H100 de Nvidia disposent tous deux de 80 Go de mémoire HBM, tandis que les GPU AMD et Intel poussent désormais 128 Go. Bien qu’il existe d’autres architectures avec différentes topologies de mémoire, nous allons nous en tenir à l’A100 de Nvidia car le matériel est bien pris en charge, largement disponible dans les environnements sur site et dans le cloud et exécute des charges de travail AI depuis des années à ce stade.

    La précision en virgule flottante est l’un des facteurs les plus importants, car elle joue à la fois sur le temps d’entraînement et sur la quantité de mémoire dont le modèle aura besoin. Ce dernier dicte également la quantité de calcul requise, car chaque accélérateur ne dispose que d’une quantité de mémoire limitée. Le temps de formation lui-même est plus difficile à quantifier car il varie en fonction de la densité de calcul, de la quantité d’accélérateurs, de la taille de l’ensemble de données, du nombre de paramètres en jeu et de tout nombre d’autres variables associées.

    Aujourd’hui, la plupart des modèles sont formés à l’aide de FP32, FP16 ou Bfloat16, bien que de nombreux acteurs de l’industrie poussent désormais les calculs FP8. Au fur et à mesure que vous descendez l’échelle, la précision est échangée contre de meilleures performances et les modèles ont également tendance à devenir plus petits. Pour cette raison, il n’est pas rare que les modèles utilisent une précision mixte, ce qui implique essentiellement l’utilisation de calculs de précision inférieure pour certains paramètres et de précision supérieure pour d’autres, généralement pour optimiser les performances.

    Alors, quelle est la taille de ces modèles ? Eh bien, avec ChatGPT qui ne manque pas de controverse ces derniers temps, jetons un coup d’œil à GPT-3 sur lequel est basé le modèle d’IA qui divise. À 175 milliards de paramètres, GPT-3, dévoilé au milieu de 2020, a été formé sur un cluster massif de GPU Nvidia V100 sur un ensemble de données d’environ 2 To.

    D’après ce que nous comprenons, GPT-3 a été formé en utilisant la précision FP32, ce qui signifie quatre octets par paramètre. Cela équivaut à environ 700 Go de vRAM requis juste pour s’adapter au modèle. Aujourd’hui, cela nécessiterait environ dix Nvidia A100 de 80 Go, mais à moins que vous ne vouliez attendre des années pour qu’il s’entraîne, vous aurez besoin de quelques morceaux de plus de gros fer.

    Les ingénieurs de Nvidia, travaillant aux côtés de scientifiques de l’Université de Stanford et de Microsoft Research, ont estimé dans un article de 2021 qu’il faudrait 1 024 A100 34 jours pour former GPT-3 sur un ensemble de données de 1,2 To. Pour mettre cela en perspective, cela équivaut à 128 instances AWS p4de.24xlarge. À 40,96 $ l’heure chacun, et avec 816 heures nécessaires pour s’entraîner, cela vous coûterait environ 4,28 millions de dollars rien que pour l’entraîner. L’exécution de l’inférence sur le modèle formé pour garantir des performances plus intelligentes est un tout autre problème.

    Et ce n’est que GPT-3. Les futurs modèles devraient être d’un ordre de grandeur plus grand, certains spéculant que GPT-4 pourrait être aussi grand qu’un billion de paramètres. Mais, comme nous n’avons pas encore de détails précis sur GPT-4, nous allons examiner un autre grand modèle de langage de Nvidia.

    Voici le mégatron

    Le modèle de langage Megatron-Turing NLG de Nvidia compte 530 milliards de paramètres, ce qui le rend plus de trois fois plus grand que GPT-3. Selon Nvidia, il a fallu huit semaines à 2 048 Nvidia A100 fonctionnant avec une précision mixte pour former le modèle. Pour en revenir à notre exemple AWS, nous parlons maintenant d’un peu plus de 14 millions de dollars pour le former une fois. Il ne faut pas beaucoup d’imagination pour comprendre pourquoi le recyclage chaque semaine sur un ensemble de données de plus en plus volumineux pourrait coûter cher à la hâte.

    Vous vous demandez peut-être pourquoi ne pas vous entraîner sur place si le cloud est si cher. C’est un point valable, surtout si vous allez constamment recycler votre modèle, mais cela nécessite toujours un gros investissement initial.

    En utilisant l’exemple Megatron-Turning NLG de Nvidia d’avant, vous auriez besoin de 256 nœuds 8-GPU. Nous utiliserons les serveurs DGX A100 de Nvidia comme exemple. Bien que le coût de ces systèmes varie, nous avons vu des prix aux alentours de 175 000 $.

    Pour 256 nœuds, les coûts s’élèvent à 44,8 millions de dollars et cela ne tient pas compte de la puissance et de la maintenance nécessaires pour les maintenir opérationnels. À pleine charge, un cluster de 256 nœuds pourrait consommer 1,7 mégawatts par heure. En supposant un recyclage constant, vous envisagez 2,2 millions de dollars par an en électricité. Bien sûr, en réalité, cela devrait être un peu moins que cela.

    La prolifération d’accélérateurs plus rapides et des calculs de précision inférieurs/mélangés aideront certainement, mais cela suppose que les modèles ne continuent pas à dépasser nos avancées en matière de silicium.

    Le point des rendements décroissants

    Si nous avons appris quelque chose sur la nature humaine, c’est que nous prendrons tous les raccourcis possibles si cela signifie faire de l’argent. Les modèles de langage naturel massifs comme ChatGPT peuvent être impressionnants, mais le simple coût de les former puis de les recycler les rendra si peu pratiques que seules les plus grandes entreprises peuvent se permettre de les utiliser à leur plein potentiel.

    Des entreprises comme Microsoft, qui exploitent d’énormes clusters GPU avec des dizaines de milliers d’accélérateurs, sont bien placées pour faire exactement cela, il n’est donc pas surprenant que l’entreprise investisse massivement dans des entreprises comme OpenAI.

    Mais à mesure que les modèles d’IA et les accélérateurs mûrissent, le nombre de modèles adaptés à des applications spécifiques est susceptible de proliférer.

    Nous avons déjà vu une multitude de générateurs d’art IA émerger dans le sillage de Dall-E. Mais bien qu’il n’ait pas réussi à offrir le même degré de finition que ses rivaux, la nature open source de Stable Diffusion et sa capacité non seulement à être déployée, mais également à être formée sur du matériel grand public, en ont fait un succès remarquable.

    Stable Diffusion démontre également que l’IA n’est pas à l’abri de la règle des rendements décroissants. Les voitures de luxe peuvent captiver les conducteurs, mais s’ils n’en ont pas les moyens, ils se contentent de leur Ford ou de leur Honda. Bien que cela puisse manquer du style ou du prestige d’une marque de luxe, cela vous amènera toujours du point A au point B. Il n’y a aucune raison de penser qu’il n’en sera pas de même pour l’adoption de l’IA dans l’entreprise.

    En fin de compte, le but n’est pas la perfection, c’est la médiocrité. Tant que le modèle est assez bon – et coûte moins cher que de le faire faire par une personne – l’IA aura payé d’elle-même. Et comme nous en avons discuté, il y a beaucoup de coins à couper. ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *