Voici le Megatron: Microsoft et Nvidia construisent un processeur de langage massif

  • Français


  • Nvidia et Microsoft ont annoncé leur plus grand modèle de langage de transformateur monolithique à ce jour, un modèle d’IA avec un énorme 530 milliards de paramètres qu’ils ont développé ensemble, nommé le modèle Megatron-Turing Natural Language Generation.

    MT-NLG est plus puissant que les précédents systèmes à base de transformateur formés par les deux sociétés, à savoir le modèle Turing-NLG de Microsoft et le Megatron-LM de Nvidia. Composé de trois fois plus de paramètres répartis sur 105 couches, MT-NLG est beaucoup plus grand et plus complexe. À titre de comparaison, le modèle GPT-3 d’OpenAI a 175 milliards de paramètres et la démo Switch Transformer de Google a 1,6 billion de paramètres.

    Plus gros est généralement mieux quand il s’agit de réseaux de neurones. Cela les oblige à ingérer plus de données d’entraînement. MT-NLG est meilleur dans une grande variété de tâches en langage naturel telles que la saisie semi-automatique des phrases, les questions et réponses, la lecture et le raisonnement par rapport à ses prédécesseurs. Il peut également effectuer ces tâches avec peu ou pas de réglage fin, ce que l’on appelle l’apprentissage à quelques coups ou à zéro.

    À mesure que ces modèles de langage deviennent plus grands, les chercheurs et les ingénieurs en IA doivent trouver toutes sortes de techniques et d’astuces pour les former. Cela nécessite une coordination minutieuse : le modèle et ses données d’apprentissage doivent être stockés et traités sur de nombreuses puces en même temps.

    MLT-NLG a été formé à l’aide du superordinateur d’apprentissage automatique Selene de Nvidia, un système composé de 560 serveurs DGX A100, chaque serveur contenant huit GPU A100 de 80 Go. Selene est également alimenté par les processeurs EPYC 7v742 d’AMD et son coût est estimé à plus de 85 millions de dollars, selon The Next Platform.

    Les 4 480 GPU utilisent NvLink et NVSwitch pour se connecter les uns aux autres. Chacun était capable de faire fonctionner plus de 113 téraFLOPs par seconde. Il est incroyablement coûteux de former ces modèles et même s’ils fonctionnent sur du matériel haut de gamme, cela nécessite des hacks logiciels pour réduire les temps de formation. Nvidia et Microsoft ont utilisé DeepSpeed, une bibliothèque d’apprentissage en profondeur contenant du code PyTorch qui a permis aux ingénieurs de regrouper plus de données sur de nombreux pipelines en parallèle.

    “En combinant le découpage tensoriel et le parallélisme de pipeline, nous pouvons les faire fonctionner dans le régime où ils sont le plus efficaces”, Paresh Kharya, directeur principal de la gestion des produits et du marketing pour l’informatique accélérée chez NVIDIA, et Ali Alvi, responsable du programme de groupe pour Microsoft. L’équipe de Turing, expliquée dans un article de blog.

    « Plus précisément, le système utilise le découpage tensoriel de Megatron-LM pour mettre à l’échelle le modèle au sein d’un nœud et utilise le parallélisme de pipeline de DeepSpeed ​​pour mettre le modèle à l’échelle sur les nœuds.

    « Par exemple, pour le modèle de 530 milliards, chaque réplique de modèle s’étend sur 280 GPU NVIDIA A100, avec un découpage tensoriel à 8 voies au sein d’un nœud et un parallélisme de pipeline à 35 voies entre les nœuds. Nous utilisons ensuite le parallélisme des données de DeepSpeed ​​pour évoluer davantage vers des milliers de GPU. »

    MT-NLG a été formé sur un ensemble de données géant connu sous le nom de The Pile. Compilé par Eleuther AI, un groupe de chercheurs et d’ingénieurs en IA à la tête d’un effort local visant à ouvrir de grands modèles linguistiques, il est composé de plusieurs ensembles de données plus petits totalisant 825 Go de texte extrait d’Internet à partir de sources telles que Wikipedia, des référentiels de revues universitaires, et des coupures de presse.

    Traiter de si gros volumes de texte signifie que l’ensemble de données ne peut pas être nettoyé d’un langage toxique. Malheureusement, cela signifie que MT-NLG peut générer des sorties offensantes qui pourraient être racistes ou sexistes.

    “Nos observations avec MT-NLG sont que le modèle reprend les stéréotypes et les biais des données sur lesquelles il est formé”, ont déclaré Kharya et Alvi.

    « Microsoft et NVIDIA se sont engagés à travailler pour résoudre ce problème. Nous encourageons la poursuite des recherches pour aider à quantifier le biais du modèle… De plus, toute utilisation de MT-NLG dans des scénarios de production doit garantir que des mesures appropriées sont mises en place pour atténuer et minimiser les dommages potentiels aux utilisateurs. ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *