Technique à faible mémoire pour les systèmes de recommandation d’apprentissage en profondeur

  • Français


  • Une technique révolutionnaire à faible mémoire mise au point par des informaticiens de l’Université Rice pourrait mettre l’une des formes d’intelligence artificielle les plus gourmandes en ressources – les modèles de recommandation d’apprentissage en profondeur (DLRM) – à la portée des petites entreprises.

    Les systèmes de recommandation DLRM sont une forme populaire d’IA qui apprend à faire des suggestions que les utilisateurs trouveront pertinentes. Mais avec des modèles de formation haut de gamme nécessitant plus d’une centaine de téraoctets de mémoire et un traitement à l’échelle d’un superordinateur, ils n’étaient disponibles que pour une courte liste de géants de la technologie aux poches profondes.

    Le “tableau d’intégration de blocs de décalage aléatoire” de Rice, ou ROBE Array, pourrait changer cela. Il s’agit d’une approche algorithmique pour réduire la taille des structures de mémoire DLRM appelées tables d’intégration, et elle sera présentée cette semaine à la Conférence sur l’apprentissage automatique et les systèmes (MLSys 2022) à Santa Clara, en Californie, où elle a remporté les honneurs d’un article exceptionnel.

    « En utilisant seulement 100 mégaoctets de mémoire et un seul GPU, nous avons montré que nous pouvions faire correspondre les temps de formation et doubler l’efficacité d’inférence des méthodes de formation DLRM de pointe qui nécessitent 100 gigaoctets de mémoire et plusieurs processeurs », a déclaré Anshumali Shrivastava. , professeur agrégé d’informatique à Rice qui présente la recherche à MLSys 2022 avec les co-créateurs de ROBE Array Aditya Desai, un étudiant diplômé de Rice dans le groupe de recherche de Shrivastava, et Li Chou, un ancien chercheur postdoctoral à Rice qui est maintenant à West Texas Université A&M.

    “ROBE Array établit une nouvelle référence pour la compression DLRM”, a déclaré Shrivastava. “Et cela met DLRM à la portée des utilisateurs moyens qui n’ont pas accès au matériel haut de gamme ou à l’expertise en ingénierie dont on a besoin pour former des modèles d’une taille de centaines de téraoctets.”

    Les systèmes DLRM sont des algorithmes d’apprentissage automatique qui apprennent à partir des données. Par exemple, un système de recommandation qui suggère des produits aux acheteurs serait formé avec des données de transactions passées, y compris les termes de recherche fournis par les utilisateurs, les produits qui leur ont été proposés et ceux qu’ils ont achetés, le cas échéant. Une façon d’améliorer la précision des recommandations consiste à trier les données d’entraînement en plusieurs catégories. Par exemple, plutôt que de regrouper tous les shampoings dans une seule catégorie, une entreprise pourrait créer des catégories pour les shampoings pour hommes, femmes et enfants.

    Pour la formation, ces représentations catégorielles sont organisées dans des structures de mémoire appelées tables d’intégration, et Desai a déclaré que la taille de ces tables “a explosé” en raison d’une catégorisation accrue.

    “Les tables d’intégration représentent désormais plus de 99,9 % de l’empreinte mémoire globale des modèles DLRM”, a déclaré Desai. “Cela entraîne une foule de problèmes. Par exemple, ils ne peuvent pas être formés de manière purement parallèle, car le modèle doit être divisé en morceaux et répartis sur plusieurs nœuds de formation et GPU. Et une fois qu’ils sont formés et en production , la recherche d’informations dans des tableaux intégrés représente environ 80 % du temps nécessaire pour renvoyer une suggestion à un utilisateur.”

    Shrivastava a déclaré que ROBE Array supprime le besoin de stocker des tables d’intégration en utilisant une méthode d’indexation des données appelée hachage pour créer “un seul tableau de paramètres appris qui est une représentation compressée de la table d’intégration”. L’accès aux informations d’intégration à partir de la baie peut alors être effectué “à l’aide d’un hachage universel compatible GPU”, a-t-il déclaré.

    Shrivastava, Desai et Chou ont testé ROBE Array en utilisant le benchmark DLRM MLPerf recherché, qui mesure la vitesse à laquelle un système peut former des modèles à une métrique de qualité cible. En utilisant un certain nombre d’ensembles de données de référence, ils ont découvert que ROBE Array pouvait égaler ou battre les techniques DLRM précédemment publiées en termes de précision d’entraînement, même après avoir compressé le modèle de trois ordres de grandeur.

    “Nos résultats montrent clairement que la plupart des références d’apprentissage en profondeur peuvent être complètement renversées par des algorithmes fondamentaux”, a déclaré Shrivastava. “Compte tenu de la pénurie mondiale de puces, c’est une bonne nouvelle pour l’avenir de l’IA.”

    ROBE Array n’est pas le premier grand splash de Shrivastava à MLSys. Lors de MLSys 2020, son groupe a dévoilé SLIDE, un “moteur d’apprentissage en profondeur sous-linéaire” qui fonctionnait sur des processeurs de base et pourrait surpasser les entraîneurs basés sur GPU. Ils ont suivi à MLSys 2021, montrant que les accélérateurs de vectorisation et d’optimisation de la mémoire pourraient augmenter les performances de SLIDE, lui permettant de former des réseaux de neurones profonds jusqu’à 15 fois plus rapidement que les meilleurs systèmes GPU.

    La recherche ROBE Array a été soutenue par la National Science Foundation (1652131, 1838177), l’Air Force Office of Scientific Research (YIP-FA9550-18-1-0152), l’Office of Naval Research, Intel et VMware.

    Source de l’histoire :

    Matériaux fourni par Université du riz. Original écrit par Jade Boyd. Remarque : Le contenu peut être modifié pour le style et la longueur.

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *