Les GPU ne sont pas toujours votre meilleur pari, suggèrent les tests Twitter ML

  • FrançaisFrançais



  • Les GPU sont un outil puissant pour les charges de travail d’apprentissage automatique, bien qu’ils ne soient pas nécessairement le bon outil pour chaque travail d’IA, selon Michael Bronstein, responsable de la recherche sur l’apprentissage des graphes chez Twitter.

    Son équipe a récemment montré que le matériel d’intelligence artificielle de Graphcore offrait une “accélération d’un ordre de grandeur lors de la comparaison d’un seul processeur IPU à un GPU Nvidia A100”, dans les modèles de réseau de graphes temporels (TGN).

    “Le choix du matériel pour la mise en œuvre des modèles Graph ML est un problème crucial, mais souvent négligé”, lit un article conjoint rédigé par Bronstein avec Emanuele Rossi, chercheur en ML chez Twitter, et Daniel Justus, chercheur chez Graphcore.

    Les réseaux de neurones graphiques offrent un moyen de trouver l’ordre dans des systèmes complexes et sont couramment utilisés dans les réseaux sociaux et les systèmes de recommandation. Cependant, la nature dynamique de ces environnements rend ces modèles particulièrement difficiles à former, a expliqué le trio.

    Le groupe a étudié la viabilité des IPU de Graphcore dans la gestion de plusieurs modèles TGN. Les premiers tests ont été effectués sur un petit modèle TGN basé sur l’ensemble de données JODIE Wikipedia qui relie les utilisateurs aux modifications qu’ils ont apportées aux pages. Le graphique comprenait 8 227 utilisateurs et 1 000 articles pour un total de 9 227 nœuds. JODIE est un système de prédiction open source conçu pour donner un sens aux réseaux d’interactions temporelles.

    L’expérimentation du trio a révélé que de grandes tailles de lots entraînaient une dégradation de la précision de la validation et de l’inférence, par rapport à des tailles de lots plus petites.

    “La mémoire du nœud et la connectivité du graphique ne sont mises à jour qu’après le traitement d’un lot complet”, a écrit le trio. “Par conséquent, les événements ultérieurs d’un lot peuvent s’appuyer sur des informations obsolètes car ils ne sont pas au courant des événements antérieurs.”

    Cependant, en utilisant une taille de lot de 10, le groupe a pu obtenir une validation et une précision d’inférence optimales, mais ils notent que les performances sur l’IPU étaient toujours supérieures à celles d’un GPU, même en utilisant de grandes tailles de lot.

    “Lorsque vous utilisez un lot de 10, TGN peut être formé sur l’IPU environ 11 fois plus rapidement, et même avec une grande taille de lot de 200, la formation est toujours trois fois plus rapide sur l’IPU”, indique le message. “Tout au long de toutes les opérations, l’IPU gère plus efficacement les petits lots.”

    L’équipe postule que l’accès rapide à la mémoire et le débit élevé offerts par le grand cache SRAM intégré au processeur de Graphcore ont donné un avantage à l’IPU.

    Cette avance de performances s’étendait également aux modèles de graphes qui dépassaient la mémoire du processeur de l’IPU – chaque IPU dispose d’un cache SRAM de 1 Go – nécessitant l’utilisation d’une mémoire DRAM plus lente attachée aux puces.

    Lors de tests sur un modèle graphique composé de 261 millions de suivis entre 15,5 millions d’utilisateurs de Twitter, l’utilisation de la DRAM pour la mémoire du nœud a réduit le débit d’un facteur de deux, a découvert l’équipe de Bronstein.

    Cependant, lors de l’induction de plusieurs sous-graphes basés sur un ensemble de données synthétiques 10 fois plus grand que le graphe Twitter, l’équipe a trouvé un débit mis à l’échelle indépendamment de la taille du graphe. En d’autres termes, l’impact sur les performances résultait de l’utilisation d’une mémoire plus lente et non de la taille du modèle.

    “En utilisant cette technique sur l’IPU, TGN peut être appliqué à des tailles de graphes presque arbitraires, uniquement limitées par la quantité de mémoire hôte disponible tout en conservant un débit très élevé pendant la formation et l’inférence”, lit-on dans l’article.

    L’équipe a conclu que l’architecture IPU de Graphcore présente un avantage significatif par rapport aux GPU dans les charges de travail où le calcul et l’accès à la mémoire sont hétérogènes.

    Cependant, la conclusion la plus large est que les chercheurs en ML doivent soigneusement réfléchir à leur choix de matériel et ne doivent pas utiliser par défaut des GPU.

    “La disponibilité de services de cloud computing faisant abstraction du matériel sous-jacent conduit à une certaine paresse à cet égard”, a écrit le trio. “Nous espérons que notre étude attirera davantage l’attention sur ce sujet important et ouvrira la voie à de futurs algorithmes et architectures matérielles plus efficaces pour les applications Graph ML.” ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.