Meta forme le réseau de neurones data2vec pour comprendre la parole, les images, le texte afin qu’il puisse «comprendre le monde»

  • Français


  • Les chercheurs de Meta, la société mère de Facebook, ont formé un seul modèle d’IA capable de traiter la parole, les images et le texte dans l’espoir que ces systèmes dits multimodaux alimenteront les produits de réalité augmentée et de métaverse de l’entreprise.

    Le modèle, connu sous le nom de data2vec, peut effectuer différentes tâches. Étant donné un extrait audio, il peut reconnaître la parole. S’il est alimenté par une image, il peut classer des objets. Et face au texte, il peut vérifier la grammaire ou analyser le ton et les émotions de l’écriture.

    Les algorithmes d’IA sont généralement formés sur un type de données, bien que data2vec soit formé sur trois modalités différentes. Cependant, il traite toujours chaque forme, que ce soit son discours, ses images et son texte, séparément.

    Meta pense que ces modèles multimodaux aideront les ordinateurs à être plus adaptables pour fusionner les environnements physiques et numériques en un seul. “Les gens font l’expérience du monde à travers une combinaison de la vue, du son et des mots, et des systèmes comme celui-ci pourraient un jour comprendre le monde comme nous le faisons”, a déclaré le PDG de Meta, Mark Zuckerberg, dans un communiqué. El Reg.

    “Tout cela finira par être intégré dans les lunettes AR avec un assistant IA, par exemple, cela pourrait vous aider à cuisiner le dîner, en remarquant si vous manquez un ingrédient, en vous invitant à baisser le feu ou à effectuer des tâches plus complexes.”

    Data2vec est un réseau de neurones basé sur un transformateur et utilise l’apprentissage auto-supervisé pour apprendre des modèles communs dans l’audio, la vision par ordinateur et le traitement du langage naturel. Le modèle apprend à fonctionner avec différents types de données en apprenant à prédire comment la représentation des données lui est donnée ; il sait qu’il doit deviner le prochain groupe de pixels lorsqu’il reçoit une image, ou le prochain énoncé de parole dans l’audio, ou remplir les mots d’une phrase.

    Les chercheurs ont utilisé un mélange de 16 GPU Nvidia V100 et A100 pour former data2vec sur 960 heures d’audio vocal, des millions de mots de livres et de pages Wikipedia, et des images d’ImageNet-1K.

    “Nous entraînons des modèles distincts pour chaque modalité, mais le processus par lequel les modèles apprennent est identique”, a déclaré Alexei Baevski, ingénieur de recherche chez Meta AI. Le registre.

    “Nous espérons que cela permettra aux travaux futurs de construire des modèles auto-supervisés très performants qui combinent des modalités et sont plus efficaces que des modèles spécialisés. Différentes modalités peuvent ajouter des informations supplémentaires au même contenu – par exemple le langage corporel de la vidéo, des informations prosodiques à partir de l’audio, et le texte peut se combiner en une représentation plus riche d’un dialogue. Les algorithmes qui tentent actuellement de combiner des informations multimodales existent mais ils ne fonctionnent pas encore assez bien pour remplacer les algorithmes spécialisés et nous espérons que notre travail aidera à changer cela.

    Baevski a déclaré qu’à l’avenir, les systèmes multimodaux pourraient intégrer une plus grande gamme de données pour modéliser des concepts tels que l’odeur, les objets 3D ou les vidéos. Il a renvoyé à l’idée que les lunettes AR aident les porteurs à cuisiner.

    “Imaginez avoir un modèle qui a été formé sur des enregistrements de milliers d’heures d’activité culinaire de divers restaurants et chefs. Ensuite, lorsque vous cuisinez dans une cuisine avec vos lunettes AR qui ont accès à ce modèle, il est capable de superposer des repères visuels pour ce que vous devez faire ensuite, signalez les erreurs potentielles ou expliquez comment l’ajout d’un ingrédient particulier affectera le goût de votre plat », nous a-t-il dit.

    Des recherches antérieures sur les systèmes multimodaux ont montré qu’ils peuvent être sujets à des attaques contradictoires faciles. Le modèle CLIP d’OpenAI, par exemple, formé sur des images et du texte, identifiera incorrectement l’image d’une pomme comme un iPod si le mot “iPod” figure dans l’image. Il n’est pas clair, cependant, si data2vec souffre de faiblesses similaires.

    “Nous n’avons pas spécifiquement analysé la manière dont nos modèles réagiront aux exemples contradictoires, mais puisque nos modèles actuels sont entraînés séparément pour chaque modalité, nous pensons que les recherches existantes sur l’analyse des attaques contradictoires pour chaque modalité seraient également applicables à notre travail”, a déclaré Baevski. .

    “À l’avenir, nous espérons utiliser nos travaux pour activer des algorithmes de haute performance qui combinent des modalités dans un modèle et nous prévoyons d’étudier leur sensibilité aux attaques contradictoires.”

    Lorsque les chercheurs ont testé data2vec, il a surpassé certains des meilleurs modèles qui avaient été entraînés sur un type de données spécifique uniquement sur différents types de tâches. Les résultats préliminaires sont décrits dans un article [PDF], et le code a été publié sur GitHub.

    “Data2vec démontre que le même algorithme auto-supervisé peut bien fonctionner dans différentes modalités – et souvent mieux que les meilleurs algorithmes existants”, ont expliqué les chercheurs dans un article de blog cette semaine.

    “Cela ouvre la voie à un apprentissage auto-supervisé plus général et nous rapproche d’un monde où l’IA pourrait utiliser des vidéos, des articles et des enregistrements audio pour en savoir plus sur des sujets complexes, tels que le football ou différentes façons de faire du pain. Nous espérons également que data2vec nous rapprochera d’un monde où les ordinateurs ont besoin de très peu de données étiquetées pour accomplir des tâches. ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *