Facebook utilise un milliard de photos Instagram pour créer une IA de reconnaissance d’objets massive qui s’est en partie formée

  • FrançaisFrançais



  • Facebook a formé son système de vision par ordinateur semi-supervisé le plus avancé à ce jour sur un ensemble de données d’un milliard d’images publiques prises à partir d’Instagram, son autre réseau social.

    Connu sous le nom de SEER, abréviation de SElf-supERvised, ce réseau de neurones à convolution massive contient plus d’un milliard de paramètres. Si vous lui montrez des images de choses, il décrira en mots ce qu’il reconnaît: un vélo, une banane, un parapluie de golf rayé rouge et bleu, etc. Bien que ses capacités ne soient pas si nouvelles, la façon dont il a été formé diffère des techniques utilisées pour enseigner d’autres types de modèles de vision par ordinateur. Essentiellement, SEER s’est en partie enseigné en utilisant une approche appelée autosurveillance, qui, on l’espère, pourrait un jour être utilisée pour donner aux ordinateurs une compréhension de base du monde – ce que vous pourriez appeler le bon sens.

    Tout d’abord, il a appris à regrouper les photos Instagram par leur similitude sans aucune supervision ni étiquetage, à l’aide d’un algorithme surnommé SwAV. L’équipe a ensuite affiné le modèle en lui apprenant à associer un million de photos prises à partir de l’ensemble de données ImageNet avec leurs étiquettes écrites par l’homme. Cette étape était une méthode traditionnelle supervisée: les humains ont organisé les photos et les étiquettes, et cela est transmis au réseau de neurones qui a été pré-entraîné par lui-même.

    Le logiciel se familiarise ainsi avec un milliard d’images d’Instagram, apprend à regrouper des images similaires, puis apprend à sous-titrer ces images à partir d’un million d’exemples ImageNet. Cela nous semble plus efficace que d’étiqueter avec précision des clichés d’un milliard de grammes pour alimenter un réseau de neurones.

    «Nous avons profité d’un nouvel algorithme appelé SwAV, qui s’est développé à partir de la recherche FAIR sur l’apprentissage auto-supervisé», ont expliqué les Facebookers Priya Goyal, Vittorio Caggiano, Piotr Bojanowski et Armand Joulin, en référence à Facebook AI Research, alias FAIR.

    “SwAV utilise le regroupement en ligne pour regrouper rapidement des images avec des concepts visuels similaires et exploiter leurs similitudes. Avec SwAV, nous avons pu améliorer l’état de l’art antérieur en matière d’apprentissage auto-supervisé – et cela avec 6 fois moins de temps de formation.”

    SEER a ainsi appris à associer une image, par exemple, d’une pomme rouge à la description de «pomme rouge». Une fois formés, les compétences de reconnaissance d’objets du modèle ont été testées à l’aide de 50000 images d’ImageNet qu’il n’avait jamais vues auparavant: dans chaque test, il devait produire un ensemble de prédictions de ce qui était illustré, classées de manière confidentielle de haut en bas. Sa principale prédiction dans chaque test était exacte 84,2% du temps, nous dit-on.

    Le modèle ne se classe pas aussi bien que ses pairs dans l’analyse comparative ImageNet. L’inconvénient des modèles comme SEER est qu’ils sont moins précis que leurs cousins ​​supervisés. Pourtant, il y a des avantages à former de manière semi-supervisée, a déclaré Goyal, premier auteur de l’article du projet sur SEER. Le registre.

    “Grâce à la formation préalable à l’auto-supervision, nous pouvons apprendre sur un ensemble d’images plus diversifié car nous n’avons pas besoin d’étiquettes, de conservation des données ou de toute autre métadonnée”, a-t-elle déclaré. “Cela signifie que le modèle peut en apprendre davantage sur des concepts visuels plus monde contrairement à la formation supervisée où nous ne pouvons nous entraîner que sur des ensembles de données limités ou petits qui sont hautement organisés et ne nous permettent pas de capturer la diversité visuelle du monde.

    Facebook

    Des centaines de modérateurs de Facebook se plaignent: la modération du contenu de l’IA ne fonctionne pas et nous payons pour cela

    LIRE LA SUITE

    Goyal pense que la technique s’avérera utile dans des domaines tels que l’imagerie médicale où il est difficile de rassembler de grands ensembles de données étiquetés à partir de données cliniques privées. «Les performances de SEER démontrent que l’apprentissage auto-supervisé peut exceller dans les tâches de vision par ordinateur dans des contextes réels. Il s’agit d’une avancée majeure qui ouvre la voie à l’avenir à des modèles de vision par ordinateur plus flexibles, précis et adaptables », a déclaré l’équipe.

    SEER a été formé pendant huit jours à l’aide de 512 GPU. Le code du modèle n’est pas accessible au public, bien que VISSL, la bibliothèque PyTorch qui a été utilisée pour construire SEER, soit maintenant disponible sur GitHub.

    Facebook nous a dit que SEER reste une idée de preuve de concept et ne sera pas utilisé pour alimenter les fonctionnalités ou les produits du géant du Web pour le moment. ®

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *