Oui, Mark Zuckerberg pousse toujours le métaverse. Prochaine étape, la traduction de la langue

Meta a mal commencé l’année.
Lorsqu’il a révélé que la croissance de son audience était au point mort et qu’il avait déjà investi plus de 10 milliards de dollars dans les technologies métavers, le cours de son action a chuté de 27 %. Plus de 230 milliards de dollars de la capitalisation boursière de Meta se sont évaporés. Dans les médias sociaux, si vous ne grandissez pas, vous mourez.
Pour Mark Zuckerberg, le métaverse ne peut pas arriver assez tôt. Ce PDG est tout à fait dans la transformation de Facebook d’un site Web et d’une application ennuyeux en un monde 3D lumineux, où les amis peuvent traîner dans des environnements virtuels qu’ils créent et se plient à volonté. Pour transformer sa vision en réalité et faire du métaverse un succès, Meta investit massivement dans l’IA pour l’alimenter.
“Les types d’expériences que vous vivrez dans le métaverse vont au-delà de ce qui est possible aujourd’hui”, a déclaré Zuckerberg lundi lors d’un très méta-événement présentant quelques-uns des systèmes d’IA qui piloteront le nouveau Facebook 2.0.
“C’est une version immersive d’Internet. Au lieu de simplement regarder quelque chose sur un écran, vous aurez l’impression d’être à l’intérieur ou d’être présent avec une autre personne. Et cela nécessitera des progrès dans toute une gamme de domaines, des nouveaux appareils matériels aux logiciels pour construire et explorer des mondes. Et la clé pour débloquer beaucoup d’entre eux réside dans les progrès de l’IA.
Le principal défi de la construction du métaverse est de rendre la transition du monde physique au monde virtuel aussi transparente que possible. À l’avenir, les habitants de Meta porteront des lunettes AR et des lunettes VR pour naviguer dans ces environnements inventés et utiliseront une gamme de technologies d’intelligence artificielle pour interagir les uns avec les autres.
Une entité importante dans tout cela, par exemple, est un assistant IA qui voit tout et qui sait tout. Meta a annoncé le projet CAIRoke, un modèle conçu pour développer des chatbots intelligents qui fonctionnent dans le métaverse. Zuckerberg a démontré qu’il dirigeait un robot appelé Builder Bot pour créer de nouvelles fonctionnalités dans le métaverse en donnant des instructions au système alimenté par CAIRoke à l’aide de commandes vocales. “Ajoutons quelques nuages,” dit-il. Le ciel du métaverse est alors rempli de nuages. “Ajoutons une île là-bas.” Une île aux rochers recouverts de mousse apparaît au loin.
“Cool. Que diriez-vous d’ajouter quelques arbres ici près du sable. Allons chercher une couverture de pique-nique ici. Mettons une table. Mettons une chaîne stéréo. Allons prendre un verre aussi. Allons entendre le bruit des vagues et des mouettes “, ajoute Zuckerberg. Une scène de pique-nique imaginaire se matérialise avec un banc et des canettes virtuelles se matérialisent soudainement. Vous obtenez l’image.
Bienvenue dans le nouveau monde
Le métaverse n’a pas seulement besoin d’assistants IA. Il s’appuie sur d’autres domaines de l’apprentissage automatique, notamment une multitude de modèles d’IA génératifs capables de créer toutes sortes d’objets dans un environnement numérique. Cela nécessite de construire ce que Joelle Pineu, directrice de l’équipe de recherche en intelligence artificielle de Meta à Montréal, au Canada, appelle des modèles mondiaux, qui sont comme des simulations du monde que les systèmes informatiques peuvent utiliser pour générer de meilleures prédictions et réponses aux demandes des utilisateurs.
“Un modèle mondial est une construction dont les chercheurs en IA parlent depuis des années”, a-t-elle déclaré.
Les agents d’IA du métaverse devront apprendre de multiples sources de données dans le monde réel et virtuel. Meta a compilé toutes sortes d’ensembles de données, de la cartographie numérique à l’intérieur des maisons avec Habitat 2.0 à la capture de toutes sortes de scènes enregistrées à la première personne avec Ego 4D. Le large éventail de types de données, à partir d’images, d’audio, de vidéo et de texte, signifiera que les modèles d’IA devront être multimodaux.
Il sera impossible d’annoter toutes ces données pour former des modèles. Au lieu de systèmes d’alimentation manuelle à la cuillère utilisant un apprentissage supervisé, ils apprendront à apprendre de manière auto-supervisée à partir de données non étiquetées. Piotr Dollar, directeur de recherche chez Meta axé sur la vision par ordinateur, a décrit une technique pour enseigner aux modèles la représentation visuelle des objets en leur montrant de nombreuses images, en masquant des pixels et en mettant le modèle au défi de deviner et de remplir les parties obscurcies.
Si un modèle est présenté avec beaucoup d’images de pneus de voiture, par exemple, puis une roue partiellement masquée, si le modèle est capable de compléter la forme circulaire du pneu, il aura à peu près appris la structure générale de l’objet par lui-même. Cela ouvrirait la voie à une formation et à un déploiement plus rapides des réseaux de neurones – il y aurait beaucoup moins d’intervention humaine dans la boucle.
Le vice-président de Meta et scientifique en chef de l’IA, Yann LeCun, a soutenu pendant des années l’idée de passer de méthodes d’apprentissage supervisées relativement lentes à ces approches auto-supervisées plus rapides.
“Nous pouvons clairement voir que les humains et les animaux peuvent acquérir de nouvelles compétences ou acquérir de nouvelles connaissances beaucoup, beaucoup plus rapidement que n’importe lequel des systèmes artificiels que nous avons construits jusqu’à présent”, a-t-il déclaré.
“Ils peuvent apprendre avec moins d’essais, si c’est une sorte de nouvelle compétence qui peut, vous savez, [they] peut apprendre avec moins d’exemples. Alors, quel type d’apprentissage les humains et les animaux utilisent-ils que nous ne sommes pas actuellement en mesure de reproduire dans les machines ? C’est la grande question… Et nous ne savons pas encore comment faire cela avec des machines, mais nous avons quelques idées comme la course auto-surveillée et des choses de ce genre.”
Cependant, l’objectif final du métaverse n’est pas seulement que les utilisateurs interagissent avec des assistants et des modèles d’intelligence artificielle sophistiqués. Bien que le titan d’Internet anciennement connu sous le nom de Facebook ait changé son nom en Meta, sa mission est toujours en grande partie la même : rendre le monde plus connecté. La communication interhumaine reste essentielle.
Parler votre langue
Zuckerberg a annoncé deux nouveaux projets, l’un baptisé No Language Left Behind, qui est un système de traduction automatique ambitieux censé apprendre toutes les langues, même si elles sont rares et que le matériel source est rare.
Le deuxième projet est un traducteur vocal universel, qui permettra aux utilisateurs de communiquer dans le métaverse dans différentes langues à l’aide de la traduction vocale instantanée et simultanée.
“Nous allons continuer à développer une technologie qui permet à davantage de personnes d’accéder à Internet dans leur langue. Nous espérons également étendre cela au contenu et aux expériences dans le métaverse”, a-t-il déclaré.
“Cela va être particulièrement important lorsque les gens commenceront à se téléporter à travers des mondes virtuels et à expérimenter des choses avec des personnes d’horizons différents. Nous avons maintenant la possibilité d’améliorer Internet et d’établir une nouvelle norme où nous pouvons tous communiquer les uns avec les autres, quelle que soit la langue. nous parlons, ou d’où nous venons. Et si nous réussissons, ce n’est qu’un exemple de la façon dont l’IA peut aider à rassembler les gens à l’échelle mondiale. ®