OpenAI atteint le Point•E avec un modèle de texte en 3D open source •

par L'équipe de Comparaland · 29 décembre 2022

OpenAI a étendu les capacités de son logiciel texte-image de deux dimensions à trois avec la sortie de Point•E, un projet open source qui produit des images 3D à partir d’invites de texte.

La société de recherche en intelligence artificielle a attiré une attention considérable pour son logiciel DALL•E, qui, à l’instar des projets rivaux Stable Diffusion et Midjourney, peut générer des images réalistes ou fantastiques à partir d’un texte descriptif.

Bien que Point•E partage le symbole de puce utilisé dans la marque DALL•E d’OpenAI, il s’appuie sur un modèle d’apprentissage automatique différent appelé GLIDE. Et actuellement, ce n’est pas aussi capable. Étant donné une directive textuelle comme “un cône de signalisation”, Point•E produit un nuage de points basse résolution (un ensemble de points dans l’espace) qui ressemble à un cône de signalisation.

Exemples d’images Point•E – Cliquez pour agrandir

Le résultat est loin de la qualité d’un rendu 3D commercial dans un film ou un jeu vidéo. Mais ce n’est pas censé l’être. Les nuages de points représentent une étape intermédiaire – une fois introduits dans une application 3D comme Blender, ils peuvent être transformés en maillages texturés qui ressemblent davantage à des images 3D familières.

Exemples d’images Point•E converties en maillage – Cliquez pour agrandir

“Bien que notre méthode ne soit toujours pas à la pointe de la technologie en termes de qualité d’échantillon, elle est d’un à deux ordres de grandeur plus rapide à prélever, offrant un compromis pratique pour certains cas d’utilisation”, expliquent les chercheurs d’OpenAI. Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin et Mark Chen dans un article [PDF] décrivant le projet.

L’intérêt de Point•E est qu’il “génère efficacement des nuages de points” – c’est de là que vient le “E” dans ce cas. Il peut produire des modèles 3D en utilisant seulement une à deux minutes de temps GPU, par rapport aux méthodes de pointe qui nécessitent plusieurs heures GPU pour créer un rendu fini. Il est nettement plus rapide que le modèle de texte en 3D DreamFusion de Google – 600x par une estimation.

Mais Point•E n’est pas un projet commercial. Il s’agit d’une recherche fondamentale qui peut éventuellement mener à la création rapide de modèles 3D à la demande. Avec des travaux supplémentaires, cela peut rendre la création de monde virtuel plus facile et plus accessible à ceux qui n’ont pas de compétences professionnelles en graphisme 3D. Ou peut-être contribuera-t-il à simplifier le processus de création d’objets imprimés en 3D – Point•E prend en charge la création de nuages de points à utiliser dans la fabrication de produits.

“Cela a des implications à la fois lorsque les modèles sont utilisés pour créer des plans pour des objets dangereux et lorsque les plans sont fiables pour être sûrs malgré l’absence de validation empirique”, observent les auteurs.

Il existe d’autres problèmes potentiels qui doivent être résolus. Par exemple, comme DALL•E, Point•E est censé contenir des biais hérités de son ensemble de données d’apprentissage.

Et cet ensemble de données – plusieurs millions de modèles 3D et métadonnées associées de provenance non spécifiée – est fourni sans aucune garantie que les modèles sources ont été utilisés avec autorisation ou conformément aux conditions de licence applicables. Cela pourrait s’avérer être un gros casse-tête, légalement.

Un problème a déjà été publié sur le référentiel Point•E GitHub demandant plus d’informations sur l’ensemble de données. Doyup Lee, développeur d’IA sud-coréen, observe : “Je pense que de nombreux chercheurs sont également curieux des détails des données de formation et du processus de collecte de données.”

L’attitude cavalière de la communauté de l’IA concernant la formation de modèles d’apprentissage automatique utilisant le travail d’autres personnes sans autorisation explicite a déjà alimenté une plainte pour contrefaçon contre Github Copilot, un service qui suggère du code de programmation aux développeurs utilisant le modèle Codex d’OpenAI. Les modèles texte-image peuvent être testés de la même manière au fur et à mesure de leur commercialisation. ®

OpenAI atteint le Point•E avec un modèle de texte en 3D open source •

Laisser un commentaire Annuler la réponse

Statistiques du site

Logiciels