OpenAI vante une nouvelle version de GPT-3 qui peut créer automatiquement des images inventées pour accompagner n’importe quelle description textuelle

  • FrançaisFrançais


  • OpenAI a publié un aperçu de son dernier réseau neuronal basé sur GPT-3, un modèle à 12 milliards de paramètres capable de générer automatiquement des centaines de fausses images lorsqu’il reçoit une légende de texte, stylisée comme DALL · E.

    Cela peut ne pas sembler très intéressant au début, mais il faut voir DALL · E en action pour vraiment l’apprécier. Il peut créer des images réalistes d’animaux, d’objets ou de scènes. Nous avons joué avec le système et voici ce qu’il crache lorsqu’il reçoit l’invite «une vue en coupe du cœur».

    cœur

    DALL · E a du cœur. Cliquez pour agrandir

    Pour un exemple plus complexe, voici “un salon avec deux fauteuils olive et un tableau représentant un calmar. Le tableau est monté au-dessus d’une table basse”. Pas mal, hein?

    poulpe

    Plus complexe, mais toujours assez bon. Cliquez pour agrandir

    Il peut également proposer des dessins pour des concepts aléatoires et absurdes et imaginer des objets qui n’existent probablement pas comme «l’illustration d’un bébé radis daikon dans un tutu promenant un chien».

    un radis

    Parce que pourquoi pas? Cliquez pour agrandir

    Il existe toutes sortes de combinaisons étranges avec lesquelles vous pouvez jouer en cliquant sur les différentes options du menu déroulant pour choisir des mots individuels dans l’invite de texte dans les exemples sur le blog d’OpenAI. DALL · E a été construit à partir du modèle de langage massif GPT-3 et analyse le texte. Au lieu de générer des mots et des phrases, cependant, il crache des pixels et des images.

    Il a été formé avec un ensemble de données contenant probablement des centaines de millions d’images extraites d’Internet et des légendes correspondantes. Le laboratoire de recherche reste silencieux sur la plupart des détails techniques derrière DALL · E pour le moment, et a déclaré qu’il prévoyait d’en révéler davantage dans un prochain article académique.

    Bien qu’il s’agisse actuellement plus d’une curiosité qu’un outil utile, certains pensent qu’il a le potentiel de perturber les industries créatives. Si un outil comme DALL · E était disponible dans le commerce, à quoi ressemblerait l’avenir pour les designers, illustrateurs, artistes et photographes si une machine pouvait faire le même travail plus rapidement?

    «Nous reconnaissons que le travail impliquant des modèles génératifs a le potentiel d’avoir des impacts sociétaux importants et larges», a déclaré OpenAI. «À l’avenir, nous prévoyons d’analyser comment des modèles comme DALL · E sont liés à des problèmes de société tels que l’impact économique sur certains processus de travail et certaines professions, le potentiel de biais dans les résultats des modèles et les défis éthiques à plus long terme impliqués par cette technologie.

    Non, DALL · E ne signifie pas la mort de l’art humain pour toujours

    Luba Elliot, conservatrice et chercheuse à Creative AI, un laboratoire axé sur l’intersection de l’IA et de la créativité, a déclaré Le registre que si “DALL · E pourrait certainement avoir ses utilisations en tant que produit commercial”, il y aurait toujours de la place pour l’art créé par l’homme.

    “À condition qu’il puisse générer des images très réalistes dans tous les domaines, il pourrait concurrencer Shutterstock ou Getty Images pour certains cas d’utilisation, en fonction bien sûr du coût par image et de la facilité de génération. Ces cas d’utilisation pourraient inclure des images d’articles et de billets de blog, où l’accent est mis sur l’écriture et l’image est là comme remplissage de contenu.

    “En ce qui concerne les photographes et les artistes, cela dépend du type de travail qu’ils font. Les illustrateurs et les photographes de stock risquent fort de perdre une partie de leur travail au profit de ces outils, mais nous sommes encore loin de remplacer les photographes et les artistes d’art par un style et une créativité distincts. C’est parce qu’à ce stade, les machines ont du mal à trouver et à exécuter des idées vraiment nouvelles, souvent leur production est fortement basée sur des données de formation du passé et devient intéressante lorsqu’elle est façonnée et signifiée par un artiste humain. “

    Shutterstock et Getty Images n’ont pas répondu à nos questions.

    Sofia Crespo et Feileacan McCormick, artistes numériques qui travaillent dans un studio appelé Entangled Others, étaient d’accord. Ils ont estimé que les entreprises vendant des images de stock seraient probablement plus durement touchées que les photographes et les illustrateurs eux-mêmes, mais ont pensé que DALL · E n’est pas encore assez bon pour remplacer les images réelles. Ses créations sont simplistes et la qualité fluctue en fonction du libellé de son invite de texte.

    Si la saisie de texte décrit trop d’objets ou est particulièrement verbeuse, elle peut ébranler la machine et générer des images incorrectes. «Au fur et à mesure que de plus en plus d’objets sont introduits, DALL · E a tendance à confondre les associations entre les objets et leurs couleurs, et le taux de réussite diminue fortement. Nous notons également que DALL · E est fragile en ce qui concerne la reformulation de la légende dans ces scénarios: les légendes alternatives, sémantiquement équivalentes, ne donnent souvent aucune interprétation correcte », ont expliqué les chercheurs.

    Voici un exemple qui demande explicitement une image contenant trois cubes: un rouge en haut, un vert au milieu et un bleu en bas. Le modèle a du mal à comprendre et propose plusieurs interprétations incorrectes – ses images contiennent le mauvais nombre de cubes et elles sont souvent empilées dans le mauvais ordre.

    cubes

    OK, pas si bien. Cliquez pour agrandir

    Comme son prédécesseur GPT-3, DALL · E est tape-à-l’œil au début, mais pas du tout intelligent. Les exemples illustrés dans le billet de blog ne montrent que les 32 premières images sur les 512 générées – cela signifie que les 94% restants environ sont cachés. Il est probable que si tous les exemples étaient montrés, la qualité de l’image se dégraderait progressivement.

    Kyle McDonald, un autre artiste travaillant avec du code, estime que des outils comme DALL · E sont probablement “au moins dans trois à cinq ans pour générer le type d’images haute résolution nécessaires pour la photographie de stock à usage général. Seuls quelques types de des images spécifiques comme les visages et les paysages sont couvertes en ce moment », a-t-il déclaré.

    Le système de classement pourrait ne pas être si mauvais si DALL · E était capable de créer des images de plus haute qualité, nous a dit Tom White, artiste et conférencier à la School of Design de l’Université Victoria de Wellington en Nouvelle-Zélande. “L’automatisation de ce classement des sorties est assez énorme et rend ce système beaucoup plus pratique qu’il ne le serait autrement.”

    Il donne à l’utilisateur la possibilité de filtrer automatiquement le bon du mauvais sans avoir à trier manuellement toutes les créations de la machine.

    Problèmes de droits d’auteur et biais

    Si quelque chose comme DALL · E devait devenir un outil commercial, il y aurait des problèmes supplémentaires en plus de la diminution des opportunités d’emploi pour les photographes, les dessinateurs et autres.

    Les modèles génératifs massifs ont tendance à mémoriser leurs données d’entraînement. Plus le réseau neuronal est grand, plus il faut de données pour l’entraîner et plus il mémorise. Un groupe de chercheurs dirigé par l’Université de Berkeley a découvert qu’en utilisant GPT-2, une version plus petite de GPT-3 avec moins de paramètres que DALL · E, ils étaient en mesure de récupérer des éléments tels que des discours, des titres d’actualités, des centaines de chiffres du nombre pi, des versets de la Bible et du Coran, et même des lignes de code simplement en alimentant le modèle avec des phrases extraites d’Internet. Le modèle est bon pour rappeler des informations – à une invite, il remplira les espaces avec ce qu’il a vu auparavant.

    Puisque DALL · E est du même acabit, les images qu’il génère sont également un méli-mélo de ce qu’il a vu sur Internet. Parfois, cela créera probablement quelque chose qui ressemble étrangement à un dessin ou une photographie existant capturé par un véritable artiste. «Le principal problème éthique avec DALL · E est le blanchiment des droits d’auteur», a expliqué Alex Champandard, co-fondateur de creative · ai, à El Reg. “Il est formé sur un grand ensemble de données récupéré sur Internet sans attribution. Il a été démontré que les modèles de langage GPT reproduisent leur contenu de formation textuellement, de sorte que la situation juridique ici, par exemple d’utilisation équitable, n’est pas claire jusqu’à ce qu’elle soit testée devant le tribunal.

    Un autre problème flagrant qui affecte tous les modèles d’IA auxquels DALL · E n’échappera pas est le biais. Et si quelqu’un l’utilisait pour créer des images offensantes, racistes ou obscènes? Et si ces types d’images sont générés par erreur? “Tant qu’il y aura des gens dans la boucle pour filtrer ceux-ci, ce n’est pas grave, mais ce sera un problème si DALL · E devient un outil automatisé autonome”, a déclaré Champandard.

    Les préoccupations restent spéculatives pour le moment, à moins que les développeurs ne créent des versions de copie qui soient très efficaces et largement disponibles. Mais ce n’est pas trop fou de croire que quelque chose comme DALL · E sera éventuellement commercialisé. Après tout, Microsoft a les droits exclusifs de licence de la technologie GPT-3 d’OpenAI. Il est possible que Redmond utilise le modèle comme un outil pour mettre à niveau les images clipart et faire ressortir les documents Word ou les présentations PowerPoint des gens.

    Microsoft et OpenAI ont refusé de commenter. ®

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *