Les LLM semblent raisonner par analogie, disent les boffins

  • Français


  • Les grands modèles de langage tels que le GPT-3 d’OpenAI peuvent afficher la capacité de résoudre des tâches de raisonnement complexes que les humains craquent à l’aide d’analogies.

    Les chercheurs ont présenté au GTP-3 – sorti pour la première fois en 2020 – des tâches pour essayer de comprendre sa capacité apparente à raisonner par analogie, une pierre angulaire de la raison humaine qui permet aux gens de résoudre un nouveau problème en le comparant à un problème connu plus tôt.

    Taylor Webb, chercheur postdoctoral à l’Université de Californie à Los Angeles, et ses collègues, ont présenté le populaire LLM avec des problèmes de raisonnement matriciel basé sur du texte, des analogies de chaînes de lettres, des analogies verbales et des analogies d’histoires, qui peuvent toutes être résolues. en appliquant un modèle établi à une nouvelle situation.

    « Nous avons présenté une évaluation approfondie du raisonnement analogique dans un LLM de pointe. Nous avons constaté que GPT-3 semble afficher une capacité émergente à raisonner par analogie, en égalant ou en surpassant les performances humaines dans un large éventail de types de problèmes basés sur du texte », a déclaré leur article, publié aujourd’hui dans Nature Human Behavior.

    La question demeure de savoir comment le modèle statistique le fait. Webb et ses collègues soutiennent qu’une possibilité est que, la taille et la diversité des données d’entraînement de GPT-3 l’ont forcé “à développer des mécanismes similaires à ceux supposés sous-tendre le raisonnement analogique humain – bien qu’ils n’aient pas été explicitement formés pour le faire”.

    Mais alors que les analystes des sciences cognitives ont tendance à convenir que les humains raisonnent par analogie en utilisant une “comparaison systématique des connaissances basée sur des représentations relationnelles explicites”, les chercheurs ont déclaré qu’ils ne savaient pas comment GPT-3 mettrait en œuvre ces processus.

    « GPT-3 possède-t-il une forme de représentations relationnelles émergentes, et si oui, comment sont-elles calculées ? Effectue-t-il un processus de cartographie similaire au type qui joue un rôle central dans les théories cognitives de l’analogie ? » demanda le journal.

    En l’absence d’une compréhension plus approfondie de la manière dont le modèle pourrait arriver à ses réponses, les chercheurs pensent que la capacité peut provenir de son “architecture de transformateur” qui est courante chez les LLM. Cela peut être similaire aux modèles cognitifs d’analogie.

    “Mais bien que les mécanismes incorporés dans les LLM tels que GPT-3 puissent avoir des liens importants avec les éléments constitutifs du raisonnement humain, nous devons également envisager la possibilité que ce type d’intelligence artificielle soit fondamentalement différent de la variété humaine”, indique le document.

    Les auteurs ont également souligné que GPT-3 avait été formé sur un énorme corpus de langage humain, qui est lui-même le résultat de l’évolution humaine et riche en analogies.

    “Ainsi, dans la mesure où les LLM capturent les capacités analogiques des raisonneurs humains adultes, leur capacité à le faire est fondamentalement parasitaire sur l’intelligence humaine naturelle”, postule l’article.

    Depuis le lancement de GPT-4 a capturé l’imagination du public avec sa capacité à effectuer des tâches à un niveau quelque peu humain, comme écrire de la poésie et du code informatique, un débat a porté sur la question de savoir si les LLM peuvent raisonner de la même manière que les humains. Pendant ce temps, il a également été observé que les modèles peuvent également “halluciner” des informations et faire des erreurs déductives – à la fois une caractéristique humaine et extrêmement inutile pour ces sacs à viande qui espèrent gagner du temps en les utilisant.

    Melanie Mitchell, informaticienne à l’Institut Santa Fe au Nouveau-Mexique, et son équipe ont trouvé des limites à leur capacité à raisonner avec de simples énigmes visuelles appelées ConceptARC. Les humains obtiennent un score de plus de 90 % au test, tandis que le GPT-4 enregistre des résultats légèrement supérieurs à 30 %.

    “Nous avons montré que les machines ne sont toujours pas capables de se rapprocher du niveau des humains”, a déclaré Mitchell au magazine Nature. “Il était surprenant qu’il puisse résoudre certains des problèmes, car il n’avait jamais été formé sur eux”, a-t-elle déclaré. ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *