FauxPilot : C’est comme GitHub Copilot, mais ne téléphone pas à Microsoft

  • FrançaisFrançais



  • GitHub Copilot, l’un des nombreux outils récents permettant de générer des suggestions de code de programmation à l’aide de modèles d’IA, reste problématique pour certains utilisateurs en raison de problèmes de licence et de la télémétrie que le logiciel renvoie à la société appartenant à Microsoft.

    Ainsi, Brendan Dolan-Gavitt, professeur adjoint au département d’informatique et d’ingénierie de NYU Tandon, a publié FauxPilot, une alternative à Copilot qui s’exécute localement, sans téléphoner au vaisseau mère de Microsoft.

    Copilot s’appuie sur OpenAI Codex, un système de langage naturel à code basé sur GPT-3 qui a été formé sur “des milliards de lignes de code public” dans les référentiels GitHub. Cela a rendu mal à l’aise les défenseurs des logiciels libres et open source (FOSS), car Microsoft et GitHub n’ont pas précisé exactement quels référentiels informaient le Codex.

    Comme Bradley Kuhn, responsable des politiques au Software Freedom Conservancy (SFC), l’a écrit dans un article de blog plus tôt cette année, « Copilot laisse la conformité au copyleft comme un exercice pour l’utilisateur. Les utilisateurs sont probablement confrontés à une responsabilité croissante qui ne fait qu’augmenter à mesure que Copilot s’améliore. n’ont pas de méthodes autres que la sérendipité et des suppositions éclairées pour savoir si la sortie de Copilot est protégée par le droit d’auteur de quelqu’un d’autre.”

    Peu de temps après que GitHub Copilot soit devenu disponible dans le commerce, le SFC a exhorté les mainteneurs open source à ne pas utiliser GitHub en partie en raison de son refus de répondre aux préoccupations concernant Copilot.

    Pas un monde parfait

    FauxPilot n’utilise pas le Codex. Il s’appuie sur le modèle CodeGen de Salesforce. Cependant, il est peu probable que cela apaise les défenseurs des FOSS, car CodeGen a également été formé à l’aide de code open source public sans tenir compte des nuances des différentes licences.

    “Les modèles qu’il utilise actuellement sont ceux qui ont été formés par Salesforce, et ils ont été à nouveau formés essentiellement sur tout le code public de GitHub”, a expliqué Dolan-Gavitt dans un entretien téléphonique avec Le registre. “Il y a donc encore des problèmes, potentiellement liés aux licences, qui ne seraient pas résolus par cela.”

    “D’un autre côté, si quelqu’un avec suffisamment de puissance de calcul arrive et dit : “Je vais former un modèle qui n’est formé que sur du code GPL ou qui a une licence qui me permet de le réutiliser sans attribution” ou quelque chose comme ça, alors ils pourraient former leur modèle, déposer ce modèle dans FauxPilot et utiliser ce modèle à la place.”

    Pour Dolan-Gavitt, l’objectif principal de FauxPilot est de fournir un moyen d’exécuter le logiciel d’assistance IA sur site.

    “Il y a des gens qui ont des problèmes de confidentialité, ou peut-être, dans le cas du travail, certaines politiques d’entreprise qui les empêchent d’envoyer leur code à un tiers, et cela est certainement aidé par la possibilité de l’exécuter localement”, a-t-il expliqué. .

    GitHub, dans sa description des données collectées par Copilot, décrit une option pour désactiver la collecte de données d’extraits de code, qui inclut “le code source que vous modifiez, les fichiers associés et d’autres fichiers ouverts dans le même IDE ou éditeur, les URL des référentiels et chemins des fichiers.”

    Mais cela ne semble pas désactiver la collecte de données d’engagement de l’utilisateur – “les actions de modification de l’utilisateur telles que les achèvements acceptés et rejetés, et les données d’erreur et d’utilisation générale pour identifier des mesures telles que la latence et l’engagement des fonctionnalités” et potentiellement “des données personnelles, telles que des identifiants pseudonymes .”

    Dolan-Gavitt a déclaré qu’il considérait FauxPilot comme une plate-forme de recherche.

    “Une chose que nous voulons faire est de former des modèles de code qui, espérons-le, produiront un code plus sécurisé”, a-t-il expliqué. “Et une fois que nous aurons fait cela, nous voudrons pouvoir les tester et peut-être même les tester avec de vrais utilisateurs en utilisant quelque chose comme Copilot mais avec nos propres modèles. C’était donc une sorte de motivation.”

    Cela présente toutefois certains défis. “Pour le moment, il est quelque peu impossible d’essayer de créer un ensemble de données qui ne présente aucune vulnérabilité de sécurité, car les modèles sont vraiment gourmands en données”, a déclaré Dolan-Gavitt.

    “Ils veulent donc beaucoup de code sur lequel s’entraîner. Mais nous n’avons pas de moyens très bons ou infaillibles pour nous assurer que le code est exempt de bogues. Ce serait donc une immense quantité de travail d’essayer de conserver un ensemble de données qui a été exempt de failles de sécurité.”

    Néanmoins, Dolan-Gavitt, co-auteur d’un article sur l’insécurité des suggestions de code Copilot, trouve l’assistance de l’IA suffisamment utile pour s’y tenir.

    “Mon sentiment personnel à ce sujet est que Copilot est activé depuis sa sortie l’été dernier”, a-t-il expliqué. “Je le trouve vraiment utile. Cela dit, je dois en quelque sorte vérifier son travail. Mais souvent, il est souvent plus facile pour moi au moins de commencer par quelque chose qu’il me donne et de le modifier ensuite pour qu’il soit correct plutôt que d’essayer de créer à partir de zéro.” ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.