GitHub accusé de modifier la sortie de Copilot pour éviter les droits d’auteur

  • Français


  • GitHub aurait réglé son assistant de programmation Copilot pour générer de légères variations du code de formation ingéré afin d’empêcher que la sortie ne soit signalée comme une copie directe du logiciel sous licence.

    Cette affirmation est apparue jeudi dans la plainte amendée [PDF] contre Microsoft, GitHub et OpenAI sur le penchant documenté de Copilot pour la reproduction du code sous licence open source publié publiquement par les développeurs.

    Le procès, initialement déposé en novembre dernier au nom de quatre plaignants non identifiés (“J. Doe”), affirme que Copilot – un outil de suggestion de code construit à partir du modèle Codex d’OpenAI et commercialisé par GitHub de Microsoft – a été formé sur du code publié publiquement d’une manière qui viole la loi sur le droit d’auteur et les exigences de licence de logiciel et qu’il présente le code d’autres personnes comme le sien.

    Microsoft, GitHub et OpenAI ont tenté de faire rejeter l’affaire, mais n’ont réussi qu’à se débarrasser de certaines des revendications. Le juge a laissé intacts les principaux problèmes de droit d’auteur et de licence, et a permis aux plaignants de déposer à nouveau plusieurs autres réclamations avec plus de détails.

    La plainte modifiée – couvrant désormais huit chefs d’accusation au lieu de douze – retient les accusations de violation du Digital Millennium Copyright Act, de rupture de contrat (violations de licence open source), d’enrichissement déloyal et de concurrence déloyale.

    Il ajoute plusieurs autres allégations à la place de celles renvoyées pour révision : rupture de contrat (vente de matériel sous licence en violation des politiques de GitHub), ingérence intentionnelle dans les relations économiques potentielles et ingérence par négligence dans les relations économiques potentielles.

    La plainte révisée ajoute un autre demandeur “J. Doe” dont le code Copilot aurait reproduit. Et il comprend des exemples de code écrits par les plaignants que Copilot a soi-disant reproduits textuellement, mais uniquement pour le tribunal – les exemples de code ont été expurgés afin d’empêcher l’identification des plaignants.

    Le juge chargé de l’affaire a autorisé les plaignants à rester anonymes dans les dossiers judiciaires en raison de menaces crédibles de violence [PDF] adressée à leur avocat. Le registre comprend que les demandeurs sont connus des défendeurs.

    Un plan astucieux ?

    Le dépôt légal de jeudi indique qu’en juillet 2022, en réponse aux critiques publiques de Copilot, GitHub a introduit un filtre Copilot réglable par l’utilisateur appelé “Suggestions correspondant au code public” pour éviter de voir des suggestions de logiciels qui dupliquent le travail d’autres personnes.

    “Lorsque le filtre est activé, GitHub Copilot vérifie les suggestions de code avec leur code environnant d’environ 150 caractères par rapport au code public sur GitHub”, explique la documentation de GitHub. “S’il y a une correspondance ou une quasi-correspondance, la suggestion ne vous sera pas montrée.”

    Cependant, la plainte soutient que le filtre est essentiellement sans valeur car il ne vérifie que les correspondances exactes et ne fait rien pour détecter la sortie qui a été légèrement modifiée. En fait, les plaignants suggèrent que GitHub essaie de s’en tirer avec des violations de droits d’auteur et de licence en faisant varier la sortie de Copilot afin qu’elle ne semble pas avoir été copiée exactement.

    “Dans les mains de GitHub, la propension à de petites variations cosmétiques dans la sortie de Copilot est une fonctionnalité, pas un bogue”, indique la plainte modifiée. “Ces petites variations cosmétiques signifient que GitHub peut fournir aux clients de Copilot des copies modifiées illimitées des matériaux sous licence sans jamais déclencher le filtre de code verbatim de Copilot.”

    Le dossier du tribunal souligne que les modèles d’apprentissage automatique comme Copilot ont un paramètre qui contrôle la mesure dans laquelle la sortie varie.

    “Sur l’information et la croyance, GitHub a optimisé le réglage de la température de Copilot pour produire de petites variations cosmétiques des matériaux sous licence aussi souvent que possible, afin que GitHub puisse fournir du code aux utilisateurs de Copilot qui fonctionne de la même manière que le code verbatim, tout en affirmant que Copilot ne produit du code verbatim qu’un pour cent du temps”, indique la plainte modifiée. “Copilot est une méthode ingénieuse de piratage de logiciels.”

    GitHub de Microsoft dans un e-mail a insisté sur le contraire.

    “Nous croyons fermement que l’IA transformera la façon dont le monde construit des logiciels, entraînant une productivité accrue et, surtout, des développeurs plus heureux”, a déclaré un porte-parole de la société. Le registre. “Nous sommes convaincus que Copilot adhère aux lois applicables et nous nous sommes engagés à innover de manière responsable avec Copilot depuis le début. Nous continuerons à investir et à défendre l’expérience de développement du futur basée sur l’IA.”

    OpenAI n’a pas répondu à une demande de commentaire. ®

    L'équipe de Comparaland

    L'équipe rédactionnnelle du site

    Pour contacter personnellement le taulier :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *