Microsoft et GitHub tentent de faire dérailler le procès du code Copilot

Microsoft et GitHub ont de nouveau tenté de se débarrasser d’un procès pour copie de code présumée par le service de suggestion de programmation Copilot de GitHub, arguant que générer un code similaire n’est pas la même chose que de le reproduire textuellement.
La dernière motion de rejet des duos [PDF]déposée jeudi, fait suite à une plainte modifiée [PDF] des plaignants – des développeurs de logiciels qui affirment que Copilot et son grand modèle OpenAI Codex sous-jacent ont violé le droit d’auteur fédéral et les lois commerciales des États. Les développeurs lésés soutiennent que Copilot a été configuré pour générer des suggestions de code similaires ou identiques à ses données de formation.
Copilot et Codex ont été formés à partir de tonnes de code source accessible au public, y compris les référentiels GitHub des plaignants et d’autres matériaux. Lorsqu’ils sont présentés avec une invite par un utilisateur, ces modèles d’IA génèrent des extraits de code en réponse, en utilisant les matériaux à partir desquels ils ont appris.
Le problème pour les plaignants est que Copilot incorpore des copies de leur code et peut être persuadé de reproduire leur travail, ou quelque chose de similaire, sans inclure ou prendre en compte les détails de licence du logiciel requis – Copyright Management Information (CMI) dans le contexte de la loi .
En bref, Copilot, prétend-on, peut émettre du code qu’il a appris de quelque chose que quelqu’un d’autre a écrit, ou quelque chose de proche, sans donner le crédit approprié ou suivre la licence d’origine.
Microsoft et GitHub affirment que l’argument des plaignants est fatalement erroné car il ne parvient à articuler aucun cas de clonage de code réel – qui ne peut être vérifié au-delà de ceux impliqués dans l’affaire puisque les exemples de code dans les documents publics ont été expurgés pour empêcher les auteurs d’être identifié.
“Comme l’a constaté ce tribunal, les plaignants n’ont pas allégué que Copilot avait réellement généré une quelconque suggestion reproduisant leur code, laissant les plaignants indemnes et donc sans qualité pour réclamer des dommages-intérêts”, ont fait valoir les sociétés défenderesses. “En l’absence d’exemples réels de préjudice, les plaignants essaient maintenant d’en fabriquer.”
Les géants de la technologie affirment que les plaignants, incapables d’obtenir de Copilot qu’il émette une copie exacte du code protégé par le droit d’auteur, ont produit des exemples de variations sur leur code, comme on pourrait s’y attendre d’un modèle d’IA formé pour reconnaître des concepts fonctionnels, puis générer des suggestions reflétant cette formation. .
L’argument ici est que les demandeurs veulent que leur revendication de droit d’auteur couvre non seulement le code copié, mais un code similaire “fonctionnellement équivalent”. Cependant, comme le soulignent les défendeurs, la protection du droit d’auteur couvre l’expression mais pas la fonction (idées, procédures, concepts mathématiques, etc.).
Ainsi, la paire soutient que la demande des plaignants axée sur l’équivalence fonctionnelle du code ne fonctionne pas en vertu de l’article 1202 (b) de la loi américaine Digital Millennium Copyright Act. Cette partie de la loi interdit la suppression ou la modification du CMI – les détails de la licence du logiciel dans ce cas – ou la distribution de contenu protégé par le droit d’auteur lorsque l’on sait que le CMI a été supprimé.
“La section 1202 (b)” concerne les “copies … d’une œuvre” identiques – et non les extraits et les adaptations errants “, indique la requête des défendeurs.
Microsoft et GitHub contestent également l’affirmation de la plainte selon laquelle les entreprises sont responsables de la création d’une œuvre dérivée simplement par le biais de la formation de modèles d’IA. Les plaignants ont fait des allégations d’enrichissement sans cause et de négligence – en vertu de la loi de l’État de Californie – selon lesquelles la création de Codex et Codex a utilisé injustement leur code sous licence sur GitHub.
Selon les deux sociétés, il s’agit fondamentalement d’une revendication de droit d’auteur et la loi fédérale prévaut sur les revendications connexes en vertu de la loi de l’État. De plus, ils soutiennent que les plaignants “n’allèguent aucun préjudice reconnaissable pour eux qui résulterait de la simple formation d’un modèle d’IA génératif basé, en partie, sur le code contenu dans les référentiels des plaignants”.
Les sociétés soutiennent que, parce que les utilisateurs de GitHub décident de rendre leur code public et acceptent les conditions de service qui permettent la visualisation, l’utilisation, l’indexation et l’analyse du code public, les propriétaires du site sont dans leur droit d’incorporer le travail des autres et en tirer profit.
“Tout utilisateur de GitHub”, disent-ils, “… apprécie que le code placé dans un référentiel public soit véritablement public. N’importe qui est libre d’examiner, d’apprendre et de comprendre ce code, ainsi que de le réutiliser de différentes manières. Et, Conformément à cette éthique open source, ni le TOS de GitHub ni aucune des licences open source courantes n’interdisent aux humains ou aux ordinateurs de lire et d’apprendre à partir de code accessible au public.”
Le juge Jon Tigar a fixé au 14 septembre la première date disponible pour tenir une audience sur la requête en rejet de l’affaire. Dans l’intervalle, il peut y avoir d’autres dépôts de part et d’autre. ®