« Je suis généralement heureux de voir des expansions de l’utilisation gratuite, mais je suis un peu amer quand ils finissent par profiter aux grandes entreprises qui tirent en masse de la valeur du travail des petits auteurs », a déclaré Woods.

Une chose qui est claire à propos des réseaux de neurones est qu’ils peuvent mémoriser leurs données d’entraînement et reproduire des copies. Ce risque existe, que ces données impliquent des informations personnelles, des secrets médicaux ou un code protégé par le droit d’auteur, explique Colin Raffel, professeur d’informatique à l’Université de Caroline du Nord qui a co-écrit une préimpression (pas encore évaluée par des pairs) examinant une copie similaire dans OpenAI. GPT-2. Obtenir le modèle, qui est entraîné sur un grand corpus de texte, pour cracher des données d’entraînement était plutôt trivial, ont-ils trouvé. Mais il peut être difficile de prédire ce qu’un modèle va mémoriser et copier. « Vous ne le découvrez vraiment que lorsque vous le jetez dans le monde et que les gens l’utilisent et en abusent », explique Raffel. Compte tenu de cela, il a été surpris de voir que GitHub et OpenAI avaient choisi de former leur modèle avec du code assorti de restrictions de droit d’auteur.

Selon les tests internes de GitHub, la copie directe se produit dans environ 0,1% des sorties de Copilot, une erreur surmontable, selon l’entreprise, et non un défaut inhérent au modèle d’IA. C’est suffisant pour provoquer une lenteur dans le service juridique de toute entité à but lucratif (« un risque non nul » n’est qu’un « risque » pour un avocat), mais Raffel note que ce n’est peut-être pas si différent des employés qui copient du code restreint. . Les humains enfreignent les règles indépendamment de l’automatisation. Ronacher, le développeur open source, ajoute que la plupart des copies de Copilot semblent être relativement inoffensives – des cas où des solutions simples aux problèmes reviennent encore et encore, ou des bizarreries comme le tristement célèbre tremblement de terre code, qui a été (improprement) copié par des personnes dans de nombreuses bases de code différentes. « Vous pouvez faire en sorte que Copilot déclenche des choses hilarantes », dit-il. « S’il est utilisé comme prévu, je pense que ce sera moins un problème. »

GitHub a également indiqué qu’il avait une solution possible en préparation : un moyen de signaler ces sorties textuelles lorsqu’elles se produisent afin que les programmeurs et leurs avocats sachent ne pas les réutiliser commercialement. Mais la construction d’un tel système n’est pas aussi simple qu’il y paraît, note Raffel, et cela aborde le problème plus vaste : et si la sortie n’était pas textuelle, mais une copie proche des données d’apprentissage ? Que se passe-t-il si seules les variables ont été modifiées ou si une seule ligne a été exprimée d’une manière différente ? En d’autres termes, combien de changements sont nécessaires pour que le système ne soit plus un imitateur ? Avec un logiciel de génération de code à ses balbutiements, les limites juridiques et éthiques ne sont pas encore claires.

De nombreux juristes pensent que les développeurs d’IA ont une latitude assez large lors de la sélection des données de formation, explique Andy Sellars, directeur de la Technology Law Clinic de l’Université de Boston. « L’utilisation équitable » du matériel protégé par le droit d’auteur se résume en grande partie à savoir s’il est « transformé » lorsqu’il est réutilisé. Il existe de nombreuses façons de transformer une œuvre, comme l’utiliser pour la parodie ou la critique ou la résumer – ou, comme les tribunaux l’ont constaté à plusieurs reprises, l’utiliser comme carburant pour les algorithmes. Dans une affaire importante, un tribunal fédéral a rejeté une action en justice intentée par un groupe d’édition contre Google Books, estimant que son processus de numérisation de livres et d’utilisation d’extraits de texte pour permettre aux utilisateurs de les parcourir était un exemple d’utilisation équitable. Mais comment cela se traduit par des données de formation à l’IA n’est pas fermement établi, ajoute Sellars.

C’est un peu étrange de mettre le code sous le même régime que les livres et les œuvres d’art, note-t-il. « Nous traitons le code source comme une œuvre littéraire même s’il n’a que peu de ressemblance avec la littérature », dit-il. Nous pouvons considérer le code comme relativement utilitaire ; la tâche qu’il accomplit est plus importante que la façon dont il est écrit. Mais dans le droit d’auteur, la clé est de savoir comment une idée est exprimée. « Si Copilot crache une sortie qui fait la même chose que l’une de ses entrées de formation – paramètres similaires, résultat similaire – mais qu’elle crache un code différent, cela n’impliquera probablement pas la loi sur le droit d’auteur », dit-il.

L’éthique de la situation est une autre affaire. « Il n’y a aucune garantie que GitHub garde à cœur les intérêts des codeurs indépendants », déclare Sellars. Copilot dépend du travail de ses utilisateurs, y compris ceux qui ont explicitement essayé d’empêcher leur travail d’être réutilisé à des fins lucratives, et il peut également réduire la demande pour ces mêmes codeurs en automatisant davantage la programmation, note-t-il. « Nous ne devons jamais oublier qu’il n’y a pas de cognition dans le modèle », dit-il. Il s’agit d’appariement de modèle statistique. Les idées et la créativité extraites des données sont toutes humaines. Certains chercheurs ont déclaré que Copilot souligne la nécessité de nouveaux mécanismes pour garantir que ceux qui produisent les données pour l’IA sont équitablement rémunérés.