Dans un autre test, Xudong Shen, doctorant à l’Université nationale de Singapour, a évalué les modèles linguistiques en fonction de la façon dont ils stéréotypent les gens selon leur sexe ou s’ils s’identifient comme queer, transgenres ou non binaires. Il a découvert que les programmes d’IA plus importants avaient tendance à s’engager dans davantage de stéréotypes. Shen dit que les fabricants de grands modèles de langage devraient corriger ces défauts. Les chercheurs d’OpenAI ont également découvert que les modèles de langage ont tendance à devenir plus toxiques à mesure qu’ils grandissent ; ils disent qu’ils ne comprennent pas pourquoi.

Le texte généré par les grands modèles linguistiques se rapproche de plus en plus d’un langage qui semble provenir d’un humain, mais il ne parvient toujours pas à comprendre les choses nécessitant un raisonnement que presque tout le monde comprend. En d’autres termes, comme le disent certains chercheurs, cette IA est une fantastique connerie, capable de convaincre à la fois les chercheurs en IA et d’autres personnes que la machine comprend les mots qu’elle génère.

Alison Gopnik, professeure de psychologie à l’UC Berkeley, étudie comment les tout-petits et les jeunes apprennent à appliquer cette compréhension à l’informatique. Les enfants, a-t-elle dit, sont les meilleurs apprenants, et la façon dont les enfants apprennent la langue découle en grande partie de leur connaissance et de leur interaction avec le monde qui les entoure. À l’inverse, les grands modèles linguistiques n’ont aucun lien avec le monde, ce qui rend leur sortie moins ancrée dans la réalité.

« La définition des conneries est que vous parlez beaucoup et cela semble plausible, mais il n’y a pas de bon sens derrière cela », dit Gopnik.

Yejin Choi, professeur agrégé à l’Université de Washington et chef d’un groupe étudiant le bon sens à l’Allen Institute for AI, a soumis le GPT-3 à des dizaines de tests et d’expériences pour documenter comment il peut commettre des erreurs. Parfois, cela se répète. D’autres fois, cela se traduit par la génération d’un langage toxique même en commençant par un texte inoffensif ou nuisible.

Pour en apprendre davantage sur l’IA sur le monde, Choi et une équipe de chercheurs ont créé PIGLeT, une IA formée dans un environnement simulé pour comprendre des choses sur l’expérience physique que les gens apprennent en grandissant, comme c’est une mauvaise idée de toucher un poêle chaud. Cette formation a conduit un modèle linguistique relativement petit à surpasser les autres sur des tâches de raisonnement de bon sens. Ces résultats, a-t-elle déclaré, démontrent que l’échelle n’est pas la seule recette gagnante et que les chercheurs devraient envisager d’autres moyens de former des modèles. Son objectif : « Pouvons-nous réellement créer un algorithme d’apprentissage automatique capable d’apprendre des connaissances abstraites sur le fonctionnement du monde ?

Choi travaille également sur des moyens de réduire la toxicité des modèles de langage. Plus tôt ce mois-ci, elle et ses collègues ont présenté un algorithme qui apprend à partir d’un texte offensant, similaire à l’approche adoptée par Facebook AI Research ; ils disent qu’il réduit la toxicité mieux que plusieurs techniques existantes. Les grands modèles linguistiques peuvent être toxiques à cause des humains, dit-elle. « C’est la langue qui existe. »

De manière perverse, certains chercheurs ont découvert que les tentatives d’affiner et de supprimer les biais des modèles peuvent finir par nuire aux personnes marginalisées. Dans un article publié en avril, des chercheurs de l’UC Berkeley et de l’Université de Washington ont découvert que les Noirs, les musulmans et les personnes qui s’identifient comme LGBT sont particulièrement défavorisés.

Les auteurs disent que le problème provient, en partie, des humains qui étiquettent les données en jugeant mal si le langage est toxique ou non. Cela conduit à des préjugés contre les personnes qui utilisent la langue différemment des Blancs. Les coauteurs de cet article affirment que cela peut entraîner une auto-stigmatisation et des dommages psychologiques, ainsi que forcer les gens à changer de code. Les chercheurs d’OpenAI n’ont pas abordé cette question dans leur article récent.

Jesse Dodge, chercheur à l’Allen Institute for AI, est arrivé à une conclusion similaire. Il a examiné les efforts visant à réduire les stéréotypes négatifs sur les gais et les lesbiennes en supprimant des données de formation d’un grand modèle linguistique tout texte contenant les mots « gay » ou « lesbienne ». Il a découvert que de tels efforts pour filtrer le langage peuvent conduire à des ensembles de données qui effacent efficacement les personnes ayant ces identités, rendant les modèles linguistiques moins capables de gérer le texte écrit par ou à propos de ces groupes de personnes.

Dodge dit que la meilleure façon de gérer les biais et les inégalités est d’améliorer les données utilisées pour former les modèles de langage au lieu d’essayer de supprimer les biais après coup. Il recommande de mieux documenter la source des données de formation et de reconnaître les limites du texte extrait du Web, qui peut surreprésenter les personnes qui peuvent se permettre un accès Internet et qui ont le temps de créer un site Web ou de publier un commentaire. Il exhorte également à documenter la façon dont le contenu est filtré et à éviter l’utilisation générale de listes de blocage pour filtrer le contenu récupéré sur le Web.