En juin dernier, Antonio Radić, l’hôte d’une chaîne d’échecs YouTube avec plus d’un million d’abonnés, diffusait en direct une interview du grand maître Hikaru Nakamura lorsque la diffusion s’est soudainement interrompue.

Au lieu d’une discussion animée sur les ouvertures d’échecs, les jeux célèbres et les joueurs emblématiques, les téléspectateurs ont été informés que la vidéo de Radić avait été supprimée pour contenu «nuisible et dangereux». Radić a vu un message indiquant que la vidéo, qui ne contenait rien de plus scandaleux qu’une discussion sur la défense indienne du roi, avait enfreint les règles de la communauté YouTube. Il est resté hors ligne pendant 24 heures.

Ce qui s’est passé n’est toujours pas clair. YouTube a refusé de commenter au-delà de dire que la suppression de la vidéo de Radić était une erreur. Mais une nouvelle étude suggère qu’elle reflète les lacunes des programmes d’intelligence artificielle conçus pour détecter automatiquement les discours de haine, les abus et la désinformation en ligne.

Ashique KhudaBukhsh, un scientifique du projet spécialisé en IA à l’Université Carnegie Mellon et un joueur d’échecs sérieux lui-même, s’est demandé si l’algorithme de YouTube avait pu être confondu par des discussions impliquant des pièces en noir et blanc, des attaques et des défenses.

Alors lui et Rupak Sarkar, un ingénieur à la CMU, ont conçu une expérience. Ils ont formé deux versions d’un modèle de langage appelé BERT, l’une utilisant des messages du site Web d’extrême droite raciste Stormfront et l’autre utilisant des données de Twitter. Ils ont ensuite testé les algorithmes sur le texte et les commentaires de 8 818 vidéos d’échecs et les ont trouvés loin d’être parfaits. Les algorithmes ont signalé environ 1% des transcriptions ou des commentaires comme discours de haine. Mais plus de 80% des personnes signalées étaient des faux positifs – lus dans leur contexte, le langage n’était pas raciste. «Sans un humain dans la boucle», disent les deux hommes dans leur article, «se fier aux prédictions des classificateurs standard sur les discussions d’échecs peut être trompeur.»

L’expérience a révélé un problème majeur pour les programmes de langage IA. Détecter les propos haineux ou les abus ne se résume pas à détecter des mots et des phrases grossiers. Les mêmes mots peuvent avoir une signification très différente dans différents contextes, de sorte qu’un algorithme doit déduire un sens à partir d’une chaîne de mots.

«Fondamentalement, la langue est encore une chose très subtile», déclare Tom Mitchell, un professeur de la CMU qui a déjà travaillé avec KhudaBukhsh. «Ces types de classificateurs formés ne seront pas bientôt précis à 100%.»

Yejin Choi, professeure agrégée à l’Université de Washington spécialisée dans l’IA et le langage, se dit «pas du tout» surprise par le retrait de YouTube, étant donné les limites de la compréhension des langues aujourd’hui. Choi dit que des progrès supplémentaires dans la détection des discours de haine nécessiteront de gros investissements et de nouvelles approches. Elle dit que les algorithmes fonctionnent mieux lorsqu’ils analysent plus qu’un simple morceau de texte de manière isolée, incorporant, par exemple, l’historique des commentaires d’un utilisateur ou la nature du canal sur lequel les commentaires sont publiés.

Mais les recherches de Choi montrent également comment la détection des discours de haine peut perpétuer les préjugés. Dans une étude de 2019, elle et d’autres ont découvert que les annotateurs humains étaient plus susceptibles d’étiqueter les publications Twitter d’utilisateurs qui s’identifient comme afro-américains comme abusifs et que les algorithmes formés pour identifier les abus à l’aide de ces annotations répéteront ces biais.

image de l'article

Le guide WIRED de l’intelligence artificielle

Les algorithmes supersmart ne prendront pas tous les emplois, mais ils apprennent plus vite que jamais, allant du diagnostic médical à la diffusion de publicités.

Les entreprises ont dépensé des millions de dollars pour collecter et annoter des données de formation pour les voitures autonomes, mais Choi dit que le même effort n’a pas été déployé dans le langage d’annotation. Jusqu’à présent, personne n’a collecté et annoté un ensemble de données de haute qualité sur les discours de haine ou les abus qui incluent de nombreux «cas extrêmes» avec un langage ambigu. «Si nous investissons ce niveau dans la collecte de données – ou même une petite fraction de celle-ci – je suis sûre que l’IA peut faire beaucoup mieux», dit-elle.

Mitchell, le professeur CMU, dit que YouTube et d’autres plates-formes ont probablement des algorithmes d’IA plus sophistiqués que celui construit par KhudaBukhsh; mais même ceux-ci sont encore limités.

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici