En 2012, artificiel les chercheurs du renseignement ont fait un grand pas en avant dans la vision par ordinateur grâce, en partie, à un ensemble d’images inhabituellement volumineux – des milliers d’objets quotidiens, de personnes et de scènes sur des photos qui ont été extraites du Web et étiquetées à la main. Cet ensemble de données, connu sous le nom d’ImageNet, est encore utilisé dans des milliers de projets de recherche et d’expériences sur l’IA aujourd’hui.

Mais la semaine dernière, chaque visage humain inclus dans ImageNet a soudainement disparu – après que les chercheurs qui gèrent l’ensemble de données ont décidé de les brouiller.

Tout comme ImageNet a aidé à inaugurer une nouvelle ère de l’IA, les efforts pour y remédier reflètent les défis qui affectent d’innombrables programmes, ensembles de données et produits d’IA.

«Nous étions préoccupés par la question de la confidentialité», déclare Olga Russakovsky, professeur adjoint à l’Université de Princeton et l’un des responsables de la gestion d’ImageNet.

ImageNet a été créé dans le cadre d’un défi qui invitait les informaticiens à développer des algorithmes capables d’identifier des objets dans des images. En 2012, c’était une tâche très difficile. Ensuite, une technique appelée apprentissage en profondeur, qui consiste à «enseigner» un réseau de neurones en le nourrissant d’exemples étiquetés, s’est avérée plus habile à la tâche que les approches précédentes.

Depuis lors, l’apprentissage en profondeur a entraîné une renaissance de l’IA qui a également révélé les lacunes du domaine. Par exemple, la reconnaissance faciale s’est avérée une utilisation particulièrement populaire et lucrative de l’apprentissage en profondeur, mais elle est également controversée. Un certain nombre de villes américaines ont interdit l’utilisation de la technologie par le gouvernement en raison de préoccupations concernant l’invasion de la vie privée ou les préjugés des citoyens, car les programmes sont moins précis sur les visages non blancs.

Aujourd’hui, ImageNet contient 1,5 million d’images avec environ 1 000 étiquettes. Il est largement utilisé pour évaluer les performances des algorithmes d’apprentissage automatique ou pour former des algorithmes qui effectuent des tâches de vision par ordinateur spécialisées. Le flou des visages a affecté 243 198 images.

Russakovsky dit que l’équipe ImageNet voulait déterminer s’il était possible de brouiller les visages dans l’ensemble de données sans changer la façon dont elle reconnaît les objets. «Les gens étaient fortuits dans les données puisqu’ils apparaissaient sur les photos Web représentant ces objets», dit-elle. En d’autres termes, dans une image qui montre une bouteille de bière, même si le visage de la personne qui la boit est une tache rose, la bouteille elle-même reste intacte.

image de l'article

Dans un document de recherche, publié avec la mise à jour sur ImageNet, l’équipe derrière l’ensemble de données explique qu’il a brouillé les visages à l’aide du service d’intelligence artificielle d’Amazon Rekognition; puis, ils ont payé les travailleurs de Mechanical Turk pour confirmer les sélections et les ajuster.

Le flou des visages n’a pas affecté les performances de plusieurs algorithmes de reconnaissance d’objets formés sur ImageNet, selon les chercheurs. Ils montrent également que d’autres algorithmes construits avec ces algorithmes de reconnaissance d’objets ne sont pas affectés de la même manière. «Nous espérons que cette preuve de concept ouvrira la voie à des pratiques de collecte de données visuelles plus respectueuses de la vie privée sur le terrain», déclare Russakovsky.

Ce n’est pas le premier effort pour ajuster la célèbre bibliothèque d’images. En décembre 2019, l’équipe ImageNet a supprimé les termes biaisés et désobligeants introduits par les étiqueteurs humains après qu’un projet appelé Excavating AI ait attiré l’attention sur le problème.

En juillet 2020, Vinay Prabhu, un scientifique en apprentissage automatique chez UnifyID et Abeba Birhane, doctorante à l’University College Dublin en Irlande, ont publié une recherche montrant qu’ils pouvaient identifier des individus, y compris des chercheurs en informatique, dans l’ensemble de données. Ils y ont également trouvé des images pornographiques.

Prabhu dit que flouter les visages est une bonne chose, mais il est déçu que l’équipe ImageNet n’ait pas reconnu le travail que lui et Birhane ont fait. Russakovsky dit qu’une citation apparaîtra dans une version mise à jour de l’article.

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici