Facebook veut que les machines voient le monde à travers nos yeux

Au cours des deux dernières années, Facebook AI Research (FAIR) a collaboré avec 13 universités du monde entier pour assembler le plus grand ensemble de données de vidéo à la première personne jamais créé, en particulier pour former des modèles de reconnaissance d’images en apprentissage en profondeur. Les IA formées sur l’ensemble de données seront mieux à même de contrôler les robots qui interagissent avec les gens ou d’interpréter les images des lunettes intelligentes. « Les machines ne pourront nous aider dans notre vie quotidienne que si elles comprennent vraiment le monde à travers nos yeux », déclare Kristen Grauman de FAIR, qui dirige le projet.

Une telle technologie pourrait aider les personnes qui ont besoin d’aide à la maison ou guider les personnes dans les tâches qu’elles apprennent à accomplir. « La vidéo de cet ensemble de données est beaucoup plus proche de la façon dont les humains observent le monde », explique Michael Ryoo, chercheur en vision par ordinateur à Google Brain et à l’Université Stony Brook de New York, qui n’est pas impliqué dans Ego4D.

Mais les abus potentiels sont clairs et inquiétants. La recherche est financée par Facebook, un géant des médias sociaux qui a récemment été accusé au Sénat américain de faire passer les profits avant le bien-être des gens, comme le corroborent les propres enquêtes du MIT Technology Review.

Le modèle commercial de Facebook et d’autres sociétés Big Tech consiste à extraire autant de données que possible du comportement en ligne des personnes et à les vendre aux annonceurs. L’IA décrite dans le projet pourrait étendre cette portée au comportement hors ligne quotidien des gens, révélant quels objets se trouvent autour de votre maison, quelles activités vous avez appréciées, avec qui vous avez passé du temps et même où votre regard s’attardait – un degré sans précédent d’informations personnelles.

« Il y a du travail sur la confidentialité qui doit être fait alors que vous sortez cela du monde de la recherche exploratoire et que vous en faites quelque chose qui est un produit », explique Grauman. « Ce travail pourrait même être inspiré par ce projet.

FACEBOOK

Le plus grand ensemble de données précédent de vidéo à la première personne se compose de 100 heures de séquences de personnes dans la cuisine. L’ensemble de données Ego4D comprend 3 025 heures de vidéo enregistrées par 855 personnes dans 73 endroits différents dans neuf pays (États-Unis, Royaume-Uni, Inde, Japon, Italie, Singapour, Arabie saoudite, Colombie et Rwanda).

Les participants avaient des âges et des origines différents; certains ont été recrutés pour leurs professions visuellement intéressantes, telles que boulangers, mécaniciens, charpentiers et paysagistes.

Les ensembles de données précédents consistaient généralement en des clips vidéo semi-scénarisés de quelques secondes seulement. Pour Ego4D, les participants ont porté des caméras montées sur la tête jusqu’à 10 heures à la fois et ont capturé une vidéo à la première personne d’activités quotidiennes non scénarisées, notamment marcher dans la rue, lire, faire la lessive, faire du shopping, jouer avec des animaux de compagnie, jouer à des jeux de société et interagir avec d’autres personnes. Certaines séquences comprennent également de l’audio, des données sur l’endroit où le regard des participants était concentré et plusieurs perspectives sur la même scène. C’est le premier ensemble de données du genre, dit Ryoo.