Facktualité

Le robot de Google DeepMind, basé sur un chatbot, fait partie d’une révolution plus vaste

Par

12 juillet 2024

Dans un bureau encombré et ouvert de Mountain View, en Californie, un grand robot à roues mince joue le rôle de guide touristique et d’assistant de bureau informel, grâce à une mise à niveau importante du modèle de langage, a révélé aujourd’hui Google DeepMind. Le robot utilise la dernière version du modèle de langage étendu Gemini de Google pour analyser les commandes et trouver son chemin.

Lorsqu’un humain lui dit « Trouvez-moi un endroit où écrire », par exemple, le robot s’en va consciencieusement, conduisant la personne vers un tableau blanc immaculé situé quelque part dans le bâtiment.

La capacité de Gemini à gérer des vidéos et des textes, ainsi que sa capacité à assimiler de grandes quantités d’informations sous forme de visites vidéo du bureau enregistrées au préalable, permet au robot « assistant Google » de comprendre son environnement et de naviguer correctement lorsqu’il reçoit des commandes qui nécessitent un raisonnement de bon sens. Le robot combine Gemini avec un algorithme qui génère des actions spécifiques que le robot doit effectuer, comme se retourner, en réponse aux commandes et à ce qu’il voit devant lui.

Lors du lancement de Gemini en décembre, Demis Hassabis, PDG de Google DeepMind, a déclaré à WIRED que ses capacités multimodales ouvriraient probablement la voie à de nouvelles capacités robotiques. Il a ajouté que les chercheurs de l’entreprise travaillaient dur pour tester le potentiel robotique du modèle.

Dans un nouveau document décrivant le projet, les chercheurs à l’origine de ce travail affirment que leur robot s’est avéré fiable à 90 % dans la navigation, même lorsqu’il recevait des commandes délicates telles que « Où ai-je laissé mes montagnes russes ? » Le système de DeepMind « a considérablement amélioré le naturel de l’interaction homme-robot et a considérablement augmenté la facilité d’utilisation du robot », écrit l’équipe.

Une photo d'un employé de Google DeepMind interagissant avec un robot IA.

La démonstration illustre parfaitement le potentiel des grands modèles linguistiques à pénétrer dans le monde physique et à y faire un travail utile. Gemini et d’autres chatbots fonctionnent principalement dans les limites d’un navigateur Web ou d’une application, bien qu’ils soient de plus en plus capables de gérer des entrées visuelles et auditives, comme Google et OpenAI l’ont récemment démontré. En mai, Hassabis a présenté une version améliorée de Gemini capable de comprendre l’agencement d’un bureau vu à travers la caméra d’un smartphone.

Les laboratoires de recherche universitaires et industriels se bousculent pour voir comment les modèles de langage pourraient être utilisés pour améliorer les capacités des robots. Le programme de mai de la Conférence internationale sur la robotique et l’automatisation, un événement très prisé des chercheurs en robotique, répertorie près de deux douzaines d’articles qui impliquent l’utilisation de modèles de langage visuel.

Les investisseurs investissent massivement dans des start-ups qui souhaitent appliquer les avancées de l’intelligence artificielle à la robotique. Plusieurs chercheurs impliqués dans le projet de Google ont depuis quitté l’entreprise pour fonder une start-up appelée Physical Intelligence, qui a reçu un financement initial de 70 millions de dollars. Elle s’efforce de combiner de grands modèles de langage avec une formation en situation réelle pour donner aux robots des capacités générales de résolution de problèmes. Skild AI, fondée par des roboticiens de l’université Carnegie Mellon, a un objectif similaire. Ce mois-ci, elle a annoncé un financement de 300 millions de dollars.

Il y a quelques années encore, un robot avait besoin d’une carte de son environnement et de commandes soigneusement choisies pour se déplacer avec succès. Les grands modèles de langage contiennent des informations utiles sur le monde physique, et les versions plus récentes, entraînées sur des images et des vidéos ainsi que sur du texte, appelées modèles de langage visuel, peuvent répondre à des questions qui nécessitent une perception. Gemini permet au robot de Google d’analyser des instructions visuelles ainsi que des instructions orales, en suivant un croquis sur un tableau blanc qui montre un itinéraire vers une nouvelle destination.

Dans leur article, les chercheurs indiquent qu’ils prévoient de tester le système sur différents types de robots. Ils ajoutent que Gemini devrait être capable de donner un sens à des questions plus complexes, comme « Est-ce qu’ils ont ma boisson préférée aujourd’hui ? » posées par un utilisateur ayant beaucoup de canettes de Coca vides sur son bureau.

Articles récents

Réseaux sociaux