Ce fauteuil avocat pourrait être l’avenir de l’IA

Malgré tout le flair de GPT-3, sa sortie peut sembler indépendante de la réalité, comme s’il ne savait pas de quoi il parle. C’est parce que ce n’est pas le cas. En ancrant le texte dans des images, les chercheurs d’OpenAI et d’ailleurs tentent de donner aux modèles de langage une meilleure compréhension des concepts quotidiens que les humains utilisent pour donner un sens aux choses.

DALL · E et CLIP abordent ce problème dans des directions différentes. À première vue, CLIP (Contrastive Language-Image Pre-training) est un autre système de reconnaissance d’image. Sauf qu’il a appris à reconnaître les images non pas à partir d’exemples étiquetés dans des ensembles de données organisés, comme le font la plupart des modèles existants, mais à partir d’images et de leurs légendes prises sur Internet. Il apprend ce qu’il y a dans une image à partir d’une description plutôt que d’une étiquette en un mot telle que « chat » ou « banane ».

CLIP est entraîné en lui faisant prédire quelle légende d’une sélection aléatoire de 32 768 est la bonne pour une image donnée. Pour résoudre ce problème, CLIP apprend à lier une grande variété d’objets avec leurs noms et les mots qui les décrivent. Cela lui permet ensuite d’identifier les objets dans les images en dehors de son ensemble d’apprentissage. La plupart des systèmes de reconnaissance d’images sont formés pour identifier certains types d’objets, tels que les visages dans les vidéos de surveillance ou les bâtiments dans les images satellite. Comme GPT-3, CLIP peut généraliser à travers les tâches sans formation supplémentaire. Il est également moins probable que d’autres modèles de reconnaissance d’images à la pointe de la technologie d’être égarés par des exemples contradictoires, qui ont été subtilement modifiés d’une manière qui confond généralement les algorithmes même si les humains ne remarquent pas de différence.

Au lieu de reconnaître les images, DALL · E (que je suppose est un jeu de mots WALL · E / Dali) les dessine. Ce modèle est une version plus petite de GPT-3 qui a également été formée sur des paires texte-image tirées d’Internet. Étant donné une courte légende en langage naturel, comme «une peinture d’un capybara assis dans un champ au lever du soleil» ou «une vue en coupe d’une noix», DALL · E génère beaucoup d’images qui lui correspondent: des dizaines de capybaras de toutes formes et tailles devant des fonds orange et jaune; rangée après rangée de noix (mais pas toutes en coupe transversale).

Soyez surréaliste

Les résultats sont frappants, bien que toujours mitigés. La légende «un vitrail avec une image d’une fraise bleue» produit de nombreux résultats corrects, mais aussi certains qui ont des fenêtres bleues et des fraises rouges. D’autres ne contiennent rien qui ressemble à une fenêtre ou à une fraise. Les résultats présentés par l’équipe d’OpenAI dans un article de blog n’ont pas été sélectionnés à la main mais classés par CLIP, qui a sélectionné les 32 images DALL · E pour chaque légende qui, à son avis, correspond le mieux à la description.

«Le text-to-image est un défi de recherche qui existe depuis un certain temps», déclare Mark Riedl, qui travaille sur la PNL et la créativité informatique au Georgia Institute of Technology d’Atlanta. «Mais c’est un ensemble impressionnant d’exemples.»

Images dessinées par DALL · E pour la légende «Un bébé radis daikon dans un tutu promenant un chien»

Pour tester la capacité de DALL · E à travailler avec de nouveaux concepts, les chercheurs lui ont donné des légendes décrivant des objets qu’ils pensaient ne pas avoir vu auparavant, comme «un fauteuil avocat» et «une illustration d’un bébé radis daikon dans un tutu marchant sur un chien. » Dans ces deux cas, l’IA a généré des images qui combinaient ces concepts de manière plausible.

Les fauteuils en particulier ressemblent tous à des chaises et à des avocats. «Ce qui m’a le plus surpris, c’est que le modèle peut prendre deux concepts indépendants et les assembler de manière à obtenir quelque chose de fonctionnel», déclare Aditya Ramesh, qui a travaillé sur DALL · E. C’est probablement parce qu’un avocat coupé en deux ressemble un peu à un fauteuil à haut dossier, avec la fosse comme coussin. Pour d’autres légendes, comme «un escargot fait de harpe», les résultats sont moins bons, avec des images qui combinent des escargots et des harpes de façon étrange.

DALL · E est le genre de système que Riedl a imaginé soumettre au test Lovelace 2.0, une expérience de pensée qu’il a inventée en 2014. Le test est destiné à remplacer le test de Turing comme une référence pour mesurer l’intelligence artificielle. Cela suppose qu’une marque d’intelligence est la capacité de mélanger les concepts de manière créative. Riedl suggère que demander à un ordinateur de dessiner une image d’un homme tenant un pingouin est un meilleur test d’intelligence que de demander à un chatbot de duper un humain dans une conversation, car c’est plus ouvert et moins facile à tricher.

«Le vrai test est de voir jusqu’où l’IA peut être poussée hors de sa zone de confort», déclare Riedl.

Images dessinées par DALL · E pour la légende «escargot en harpe»

«La capacité du modèle à générer des images synthétiques à partir d’un texte plutôt fantaisiste me semble très intéressante», déclare Ani Kembhavi de l’Institut Allen pour l’intelligence artificielle (AI2), qui a également développé un système qui génère des images à partir de texte. «Les résultats semblent obéir à la sémantique souhaitée, ce que je trouve assez impressionnant.» Jaemin Cho, un collègue de Kembhavi, est également impressionné: «Les générateurs de texte-image existants n’ont pas montré ce niveau de contrôle en dessinant plusieurs objets ou les capacités de raisonnement spatial de DALL · E», dit-il.

Pourtant, DALL · E montre déjà des signes de tension. Inclure trop d’objets dans une légende étend sa capacité à garder une trace de ce qu’il faut dessiner. Et reformuler une légende avec des mots qui signifient la même chose donne parfois des résultats différents. Il y a aussi des signes que DALL · E imite les images qu’il a rencontrées en ligne plutôt que d’en générer de nouvelles.

«Je me méfie un peu de l’exemple du daikon, qui suggère stylistiquement qu’il a peut-être mémorisé des œuvres d’art sur Internet», déclare Riedl. Il note qu’une recherche rapide fait apparaître de nombreuses images de dessins animés de daikons anthropomorphisés. «GPT-3, sur lequel DALL · E est basé, est connu pour sa mémorisation», dit-il.

Pourtant, la plupart des chercheurs en IA conviennent que fonder le langage sur la compréhension visuelle est un bon moyen de rendre les IA plus intelligentes.

«L’avenir sera constitué de systèmes comme celui-ci», déclare Sutskever. «Et ces deux modèles sont un pas vers ce système.»