De tous les modèles d’IA dans le monde, le GPT-3 d’OpenAI a le plus captivé l’imagination du public. Il peut cracher des poèmes, des histoires courtes et des chansons avec peu d’incitation, et il a été démontré qu’il trompe les gens en leur faisant croire que ses résultats ont été écrits par un humain. Mais son éloquence est plus un truc de salon, à ne pas confondre avec la vraie intelligence.

Néanmoins, les chercheurs pensent que les techniques utilisées pour créer GPT-3 pourraient contenir le secret d’une IA plus avancée. GPT-3 s’est entraîné sur une énorme quantité de données texte. Et si les mêmes méthodes étaient formées à la fois sur le texte et les images?

Aujourd’hui, une nouvelle recherche de l’Institut Allen pour l’intelligence artificielle, AI2, a porté cette idée au niveau supérieur. Les chercheurs ont développé un nouveau modèle de texte et d’image, également connu sous le nom de modèle de langage visuel, qui peut générer des images avec une légende. Les images semblent troublantes et bizarres – rien de tel que les deepfakes hyperréalistes générés par les GAN – mais elles pourraient montrer une nouvelle direction prometteuse pour atteindre une intelligence plus généralisable, et peut-être aussi des robots plus intelligents.

Remplir les trous

GPT-3 fait partie d’un groupe de modèles connus sous le nom de «transformateurs», qui sont devenus populaires pour la première fois avec le succès du BERT de Google. Avant BERT, les modèles de langage étaient plutôt mauvais. Ils avaient suffisamment de puissance prédictive pour être utiles pour des applications telles que la saisie semi-automatique, mais pas assez pour générer une longue phrase respectant les règles de grammaire et le bon sens.

BERT a changé cela en introduisant une nouvelle technique appelée «masquage». Cela implique de cacher différents mots dans une phrase et de demander au modèle de remplir le vide. Par exemple:

  • La femme est allée au ___ pour s’entraîner.
  • Ils ont acheté un ___ de pain pour faire des sandwichs.

L’idée est que si le modèle est obligé de faire ces exercices, souvent des millions de fois, il commence à découvrir des modèles dans la façon dont les mots sont assemblés en phrases et les phrases en paragraphes. En conséquence, il peut mieux générer et interpréter le texte, le rapprochant de la compréhension du sens de la langue. (Google utilise désormais BERT pour fournir des résultats de recherche plus pertinents dans son moteur de recherche.) Après que le masquage s’est avéré très efficace, les chercheurs ont cherché à l’appliquer à des modèles de langage visuel en masquant les mots dans les légendes, comme ceci:

Une girafe debout près d'un arbre.
Un ____ se tient sur un sol en terre près d’un arbre.

AI2

Cette fois, le modèle pourrait regarder les deux mots environnants et le contenu de l’image pour remplir le blanc. Grâce à des millions de répétitions, il pourrait alors découvrir non seulement les motifs parmi les mots, mais aussi les relations entre les mots et les éléments de chaque image.

Le résultat est des modèles capables de relier des descriptions textuelles à des références visuelles, tout comme les bébés peuvent établir des liens entre les mots qu’ils apprennent et les choses qu’ils voient. Les mannequins peuvent regarder la photo ci-dessous, par exemple, et écrire une légende sensée comme «Les femmes jouent au hockey sur gazon». Ou ils peuvent répondre à des questions comme «Quelle est la couleur du ballon?» en reliant le mot «boule» à l’objet circulaire de l’image.

Femmes jouant au hockey sur gazon
Un modèle en langage visuel pourrait légitimement légitimer cette photo: «Les femmes jouent au hockey sur gazon».

JOHN TORCASIO / UNSPLASH

Une image vaut mieux que mille mots

Mais les chercheurs d’AI2 voulaient savoir si ces modèles avaient réellement développé une compréhension conceptuelle du monde visuel. Un enfant qui a appris le mot pour un objet peut non seulement conjurer le mot pour identifier l’objet, mais aussi dessiner l’objet lorsqu’il est invité avec le mot, même si l’objet lui-même n’est pas présent. Les chercheurs ont donc demandé aux modèles de faire de même: générer des images à partir de légendes. Tous crachent à la place des motifs de pixels insensés.

Un maillage déroutant de pixels.
C’est un oiseau! C’est un avion! Non, c’est juste du gobbledygook généré par l’IA.

AI2

Cela a du sens: transformer du texte en images est bien plus difficile que l’inverse. Une légende ne spécifie pas tout ce qui est contenu dans une image, dit Ani Kembhavi, qui dirige l’équipe de vision par ordinateur chez AI2. Un modèle doit donc s’appuyer sur beaucoup de bon sens à propos du monde pour compléter les détails.

Si on lui demande de dessiner «une girafe marchant sur une route», par exemple, il doit également déduire que la route est plus susceptible d’être grise que rose vif et plus susceptible d’être à côté d’un champ d’herbe qu’à côté océan – bien qu’aucune de ces informations ne soit explicite.

Alors Kembhavi et ses collègues Jaemin Cho, Jiasen Lu et Hannaneh Hajishirzi ont décidé de voir s’ils pouvaient enseigner à un modèle toutes ces connaissances visuelles implicites en peaufinant leur approche du masquage. Plutôt que de former le modèle uniquement à prédire les mots masqués dans les légendes des photos correspondantes, ils l’ont également entraîné à prédire les pixels masqués dans les photos sur la base de leurs légendes correspondantes.

Les images finales générées par le modèle ne sont pas exactement réalistes. Mais ce n’est pas le but. Ils contiennent les bons concepts visuels de haut niveau – l’équivalent IA d’un enfant dessinant un bâton pour représenter un humain. (Vous pouvez essayer le modèle par vous-même ici.)

Diverses sorties générées par le modèle d'AI2 qui ont toutes l'air bancales et bizarres mais qui communiquent toujours les concepts visuels de haut niveau de leurs légendes respectives.
Exemples d’images générées par le modèle AI2 à partir des légendes ci-dessous.

AI2

La capacité des modèles de langage visuel à faire ce type de génération d’images représente une étape importante dans la recherche sur l’IA. Cela suggère que le modèle est en fait capable d’un certain niveau d’abstraction, une compétence fondamentale pour comprendre le monde.

À long terme, cela pourrait avoir des implications pour la robotique. Mieux un robot comprendra son environnement visuel et utilisera le langage pour communiquer à son sujet, plus les tâches qu’il pourra effectuer seront complexes. À court terme, ce type de visualisation pourrait également aider les chercheurs à mieux comprendre exactement ce que les modèles d’IA «boîte noire» apprennent, dit Hajishirzi.

À l’avenir, l’équipe prévoit d’expérimenter davantage pour améliorer la qualité de la génération d’images et d’élargir le vocabulaire visuel et linguistique du modèle pour inclure plus de sujets, d’objets et d’adjectifs.

«La génération d’images a vraiment été une pièce manquante du puzzle», déclare Lu. «En permettant cela, nous pouvons faire en sorte que le modèle apprenne de meilleures représentations pour représenter le monde.»

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici