Tu n’as probablement jamais Je me suis demandé à quoi ressemblerait un chevalier fait de spaghettis, mais voici quand même la réponse – grâce à un nouveau programme intelligent d’intelligence artificielle d’OpenAI, une entreprise de San Francisco.

Le programme DALL-E, sorti plus tôt ce mois-ci, peut concocter des images de toutes sortes de choses étranges qui n’existent pas, comme des fauteuils en avocat, des girafes robots ou des radis portant des tutus. OpenAI a généré plusieurs images, y compris le chevalier spaghetti, à la demande de WIRED.

DALL-E est une version de GPT-3, un modèle d’IA formé sur du texte extrait du Web, capable de produire un texte étonnamment cohérent. DALL-E a reçu des images et des descriptions d’accompagnement; en réponse, il peut générer une image de mashup décente.

Images créées par DALL-E en réponse à «une illustration d’un bébé radis daikon dans un tutu promenant un chien».

Gracieuseté d’OpenAI

Les farceurs n’ont pas tardé à voir le côté drôle de DALL-E, notant par exemple qu’il pouvait imaginer de nouveaux types de nourriture britannique. Mais DALL-E repose sur une avancée importante dans la vision par ordinateur alimentée par l’IA, qui pourrait avoir des applications sérieuses et pratiques.

Appelé CLIP, il consiste en un vaste réseau de neurones artificiels – un algorithme inspiré de la façon dont le cerveau apprend – alimenté des centaines de millions d’images et des légendes de texte d’accompagnement provenant du Web et formé pour prédire les étiquettes correctes d’une image.

Les chercheurs d’OpenAI ont découvert que CLIP pouvait reconnaître des objets aussi précisément que des algorithmes entraînés de la manière habituelle – en utilisant des ensembles de données organisés où les images sont parfaitement adaptées aux étiquettes.

En conséquence, CLIP peut reconnaître plus de choses et comprendre à quoi ressemblent certaines choses sans avoir besoin de nombreux exemples. CLIP a aidé DALL-E à produire ses illustrations, sélectionnant automatiquement les meilleures images parmi celles qu’il a générées. OpenAI a publié un article décrivant le fonctionnement de CLIP ainsi qu’une petite version du programme résultant. Il n’a pas encore publié de papier ou de code pour DALL-E.

image de l'article

Le guide WIRED de l’intelligence artificielle

Les algorithmes supersmart ne prendront pas tous les emplois, mais ils apprennent plus vite que jamais, allant des diagnostics médicaux à la diffusion d’annonces.

DALL-E et CLIP sont «super impressionnants», déclare Karthik Narasimhan, professeur adjoint à Princeton spécialisé en vision par ordinateur. Il dit que CLIP s’appuie sur des travaux antérieurs qui ont cherché à former de grands modèles d’IA en utilisant simultanément des images et du texte, mais le fait à une échelle sans précédent. «CLIP est une démonstration à grande échelle de la capacité d’utiliser des formes de supervision plus naturelles – la façon dont nous parlons des choses», dit-il.

Il dit que CLIP pourrait être commercialement utile à bien des égards, allant de l’amélioration de la reconnaissance d’image utilisée dans la recherche Web et l’analyse vidéo, à la fabrication de robots ou de véhicules autonomes plus intelligents. CLIP pourrait être utilisé comme point de départ d’un algorithme permettant aux robots d’apprendre à partir d’images et de textes, tels que des manuels d’instructions, dit-il. Ou cela pourrait aider une voiture autonome à reconnaître les piétons ou les arbres dans un environnement inconnu.