Cet astronaute à cheval est une étape importante dans la capacité de l’IA à donner un sens au monde

Pour soutenir le journalisme de MIT Technology Review, veuillez envisager de vous abonner.

Les modèles de diffusion sont formés sur des images qui ont été complètement déformées avec des pixels aléatoires. Ils apprennent à reconvertir ces images dans leur forme originale. Dans DALL-E 2, il n’y a pas d’images existantes. Ainsi, le modèle de diffusion prend les pixels aléatoires et, guidé par CLIP, les convertit en une toute nouvelle image, créée à partir de zéro, qui correspond à l’invite de texte.

Le modèle de diffusion permet à DALL-E 2 de produire des images à plus haute résolution plus rapidement que DALL-E. « Cela le rend beaucoup plus pratique et agréable à utiliser », déclare Aditya Ramesh d’OpenAI.

Dans la démo, Ramesh et ses collègues m’ont montré des images d’un hérisson utilisant une calculatrice, un corgi et un panda jouant aux échecs, et un chat déguisé en Napoléon tenant un morceau de fromage. Je remarque l’étrange distribution de sujets. « Il est facile de brûler toute une journée de travail en pensant aux invites », dit-il.

« Une loutre de mer dans le style de la jeune fille à la perle de Johannes Vermeer » / « Un ibis à l’état sauvage, peint dans le style de John Audubon »

DALL-E 2 glisse toujours. Par exemple, il peut avoir du mal avec une invite qui lui demande de combiner deux objets ou plus avec deux attributs ou plus, comme « un cube rouge au-dessus d’un cube bleu ». OpenAI pense que c’est parce que CLIP ne connecte pas toujours correctement les attributs aux objets.

En plus de riffer les invites de texte, DALL-E 2 peut également créer des variantes d’images existantes. Ramesh branche une photo qu’il a prise d’un art de la rue devant son appartement. L’IA commence immédiatement à générer des versions alternatives de la scène avec des œuvres d’art différentes sur le mur. Chacune de ces nouvelles images peut être utilisée pour lancer sa propre séquence de variations. « Cette boucle de rétroaction pourrait être vraiment utile pour les designers et les artistes », déclare Ramesh.

Attention utilisateur

DALL-E 2 ressemble beaucoup plus à un produit raffiné que la version précédente. Ce n’était pas le but, dit Ramesh. Mais OpenAI prévoit de publier DALL-E 2 après un déploiement initial auprès d’un petit groupe d’utilisateurs de confiance, un peu comme il l’a fait avec GPT-3.

GPT-3 peut produire du texte toxique. Mais OpenAI dit avoir utilisé les commentaires des utilisateurs de GPT-3 pour former une version plus sûre, appelée InstructGPT. La société espère suivre une voie similaire avec DALL-E 2, qui sera également façonnée par les commentaires des utilisateurs. OpenAI encouragera les utilisateurs initiaux à casser l’IA, en l’incitant à générer des images offensantes ou nuisibles. Au fur et à mesure de ces problèmes, OpenAI commencera à mettre DALL-E 2 à la disposition d’un groupe plus large de personnes.

OpenAI publie également une politique d’utilisation pour DALL-E, qui interdit de demander à l’IA de générer des images offensantes – pas de violence ou de pornographie – et pas d’images politiques. Pour éviter les deep fakes, les utilisateurs ne seront pas autorisés à demander à DALL-E de générer des images de personnes réelles.

En plus de la politique d’utilisation, OpenAI a supprimé certains types d’images des données d’entraînement de DALL-E 2, y compris celles montrant de la violence graphique. OpenAI dit également qu’il finira par payer des modérateurs humains pour examiner chaque image générée sur sa plate-forme.

« Notre objectif principal ici est simplement d’obtenir beaucoup de commentaires sur le système avant de commencer à le partager plus largement », déclare Prafulla Dhariwal d’OpenAI. « J’espère qu’il sera éventuellement disponible, afin que les développeurs puissent créer des applications dessus. »

Intelligence créative

Les IA polyvalentes qui peuvent voir le monde et travailler avec des concepts à travers plusieurs modalités, comme le langage et la vision, sont une étape vers une intelligence plus polyvalente. DALL-E 2 est l’un des meilleurs exemples à ce jour.

Mais tandis qu’Ezioni est impressionné par les images produites par DALL-E 2, il est prudent quant à ce que cela signifie pour le progrès global de l’IA. « Ce genre d’amélioration ne nous rapproche pas d’AGI », dit-il. « Nous savons déjà que l’IA est remarquablement capable de résoudre des tâches étroites en utilisant l’apprentissage en profondeur. Mais ce sont toujours les humains qui formulent ces tâches et donnent à l’apprentissage en profondeur ses ordres de marche.

Pour Mark Riedl, chercheur en intelligence artificielle à Georgia Tech à Atlanta, la créativité est un bon moyen de mesurer l’intelligence. Contrairement au test de Turing, qui nécessite une machine pour tromper un humain par la conversation, le test Lovelace 2.0 de Riedl évalue l’intelligence d’une machine en fonction de sa capacité à répondre aux demandes de création de quelque chose, comme « Une image d’un pingouin dans une combinaison spatiale sur Mars ». ”

DALL-E obtient de bons résultats à ce test. Mais l’intelligence est une échelle mobile. Au fur et à mesure que nous construisons des machines de mieux en mieux, nos tests d’intelligence doivent s’adapter. De nombreux chatbots sont maintenant très bons pour imiter la conversation humaine, passant le test de Turing au sens étroit. Cependant, ils sont toujours aveugles.