En février de l'année dernière, le laboratoire de recherche OpenAI basé à San Francisco a annoncé que son système d'IA pouvait désormais écrire des passages convaincants de l'anglais. Insérez le début d'une phrase ou d'un paragraphe dans GPT-2, comme on l'appelait, et cela pourrait continuer la réflexion aussi longtemps qu'un essai avec une cohérence presque humaine.

Maintenant, le laboratoire explore ce qui se passerait si le même algorithme était plutôt alimenté en partie d'une image. Les résultats, qui ont reçu une mention honorable pour le prix du meilleur article lors de la Conférence internationale sur l'apprentissage automatique de cette semaine, ouvrent une nouvelle voie pour la génération d'images, pleine d'opportunités et de conséquences.

À la base, GPT-2 est un puissant moteur de prédiction. Il a appris à saisir la structure de la langue anglaise en examinant des milliards d'exemples de mots, de phrases et de paragraphes, extraits des coins d'Internet. Avec cette structure, il pourrait ensuite manipuler les mots en de nouvelles phrases en prédisant statistiquement l'ordre dans lequel ils devraient apparaître.

Les chercheurs d'OpenAI ont donc décidé d'échanger les mots contre des pixels et de former le même algorithme sur les images dans ImageNet, la banque d'images la plus populaire pour le deep learning. Parce que l'algorithme a été conçu pour fonctionner avec des données unidimensionnelles, c'est-à-dire des chaînes de texte, ils ont déroulé les images en une seule séquence de pixels. Ils ont constaté que le nouveau modèle, nommé iGPT, était encore capable de saisir les structures bidimensionnelles du monde visuel. Étant donné la séquence de pixels pour la première moitié d'une image, il pourrait prédire la seconde moitié d'une manière qu'un humain jugerait sensée.

Ci-dessous, vous pouvez voir quelques exemples. La colonne la plus à gauche est l'entrée, la colonne la plus à droite est l'original et les colonnes du milieu sont les achèvements prévus par iGPT. (Voir plus d'exemples ici.)

OPENAI

Les résultats sont étonnamment impressionnants et démontrent une nouvelle voie pour l'utilisation de l'apprentissage non supervisé, qui se forme sur des données sans étiquette, dans le développement de systèmes de vision par ordinateur. Bien que les premiers systèmes de vision par ordinateur au milieu des années 2000 aient testé de telles techniques auparavant, ils sont tombés en disgrâce car l'apprentissage supervisé, qui utilise des données étiquetées, s'est avéré beaucoup plus efficace. L'avantage de l'apprentissage non supervisé, cependant, est qu'il permet à un système d'IA d'apprendre sur le monde sans filtre humain, et réduit considérablement le travail manuel des données d'étiquetage.

Le fait que iGPT utilise le même algorithme que GPT-2 montre également son adaptabilité prometteuse entre les domaines. Ceci est conforme à l’ambition ultime d’OpenAI de parvenir à une intelligence machine plus généralisable.

Dans le même temps, la méthode présente une nouvelle façon de créer des images deepfake. Les réseaux contradictoires génératifs, la catégorie d'algorithmes la plus couramment utilisée pour créer des deepfakes dans le passé, doivent être formés sur des données hautement organisées. Pour qu'un GAN génère un visage, par exemple, ses données d'apprentissage ne doivent inclure que des visages. iGPT, en revanche, en apprend simplement assez sur la structure du monde visuel à travers des millions et des milliards d'exemples pour cracher des images qui pourraient exister en son sein. Bien que la formation du modèle soit toujours coûteuse en calcul, offrant une barrière naturelle à son accès, cela peut ne pas être le cas pour longtemps.

OpenAI n'a pas accordé de demande d'entrevue et n'a donc pas fourni de contexte supplémentaire pour les plans futurs concernant ses recherches. Mais lors d'une réunion de l'équipe politique interne Revue technologique du MIT assisté l'an dernier, son directeur politique Jack Clark a médité sur les risques futurs de la génération de style GPT, y compris ce qui se passerait si elle était appliquée aux images. "La vidéo arrive", a-t-il dit, projetant où il voyait la trajectoire de recherche du terrain. "Dans probablement cinq ans, vous aurez une génération de vidéo conditionnelle sur un horizon de cinq à dix secondes. Le genre de chose que j'imagine, c'est que vous serez finalement en mesure de mettre une photo d'Angela Merkel comme condition, avec une explosion à côté d'elle, et cela générera une sortie probable, qui sera Angela Merkel tuée. "

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici