Facktualité

Le principe physique qui a inspiré l’art moderne de l’IA

Par

19 février 2023

Sohl-Dickstein a utilisé les principes de diffusion pour développer un algorithme de modélisation générative. L’idée est simple : l’algorithme transforme d’abord les images complexes de l’ensemble de données d’apprentissage en un bruit simple, semblable à passer d’une goutte d’encre à une eau bleu clair diffuse, puis enseigne au système comment inverser le processus, en transformant le bruit en images.

Voici comment cela fonctionne : tout d’abord, l’algorithme prend une image de l’ensemble d’apprentissage. Comme précédemment, disons que chacun des millions de pixels a une certaine valeur, et nous pouvons tracer l’image comme un point dans un espace à un million de dimensions. L’algorithme ajoute du bruit à chaque pixel à chaque pas de temps, équivalent à la diffusion d’encre après un petit pas de temps. Au fur et à mesure que ce processus se poursuit, les valeurs des pixels ont moins de rapport avec leurs valeurs dans l’image d’origine, et les pixels ressemblent davantage à une simple distribution de bruit. (L’algorithme pousse également chaque valeur de pixel un peu vers l’origine, la valeur zéro sur tous ces axes, à chaque pas de temps. Ce coup de pouce empêche les valeurs de pixel de devenir trop grandes pour que les ordinateurs puissent facilement travailler avec.)

Faites cela pour toutes les images de l’ensemble de données, et une distribution complexe initiale de points dans un espace à un million de dimensions (qui ne peut pas être décrite et échantillonnée facilement) se transforme en une distribution simple et normale de points autour de l’origine.

« La séquence de transformations transforme très lentement votre distribution de données en une grosse boule de bruit », a déclaré Sohl-Dickstein. Ce « processus en avant » vous laisse avec une distribution à partir de laquelle vous pouvez facilement échantillonner.

Yang Song a aidé à trouver une nouvelle technique pour générer des images en formant un réseau pour décrypter efficacement les images bruyantes.

Avec l’aimable autorisation de Yang Song

Vient ensuite la partie apprentissage automatique : donnez à un réseau de neurones les images bruyantes obtenues à partir d’un passage vers l’avant et entraînez-le à prédire les images moins bruyantes qui sont arrivées une étape plus tôt. Il fera des erreurs au début, alors vous ajustez les paramètres du réseau pour qu’il fonctionne mieux. Finalement, le réseau de neurones peut transformer de manière fiable une image bruyante, qui est représentative d’un échantillon de la distribution simple, en une image représentative d’un échantillon de la distribution complexe.

Le réseau formé est un modèle génératif à part entière. Désormais, vous n’avez même plus besoin d’une image originale sur laquelle effectuer une passe avant : vous disposez d’une description mathématique complète de la distribution simple, vous pouvez donc en tirer un échantillon directement. Le réseau de neurones peut transformer cet échantillon, essentiellement statique, en une image finale qui ressemble à une image dans l’ensemble de données d’apprentissage.

Sohl-Dickstein rappelle les premières sorties de son modèle de diffusion. « Vous plisseriez les yeux et diriez: » Je pense que cette tache colorée ressemble à un camion « », a-t-il déclaré. « J’avais passé tant de mois de ma vie à regarder différents modèles de pixels et à essayer de voir la structure que j’étais comme, ‘C’est bien plus structuré que je ne l’avais jamais fait auparavant.’ J’étais très excité.

Envisager l’avenir

Sohl-Dickstein a publié son algorithme de modèle de diffusion en 2015, mais il était encore loin derrière ce que les GAN pouvaient faire. Alors que les modèles de diffusion pouvaient échantillonner sur l’ensemble de la distribution et ne jamais rester bloqués en ne crachant qu’un sous-ensemble d’images, les images semblaient pires et le processus était beaucoup trop lent. « Je ne pense pas qu’à l’époque, cela ait été considéré comme excitant », a déclaré Sohl-Dickstein.

Il faudrait deux étudiants, qui ne connaissaient ni Sohl-Dickstein ni l’autre, pour relier les points de ce travail initial aux modèles de diffusion modernes comme DALL·E 2. Le premier était Song, alors doctorant à Stanford. . En 2019, lui et son conseiller ont publié une nouvelle méthode pour construire des modèles génératifs qui n’estimaient pas la distribution de probabilité des données (la surface de grande dimension). Au lieu de cela, il a estimé le gradient de la distribution (considérez-le comme la pente de la surface de grande dimension).