Diffusion stable et pourquoi c’est important

Vous n’avez peut-être pas entendu parler de Stable Diffusion. Au moment de la rédaction de cet article, il a moins de quelques semaines. Peut-être en avez-vous entendu parler et du brouhaha qui l’entoure. Il s’agit d’un modèle d’IA qui peut générer des images basées sur une invite de texte ou une image d’entrée. Pourquoi est-ce important, comment l’utilisez-vous et pourquoi devriez-vous vous en soucier ?

Cette année, nous avons vu plusieurs IA de génération d’images telles que Dall-e 2, Imagen et même Craiyon. L’IA Canvas de Nvidia permet à quelqu’un de créer une image brute avec différentes couleurs représentant différents éléments, tels que des montagnes ou de l’eau. La toile peut le transformer en un beau paysage. Qu’est-ce qui rend Stable Diffusion spécial ? Pour commencer, il est open source sous la licence Creative ML OpenRAIL-M, qui est relativement permissive. De plus, vous pouvez exécuter Stable Diffusion (SD) sur votre ordinateur plutôt que via le cloud, accessible via un site Web ou une API. Ils recommandent un GPU NVIDIA de la série 3xxx avec au moins 6 Go de RAM pour obtenir des résultats décents. Mais en raison de sa nature open source, les correctifs et les ajustements lui permettent d’être uniquement CPU, alimenté par AMD ou même compatible Mac.

Cela touche à la chose la plus importante à propos de SD. La communauté et l’énergie qui l’entoure. Il existe des dizaines de dépôts avec différentes fonctionnalités, interfaces utilisateur Web et optimisations. Les gens forment de nouveaux modèles ou affinent des modèles pour mieux générer différents styles de contenu. Il existe des plugins pour Photoshop et Krita. D’autres modèles sont intégrés au flux, comme la mise à l’échelle de l’image ou la correction du visage. La vitesse à laquelle cela a vu le jour est vertigineuse. En ce moment, c’est un peu l’ouest sauvage.

Comment l’utilisez-vous?

Après avoir joué avec SD sur notre bureau à la maison et manipulé quelques-uns des dépôts, nous pouvons dire avec confiance que SD n’est pas aussi bon que Dall-E 2 lorsqu’il s’agit de générer des concepts abstraits.

Boston Terrier avec une queue de sirène, au fond de l’océan, dramatique, art numérique.
Images générées par Nir Barazida

Cela ne le rend pas moins incroyable. La plupart des exemples incroyables que vous voyez en ligne sont sélectionnés, mais le fait que vous puissiez allumer votre bureau avec un RTX 3060 bas de gamme et créer une nouvelle image toutes les 13 secondes est époustouflant. Éloignez-vous pour un verre d’eau et vous aurez environ 15 images à parcourir à votre retour. Beaucoup d’entre eux sont décents et peuvent être itérés (plus à ce sujet plus tard).

Si vous souhaitez jouer avec, rendez-vous sur huggingface, dreamstudio.ai ou Google collab et utilisez leur interface Web (toutes actuellement gratuites). Ou suivez un guide et installez-le sur votre machine (tout guide que nous écrivons ici sera terriblement obsolète dans quelques semaines).

La véritable magie de la SD et des autres générations d’images est l’interaction entre l’homme et l’ordinateur. Ne pensez pas à cela comme un « mettez une chose, sortez une nouvelle chose » ; le système peut se boucler sur lui-même. [Andrew] l’a fait récemment, en commençant par un dessin très simple de Seattle. Il a introduit cette image dans SD, demandant « une peinture fantastique numérique de la ligne d’horizon de la ville de Seattle. Arbres d’automne vibrants au premier plan. Aiguille de l’espace visible. Mont Rainier en arrière-plan. Très détaillé.

Dessin d'Andy à gauche, SD à droite

J’espère que vous pouvez dire lequel [Andrew] a dessiné et lequel SD a généré. Il a réintroduit cette image, la changeant pour avoir une ambiance post-apocalyptique. Il dessine ensuite un simple vaisseau spatial dans le ciel et demande à SD de le transformer en un beau vaisseau spatial, et après quelques passages, il s’intègre parfaitement dans la scène. L’ajout d’oiseaux et d’une passe à faible intensité le réunit dans une scène magnifique.

SD se débat avec la cohérence entre les passes de génération, car [Karen Cheng] démontre dans sa tentative de changer une vidéo de quelqu’un qui marche pour avoir une tenue différente. Elle combine la sortie de Dalle (SD devrait très bien fonctionner ici) avec EBSynth, une IA capable de prendre une image modifiée et d’extrapoler comment elle devrait s’appliquer aux images suivantes. Les résultats sont incroyables.

En fin de compte, ce sera un autre outil pour exprimer des idées plus rapidement et de manière plus accessible. Bien que ce que SD génère ne puisse pas être utilisé comme élément final, il pourrait être utilisé pour générer des textures dans un jeu prototype. Ou générez un logo pour un projet open-source.

Pourquoi devriez-vous vous en soucier?

Généré par l’auteur via SD

J’espère que vous pourrez voir à quel point la SD et ses modèles cousins ​​sont excitants et puissants. Si un film avait contenu certaines des démos ci-dessus il y a quelques années à peine, nous aurions probablement qualifié le film de magie hollywoodienne.

Le temps nous dira si nous allons continuer à itérer sur l’idée ou passer à des techniques plus puissantes. Mais il y a déjà des efforts pour former des modèles plus grands avec des ajustements pour mieux comprendre le monde et les invites.

L’open source est aussi un peu une épée à double tranchant, car n’importe qui peut le prendre et faire ce qu’il veut. La licence sur le modèle interdit son utilisation à de nombreuses fins néfastes, mais à ce stade, nous ne savons pas quelles sortes de ramifications cela aura à long terme. Regarder dix ou quinze ans plus tard devient très trouble car il est difficile d’imaginer ce qui pourrait être fait avec une version 10 fois meilleure et fonctionnant en temps réel.

Nous avons écrit sur l’impact de Dall-E sur la photographie, mais cela ne fait qu’effleurer la surface. Il y a tellement plus de possibilités, et nous sommes impatients de voir ce qui se passera. Tout ce que nous pouvons dire, c’est qu’il est satisfaisant de regarder une image qui vous rend heureux et de savoir qu’elle a été générée sur votre ordinateur.

François Zipponi
Je suis François Zipponi, éditorialiste pour le site 10-raisons.fr. J'ai commencé ma carrière de journaliste en 2004, et j'ai travaillé pour plusieurs médias français, dont le Monde et Libération. En 2016, j'ai rejoint 10-raisons.fr, un site innovant proposant des articles sous la forme « 10 raisons de... ». En tant qu'éditorialiste, je me suis engagé à fournir un contenu original et pertinent, abordant des sujets variés tels que la politique, l'économie, les sciences, l'histoire, etc. Je m'efforce de toujours traiter les sujets de façon objective et impartiale. Mes articles sont régulièrement partagés sur les réseaux sociaux et j'interviens dans des conférences et des tables rondes autour des thèmes abordés sur 10-raisons.fr.