Préparez-vous pour la prochaine génération d’IA

Pour recevoir The Algorithm dans votre boîte de réception tous les lundis, inscrivez-vous ici.

Bienvenue dans l’algorithme !

Est-ce que quelqu’un d’autre se sent étourdi? Juste au moment où la communauté de l’IA se concentrait sur les progrès étonnants des systèmes de conversion de texte en image, nous passons déjà à la prochaine frontière : le texte en vidéo.

À la fin de la semaine dernière, Meta a dévoilé Make-A-Video, une IA qui génère des vidéos de cinq secondes à partir d’invites textuelles.

Construit sur des ensembles de données open source, Make-A-Video vous permet de taper une chaîne de mots, comme « Un chien portant une tenue de super-héros avec une cape rouge volant dans le ciel », puis génère un clip qui, bien que assez précis , a l’esthétique d’une vieille vidéo maison trippante.

Le développement est une percée dans l’IA générative qui soulève également des questions éthiques difficiles. Créer des vidéos à partir d’invites de texte est beaucoup plus difficile et coûteux que de générer des images, et il est impressionnant que Meta ait trouvé un moyen de le faire si rapidement. Mais à mesure que la technologie se développe, on craint qu’elle ne soit exploitée comme un outil puissant pour créer et diffuser des informations erronées. Vous pouvez lire mon histoire à ce sujet ici.

Quelques jours seulement après son annonce, cependant, le système de Meta commence déjà à paraître un peu basique.Il s’agit de l’un des nombreux modèles de conversion de texte en vidéo soumis dans des articles à l’une des principales conférences sur l’IA, la Conférence internationale sur les représentations de l’apprentissage.

Un autre, appelé Phenaki, est encore plus avancé.

Il peut générer une vidéo à partir d’une image fixe et d’une invite plutôt qu’une invite de texte seule. Il peut également créer des clips beaucoup plus longs : les utilisateurs peuvent créer des vidéos de plusieurs minutes en fonction de plusieurs invites différentes qui forment le script de la vidéo. (Par exemple : « Un ours en peluche photoréaliste nage dans l’océan à San Francisco. L’ours en peluche va sous l’eau. L’ours en peluche continue de nager sous l’eau avec des poissons colorés. Un panda nage sous l’eau. »)

Vidéo générée par Phenaki.

Une telle technologie pourrait révolutionner le cinéma et l’animation.C’est franchement incroyable la rapidité avec laquelle cela s’est produit. DALL-E a été lancé l’année dernière. C’est à la fois extrêmement excitant et légèrement horrifiant de penser où nous serons à cette époque l’année prochaine.

Des chercheurs de Google ont également soumis un article à la conférence sur leur nouveau modèle appelé DreamFusion, qui génère des images 3D basées sur des invites textuelles. Les modèles 3D peuvent être visualisés sous n’importe quel angle, l’éclairage peut être modifié et le modèle peut être plongé dans n’importe quel environnement 3D.

Ne vous attendez pas à jouer avec ces modèles de si tôt.Meta ne publie pas encore Make-A-Video au public. C’est une bonne chose. Le modèle de Meta est formé à l’aide du même ensemble de données d’image open source qui était derrière Stable Diffusion. La société affirme avoir filtré le langage toxique et les images NSFW, mais cela ne garantit pas qu’elles auront saisi toutes les nuances du désagrément humain lorsque les ensembles de données se composent de millions et de millions d’échantillons. Et l’entreprise n’a pas exactement un bilan exceptionnel en matière de réduction des dommages causés par les systèmes qu’elle construit, pour le dire à la légère.

Les créateurs de Pheraki écrivent dans leur article que même si les vidéos produites par leur modèle ne sont pas encore indiscernables en qualité des vraies, cela « est dans le domaine du possible, même aujourd’hui ». Les créateurs des modèles disent qu’avant de publier leur modèle, ils souhaitent mieux comprendre les données, les invites et les sorties de filtrage et mesurer les biais afin d’atténuer les dommages.

Il deviendra de plus en plus difficile de savoir ce qui est réel en ligne, et l’IA vidéo ouvre une multitude de dangers uniques que l’audio et les images n’ont pas, comme la perspective de deepfakes turbocompressés. Des plateformes comme TikTok et Instagram déforment déjà notre sens de la réalité grâce à des filtres faciaux augmentés. La vidéo générée par l’IA pourrait être un puissant outil de désinformation, car les gens ont plus tendance à croire et à partager de fausses vidéos que de fausses versions audio et textuelles du même contenu, selon des chercheurs de la Penn State University.

En conclusion, nous sommes encore loin de comprendre que faire des éléments toxiques des modèles de langage. Nous venons tout juste de commencer à examiner les méfaits des systèmes d’IA texte-image. Vidéo? Bonne chance avec ça.

Apprentissage plus approfondi

L’UE veut mettre les entreprises sur le crochet pour l’IA nuisible

L’UE crée de nouvelles règles pour faciliter la poursuite en justice des entreprises d’IA pour préjudice.Un nouveau projet de loi publié la semaine dernière, qui devrait devenir loi dans quelques années, fait partie d’une poussée de l’Europe pour forcer les développeurs d’IA à ne pas publier de systèmes dangereux.

Le projet de loi, appelé directive sur la responsabilité en matière d’IA, ajoutera du mordant à la loi sur l’IA de l’UE, qui devrait devenir loi à peu près au même moment. La loi sur l’IA exigerait des vérifications supplémentaires pour les utilisations «à haut risque» de l’IA qui ont le plus de potentiel de nuire aux personnes. Cela pourrait inclure les systèmes d’IA utilisés pour le maintien de l’ordre, le recrutement ou les soins de santé.

La loi sur la responsabilité entrerait en vigueur une fois que le préjudice s’est déjà produit.Cela donnerait aux personnes et aux entreprises le droit de poursuivre en dommages-intérêts lorsqu’elles ont été lésées par un système d’IA, par exemple, si elles peuvent prouver qu’une IA discriminatoire a été utilisée pour les désavantager dans le cadre d’un processus d’embauche.

Mais il y a un hic : Les consommateurs devront prouver que l’IA de l’entreprise leur a nui, ce qui pourrait être une entreprise énorme. Vous pouvez lire mon histoire à ce sujet ici.

Bits et octets

Comment les robots et l’IA aident à développer de meilleures batteries
Les chercheurs de Carnegie Mellon ont utilisé un système automatisé et un logiciel d’apprentissage automatique pour générer des électrolytes qui pourraient permettre aux batteries lithium-ion de se recharger plus rapidement, s’attaquant à l’un des principaux obstacles à l’adoption généralisée des véhicules électriques. (examen de la technologie MIT)

Les smartphones peuvent-ils aider à prédire le suicide ?
Des chercheurs de l’Université de Harvard utilisent des données collectées à partir de smartphones et de biocapteurs portables, tels que les montres Fitbit, pour créer un algorithme qui pourrait aider à prédire quand les patients risquent de se suicider et aider les cliniciens à intervenir. (Le New York Times)

OpenAI a mis à la disposition de tous son IA texte-image DALL-E.
Les images générées par l’IA vont être partout. Vous pouvez essayer le logiciel ici.

Quelqu’un a créé une IA qui crée des sosies Pokémon de personnes célèbres.
La seule IA de génération d’images qui compte. (Le Washington Post)

Merci d’avoir lu! À la semaine prochaine.

Mélisse