C’était un trope trop familier dans les années 1990 – les forces de l’ordre dans les films et la télévision prenant une image pixellisée et floue, et appuyant sur le bouton magique «améliorer» pour révéler les suspects à traduire en justice. Créer des données là où il n’y en avait tout simplement pas auparavant était un excellent moyen de ruiner l’immersion pour quiconque possédant un minimum d’expertise technique et gâché de nombreux films et émissions de télévision.

Bien sûr, la technologie progresse et ce qui était autrefois une impossibilité totale devient souvent insignifiant en temps voulu. De nos jours, on s’attend à ce qu’un ordinateur à moins de 100 dollars puisse facilement différencier une banane, un chien et un humain, ce qui était insondable à l’aube de l’ère des micro-ordinateurs. Cette capacité est enracinée dans la technologie des réseaux neuronaux, qui peuvent être formés pour effectuer toutes sortes de tâches autrefois considérées comme difficiles pour les ordinateurs.

Avec des réseaux de neurones et une grande puissance de traitement à portée de main, il y a eu un flot de projets visant à «améliorer» tout, des visages humains à basse résolution aux vieux films, en augmentant la résolution et en remplissant les données qui ne sont tout simplement pas là. Mais que se passe-t-il vraiment dans les coulisses et cette technologie est-elle vraiment capable d’améliorer quoi que ce soit avec précision?

Une supposition éclairée

Un clip fortement amélioré d’un film tourné à San Francisco juste 4 jours avant le tremblement de terre de 1906. [Denis] utilise des outils gratuits pour coloriser, mettre à l’échelle et augmenter la fréquence d’images des anciennes séquences.

Nous avons déjà présenté des réseaux de neurones faisant de tels exploits, comme l’algorithme DAIN qui met à l’échelle les images à 60 images par seconde. D’autres, comme [Denis Shiryaev], combinez une variété d’outils pour coloriser les anciennes séquences, lisser les fréquences d’images et augmenter les résolutions à 4K. Les réseaux de neurones peuvent faire tout cela et plus, et fondamentalement, la méthode est la même au niveau de base. Par exemple, pour créer un réseau neuronal afin de mettre à l’échelle une séquence à une résolution 4K, il doit d’abord être formé. Le réseau apprend à partir de paires d’images, avec une image basse résolution et l’original haute résolution correspondant. Il tente ensuite de trouver des paramètres de transformation qui prennent les données basse résolution et produisent un résultat correspondant aussi près que possible à l’original haute résolution. Une fois correctement formé sur un nombre d’images suffisant, le réseau neuronal peut ensuite être utilisé pour appliquer des transformations similaires à d’autres matériaux. Le processus est similaire pour augmenter la fréquence d’images et même la colorisation. Affichez un contenu de couleur réseau, puis montrez-lui la version noir et blanc. Avec suffisamment de formation, il peut développer des algorithmes pour appliquer des couleurs probables à d’autres images en noir et blanc.

Une équipe de l’Université Duke a créé un outil pour produire des portraits haute résolution à partir d’images fortement pixélisées. Cependant, la sortie résultante est une fabrication, et pas nécessairement celle qui correspond au visage d’origine dans l’image source à basse résolution.

La chose importante à noter à propos de cette technologie est qu’elle utilise simplement une large base d’expérience pour produire ce qu’elle pense est approprié. Ce n’est pas différent d’un humain regardant un film et devinant la fin après avoir vu de nombreux tropes similaires dans d’autres films auparavant. Il y a de fortes chances que la supposition soit approximative, mais aucune garantie qu’elle soit correcte à 100%. C’est un fil conducteur de l’utilisation de l’IA pour la mise à l’échelle, comme l’explique l’équipe à l’origine de l’outil d’imagerie faciale PULSE. L’algorithme PULSE synthétise une image basée sur une entrée à très basse résolution d’un visage humain. L’algorithme prend sa meilleure estimation de ce à quoi les visages d’origine auraient pu ressembler, sur la base des données de son ensemble d’apprentissage, vérifiant son travail en redimensionnant pour voir si le résultat correspond à l’entrée basse résolution d’origine. Il n’y a aucune garantie que le visage généré ait une réelle ressemblance avec le vrai, bien sûr. La sortie haute résolution est simplement l’idée d’un ordinateur d’un visage humain réaliste qui pourrait ont été la source de l’image à basse résolution. La technique a même été appliquée aux textures de jeux vidéo, mais les résultats peuvent être mitigés. Un réseau de neurones n’obtient pas toujours la bonne estimation, et souvent, un humain dans la boucle est nécessaire pour affiner la sortie pour de meilleurs résultats. Cependant, les résultats sont parfois amusants.

Il reste une vérité universelle que lorsque vous travaillez avec des images basse résolution ou des images en noir et blanc, il n’est pas possible de remplir avec précision des données qui ne sont pas là. Il se trouve qu’avec l’aide de réseaux de neurones, nous pouvons faire d’excellentes suppositions qui peuvent sembler réelles à un observateur occasionnel. Les limites de cette technologie reviennent plus souvent que vous ne le pensez. La colorisation, par exemple, peut être très efficace sur des choses comme les rues de la ville et les arbres, mais elle fonctionne très mal sur d’autres, comme les vêtements. Les feuilles sont généralement une certaine nuance de vert, tandis que les routes sont généralement grises. Un chapeau, cependant, peut être de n’importe quelle couleur; alors qu’une idée approximative de l’ombre peut être tirée d’une image en noir et blanc, la teinte exacte est perdue à jamais. Dans ces cas, les réseaux de neurones ne peuvent prendre un coup de couteau que dans le noir.

Pour ces raisons, il est important de ne pas considérer les images «améliorées» de cette manière comme historiquement pertinentes. Rien de ce qui est généré par un tel algorithme ne peut être définitivement considéré comme fondé sur la vérité. Prenons l’exemple d’un film colorisé d’un événement politique. L’algorithme pourrait changer des détails subtils tels que la couleur d’une épinglette ou d’une bannière, créant ainsi la suggestion d’une allégeance sans fondement factuel. Les algorithmes de mise à l’échelle pourraient créer des visages avec une ressemblance étrange avec des personnages historiques qui n’ont peut-être jamais été présents du tout. Ainsi, les archivistes et ceux qui travaillent à la restauration de vieilles images évitent des outils tels que l’anathème à leur cause de maintenir un enregistrement précis de l’histoire.

Cette séquence a été tournée à New York en 1993 avec une caméra 1080p à la pointe de la technologie. Il a une netteté et une qualité non atteintes par des images historiques à grande échelle.

La véritable qualité perçue est également un problème. La comparaison d’un film 4K upscaled de Paris en 1890 est tout simplement dérisoire par rapport aux images tournées avec une véritable caméra 1080p à New York en 1993. Même la meilleure estimation d’un puissant réseau de neurones a du mal à se mesurer à des données brutes de haute qualité. Bien sûr, il faut également tenir compte de plus de 100 ans d’amélioration de la technologie des caméras, mais quoi qu’il en soit, les réseaux de neurones ne remplaceront pas de sitôt les équipements de qualité pour caméras. Il n’y a tout simplement pas de substitut pour capturer de bonnes données de haute qualité.

Conclusion

Il existe des applications pour les algorithmes d ‘«amélioration»; on peut imaginer l’intérêt d’Hollywood pour la mise à l’échelle d’anciennes séquences pour les utiliser dans des œuvres d’époque. Cependant, l’utilisation de ces techniques à des fins telles que l’analyse historique ou l’application de la loi est tout simplement hors de question. Les données fabriquées par ordinateur n’ont tout simplement aucun lien réel avec la réalité et ne peuvent donc pas être utilisées dans de tels domaines pour rechercher la vérité. Cependant, cela n’empêchera pas nécessairement quiconque d’essayer. Par conséquent, il est essentiel pour quiconque cherche à voir à travers la fumée et les miroirs de bien comprendre les concepts sous-jacents du fonctionnement de ces outils.

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici