La rumeur a récemment bourdonné sur les projets de Nintendo d’introduire une nouvelle version de leur console Switch extrêmement populaire à temps pour les vacances. Un processeur plus rapide, plus de RAM et un écran OLED amélioré sont tous à peu près acquis, comme on peut s’y attendre pour une actualisation de mi-génération. Ces spécifications améliorées auront presque certainement un prix gonflé, mais étant donné la demande incroyable pour le commutateur actuel, une augmentation de 50 $ ou même de 100 $ ne dissuadera probablement pas de nombreux acheteurs potentiels.

Mais selon un rapport de Bloomberg, le nouveau Switch pourrait avoir un peu plus de choses sous le capot que ce à quoi vous vous attendez de la Nintendo technologiquement conservatrice. Leurs sources affirment que le nouveau système utilisera un chipset NVIDIA capable de Deep Learning Super Sampling (DLSS), une fonctionnalité qui n’est actuellement disponible que sur les GPU haut de gamme GeForce RTX 20 et GeForce RTX 30. La technologie, qui a déjà été utilisée par plusieurs jeux PC notables au cours des dernières années, utilise l’apprentissage automatique pour améliorer les images rendues en temps réel. Ainsi, plutôt que de charger le GPU de produire une image 4K native, le moteur peut rendre le jeu à une résolution inférieure et faire en sorte que DLSS fasse la différence.

Le modèle actuel Nintendo Switch

Les implications de cette technologie, en particulier sur les appareils limités en calcul, sont immenses. Pour le Switch, qui se double d’un ordinateur de poche alimenté par batterie lorsqu’il est retiré de son dock, l’utilisation de DLSS pourrait lui permettre de produire des visuels similaires aux systèmes Xbox et PlayStation beaucoup plus grands et plus chers avec lesquels il est en concurrence. Si Nintendo et NVIDIA peuvent prouver que DLSS est viable sur quelque chose d’aussi petit que le Switch, nous verrons probablement la technologie arriver aux futurs smartphones et tablettes pour compenser leurs GPU relativement limités.

Mais pourquoi s’arrêter là? Si les systèmes d’intelligence artificielle comme le DLSS peuvent faire évoluer un jeu vidéo, il va de soi que les mêmes techniques pourraient être appliquées à d’autres formes de contenu. Plutôt que de saturer votre connexion Internet avec un flux vidéo 16K, les téléviseurs du futur tireront-ils simplement le meilleur parti de ce qu’ils ont en utilisant un algorithme d’apprentissage automatique formé sur des émissions et des films populaires?

Jusqu’où pouvez-vous aller?

De toute évidence, vous n’avez pas besoin de machine learning pour redimensionner une image. Vous pouvez prendre une vidéo de résolution standard et la mettre à l’échelle en haute définition assez facilement, et en effet, votre téléviseur ou votre lecteur Blu-ray fait exactement cela lorsque vous regardez du contenu plus ancien. Mais il ne faut pas un œil particulièrement attentif pour faire immédiatement la différence entre un DVD qui a été gonflé pour s’adapter à un écran HD et un contenu moderne réellement produit à cette résolution. Prendre une image 720 x 480 et la pousser jusqu’à 1920 x 1080, voire 3840 x 2160 dans le cas de la 4K, va conduire à une dégradation d’image assez évidente.

Pour résoudre ce problème fondamental, la mise à l’échelle améliorée par l’IA crée en fait de nouvelles données visuelles pour combler les lacunes entre les résolutions source et cible. Dans le cas du DLSS, NVIDIA a formé son réseau de neurones en prenant des images basse et haute résolution du même jeu et en faisant analyser les différences par son supercalculateur interne. Pour maximiser les résultats, les images haute résolution ont été rendues à un niveau de détail qui serait irréalisable sur le plan informatique, voire impossible à obtenir en temps réel. Combiné avec des données de vecteur de mouvement, le réseau neuronal a été chargé non seulement de remplir les informations visuelles nécessaires pour que l’image basse résolution se rapproche mieux de la cible idéaliste, mais aussi de prédire à quoi pourrait ressembler la prochaine image d’animation.

Architecture DLSS 2.0 de NVIDIA

Alors que moins de 50 jeux PC prennent en charge la dernière version de DLSS au moment de la rédaction de cet article, les résultats sont jusqu’à présent extrêmement prometteurs. La technologie permettra aux ordinateurs actuels d’exécuter des jeux plus récents et plus complexes plus longtemps, et pour les titres actuels, conduira à un rendu d’images par seconde (FPS) considérablement amélioré. En d’autres termes, si vous avez un ordinateur suffisamment puissant pour exécuter un jeu à 30 FPS en 1920 x 1080, le même ordinateur pourrait potentiellement atteindre 60 FPS si le jeu était rendu à 1280 x 720 et mis à l’échelle avec DLSS.

Il y a eu de nombreuses occasions de comparer les gains de performances du DLSS dans le monde réel sur les titres pris en charge au cours des deux dernières années, et YouTube regorge de comparaisons directes qui montrent de quoi la technologie est capable. Dans un test particulièrement extrême, 2kliksphilip a couru les 2019 Contrôler et les années 2020 Death Stranding à seulement 427 x 240 et utilisé DLSS pour le mettre à l’échelle jusqu’à 1280 x 720. Bien que les résultats ne soient pas parfaits, les deux jeux ont fini par être bien meilleurs qu’ils n’avaient le droit de penser qu’ils étaient rendus à une résolution que nous aurions plus probablement associé à la Nintendo 64 à un PC de jeu moderne.

Divertissement amélioré par l’IA

Bien que ce ne soit que les premiers jours, il semble assez clair que les systèmes d’apprentissage automatique tels que le Deep Learning Super Sampling sont très prometteurs pour les jeux. Mais l’idée ne se limite pas aux jeux vidéo. Il y a aussi une forte poussée vers l’utilisation d’algorithmes similaires pour améliorer les films et émissions de télévision plus anciens pour lesquels il n’existe pas de version à plus haute résolution. Des logiciels propriétaires et ouverts sont désormais disponibles qui exploitent la puissance de calcul des GPU modernes pour améliorer les images fixes ainsi que la vidéo.

Parmi les outils open source dans ce domaine, le projet Video2X est bien connu et en développement actif. Ce framework Python 3 utilise les upscalers waifu2x et Anime4K, qui, comme vous l’avez peut-être compris à partir de leurs noms, ont été conçus pour fonctionner principalement avec l’anime. L’idée est que vous pouvez prendre un film d’animation ou une série qui n’a jamais été publié en définition standard, et en l’exécutant via un réseau neuronal spécialement formé sur un contenu visuellement similaire, l’amener à une résolution de 1080 ou même 4K.

Bien que la mise en service du logiciel puisse être quelque peu délicate étant donné les différents cadres d’accélération GPU disponibles en fonction de votre système d’exploitation et de votre plate-forme matérielle, c’est quelque chose que toute personne disposant d’un ordinateur relativement moderne est capable de faire par elle-même. À titre d’exemple, j’ai pris une image 640 x 360 de Lapin Big Buck et l’a mis à l’échelle jusqu’à 1920 x 1080 en utilisant les paramètres par défaut sur le backend upscaler waifu2x dans Video2X:

Par rapport à l’image native 1920 x 1080, nous pouvons voir des différences subtiles. L’ombrage de la fourrure du lapin n’est pas tout à fait aussi nuancé, les yeux manquent d’un certain éclat, et plus particulièrement l’herbe est passée de lames individuelles à quelque chose qui ressemble plus à une peinture à l’huile. Mais auriez-vous vraiment remarqué tout cela si les deux images n’étaient pas côte à côte?

Assemblage requis

Dans l’exemple précédent, l’IA a pu multiplier par trois la résolution d’une image avec des artefacts graphiques négligeables. Mais ce qui est peut-être plus impressionnant, c’est que la taille du fichier de l’image 640 x 360 n’est qu’un cinquième de celle de l’image originale 1920 x 1080. En extrapolant cette différence à la longueur d’un long métrage, il est clair que la technologie pourrait avoir un impact énorme sur l’énorme bande passante et les coûts de stockage associés à la vidéo en streaming.

Imaginez un avenir où, au lieu de diffuser un film ultra-haute résolution à partir d’Internet, votre appareil reçoit à la place un flux vidéo à 1/2 ou même 1/3 de la résolution cible, ainsi qu’un modèle de réseau neuronal qui a été formé sur ce contenu spécifique. Votre lecteur compatible AI pourrait alors prendre cette vidéo «déshydratée» et la mettre à l’échelle en temps réel à la résolution appropriée pour votre écran. Plutôt que de saturer votre connexion Internet, ce serait un peu comme la façon dont ils livraient des pizzas en Retour vers le futur II.

Le seul défi technique qui fait obstacle est le temps nécessaire pour effectuer ce type de mise à l’échelle: lors de l’exécution de Video2X sur du matériel, même assez haut de gamme, une vitesse de rendu de 1 ou 2 FPS est considérée comme rapide. Il faudrait une énorme augmentation de la puissance de calcul pour faire une mise à l’échelle vidéo AI en temps réel, mais les progrès réalisés par NVIDIA avec DLSS sont certainement encourageants. Bien sûr, les cinéphiles soutiendraient qu’une telle reproduction peut ne pas correspondre à l’intention du réalisateur, mais lorsque les gens regardent des films 30 minutes à la fois sur leur téléphone tout en se rendant au travail, il est prudent de dire que le navire a déjà navigué.