La découverte qui a conduit Nir Shavit à créer une entreprise est survenue comme la plupart des découvertes: par accident. Le professeur du MIT travaillait sur un projet de reconstruction d'une carte du cerveau d'une souris et avait besoin de l'aide d'un apprentissage en profondeur. Ne sachant pas comment programmer les cartes graphiques ou GPU, le choix matériel le plus courant pour les modèles d'apprentissage en profondeur, il a plutôt opté pour une unité centrale de traitement, ou CPU, la puce informatique la plus générique trouvée dans n'importe quel ordinateur portable moyen.

"Et voilà", se souvient Shavit, "J'ai réalisé qu'un CPU peut faire ce qu'un GPU fait – s'il est programmé de la bonne façon."

Cette idée est maintenant à la base de sa startup, Neural Magic, qui a lancé aujourd'hui sa première suite de produits. L'idée est de permettre à toute entreprise de déployer un modèle d'apprentissage en profondeur sans avoir besoin de matériel spécialisé. Cela permettrait non seulement de réduire les coûts de l'apprentissage en profondeur, mais aussi de rendre l'IA plus largement accessible.

"Cela signifierait que vous pourriez utiliser des réseaux de neurones sur de nombreuses autres machines et bien d'autres existant », explique Neil Thompson, chercheur au laboratoire d'informatique et d'intelligence artificielle du MIT, qui n'est pas impliqué dans Neural Magic. "Vous n'auriez pas besoin de passer à quelque chose de spécial."

Les GPU sont devenus le matériel de choix pour l'apprentissage en profondeur, en grande partie par coïncidence. Les puces ont été initialement conçues pour rendre rapidement des graphiques dans des applications telles que les jeux vidéo. Contrairement aux processeurs, qui ont quatre à huit cœurs complexes pour effectuer divers calculs, les GPU ont des centaines de cœurs simples qui ne peuvent effectuer que des opérations spécifiques, mais les cœurs peuvent gérer leurs opérations en même temps plutôt que l'un après l'autre, ce qui réduit le temps il faut pour effectuer un calcul intensif.

Il n'a pas fallu longtemps à la communauté des chercheurs en IA pour se rendre compte que cette parallélisation massive rend également les GPU parfaits pour l'apprentissage en profondeur. Comme le rendu graphique, le deep learning implique de simples calculs mathématiques effectués des centaines de milliers de fois. En 2011, en collaboration avec le fabricant de puces Nvidia, Google a découvert qu'un modèle de vision par ordinateur qu'il avait formé sur 2000 processeurs pour distinguer les chats des personnes pouvait atteindre les mêmes performances lorsqu'il n'était formé que sur 12 GPU. Les GPU sont devenus la puce de facto pour la formation et l'inférence de modèles – le processus de calcul qui se produit lorsqu'un modèle formé est utilisé pour les tâches pour lesquelles il a été formé.

Mais les GPU ne sont pas non plus parfaits pour l'apprentissage en profondeur. D'une part, ils ne peuvent pas fonctionner comme une puce autonome. Parce qu'ils sont limités dans les types d'opérations qu'ils peuvent effectuer, ils doivent être connectés aux processeurs pour gérer tout le reste. Les GPU ont également une quantité limitée de mémoire cache, la zone de stockage de date la plus proche des processeurs d'une puce. Cela signifie que la majeure partie des données est stockée hors puce et doit être récupérée au moment du traitement. Le flux de données aller-retour finit par être un goulot d'étranglement pour le calcul, plafonnant la vitesse à laquelle les GPU peuvent exécuter des algorithmes d'apprentissage en profondeur.

Bureau de Neural Magic.
Bureau de Neural Magic.
MAGIE NEURALE

Ces dernières années, des dizaines d'entreprises se sont lancées dans la conception de puces IA qui contournent ces problèmes. Le problème est que plus le matériel est spécialisé, plus il devient cher.

Neural Magic entend donc inverser cette tendance. Au lieu de bricoler le matériel, l'entreprise a modifié le logiciel. Il a repensé les algorithmes d'apprentissage en profondeur pour fonctionner plus efficacement sur un processeur en utilisant la grande mémoire disponible des puces et les cœurs complexes. Alors que l'approche perd la vitesse atteinte grâce à la parallélisation d'un GPU, elle gagnerait environ le même temps en éliminant la nécessité de transporter des données sur et hors de la puce. Les algorithmes peuvent fonctionner sur des processeurs «à des vitesses GPU», explique la société, mais à une fraction du coût. «Il semble que ce qu'ils ont fait soit trouvé un moyen de tirer parti de la mémoire du processeur d'une manière que les gens n'avaient pas auparavant», explique Thompson.

Neural Magic pense qu'il peut y avoir plusieurs raisons pour lesquelles personne n'a adopté cette approche auparavant. Tout d'abord, c'est contre-intuitif. L'idée que le deep learning nécessite un matériel spécialisé est tellement ancrée que d'autres approches peuvent facilement être ignorées. Deuxièmement, l'application de l'IA dans l'industrie est encore relativement nouvelle et les entreprises commencent à peine à rechercher des moyens plus simples de déployer des algorithmes d'apprentissage en profondeur. Mais on ne sait pas encore si la demande est suffisamment profonde pour que Neural Magic décolle. La société a testé son produit en version bêta auprès d'une dizaine d'entreprises, ce qui n'est qu'une partie de l'industrie de l'IA au sens large.

«Nous voulons améliorer non seulement les réseaux de neurones mais aussi l'informatique dans son ensemble.»

Neil Thompson

Neural Magic propose actuellement sa technique d'inférence des tâches en vision par ordinateur. Les clients doivent toujours former leurs modèles sur du matériel spécialisé, mais peuvent ensuite utiliser le logiciel Neural Magic pour convertir le modèle formé en un format compatible avec le processeur. Un client, un grand fabricant d'équipements de microscopie, teste actuellement cette approche pour ajouter des capacités d'IA sur l'appareil à ses microscopes, explique Shavit. Comme les microscopes sont déjà livrés avec un processeur, ils n’ont pas besoin de matériel supplémentaire. En revanche, l'utilisation d'un modèle d'apprentissage en profondeur basé sur GPU nécessiterait que l'équipement soit plus volumineux et plus gourmand en énergie.

Un autre client souhaite utiliser Neural Magic pour traiter les images des caméras de sécurité. Cela lui permettrait de surveiller le trafic entrant et sortant d'un bâtiment à l'aide d'ordinateurs déjà disponibles sur le site; Sinon, il pourrait devoir envoyer les images dans le cloud, ce qui pourrait entraîner des problèmes de confidentialité, ou acquérir du matériel spécial pour chaque bâtiment qu'il surveille.

Shavit dit que l'inférence n'est également qu'un début. Neural Magic prévoit d'étendre son offre à l'avenir pour aider les entreprises train leurs modèles d'IA sur les processeurs également. «Nous pensons que dans 10 à 20 ans, les processeurs seront le véritable tissu pour exécuter des algorithmes d'apprentissage automatique», dit-il.

Thompson n'en est pas si sûr. "L'économie a vraiment changé autour de la production de puces, et cela va conduire à beaucoup plus de spécialisation", dit-il. De plus, bien que la technique de Neural Magic tire davantage de performances du matériel existant, les avancées matérielles fondamentales resteront le seul moyen de continuer à faire avancer l'informatique. "Cela semble être un très bon moyen d'améliorer les performances des réseaux de neurones", dit-il. «Mais nous voulons améliorer non seulement les réseaux de neurones mais aussi l'informatique dans son ensemble.»

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici