Une infrastructure de machine learning hautes performances et à faible coût accélère l’innovation dans le cloud

L’intelligence artificielle et l’apprentissage automatique (IA et ML) sont des technologies clés qui aident les organisations à développer de nouvelles façons d’augmenter les ventes, de réduire les coûts, de rationaliser les processus métier et de mieux comprendre leurs clients. AWS aide les clients à accélérer leur adoption de l’IA/ML en fournissant des options de calcul puissantes, de mise en réseau à haute vitesse et de stockage hautes performances évolutives à la demande pour tout projet d’apprentissage automatique. Cela réduit la barrière à l’entrée pour les organisations qui cherchent à adopter le cloud pour faire évoluer leurs applications de ML.

Les développeurs et les data scientists repoussent les limites de la technologie et adoptent de plus en plus le deep learning, qui est un type de machine learning basé sur des algorithmes de réseaux neuronaux. Ces modèles d’apprentissage en profondeur sont plus vastes et plus sophistiqués, ce qui entraîne une augmentation des coûts d’exécution de l’infrastructure sous-jacente pour former et déployer ces modèles.

Pour permettre aux clients d’accélérer leur transformation IA/ML, AWS développe des puces d’apprentissage automatique hautes performances et à faible coût. AWS Inferentia est la première puce d’apprentissage automatique conçue à partir de zéro par AWS pour l’inférence d’apprentissage automatique à moindre coût dans le cloud. En fait, les instances Amazon EC2 Inf1 optimisées par Inferentia offrent des performances 2,3 fois supérieures et un coût jusqu’à 70 % inférieur pour l’inférence de machine learning que les instances EC2 basées sur GPU de génération actuelle. AWS Trainium est la deuxième puce d’apprentissage automatique d’AWS spécialement conçue pour la formation de modèles d’apprentissage en profondeur et sera disponible fin 2021.

Des clients de tous les secteurs ont déployé leurs applications de ML en production sur Inferentia et ont constaté des améliorations significatives des performances et des économies de coûts. Par exemple, la plate-forme de support client d’AirBnB permet des expériences de service intelligentes, évolutives et exceptionnelles à sa communauté de millions d’hôtes et d’invités à travers le monde. Il a utilisé des instances EC2 Inf1 basées sur Inferentia pour déployer des modèles de traitement du langage naturel (NLP) prenant en charge ses chatbots. Cela a conduit à une amélioration des performances par 2 par rapport aux instances basées sur GPU.

Grâce à ces innovations dans le silicium, AWS permet aux clients de former et d’exécuter facilement leurs modèles d’apprentissage en profondeur en production avec des performances et un débit élevés à des coûts nettement inférieurs.

Les défis de l’apprentissage automatique accélèrent le passage à une infrastructure basée sur le cloud

L’apprentissage automatique est un processus itératif qui oblige les équipes à créer, former et déployer des applications rapidement, ainsi qu’à s’entraîner, se recycler et expérimenter fréquemment pour augmenter la précision de prédiction des modèles. Lors du déploiement de modèles entraînés dans leurs applications métier, les organisations doivent également faire évoluer leurs applications pour servir de nouveaux utilisateurs à travers le monde. Ils doivent être en mesure de répondre à plusieurs demandes entrantes en même temps avec une latence en temps quasi réel pour garantir une expérience utilisateur supérieure.

Les cas d’utilisation émergents tels que la détection d’objets, le traitement du langage naturel (NLP), la classification d’images, l’IA conversationnelle et les données de séries chronologiques reposent sur la technologie d’apprentissage en profondeur. Les modèles d’apprentissage en profondeur augmentent de façon exponentielle en taille et en complexité, passant de millions de paramètres à des milliards en quelques années.

La formation et le déploiement de ces modèles complexes et sophistiqués se traduisent par des coûts d’infrastructure importants. Les coûts peuvent rapidement faire boule de neige et devenir prohibitifs à mesure que les entreprises font évoluer leurs applications pour offrir des expériences en temps quasi réel à leurs utilisateurs et clients.

C’est là que les services d’infrastructure de machine learning basés sur le cloud peuvent vous aider. Le cloud fournit un accès à la demande au calcul, à la mise en réseau hautes performances et au stockage de données volumineux, combinés de manière transparente avec des opérations de ML et des services d’IA de niveau supérieur, pour permettre aux organisations de démarrer immédiatement et de faire évoluer leurs initiatives d’IA/ML.

Comment AWS aide les clients à accélérer leur transformation IA/ML

AWS Inferentia et AWS Trainium visent à démocratiser l’apprentissage automatique et à le rendre accessible aux développeurs indépendamment de l’expérience et de la taille de l’organisation. La conception d’Inferentia est optimisée pour des performances, un débit et une faible latence élevés, ce qui le rend idéal pour déployer l’inférence ML à grande échelle.

Chaque puce AWS Inferentia contient quatre NeuronCores qui implémentent un moteur de multiplication matriciel à matrice systolique hautes performances, qui accélère considérablement les opérations d’apprentissage en profondeur typiques, telles que la convolution et les transformateurs. Les NeuronCores sont également équipés d’un grand cache sur puce, ce qui permet de réduire les accès à la mémoire externe, de réduire la latence et d’augmenter le débit.

AWS Neuron, le kit de développement logiciel pour Inferentia, prend en charge de manière native les principaux frameworks de ML, tels que TensorFlow et PyTorch. Les développeurs peuvent continuer à utiliser les mêmes frameworks et outils de développement de cycle de vie qu’ils connaissent et aiment. Pour bon nombre de leurs modèles entraînés, ils peuvent les compiler et les déployer sur Inferentia en ne modifiant qu’une seule ligne de code, sans modification supplémentaire du code d’application.

Le résultat est un déploiement d’inférence hautes performances, qui peut facilement évoluer tout en maîtrisant les coûts.

Sprinklr, une entreprise de logiciel en tant que service, dispose d’une plate-forme de gestion de l’expérience client unifiée basée sur l’IA qui permet aux entreprises de recueillir et de traduire les commentaires des clients en temps réel sur plusieurs canaux en informations exploitables. Cela se traduit par une résolution proactive des problèmes, un développement de produits amélioré, un marketing de contenu amélioré et un meilleur service client. Sprinklr a utilisé Inferentia pour déployer son NLP et certains de ses modèles de vision par ordinateur et a constaté des améliorations significatives des performances.

Plusieurs services Amazon déploient également leurs modèles de machine learning sur Inferentia.

Amazon Prime Video utilise des modèles ML de vision par ordinateur pour analyser la qualité vidéo des événements en direct afin de garantir une expérience de visionnage optimale aux membres Prime Video. Il a déployé ses modèles ML de classification d’images sur des instances EC2 Inf1 et a constaté une amélioration de 4 fois des performances et jusqu’à 40 % d’économies de coûts par rapport aux instances basées sur GPU.

Un autre exemple est l’intelligence basée sur l’IA et le ML d’Amazon Alexa, alimentée par Amazon Web Services, qui est disponible sur plus de 100 millions d’appareils aujourd’hui. La promesse d’Alexa aux clients est qu’elle devient toujours plus intelligente, plus conversationnelle, plus proactive et encore plus agréable. Tenir cette promesse nécessite des améliorations continues des temps de réponse et des coûts d’infrastructure de machine learning. En déployant les modèles ML de synthèse vocale d’Alexa sur les instances Inf1, il a pu réduire la latence d’inférence de 25 % et le coût par inférence de 30 % afin d’améliorer l’expérience de service pour des dizaines de millions de clients qui utilisent Alexa chaque mois.

Libérer de nouvelles capacités d’apprentissage automatique dans le cloud

Alors que les entreprises s’efforcent de pérenniser leur entreprise en proposant les meilleurs produits et services numériques, aucune organisation ne peut prendre du retard dans le déploiement de modèles d’apprentissage automatique sophistiqués pour aider à innover dans ses expériences client. Au cours des dernières années, il y a eu une énorme augmentation de l’applicabilité de l’apprentissage automatique pour une variété de cas d’utilisation, de la personnalisation et de la prédiction de l’attrition à la détection des fraudes et à la prévision de la chaîne d’approvisionnement.

Heureusement, l’infrastructure d’apprentissage automatique dans le cloud libère de nouvelles fonctionnalités qui n’étaient pas possibles auparavant, ce qui la rend beaucoup plus accessible aux praticiens non experts. C’est pourquoi les clients AWS utilisent déjà des instances Amazon EC2 Inf1 basées sur Inferentia pour fournir l’intelligence derrière leurs moteurs de recommandation et leurs chatbots et pour obtenir des informations exploitables à partir des commentaires des clients.

Avec les options d’infrastructure de machine learning basées sur le cloud AWS adaptées à différents niveaux de compétences, il est clair que toute organisation peut accélérer l’innovation et adopter l’intégralité du cycle de vie du machine learning à grande échelle. Alors que l’apprentissage automatique continue de devenir de plus en plus répandu, les entreprises sont désormais en mesure de transformer fondamentalement l’expérience client – et leur façon de faire des affaires – grâce à une infrastructure d’apprentissage automatique basée sur le cloud, rentable et performante.

Découvrez comment la plate-forme d’apprentissage automatique d’AWS peut aider votre entreprise à innover ici.

Ce contenu a été produit par AWS. Il n’a pas été écrit par l’équipe éditoriale du MIT Technology Review.