Un robot du désert dépeint les vastes opportunités de l’IA

Quand Hongzhi Gao était jeune, il vivait avec sa famille dans le Gansu, une province située au centre du nord de la Chine près du désert de Tengger. En repensant à son enfance, il se souvient du vent constant et constant de saleté à l’extérieur de leur maison, et que pendant la plupart des mois de l’année, il ne fallait pas plus d’une minute après être sorti pour que le sable remplisse tout espace vide et s’infiltre dans son ses poches, ses bottes et sa bouche. La monotonie du désert lui est restée dans la tête pendant des années, et à l’université, il a transformé ce souvenir en une idée pour construire une machine capable d’apporter la vie végétale au paysage désertique.

Les efforts pour arrêter la désertification – le processus par lequel les terres fertiles deviennent désertiques – se sont principalement concentrés sur des solutions manuelles coûteuses. Hongzhi a conçu un robot doté d’une technologie d’apprentissage en profondeur pour automatiser le processus de plantation d’arbres : de l’identification des emplacements optimaux à la plantation de semis d’arbres en passant par l’arrosage. Bien qu’il n’ait aucune expérience de l’IA, en tant qu’étudiant de premier cycle, Hongzhi a utilisé la plate-forme d’apprentissage en profondeur PaddlePaddle de Baidu pour assembler différents modules afin de construire un robot doté d’une meilleure capacité de détection d’objets que des machines similaires déjà disponibles sur le marché. Il a fallu moins d’un an à Hongzhi et à ses amis pour mettre au point le produit final et le mettre en œuvre.

Le robot du désert de Hongzhi est un exemple éloquent de l’accessibilité croissante de l’intelligence artificielle.

Aujourd’hui, plus de quatre millions de développeurs utilisent la technologie d’IA open source de Baidu pour créer des solutions susceptibles d’améliorer la vie des personnes dans leurs communautés, et beaucoup d’entre eux ont peu ou pas d’expertise technique dans le domaine. « Au cours de la prochaine décennie, l’IA sera la source de changements qui auront lieu dans tous les tissus de notre société, transformant le fonctionnement des industries et des entreprises. La technologie élargira l’expérience humaine en nous plongeant plus profondément dans le monde numérique », a déclaré Robin Li, PDG de Baidu, à Baidu Create 2021, une conférence des développeurs d’IA.

Alors que nous entrons dans un nouveau chapitre de l’évolution de l’IA, Haifeng Wang, CTO de Baidu, a identifié deux tendances clés qui sous-tendent la voie à suivre pour l’industrie : l’IA continuera à mûrir et à augmenter sa complexité technique. Et dans le même temps, le coût de déploiement et les barrières à l’entrée diminueront, profitant à la fois aux entreprises créant des solutions basées sur l’IA à grande échelle et aux développeurs de logiciels explorant le monde de l’IA.

Fusion des connaissances et des données avec l’apprentissage en profondeur

L’intégration des connaissances et des données avec l’apprentissage en profondeur a considérablement amélioré l’efficacité et la précision des modèles d’IA. Depuis 2011, l’infrastructure d’IA de Baidu acquiert et intègre de nouvelles informations dans un graphe de connaissances à grande échelle. Actuellement, ce graphique de connaissances contient plus de 550 milliards de faits, couvrant tous les aspects de la vie quotidienne, ainsi que des sujets spécifiques à l’industrie, notamment la fabrication, les produits pharmaceutiques, le droit, les services financiers, la technologie, les médias et le divertissement.

Ce graphique de connaissances et les points de données massifs constituent ensemble les blocs de construction du nouveau modèle de langage pré-entraîné de Baidu PCL-BAIDU Wenxin (version ERINIE 3.0 Titan). Le modèle surpasse les autres modèles de langage sans graphiques de connaissances sur 60 tâches de traitement du langage naturel (TALN), y compris la compréhension de la lecture, la classification des textes et la similarité sémantique.

Apprentissages à travers les modalités

L’apprentissage intermodal est un nouveau domaine de recherche en IA qui cherche à améliorer la compréhension cognitive des machines et à mieux imiter le comportement adaptatif des humains. Des exemples d’efforts de recherche dans ce domaine incluent la synthèse automatique de texte en image, où un modèle est formé pour générer des images à partir de descriptions textuelles uniquement, ainsi que des algorithmes conçus pour comprendre le contenu visuel et exprimer cette compréhension avec des mots. Le défi avec ces tâches est que les machines établissent des connexions sémantiques entre différents types d’ensembles de données (par exemple, des images, du texte) et comprennent les interdépendances entre eux.

La prochaine étape pour l’IA consiste à fusionner des technologies d’IA telles que la vision par ordinateur, la reconnaissance vocale et le traitement du langage naturel pour créer un système multimodal.

Sur ce front, Baidu a déployé une variante de ses modèles NLP qui associe le langage et la compréhension sémantique visuelle. Des exemples d’applications réelles pour ce type de modèle incluent des avatars numériques qui peuvent percevoir leur environnement comme des êtres humains et gérer le support client pour les entreprises, et des algorithmes qui peuvent « dessiner » des œuvres d’art et composer des poèmes en fonction de leur compréhension des œuvres d’art générées. .

Il existe des résultats potentiels encore plus créatifs et percutants pour cette technologie. La plate-forme PaddlePaddle peut établir des connexions sémantiques entre la vision et le langage, ce qui a conduit un groupe d’étudiants à la maîtrise en Chine à créer un dictionnaire pour préserver les langues menacées dans des régions comme le Yunnan et le Guangxi en les traduisant plus facilement en chinois simplifié.

Intégration de l’IA à travers les logiciels et le matériel, et dans des cas d’utilisation spécifiques à l’industrie

Alors que les systèmes d’IA sont appliqués pour résoudre des problèmes de plus en plus complexes et spécifiques à l’industrie, l’accent est davantage mis sur l’optimisation du logiciel (cadre d’apprentissage en profondeur) et du matériel (puce AI) dans leur ensemble, au lieu d’optimiser chacun individuellement, en tenant compte de facteurs tels que comme la puissance de calcul, la consommation électrique et la latence.

En outre, une innovation considérable a lieu au niveau de la couche plate-forme de l’infrastructure d’IA de Baidu, où les développeurs tiers utilisent les capacités d’apprentissage en profondeur pour créer de nouvelles applications adaptées à des cas d’utilisation spécifiques. La plate-forme PaddlePaddle dispose d’une série d’API pour prendre en charge les applications d’IA dans les nouvelles technologies telles que l’informatique quantique, les sciences de la vie, la mécanique des fluides computationnelle et la dynamique moléculaire.

L’IA a également des utilisations pratiques. Par exemple, à Shouguang, une petite ville de la province du Shandong, l’IA est utilisée pour rationaliser l’industrie des fruits et légumes. Il suffit de deux personnes et d’une application pour gérer des dizaines de hangars à légumes.

Et cela est notable, déclare Wang : « Malgré la complexité accrue de la technologie de l’IA, la plate-forme d’apprentissage en profondeur open source rassemble le processeur et les applications comme un système d’exploitation, réduisant ainsi les barrières à l’entrée pour les entreprises et les particuliers qui cherchent à intégrer l’IA dans leur entreprise. »

Barrière à l’entrée réduite pour les développeurs et les utilisateurs finaux

Sur le plan technologique, la pré-formation de grands modèles comme PCL-BAIDU Wenxin (version ERNIE 3.0 Titan) a résolu de nombreux goulots d’étranglement courants rencontrés par les modèles traditionnels. Par exemple, ces modèles à usage général ont aidé à jeter les bases de l’exécution de différents types de tâches de PNL en aval, telles que la classification de texte et la réponse aux questions, dans un seul endroit consolidé, alors que dans le passé, chaque type de tâche devait être résolu. par un modèle distinct.

PaddlePaddle dispose également d’une série d’outils conviviaux pour les développeurs, tels que des technologies de compression de modèle pour ajuster les modèles à usage général pour s’adapter à des cas d’utilisation plus spécifiques. La plate-forme fournit une bibliothèque officiellement prise en charge de modèles de qualité industrielle avec plus de 400 modèles, allant du grand au petit, qui ne conservent qu’une fraction de la taille des modèles à usage général mais peuvent atteindre des performances comparables, réduisant ainsi les coûts de développement et de déploiement des modèles.

Aujourd’hui, la technologie d’apprentissage en profondeur open source de Baidu soutient une communauté de plus de quatre millions de développeurs d’IA qui ont collectivement créé 476 000 modèles, contribuant à la transformation axée sur l’IA de 157 000 entreprises et institutions. Les exemples énumérés ci-dessus sont le résultat d’innovations qui se produisent dans toutes les couches de l’infrastructure Baidu AI, qui intègre des technologies telles que la reconnaissance vocale, la vision par ordinateur, la RA/VR, les graphiques de connaissances et la pré-formation de grands modèles qui se rapprochent un peu plus de la perception. le monde comme les humains.

Dans son état actuel, l’IA a atteint un niveau de maturité qui lui permet d’accomplir des tâches étonnantes. Par exemple, le récent lancement de Metaverse XiRang n’aurait pas été possible sans la plate-forme de PaddlePaddle pour créer des avatars numériques permettant aux participants du monde entier de se connecter à partir de leurs appareils. De plus, de futures percées dans des domaines tels que l’informatique quantique pourraient améliorer considérablement les performances des métavers. Cela montre à quel point les différentes offres de Baidu sont imbriquées et interdépendantes.

Dans quelques années, l’IA sera au cœur de notre expérience humaine. Ce sera à notre société ce que la vapeur, l’électricité et Internet étaient aux générations précédentes. À mesure que l’IA devient plus complexe, les développeurs comme Hongzhi travailleront davantage en qualité d’artistes et de concepteurs, étant donné la liberté créative d’explorer des cas d’utilisation auparavant considérés uniquement théoriquement possibles. Le ciel est la limite.

Ce contenu a été produit par Baidu. Il n’a pas été écrit par l’équipe éditoriale du MIT Technology Review.