L’avenir de Google Assistant nous regarde droit dans les yeux

Pendant des années, nous avons été promis un avenir informatique où nos commandes ne sont pas tapées, tapées ou glissées, mais parlées. Intégré dans cette promesse est, bien sûr, la commodité ; l’informatique vocale sera non seulement mains libres, mais totalement utile et rarement inefficace.

Cela n’a pas tout à fait marché. L’utilisation des assistants vocaux a augmenté ces dernières années, car de plus en plus de clients de smartphones et de maisons intelligentes optent pour (ou dans certains cas, « réveillent » accidentellement) l’IA vivant dans leurs appareils. Mais demandez à la plupart des gens ce qu’ils utilisent ces assistants pour, et le futur à commande vocale semble presque primitif, rempli de bulletins météorologiques et de minuteries. On nous avait promis une intelligence illimitée ; nous avons eu « Baby Shark » en boucle.

Google dit maintenant que nous sommes à l’aube d’une nouvelle ère dans l’informatique vocale, en raison d’une combinaison d’avancées dans le traitement du langage naturel et dans les puces conçues pour gérer les tâches d’IA. Lors de sa conférence annuelle des développeurs d’E / S aujourd’hui à Mountain View, en Californie, Sissie Hsiao, responsable de Google Assistant, a mis en évidence les nouvelles fonctionnalités qui font partie du plan à long terme de l’entreprise pour l’assistant virtuel. Toute cette commodité promise est maintenant plus proche de la réalité, dit Hsaio. Dans une interview avant le début d’I/O, elle a donné l’exemple de commander rapidement une pizza en utilisant votre voix pendant votre trajet domicile-travail en disant quelque chose comme « Hé, commandez la pizza de vendredi soir dernier ». L’assistant devient plus conversationnel. Et ces mots de réveil maladroits, c’est-à-dire « Hey, Google », disparaissent lentement, à condition que vous soyez prêt à utiliser votre visage pour déverrouiller le contrôle vocal.

Sissie Hsiao dirige l’équipe de l’Assistant Google.

Photographie : Nicole Morrison

C’est une vision ambitieuse de la voix, qui soulève des questions sur la confidentialité, l’utilité et la fin de partie de Google pour la monétisation. Et toutes ces fonctionnalités ne sont pas disponibles aujourd’hui, ou dans toutes les langues. Ils font « partie d’un long voyage », dit Hsaio.

« Ce n’est pas la première ère de la technologie vocale qui enthousiasme les gens. Nous avons trouvé un marché adapté à une catégorie de requêtes vocales que les gens répètent encore et encore », déclare Hsiao. À l’horizon, des cas d’utilisation beaucoup plus compliqués. « Il y a trois, quatre, cinq ans, un ordinateur pouvait-il répondre à un humain d’une manière telle que l’humain pensait que c’était un humain ? Nous n’avions pas la capacité de montrer comment il pouvait faire cela. Maintenant, c’est possible.

Euh, interrompu

Que deux personnes parlant la même langue se comprennent toujours ou non est probablement une question qu’il vaut mieux poser aux conseillers conjugaux, pas aux technologues. D’un point de vue linguistique, même avec des « euh », des pauses gênantes et des interruptions fréquentes, deux humains peuvent se comprendre. Nous sommes des auditeurs et des interprètes actifs. Les ordinateurs, pas tellement.

L’objectif de Google, dit Hsiao, est de faire en sorte que l’assistant comprenne mieux ces imperfections de la parole humaine et réponde de manière plus fluide. « Joue la nouvelle chanson de… Florence… et le quelque chose ? Hsiao a fait la démonstration sur scène à I/O. L’Assistante savait qu’elle parlait de Florence et de la Machine. Il s’agissait d’une démonstration rapide, mais qui a été précédée par des années de recherche sur les modèles de parole et de langage. Google avait déjà apporté des améliorations à la parole en effectuant une partie du traitement de la parole sur l’appareil ; maintenant, il déploie également de grands algorithmes de modèle de langage.

Les grands modèles d’apprentissage des langues, ou LLM, sont des modèles d’apprentissage automatique construits sur des ensembles de données textuels géants qui permettent à la technologie de reconnaître, de traiter et de s’engager dans des interactions plus humaines. Google n’est pas la seule entité à travailler là-dessus. Le LLM le plus connu est peut-être le GPT3 d’OpenAI et son générateur d’images frère, DALL-E. Et Google a récemment partagé, dans un article de blog extrêmement technique, ses plans pour PaLM, ou Pathways Language Model, qui, selon la société, a réalisé des percées dans les tâches informatiques « qui nécessitent un raisonnement arithmétique ou de bon sens en plusieurs étapes ». Votre assistant Google sur votre Pixel ou votre écran de maison intelligente n’a pas encore ces intelligences, mais c’est un aperçu d’un avenir qui passe le test de Turing avec brio.